Otomatik Konuşma Tanıma (ASR) olarak da bilinen Konuşma Tanıma (SR), sisteme ulaşan sesleri metne dönüştürmek için kullanılan bir sistemdir. Bu, kullanıcıların tuşlar veya düğmeler gibi geleneksel araçlar yerine; cihazları ve sistemleri konuşarak kontrol etmelerini sağlayan ilk adımdır.
Telefon görüşmeleri hala insanlar ve işletmeler arasındaki ana etkileşim kanalıdır, ancak görüşmelerin manuel yöntemlerle analizi çok fazla zaman ve çaba gerektirir. Günümüzde bu süreç, otomatik konuşma tanıma (ASR) teknolojisinden yararlanan konuşma analizi yazılımıyla önemli ölçüde kolaylaşmıştır. ASR, kayıtların (konuşmadan metne) otomatik olarak dönüştürülmesine yardımcı olur ve çok daha az çaba ve zaman alır.
SR teknolojisi, sanal asistanlar ve sesli IVR sistemleri gibi Diyalogsal Yapay Zeka çözümlerinin arkasındaki temel teknolojidir. Çeşitli sektörlerden farklı büyüklükteki birçok şirket, artık müşterilerinin ve çalışanlarının yaşamlarına olumlu katkıda bulunmak için SR teknolojisiyle desteklenen diyalogsal çözümleri kullanıyor.
Son zamanlarda, konuşma teknolojileri, derin sinir ağı tabanlı Hibrit modellemeden uçtan uca (E2E) modellemeye geçiyor. E2E modelleri, SR doğruluğu açısından çoğu karşılaştırmada en iyi sonuçları elde ederken, Hibrit modeller hala ticari SR sistemlerinin büyük bir bölümünde kullanılmaktadır.
SESTEK olarak 100’den fazla mühendisle çalışan bir Ar-Ge merkeziyiz ve günceli yakından takip ederek teknolojilerimizi müşterilerimize en iyi çözümleri üretecek şekilde geliştiriyoruz.
Bu nedenle modellerimizi yeni teknolojilerle eğitmek, bu sürümleri karşılaştırmak ve performanslarını ölçmek için bir çalışma yaptık.
Geleneksel Hibrit konuşma tanıma sistemleri, akustik model, dil modeli ve fonetik sözlük gibi ayrı modülleri bağımsız olarak eğiterek ve alınan ses kaydının deşifresi için bu modülleri birleştirerek çalışır. Öte yandan, E2E, tek bir sinir ağı aracılığıyla çok daha basit bir eğitim boru hattı deşifre işlemine sahiptir. Bu, eğitim ve deşifre süresini azaltır ve doğal dil anlama (NLU) gibi aşağı akış işleme ile ortak optimizasyona izin verir.
Hibrit sistemlerin dezavantajlarına gelince, her modülün optimal durumu, deşifre sırasında kullanılan birleşik sistemin de optimal durumda olduğunu garanti etmez. Her modülün eğitimi farklı uzmanlık gerektirebilir ve fonetik sözlük için bir dilbilim uzmanı gerekebilir.
E2E, Hybrid sistemlerin bu dezavantajlarını ortadan kaldırmayı başarmıştır.
Kelime Hata Oranı (WER), SR doğruluklarını karşılaştırmak için en iyi ölçüm yöntemidir. WER (%) olarak gösterilir ve ses için bir referans dökümü ile SR dökümü karşılaştırılarak elde edilir. Düşük bir WER, yüksek doğrulukta bir transkripti belirtir.
WER = (değiştirmeler + eklemeler + silmeler) / konuşulan kelime sayısı
Testlerimizi yaparken 2 farklı sektöre ait 1 saatlik İngilizce Çağrı Merkezi kayıtlarını kullandık, bunları metin haline getirdik ve veri seti içerisinde nihai kelime-hata oranlarını hesapladık.
SESTEK, önde gelen SR tedarikçileriyle kıyaslanmıştır ve bu testte sürekli olarak en düşük WER puanını almıştır.
Feragat: Çıktı ile ilgili olarak, diğer çözüm sağlayıcılardan her koşulda daha iyi olduğumuzu iddia etmiyoruz. Konuşma tanıma süreci, geniş bir arama alanı üzerinde milyonlarca parametrenin hesaplanmasını ve optimize edilmesini içerir. Büyük ölçüde stokastiktir (istatistiksel olarak analiz edilebilen ancak kesin olarak tahmin edilemeyen bir model). Bir tedarikçinin SR motoru, belirli bir kayıt için diğerlerinden daha iyi performans gösterebilir, ancak aynı motor bir başkası için farklı bir performans sergileyebilir.
Yazar: Debi Çakar, Ürün Analisti, Ürün Yönetimi Ekibi, SESTEK
Geçtiğimiz yıllarda olduğu gibi bu yıl da teknoloji kararlarımızı büyük ölçüde etkileyeceğine inandığımız ilk on trendi sizler için derledik.
Devamını Oku“Kullanıcı deneyimi” veya moda tabirle “UX.” Son zamanlarda bu terimi ne kadar sık duyduğumuzu fark ettiniz mi? Mobil uygulamalardan ürün tasarımına, web sitelerinden tanıtım yazılarına uzanan farklı alanlarda sürekli olarak...
Devamını OkuSESTEK Ses Biyometrisi Artık "Avaya Uyumlu" olarak Derecelendiriliyor
Devamını Oku