Konuşma Tanıma Mart 27 · 3 dk okuma

Konuşma Tanıma Karşılaştırma Testi 2023

Konuşma Tanıma nedir? Otomatik Konuşma Tanıma (ASR) olarak da bilinen Konuşma Tanıma (SR), sisteme ulaşan sesleri metne dönüştürmek için kullanılan bir sistemdir. Bu, kullanıcıların tuşlar veya düğmeler gibi geleneksel araçlar...

Konuşma Tanıma Karşılaştırma Testi 2023

Konuşma Tanıma nedir?

Otomatik Konuşma Tanıma (ASR) olarak da bilinen Konuşma Tanıma (SR), sisteme ulaşan sesleri metne dönüştürmek için kullanılan bir sistemdir. Bu, kullanıcıların tuşlar veya düğmeler gibi geleneksel araçlar yerine; cihazları ve sistemleri konuşarak kontrol etmelerini sağlayan ilk adımdır.

 

Neden Konuşma Tanıma?

Telefon görüşmeleri hala insanlar ve işletmeler arasındaki ana etkileşim kanalıdır, ancak görüşmelerin manuel yöntemlerle analizi çok fazla zaman ve çaba gerektirir. Günümüzde bu süreç, otomatik konuşma tanıma (ASR) teknolojisinden yararlanan konuşma analizi yazılımıyla önemli ölçüde kolaylaşmıştır. ASR, kayıtların (konuşmadan metne) otomatik olarak dönüştürülmesine yardımcı olur ve çok daha az çaba ve zaman alır.

SR teknolojisi, sanal asistanlar ve sesli IVR sistemleri gibi Diyalogsal Yapay Zeka çözümlerinin arkasındaki temel teknolojidir. Çeşitli sektörlerden farklı büyüklükteki birçok şirket, artık müşterilerinin ve çalışanlarının yaşamlarına olumlu katkıda bulunmak için SR teknolojisiyle desteklenen diyalogsal çözümleri kullanıyor.

 

Ne Üzerinde Çalışıyoruz?

Son zamanlarda, konuşma teknolojileri, derin sinir ağı tabanlı Hibrit modellemeden uçtan uca (E2E) modellemeye geçiyor. E2E modelleri, SR doğruluğu açısından çoğu karşılaştırmada en iyi sonuçları elde ederken, Hibrit modeller hala ticari SR sistemlerinin büyük bir bölümünde kullanılmaktadır.

SESTEK olarak 100’den fazla mühendisle çalışan bir Ar-Ge merkeziyiz ve günceli yakından takip ederek teknolojilerimizi müşterilerimize en iyi çözümleri üretecek şekilde geliştiriyoruz.

Bu nedenle modellerimizi yeni teknolojilerle eğitmek, bu sürümleri karşılaştırmak ve performanslarını ölçmek için bir çalışma yaptık.

 

Hibrit ve E2E Arasındaki Fark

Geleneksel Hibrit konuşma tanıma sistemleri, akustik model, dil modeli ve fonetik sözlük gibi ayrı modülleri bağımsız olarak eğiterek ve alınan ses kaydının deşifresi için bu modülleri birleştirerek çalışır. Öte yandan, E2E, tek bir sinir ağı aracılığıyla çok daha basit bir eğitim boru hattı deşifre işlemine sahiptir. Bu, eğitim ve deşifre süresini azaltır ve doğal dil anlama (NLU) gibi aşağı akış işleme ile ortak optimizasyona izin verir.

Hibrit sistemlerin dezavantajlarına gelince, her modülün optimal durumu, deşifre sırasında kullanılan birleşik sistemin de optimal durumda olduğunu garanti etmez. Her modülün eğitimi farklı uzmanlık gerektirebilir ve fonetik sözlük için bir dilbilim uzmanı gerekebilir.

E2E, Hybrid sistemlerin bu dezavantajlarını ortadan kaldırmayı başarmıştır.

 

SR Doğruluk Testi

Kelime Hata Oranı (WER), SR doğruluklarını karşılaştırmak için en iyi ölçüm yöntemidir. WER (%) olarak gösterilir ve ses için bir referans dökümü ile SR dökümü karşılaştırılarak elde edilir. Düşük bir WER, yüksek doğrulukta bir transkripti belirtir.

WER = (değiştirmeler + eklemeler + silmeler) / konuşulan kelime sayısı

Testlerimizi yaparken 2 farklı sektöre ait 1 saatlik İngilizce Çağrı Merkezi kayıtlarını kullandık, bunları metin haline getirdik ve veri seti içerisinde nihai kelime-hata oranlarını hesapladık.

 

SESTEK, önde gelen SR tedarikçileriyle kıyaslanmıştır ve bu testte sürekli olarak en düşük WER puanını almıştır.


Feragat: Çıktı ile ilgili olarak, diğer çözüm sağlayıcılardan her koşulda daha iyi olduğumuzu iddia etmiyoruz. Konuşma tanıma süreci, geniş bir arama alanı üzerinde milyonlarca parametrenin hesaplanmasını ve optimize edilmesini içerir. Büyük ölçüde stokastiktir (istatistiksel olarak analiz edilebilen ancak kesin olarak tahmin edilemeyen bir model). Bir tedarikçinin SR motoru, belirli bir kayıt için diğerlerinden daha iyi performans gösterebilir, ancak aynı motor bir başkası için farklı bir performans sergileyebilir.


Yazar: Debi Çakar, Ürün Analisti, Ürün Yönetimi Ekibi, SESTEK

 

Keşfetmeye Devam Et
Müşteri Hizmetindeki Kalitenin Sırrı: Diyalogsal Analiz
Diyalogsal Analiz Eylül 13 · 4 dk okuma
Müşteri Hizmetindeki Kalitenin Sırrı: Diyalogsal Analiz

Verimsiz müşteri hizmetleri operasyonlarının işletmelere maliyeti yılda yaklaşık 75 milyar dolar. Bu muazzam kaybı hesaba katınca, sunduğunuz müşteri hizmetlerinin kalitesi görmezden gelebileceğiniz bir şey değil. İyi bir hizmet sunabilmek için,...

Devamını Oku
2022 ve Sonrası İçin Öne Çıkan 5 Öngörü
Teknoloji Trendleri Ocak 08 · 6 dk okuma
2022 ve Sonrası İçin Öne Çıkan 5 Öngörü

Dünya 2021 'i geride bırakıp yeni bir yıla girdi. 2020 yılında başlayan olağanüstü salgının ardından 2021 yılında da önemli değişimler deneyimledik. Bu bağlamda 2022 yılına ilişkin beklentiler büyük önem kazanmaya...

Devamını Oku

Bize Ulaşın

Teşekkürler!

İletişime geçtiğiniz için teşekkürler. En kısa sürede size geri döneceğiz.

Başarısız!


Anasayfaya Dön