Konuşma Tanıma Mart 27 · 3 dk okuma

Konuşma Tanıma Karşılaştırma Testi 2023

Konuşma Tanıma nedir? Otomatik Konuşma Tanıma (ASR) olarak da bilinen Konuşma Tanıma (SR), sisteme ulaşan sesleri metne dönüştürmek için kullanılan bir sistemdir. Bu, kullanıcıların tuşlar veya düğmeler gibi geleneksel araçlar...

Konuşma Tanıma nedir?

Otomatik Konuşma Tanıma (ASR) olarak da bilinen Konuşma Tanıma (SR), sisteme ulaşan sesleri metne dönüştürmek için kullanılan bir sistemdir. Bu, kullanıcıların tuşlar veya düğmeler gibi geleneksel araçlar yerine; cihazları ve sistemleri konuşarak kontrol etmelerini sağlayan ilk adımdır.

Neden Konuşma Tanıma?

Telefon görüşmeleri hala insanlar ve işletmeler arasındaki ana etkileşim kanalıdır, ancak görüşmelerin manuel yöntemlerle analizi çok fazla zaman ve çaba gerektirir. Günümüzde bu süreç, otomatik konuşma tanıma (ASR) teknolojisinden yararlanan konuşma analizi yazılımıyla önemli ölçüde kolaylaşmıştır. ASR, kayıtların (konuşmadan metne) otomatik olarak dönüştürülmesine yardımcı olur ve çok daha az çaba ve zaman alır.

SR teknolojisi, sanal asistanlar ve sesli IVR sistemleri gibi Diyalogsal Yapay Zeka çözümlerinin arkasındaki temel teknolojidir. Çeşitli sektörlerden farklı büyüklükteki birçok şirket, artık müşterilerinin ve çalışanlarının yaşamlarına olumlu katkıda bulunmak için SR teknolojisiyle desteklenen diyalogsal çözümleri kullanıyor.

Ne Üzerinde Çalışıyoruz?

Son zamanlarda, konuşma teknolojileri, derin sinir ağı tabanlı Hibrit modellemeden uçtan uca (E2E) modellemeye geçiyor. E2E modelleri, SR doğruluğu açısından çoğu karşılaştırmada en iyi sonuçları elde ederken, Hibrit modeller hala ticari SR sistemlerinin büyük bir bölümünde kullanılmaktadır.

SESTEK olarak 100’den fazla mühendisle çalışan bir Ar-Ge merkeziyiz ve günceli yakından takip ederek teknolojilerimizi müşterilerimize en iyi çözümleri üretecek şekilde geliştiriyoruz.

Bu nedenle modellerimizi yeni teknolojilerle eğitmek, bu sürümleri karşılaştırmak ve performanslarını ölçmek için bir çalışma yaptık.

Hibrit ve E2E Arasındaki Fark

Geleneksel Hibrit konuşma tanıma sistemleri, akustik model, dil modeli ve fonetik sözlük gibi ayrı modülleri bağımsız olarak eğiterek ve alınan ses kaydının deşifresi için bu modülleri birleştirerek çalışır. Öte yandan, E2E, tek bir sinir ağı aracılığıyla çok daha basit bir eğitim boru hattı deşifre işlemine sahiptir. Bu, eğitim ve deşifre süresini azaltır ve doğal dil anlama (NLU) gibi aşağı akış işleme ile ortak optimizasyona izin verir.

Hibrit sistemlerin dezavantajlarına gelince, her modülün optimal durumu, deşifre sırasında kullanılan birleşik sistemin de optimal durumda olduğunu garanti etmez. Her modülün eğitimi farklı uzmanlık gerektirebilir ve fonetik sözlük için bir dilbilim uzmanı gerekebilir.

E2E, Hybrid sistemlerin bu dezavantajlarını ortadan kaldırmayı başarmıştır.

SR Doğruluk Testi

Kelime Hata Oranı (WER), SR doğruluklarını karşılaştırmak için en iyi ölçüm yöntemidir. WER (%) olarak gösterilir ve ses için bir referans dökümü ile SR dökümü karşılaştırılarak elde edilir. Düşük bir WER, yüksek doğrulukta bir transkripti belirtir.

WER = (değiştirmeler + eklemeler + silmeler) / konuşulan kelime sayısı

Testlerimizi yaparken 2 farklı sektöre ait 1 saatlik İngilizce Çağrı Merkezi kayıtlarını kullandık, bunları metin haline getirdik ve veri seti içerisinde nihai kelime-hata oranlarını hesapladık.

SESTEK, önde gelen SR tedarikçileriyle kıyaslanmıştır ve bu testte sürekli olarak en düşük WER puanını almıştır.

Feragat: Çıktı ile ilgili olarak, diğer çözüm sağlayıcılardan her koşulda daha iyi olduğumuzu iddia etmiyoruz. Konuşma tanıma süreci, geniş bir arama alanı üzerinde milyonlarca parametrenin hesaplanmasını ve optimize edilmesini içerir. Büyük ölçüde stokastiktir (istatistiksel olarak analiz edilebilen ancak kesin olarak tahmin edilemeyen bir model). Bir tedarikçinin SR motoru, belirli bir kayıt için diğerlerinden daha iyi performans gösterebilir, ancak aynı motor bir başkası için farklı bir performans sergileyebilir.

Yazar: Debi Çakar, Ürün Analisti, Ürün Yönetimi Ekibi, SESTEK

Geri Dön

Keşfetmeye Devam Et

Hata · 1 dk okuma

Tüm Blog Yazıları

Devamını Oku

Sesli IVR Aralık 28 · 4 dk okuma

Sesli IVR ile Tahsilat Süreçlerini Dijitalleştirme

Pandeminin olumsuz etkileri ve küresel durgunluk riskinin bir sonucu olarak sürekli artış gösteren tüketici borcu, bu pazarın büyümesine katkıda bulunuyor.

Devamını Oku

Strateji Ocak 30 · 5 dk okuma

Gartner’ın 2023 ve Sonrası İçin En İyi 10 Stratejik Öngörüsü

Geçtiğimiz yıllarda olduğu gibi bu yıl da teknoloji kararlarımızı büyük ölçüde etkileyeceğine inandığımız ilk on trendi sizler için derledik.

Devamını Oku

SESTEK Hakkında

SESTEK, diyalogsal çözümleriyle kurumların veri odaklı olmalarına, verimliliği artırmalarına ve gelişmiş müşteri deneyimi sunmalarına yardımcı olan küresel bir teknoloji şirketidir. Sestek’in yapay zeka destekli çözümlerinin temelinde konuşma sentezi, konuşma tanıma, doğal dil işleme ve ses biyometrisi gibi teknolojiler yer almaktadır.

SESTEK UNIFONIC ailesinin bir parçasıdır.

Bizi Arayın

Amerika
+1 315 961 84 04
2 Park Ave 20th Floor
New York NY 10016
Orta Doğu & Afrika
+971 4 390 1646
Office # 2605 Marina Plaza
Al Marsa Street, Marina Dubai
Dubai, UAE
Avrupa & Türkiye
+90 212 286 25 45
Vadistanbul Bulvar 1B Blok Ofis No:4 / 34396 Sariyer, Istanbul
info@sestek.com

Konuşma Tanıma Karşılaştırma Testi 2023

Share

Konuşma Tanıma nedir?

Neden Konuşma Tanıma?

Ne Üzerinde Çalışıyoruz?

Hibrit ve E2E Arasındaki Fark

SR Doğruluk Testi

Keşfetmeye Devam Et

Tüm Blog Yazıları

Sesli IVR ile Tahsilat Süreçlerini Dijitalleştirme

Gartner’ın 2023 ve Sonrası İçin En İyi 10 Stratejik Öngörüsü

Bültenimize kayıt olun

Teşekkürler!

Bize Ulaşın

Teşekkürler!

Başarısız!

SESTEK Hakkında

Bizi Arayın