Konuşma Tanıma ve Uçtan Uca Model Nedir?
Konuşma tanıma teknolojisi konuşulan dilin metne çevrilmesi için kullanılan bir sistemdir. Küreselde Speech Recognition (SR) olarak bilinen bu alan gelişimi boyunca, yapay zeka ve makine öğrenimindeki yeniliklerin desteklediği önemli ilerlemeler kaydetti. Son yıllarda özellikle dikkate değer bir gelişme, konuşma tanıma sistemlerinin tasarlanma biçiminde devrim yaratan uçtan uca (E2E) modellerin ortaya çıkmasıdır.
Geleneksel olarak konuşma tanıma sistemleri, sesin kritik özelliklerinin belirlenmesi, akustik modelleme, dil modelleme ve çözümleme gibi birden fazla bileşene dayanıyordu. Bu bileşenler ile her ne kadar etkileyici sonuçlar elde etmek mümkün olsa da geliştirilmeleri çoğu zaman ciddi çaba gerektiriyordu.
Geleneksel sistemlerden farklı olarak E2E modelleri, ses dalga biçimini tek bir adımda doğrudan ona karşılık gelen metin çıkışıyla eşleştirmeyi amaçlar. Bu modellerde dil ve akustik modeller ayrı ayrı eğitilmez; bunun yerine, birleşik mimarinin bir parçası olarak ortaklaşa öğrenilirler ve transkripsiyon süreci sırasında bağlamsal bilgilerin ve akustik özelliklerin entegrasyonunu kolaylaştırırlar.
Konuşma Tanıma Doğruluğu Nasıl Ölçülür?
Konuşma Tanıma sistemlerinde yüksek doğruluk elde etmek için dikkate alınması gereken birkaç faktör vardır:
1. Ses Verisinin Kalitesi: Ses sinyalinin netliği ve kalitesi, tanıma doğruluğunu önemli ölçüde etkiler. Minimum arka plan gürültüsü, bozulma ve yankı ile net ses daha iyi sonuçlara yol açar.
2. Dil Modeli: Belirli bir alana veya uygulamaya göre uyarlanmış sağlam bir dil modeli, tanıma doğruluğunu artırır. Dil modelleri, kelime dizilerinin olasılığını yakalar ve sistemin belirsiz konuşmaları çözmesine yardımcı olur.
3. Eğitim Verileri: Doğru modeller oluşturmak için yeterli ve çeşitli eğitim verileri gereklidir. Sistemin sağlam olması için verilerin çeşitli aksanları, lehçeleri, konuşma tarzlarını ve çevre koşullarını kapsaması gerekir.
Kelime Hata Oranı (WER) Nasıl Hesaplanır?
Kelime Hata Oranı (WER-Word Error Rate), Otomatik Konuşma Tanıma (ASR) modelleri için bir değerlendirme ölçüsüdür. Transkripsiyon sonucundaki ekleme, silme ve değiştirmeleri referans metinle karşılaştırarak hesaplar ve SR doğruluğunun başarı oranını gösteren sayısal bir sonuç verir. Daha düşük bir WER sonucu, benzer koşullar altında ölçümlenen daha yüksek bir WER sonucuna göre daha doğru ve güvenilir bir ASR modelini belirtmektedir.
Konuşma Tanı (SR) Doğruluk Testi Sonuçları
SR Doğruluk ölçümü yapılırken İngilizce 10 saat 45 dakikalık karma bir veri seti kullanılmıştır. Kayıtlar metne dönüştürüldükten sonra her satıcı için kelime hata oranları (WER) hesaplanır.
SESTEK, önde gelen SR tedarikçileriyle kıyaslanmıştır ve bu testte sürekli olarak en düşük WER puanını almıştır.
* Test seti detaylarına buradan ulaşabilirsiniz.
LibriSpeech veri seti, esas olarak Gutenberg Projesi'nden alınan ve LibriVox projesine entegre edilen yaklaşık 1000 saatlik sesli kitaptan oluşur. Farklı sürelerde üç eğitim bölümü halinde düzenlenmiştir: 100 saat, 360 saat ve 500 saat. Ek olarak değerlendirme verileri, Otomatik Konuşma Tanıma sistemleri için değişen zorluk seviyelerini yansıtacak şekilde 'temiz' ve 'diğer' kategorilere ayrılmıştır. Geliştirme ve test etme de dahil olmak üzere değerlendirme setlerinin her biri yaklaşık 5 saatlik ses içeriğini kapsar.
Feragat: Çıktı ile ilgili olarak, diğer çözüm sağlayıcılardan her koşulda daha iyi olduğumuzu iddia etmiyoruz. Konuşma tanıma süreci, geniş bir arama alanı üzerinde milyonlarca parametrenin hesaplanmasını ve optimize edilmesini içerir. Büyük ölçüde stokastiktir (istatistiksel olarak analiz edilebilen ancak kesin olarak tahmin edilemeyen bir model). Bir tedarikçinin SR motoru, belirli bir kayıt için diğerlerinden daha iyi performans gösterebilir, ancak aynı motor bir başkası için farklı bir performans sergileyebilir.
Yazar: Şuara Atay , SESTEK Product Team