Arapça Konuşma Tanıma Motoru (SR-Speech Recognition) karşılaştırma sonuçlarımızı duyurmaktan heyecan duyuyoruz. Kapsamlı değerlendirmemizde, Arapça SR çözümlerimizi Google, Azure, AWS, Whisper ve Speechmatics gibi firmaların çözümleriyle karşılaştırdık. Bu değerlendirme, anadili Arapça olan çeşitli kişilerin yer aldığı halka açık bir veri seti ve müşteri hizmetleri temsilcisi telefon görüşmelerinden oluşan bir veri seti kullanılarak gerçekleştirildi.
Etkili bir konuşma tanıma (SR) çözümü oluşturmak, karmaşık seslerin metne dönüştürülmesini sağlayan sofistike algoritmalar ve modeller gerektirir. Bu dönüşüm, aksanlar ve lehçeler de dahil olmak üzere dilin inceliklerini derinlemesine anlamayı gerektirir.
SR teknolojisinin önündeki temel engel, özellikle Arapça olmak üzere bölgesel lehçelerin değişkenliğidir. Öncelikle standartlaştırılmış dilsel veriler üzerine eğitilen sistemler, genellikle normdan farklı olan konuşmaları doğru bir şekilde yazıya dökmede başarısız olur.
Modern Standart Arapça (MSA), Orta Doğu ve Kuzey Afrika'daki (MENA) çoğu resmi ortamda resmi dil olarak geçerliyken, günlük konuşma dili büyük ölçüde farklılık gösterir. Bölgesel lehçeler telaffuz, dilbilgisi ve kelime dağarcığı açısından büyük farklılıklar gösterir. Bu farklılıkların üstesinden gelmek için, konuşma tanıma sistemlerinin çeşitli lehçeleri kapsayan hem doğruluğu hem de işlevselliği artıran kapsamlı veri setleri üzerinde eğitilmesi gerekir.
Doğruluk testlerimizde, SR sistemlerini değerlendirmek için yaygın bir ölçüm olan Kelime Hata Oranı (WER-Word Error Rate) yöntemi kullanıldı. WER, SR çıktısındaki tutarsızlıkların yüzde oranını, doğru "gerçek transkripsiyon" ile karşılaştırarak hesaplar ve yerine koymalar, silmeler ve eklemeler ile doğru transkripsiyonun toplam kelime sayısını dikkate alır. WER değerinin düşük olması hedeflenmektedir.
Referans olarak kullanılan veri setleri aşağıdaki gibidir:
1. Arapça Medya Konuşma Veri Seti
İçerik: A1 Arabiya, France 24 Arabic ve BBC News'ten kamuya açık set.
Alt Küme: Testler için rastgele 1 saatlik alt küme (15 Nisan 2024 sonuçları).
Sonuçlar:
2. Müşteri Hizmetleri Temsilcisi Telefon Görüşmesi
İçerik: Mısır lehçesinde gerçek telefon görüşmeleri.
Teknik: Çağrı merkezi alanı (domain) ve müşteri için adaptasyon yapıldı.
Sonuçlar:
Aşağıdaki modeller test için kullanıldı:
Gerçekleştirdiğimiz test, SR sistemlerinin doğruluğunu artırmada adaptasyonun kritik rolünü vurgulamaktadır. Çeşitli lehçeleri içeren geniş veriler üzerinde eğitilerek ve akustik modellerin bu farklılıkları daha iyi ele alacak şekilde geliştirilerek, SR sistemleri standart olmayan diller için transkripsiyon doğruluğunu büyük ölçüde artırabilir. Bu, ses kalitesinin ve arka plan gürültüsünün değişebileceği pratik uygulamalarda güvenilir SR performansını sağlamak için çok büyük bir öneme sahiptir.
SESTEK olarak, son 20 yıldır farklı diller için SR çözümleri geliştirmekteyiz. Müşteri hizmetleri alanında geniş bir uzmanlığa sahibiz ve Arapça dilinde sıfıra yakın hata oranımızdan memnunuz.
Yapılan kıyaslama, farklı SR firmaları arasında doğrulukta kayda değer değişkenliği ortaya çıkararak, belirli lehçeler için adaptasyon yapmanın sağladığı önemli faydaların altını çizmektedir. Arapça dilinin benzersiz karmaşıklıklarıyla yüzleşmeye devam ederken, teknolojik gelişmelere olan ihtiyaç açık bir şekilde devam etmektedir. Kendi alanında adaptasyonlar ve ilerlemelerle, Arapça konuşma tanıma doğruluğunda yeni standartlar belirlemeyi hedefliyoruz.
Feragat: Çıktı ile ilgili olarak, diğer çözüm sağlayıcılardan her koşulda daha iyi olduğumuzu iddia etmiyoruz. Konuşma tanıma süreci, geniş bir arama alanı üzerinde milyonlarca parametrenin hesaplanmasını ve optimize edilmesini içerir. Büyük ölçüde stokastiktir (istatistiksel olarak analiz edilebilen ancak kesin olarak tahmin edilemeyen bir model). Bir tedarikçinin SR motoru, belirli bir kayıt için diğerlerinden daha iyi performans gösterebilir, ancak aynı motor bir başkası için farklı bir performans sergileyebilir.
Yazar: Debi Çakar, SESTEK Ürün Ekibi
Konuşma Tanıma nedir? Otomatik Konuşma Tanıma (ASR) olarak da bilinen Konuşma Tanıma (SR), sisteme ulaşan sesleri metne dönüştürmek için kullanılan bir sistemdir. Bu, kullanıcıların tuşlar veya düğmeler gibi geleneksel araçlar...
Devamını Oku“Kullanıcı deneyimi” veya moda tabirle “UX.” Son zamanlarda bu terimi ne kadar sık duyduğumuzu fark ettiniz mi? Mobil uygulamalardan ürün tasarımına, web sitelerinden tanıtım yazılarına uzanan farklı alanlarda sürekli olarak...
Devamını OkuGeçtiğimiz yıllarda olduğu gibi bu yıl da teknoloji kararlarımızı büyük ölçüde etkileyeceğine inandığımız ilk on trendi sizler için derledik.
Devamını Oku