Konuşma Tanıma Haziran 03 · 3 dk okuma

Konuşma Tanıma Doğruluk Testi – Arapça Versiyonu

SESTEK'in önde gelen SR firmalarıyla karşılaştırıldığı Konuşma Tanıma Doğruluğu Testi 2024 – Arapça Versiyonu’nu inceleyin. Bu test, SESTEK'in Arapça konuşma tanımadaki üstün performansını ve güvenilirliğini vurgulamaktadır.

Konuşma Tanıma Doğruluk Testi – Arapça Versiyonu

Arapça Konuşma Tanıma Motoru (SR-Speech Recognition) karşılaştırma sonuçlarımızı duyurmaktan heyecan duyuyoruz. Kapsamlı değerlendirmemizde, Arapça SR çözümlerimizi Google, Azure, AWS, Whisper ve Speechmatics gibi firmaların çözümleriyle karşılaştırdık. Bu değerlendirme, anadili Arapça olan çeşitli kişilerin yer aldığı halka açık bir veri seti ve müşteri hizmetleri temsilcisi telefon görüşmelerinden oluşan bir veri seti kullanılarak gerçekleştirildi.

 

Konuşmayı Metne Dönüştürmede Lehçe Zorluğu

Etkili bir konuşma tanıma (SR) çözümü oluşturmak, karmaşık seslerin metne dönüştürülmesini sağlayan sofistike algoritmalar ve modeller gerektirir. Bu dönüşüm, aksanlar ve lehçeler de dahil olmak üzere dilin inceliklerini derinlemesine anlamayı gerektirir.

SR teknolojisinin önündeki temel engel, özellikle Arapça olmak üzere bölgesel lehçelerin değişkenliğidir. Öncelikle standartlaştırılmış dilsel veriler üzerine eğitilen sistemler, genellikle normdan farklı olan konuşmaları doğru bir şekilde yazıya dökmede başarısız olur.

Modern Standart Arapça (MSA), Orta Doğu ve Kuzey Afrika'daki (MENA) çoğu resmi ortamda resmi dil olarak geçerliyken, günlük konuşma dili büyük ölçüde farklılık gösterir. Bölgesel lehçeler telaffuz, dilbilgisi ve kelime dağarcığı açısından büyük farklılıklar gösterir. Bu farklılıkların üstesinden gelmek için, konuşma tanıma sistemlerinin çeşitli lehçeleri kapsayan hem doğruluğu hem de işlevselliği artıran kapsamlı veri setleri üzerinde eğitilmesi gerekir.

Doğruluk testlerimizde, SR sistemlerini değerlendirmek için yaygın bir ölçüm olan Kelime Hata Oranı (WER-Word Error Rate) yöntemi kullanıldı. WER, SR çıktısındaki tutarsızlıkların yüzde oranını, doğru "gerçek transkripsiyon" ile karşılaştırarak hesaplar ve yerine koymalar, silmeler ve eklemeler ile doğru transkripsiyonun toplam kelime sayısını dikkate alır. WER değerinin düşük olması hedeflenmektedir.



 

Test Veri Seti

Referans olarak kullanılan veri setleri aşağıdaki gibidir:

 

1. Arapça Medya Konuşma Veri Seti

İçerik: A1 Arabiya, France 24 Arabic ve BBC News'ten kamuya açık set.

Alt Küme: Testler için rastgele 1 saatlik alt küme (15 Nisan 2024 sonuçları).

 

Sonuçlar:

Speech Recognition accuracy rate

 

2. Müşteri Hizmetleri Temsilcisi Telefon Görüşmesi

İçerik: Mısır lehçesinde gerçek telefon görüşmeleri. 

Teknik: Çağrı merkezi alanı (domain) ve müşteri için adaptasyon yapıldı.

 

Sonuçlar:

Speech Recognition accuracy rate

 

Aşağıdaki modeller test için kullanıldı:

  • AssemblyAi Uni-1 (nano)
  • Google's latest-short
  • Speechmatics enhanced
  • Whisper Large-v3

 

Adaptasyonun Etkisi

Gerçekleştirdiğimiz test, SR sistemlerinin doğruluğunu artırmada adaptasyonun kritik rolünü vurgulamaktadır. Çeşitli lehçeleri içeren geniş veriler üzerinde eğitilerek ve akustik modellerin bu farklılıkları daha iyi ele alacak şekilde geliştirilerek, SR sistemleri standart olmayan diller için transkripsiyon doğruluğunu büyük ölçüde artırabilir. Bu, ses kalitesinin ve arka plan gürültüsünün değişebileceği pratik uygulamalarda güvenilir SR performansını sağlamak için çok büyük bir öneme sahiptir.

 

Sonuç

SESTEK olarak, son 20 yıldır farklı diller için SR çözümleri geliştirmekteyiz. Müşteri hizmetleri alanında geniş bir uzmanlığa sahibiz ve Arapça dilinde sıfıra yakın hata oranımızdan memnunuz. 

Yapılan kıyaslama, farklı SR firmaları arasında doğrulukta kayda değer değişkenliği ortaya çıkararak, belirli lehçeler için adaptasyon yapmanın sağladığı önemli faydaların altını çizmektedir. Arapça dilinin benzersiz karmaşıklıklarıyla yüzleşmeye devam ederken, teknolojik gelişmelere olan ihtiyaç açık bir şekilde devam etmektedir. Kendi alanında adaptasyonlar ve ilerlemelerle, Arapça konuşma tanıma doğruluğunda yeni standartlar belirlemeyi hedefliyoruz.

 

Feragat: Çıktı ile ilgili olarak, diğer çözüm sağlayıcılardan her koşulda daha iyi olduğumuzu iddia etmiyoruz. Konuşma tanıma süreci, geniş bir arama alanı üzerinde milyonlarca parametrenin hesaplanmasını ve optimize edilmesini içerir. Büyük ölçüde stokastiktir (istatistiksel olarak analiz edilebilen ancak kesin olarak tahmin edilemeyen bir model). Bir tedarikçinin SR motoru, belirli bir kayıt için diğerlerinden daha iyi performans gösterebilir, ancak aynı motor bir başkası için farklı bir performans sergileyebilir.

Yazar: Debi Çakar, SESTEK Ürün Ekibi

 

Keşfetmeye Devam Et
Duygu Analizi ile Çağrı Merkezinizi Nasıl Güçlendirebilirsiniz
Duygu Analizi Mayıs 06 · 5 dk okuma
Duygu Analizi ile Çağrı Merkezinizi Nasıl Güçlendirebilirsiniz

Müşteri etkileşimlerini anlamak önemlidir, ancak gerçek ilerleme müşterilerin düşüncelerini ve duygularını anlık olarak kavramaktan gelir. Bu makalede, Duygu Analizinin tanımını, işleyişini ve beş temel faydasını inceleyeceğiz.

Devamını Oku
Daha İyi Müşteri Deneyimi ve Ötesi için Müşteri İletişiminde Ustalaşmak
Gelişmiş Duygu Analizi Haziran 17 · 3 dk okuma
Daha İyi Müşteri Deneyimi ve Ötesi için Müşteri İletişiminde Ustalaşmak

Gelişmiş Duygu Analizi araçlarıyla müşteri etkileşimlerinin analiz edilmesinin, nasıl müşteri ve çalışan deneyimini yükseltebileceğini keşfedin. Bu analizler içgörüler ve performansı iyileştirmek için stratejiler sağlayarak size yardımcı olacaktır.

Devamını Oku
Sanal Temsilci Teknolojisine Giriş: Temel Bilgiler
Sanal Temsilci Temmuz 01 · 8 dk okuma
Sanal Temsilci Teknolojisine Giriş: Temel Bilgiler

Bu yazıda, self servis süreçlerinde devrim yaratan sanal temsilcilerin temellerini keşfetmek üzere yakından inceliyoruz. Nasıl çalışıyorlar, hangi alanlarda hizmet veriyorlar ve ne türlerde karşımıza çıkıyorlar, gelin yakından bakalım.

Devamını Oku

Bize Ulaşın

Teşekkürler!

İletişime geçtiğiniz için teşekkürler. En kısa sürede size geri döneceğiz.

Başarısız!


Anasayfaya Dön