Yapay zeka araçları saniyenin altındaki seslerdeki duyguları tahmin ediyor
Kelimeler kendimizi ifade etmek için önemlidir. Ancak söylemediklerimiz duyguları aktarmada daha etkili olabilir. İnsanlar genellikle çevrelerindeki insanların ne hissettiğini sesimize gömülü sözsüz ipuçları aracılığıyla anlayabilirler.
Artık Almanya'daki araştırmacılar, teknik araçların ses kayıtlarının bazı kısımlarındaki duygusal tonları da doğru bir şekilde tahmin edip edemeyeceğini bilmek istiyorlardı. Bunu yapmak için, ses istisnalarındaki çeşitli duyguları tanımaya yönelik üç makine öğrenimi modelinin doğruluğunu karşılaştırdılar. Sonuçları Frontiers in Psychology dergisinde yayınlandı.
Makalenin ilk yazarı, Max Planck İnsan Gelişimi Enstitüsü Yaşam Boyu Psikoloji Merkezi'nde araştırmacı olan Hans Demerling, “Burada makine öğreniminin 1,5 saniye kadar kısa ses kliplerindeki duyguları tanımak için kullanılabileceğini gösteriyoruz” dedi. “Modellerimiz, anlamsız cümleleri aktörlerin söylediği duygusal renklerle sınıflandırırken insanlarla benzer bir doğruluk elde etti.”
Ne hissettiğimizi duy
Araştırmacılar, biri Kanadalı, biri Alman olmak üzere iki veri kümesinden anlamsız cümleler çıkardı; böylece makine öğrenimi modellerinin dil, kültürel nüanslar ve anlamsal içerikten bağımsız olarak duyguları doğru şekilde tanıyıp tanıyamadığını araştırmalarına olanak tanıdı. Her klip 1,5 saniyeye kısaltıldı çünkü insanların konuşmadaki duyguları tanıması bu kadar zaman alıyor. Aynı zamanda duygusal müdahalenin önlenebileceği mümkün olan en kısa ses uzunluğudur. Araştırmaya dahil edilen duygular sevinç, öfke, üzüntü, korku, tiksinti ve tarafsızlıktır.
Araştırmacılar, eğitim verilerine dayanarak üç yoldan biriyle çalışan makine öğrenimi modelleri oluşturdular: Derin sinir ağları (DNN'ler), sesin frekans veya perde gibi bileşenlerini analiz eden karmaşık filtreler gibidir; örneğin, sesin daha yüksek olması nedeniyle sesin daha yüksek olması. Konuşmacı öfkeli; altta yatan duyguları tanımlıyor. Evrişimli sinir ağları (CNN'ler), sesin ritminden ve dokusundan duyguları tanımlamaya benzer şekilde, film müziklerinin görsel temsilindeki kalıpları arar. Hibrit model (C-DNN), duyguları tahmin etmek için hem işitsel hem de görsel spektrumları kullanarak her iki tekniği de birleştirir. Modeller daha sonra iki veri kümesi üzerinde etkililik açısından test edildi.
Demerling, “DNN'lerin ve C-DNN'lerin, CNN'lerde yalnızca spektrogramları kullanmaktan daha iyi doğruluk elde ettiğini bulduk” dedi. “Model ne olursa olsun, duygu sınıflandırması, tahmin yoluyla elde edilebilecek olandan daha yüksek bir olasılıkla doğruydu ve insanların doğruluğuna benziyordu.”
Herhangi bir insan kadar iyi
Demerling, “Modellerimizi gerçek dünya bağlamına koymak istedik ve insanın tahmin becerilerini bir referans noktası olarak kullandık” diye açıkladı. “Modeller insanlardan daha iyi performans gösteriyorsa bu, tanıyamadığımız kalıpların olabileceği anlamına gelebilir.” Araştırmacılar, insanların ve eğitimsiz modellerin benzer şekilde performans göstermesinin, her ikisinin de benzer tanıma modellerine bağlı olduğu anlamına gelebileceğini söyledi.
Mevcut sonuçlar ayrıca, çok çeşitli durumlarda anında ve sezgisel geri bildirim sağlamak için duygusal sinyalleri anında yorumlayabilen sistemler geliştirmenin mümkün olduğunu göstermektedir. Bu, terapi ve kişilerarası iletişim teknolojisi gibi duygusal bağlamı anlamanın hayati önem taşıdığı çeşitli alanlarda ölçeklenebilir ve uygun maliyetli uygulamalara yol açabilir.
Araştırmacılar ayrıca çalışmalarında bazı sınırlamalara da dikkat çekti; örneğin, aktörün söylediği tipik cümlelerin gerçek, spontane duyguların tamamını aktarmayabileceği. Ayrıca gelecekteki çalışmaların, duygu tanıma için ideal süreyi belirlemek amacıyla 1,5 saniyeden uzun veya daha kısa süren ses klipleri üzerinde çalışması gerektiğini de söylediler.
/Genel yayın. Orijinal kuruluştan/yazarlardan alınan bu materyal doğası gereği kronolojik olabilir ve açıklık, stil ve uzunluk açısından düzenlenmiştir. Mirage.News kurumsal görüş veya taraf tutmaz ve burada ifade edilen tüm görüşler, konumlar ve sonuçlar yalnızca yazar(lar)a aittir. Tamamını burada görüntüleyin.