• Original research article
  • June 13, 2024
  • Open access

Analysis of the effectiveness of ML algorithms for emotion recognition, taking into account prosodic and spectral features

Abstract

The aim of the study is to determine the optimal classifier for identifying an emotional state based on the results of a comparative analysis of the effectiveness of various machine learning algorithms based on a combination of prosodic and spectral features. The scientific novelty consists in the application of ML algorithms in the recognition of emotionally marked speech of North Caucasian bilinguals in the problem of binary classification of the presence or absence of an accent with the determination of the optimal combination of universal prosodic and spectral features. During the study, an experimental corpus of speech of representatives of three ethnic groups (Russians, Kabardians and Armenians) was created with an annotation of the degree of accent, prosodic (94 signs) and spectral (74 signs) characteristics were extracted from speech signals, a comparative analysis of the effectiveness of machine learning algorithms (logistic regression, k-nearest neighbors, the method of support vectors, decision trees) in the problem of binary classification of the presence/absence of emphasis. The results of the study showed that at the syllabic level, the most effective is the decision tree model with combined features, and at the phrasal level, the k-nearest neighbor model with prosodic features. Universal prosodic features that form the basis of the "language model of emotions" were identified, as well as typological differences in their implementation, reflecting the influence of the native language on the emotional speech of bilinguals.

References

  1. Анашкина И. А. Звучащий текст в аспекте культурной аксиологии / М-во общ. и проф. образования РФ. Морд. гос. пед. ин-т им. М. Е. Евсевьева. Саранск: Морд. гос. пед. ин-т им. М. Е. Евсевьева, 1998.
  2. Астахов Д. А., Катаев А. В. Использование современных алгоритмов машинного обучения для задачи распознавания эмоций // Cloud of science. 2018. № 4.
  3. Богданова Д. Р., Акушев А. Т. Распознавание эмоций по речевому сигналу // E-Scio. 2021. № 6 (57).
  4. Вишневская Г. М. Английская интонация (в условиях русской интерференции): учебное пособие / Иван. гос. ун-т. Иваново, 1985.
  5. Воробьева О. В. Просодия имплицитного несогласия в русской речи северокавказских армянских билингвов: экспериментально-фонетическое исследование: дисс. ... к. филол. н. Пятигорск, 2008.
  6. Гончарова О. В. Просодия русского побуждения в условиях кабардино-черкесской интерференции: экспериментально-фонетическое исследование: дисс. ... к. филол. н. Пятигорск, 2008.
  7. Девятков В. В., Алфимцев А. Н. Распознавание манипулятивных жестов // Вестник Московского государственного технического университета им. Н. Э. Баумана. Серия: Приборостроение. 2007. Т. 68. Вып. 3.
  8. Дубовский Ю. А., Воробьева О. В., Гончарова О. В., Мартьянова Е. О., Садовая А. Е., Шишимер Л. Ф. Русская просодия на Северном Кавказе: в 2-х т. / под общ. ред. Ю. А. Дубовского; Федеральное агентство по образованию; Пятигорский государственный лингвистический университет. Пятигорск, 2008. Т. 1.
  9. Ермакова Н. А. Просодия русского восклицания в условиях осетинской интерференции: Экспериментально-фонетическое исследование: дисс. ... к. филол. н. Пятигорск, 2006.
  10. Кантер Л. А. Системный анализ речевой интонации. М.: Высшая школа, 1988.
  11. Кипа Е. В. Просодия русского общего вопроса в условиях кабардино-черкесской интерференции: экспериментально-фонетическое исследование: дисс. ... к. филол. н. Пятигорск, 2003.
  12. Лаврентьева Н. Г. Особенности русско-английской интерференции применительно к акценто-ритмической организации английской речи // Современный билингвизм: теоретические и прикладные аспекты: межвуз. сб. науч. тр. / под ред. Г. М. Вишневской. Иваново, 2008.
  13. Лукова Н. В. Просодия русского специального вопроса в условиях греческой интерференции: Экспериментально-фонетическое исследование: дисс. ... к. филол. н. Пятигорск, 2004.
  14. Мартьянова Е. О. Просодия русского восклицания в условиях Карачаево-Балкарской интерференции: экспериментально-фонетическое исследование на материале реплик с модальностью восхищения: дисс.. к. филол. н. Пятигорск, 2006.
  15. Садовая А. Е. Просодические черты обращения в русской речи северокавказских армянских билингвов: экспериментально-фонетическое исследование: дисс. ... к. филол. н. Пятигорск, 2003.
  16. Светозарова Н. Д. Интонационная система русского языка. СПб.: Изд-во Санкт-Петербургского ун-та, 2006.
  17. Соколова М. А., Гинтовт К. П., Тихонова И. С., Тихонова Р. М. Теоретическая фонетика английского языка. М.: Высш. шк., 1991.
  18. Трубецкой Н. С. Основы фонологии. М.: URSS, 2012.
  19. Фомиченко Л. Г. Когнитивные основы просодической интерфренции: монография. Волгоград: Изд-во Волгоградского ун-та, 2005.
  20. Шишимер Л. Ф. Просодия русской ответной реплики в условиях кабардино-черкесской интерференции: экспериментально-фонетическое исследование: дисс. ... к. филол. н. Пятигорск, 2003.
  21. Bolinger D. A theory of pitch accent in English // Word. 1958. Vol. 14.
  22. Cowie R., Douglas-Cowie Е., Tsapatsoulis N., Votsis G., Kollias S., Fellenz W., and Taylor J. G. Emotion recognition in human-computer interaction // IEEE Signal Processing Magazine. 2001. Vol. 18. № 1.
  23. Ekman P. Universals and cultural differences in facial expressions of emotion. Nebraska symposium on motivation, University of Nebraska Press, 1971.
  24. Liu L., Wei L., Morris Sh., Zhuang M. Knowledge-Based Features for Speech Analysis and Classification: Pronunciation Diagnoses // Electronics. 2023. № 12 (9): 2055. URL: https://doi.org/10.3390/electronics12092055.
  25. McGilloway S., Cowie S., Douglas-Cowie E., Gielen S., Westerdijk M., Stroeve S. Approaching automatic recognition of emotion from voice: A Rough benchmark // Proc. ISCA Workshop on Speech and Emotion. 2000. January.
  26. Pike K. The intonation of American English // University of Michigan Publications. Linguistics, 1. Greenwood Press, 1979.
  27. Shan C., Gong Sh., McOwan Peter W. Facial expression recognition based on Local Binary Patterns: A Comprehensive study // Image and Vision Computing. 2009. № 27.
  28. Yi J., Mao X., Chen L., Xue Y., Compare A. Facial expression recognition considering individual differences in facial structure and texture // IET Computer Vision. 2014. Vol. 8. Iss. 5. DOI: 10.1049/iet-cvi.2013.0171.

Funding

The publication was prepared within the framework of the scientific project No. 23-28-10124 supported by the Russian Academy of Sciences and the Ministry of Education of the Stavropol Territory "Quantitative statistical model for the analysis of emotionally marked communication in the context of interethnic interactions in the Caucasian Mineral Waters region".

Author information

Zaur Aslanovich Zavrumov

Pyatigorsk State University

Oksana Vladimirovna Goncharova

PhD

Pyatigorsk State University

Alina Aleksandrovna Levit

Pyatigorsk State University

About this article

Publication history

  • Received: May 1, 2024.
  • Published: June 13, 2024.

Keywords

  • языковая модель эмоций
  • идентификация эмоционального состояния
  • алгоритмы машинного обучения
  • просодические и спектральные признаки в речи билингва
  • распознавание акцента в речи билингва
  • language model of emotions
  • identification of emotional state
  • machine learning algorithms
  • prosodic and spectral features in bilingual speech
  • accent recognition in bilingual speech

Copyright

© 2024 The Author(s)
© 2024 Gramota Publishing, LLC

User license

Creative Commons Attribution 4.0 International (CC BY 4.0)