• Original research article
  • November 16, 2023
  • Open access

Extension of a standard balanced linguistic corpus built according to spaCy rules by connotative characteristics

Abstract

The aim of the research is to develop the technology for automatically determining the sentiment of a text based on the existing author’s software package. The scientific novelty lies in the fact that the work proposes a structural and functional model of a fully automated process for assessing the sentiment of a text in conjunction with an analysis of its morphological characteristics; the technical terms “connotative amplitude” and “connotative density” are also introduced for the first time. The study built a database model that accommodates connotative numeric parameters; further, the program code for the “add-on” for the database generator has been written, which allows one to supplement the standard database with these parameters; finally, the technology was tested on the material of three novels by F. Kafka (“Castle”, “The Trial” and “America”) and two novels by E. M. Remarque (“All Quiet on the Western Front” and “Flotsam”) in the German language. As a result, it is proven that the “add-on” is a high-quality software product that does not cause technical failures and is capable of providing researchers with a whole set of connotative data for subsequent comprehensive interpretation of the text, on condition that the input tone dictionary is of high quality.

References

  1. Алтышева М. А. Проблемы и методы анализа русскоязычных текстов на предмет идентификации тональности // Вестник Российского нового университета. Серия: Сложные системы: модели, анализ и управление. 2023. № 3.
  2. Глушак В. М. Отрицание немецких полярных слов и выражений в автоматизированном анализе тональности текста // Филологические науки. Вопросы теории и практики. 2023. Т. 16. Вып. 10. https://doi.org/10.30853/phil20230510
  3. Гончаров А. Р., Лысенкова С. А., Назин А. С. Формирование синонимичных рядов с экспертной оценкой для получения коэффициентов эмоциональности слов // Успехи кибернетики. 2023. Т. 4. № 2. https://doi.org/10.51790/2712-9942-2023-4-2-06
  4. Горожанов А. И. Экспериментальное моделирование базы данных сбалансированного лингвистического корпуса // Филологические науки. Вопросы теории и практики. 2022. Т. 15. Вып. 10. https://doi.org/10.30853/phil20220563
  5. Горожанов А. И., Степанова Д. В. Составление сбалансированного корпуса художественного произведения (на материале романов Ф. Кафки) // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2022. № 7 (862). https://doi.org/10.52070/2542-2197_2022_7_862_31
  6. Груздева А. С., Юрьев Р. Н., Бессмертный И. А. Применение волновой модели текста к задаче сентимент-анализа // Научно-технический вестник информационных технологий, механики и оптики. 2022. Т. 22. № 6. https://doi.org/10.17586/2226-1494-2022-22-6-1159-1165
  7. Комарова Е. В. Проблема цифрового этикета в русских и английских медиатекстах: на материале миграционного дискурса // Медиалингвистика. 2023. Т. 10. № 2. https://doi.org/10.21638/spbu22.2023.207
  8. Логинова А. О. Подходы к обнаружению социальных интернет-ботов // Информация и безопасность. 2022. Т. 25. № 2. https://doi.org/10.36622/VSTU.2022.25.2.005
  9. Панфилова А. С., Ушаков Д. В. Эмоциональный тон российского, итальянского, немецкого и французского новостного интернет-контента в период разворачивания пандемии COVID-19 // Психология. Журнал Высшей школы экономики. 2022. Т. 19. № 3. https://doi.org/10.17323/1813-8918-2022-3-562-586
  10. Пронина Е. В., Пронин Д. Д. Исследовательский потенциал изучения корпуса произведений русской литературы с помощью цифровых лингвистических методов и технологий искусственного интеллекта (проект Lensky) // Современный ученый. 2023. № 3.
  11. Раббимов И. М. Алгоритм построения ансамбля деревьев решений для сентиментального анализа текста // Проблемы вычислительной и прикладной математики. 2022. № 6 (45).
  12. Рудаковский Я. С. Анализ тональности решений по денежно-кредитной политике Национального банка Республики Беларусь с помощью методов машинного обучения // Белорусский экономический журнал. 2023. № 3 (104). https://doi.org/10.46782/1818-4510-2023-3-115-126
  13. Семенова М. О. Подходы к сентимент-анализу // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2022. № 12 (867). https://doi.org/10.52070/2542-2197_2022_12_867_83

Author information

Alexey Ivanovich Gorozhanov

Dr

Moscow State Linguistic University

About this article

Publication history

  • Received: October 11, 2023.
  • Published: November 16, 2023.

Keywords

  • корпусная лингвистика
  • сбалансированный корпус
  • тональность текста
  • коннотация
  • немецкий язык
  • corpus linguistics
  • balanced corpus
  • sentiment of a text
  • connotation
  • German language

Copyright

© 2023 The Author(s)
© 2023 Gramota Publishing, LLC

User license

Creative Commons Attribution 4.0 International (CC BY 4.0)