• Научная статья
  • 16 ноября 2023
  • Открытый доступ

Расширение стандартного сбалансированного лингвистического корпуса, построенного по правилам spaCy, коннотативными характеристиками

Аннотация

Ставится цель разработать технологию автоматического определения тональности текста на базе имеющегося авторского программного комплекса. Научная новизна заключается в том, что в работе предлагается структурно-функциональная модель полностью автоматизированного процесса оценки тональности текста в совокупности с анализом его морфологических характеристик; также впервые вводятся технические термины «коннотативная амплитуда» и «коннотативная плотность». В ходе исследования была построена модель базы данных, которая вмещает коннотативные числовые параметры; далее, написан программный код «надстройки» генератора, которая позволяет дополнять стандартную базу данных этими параметрами; наконец, проведена апробация технологии на материале трех романов Ф. Кафки («Замок», «Процесс» и «Америка») и двух романов Э. М. Ремарка («На Западном фронте без перемен» и «Возлюби ближнего своего») на немецком языке. В результате доказывается, что «надстройка» является качественным программным продуктом, который не дает технических сбоев и способен предоставлять исследователю целый набор коннотативных данных для последующей комплексной интерпретации текста при условии качественного входного тонального словаря.

Источники

  1. Алтышева М. А. Проблемы и методы анализа русскоязычных текстов на предмет идентификации тональности // Вестник Российского нового университета. Серия: Сложные системы: модели, анализ и управление. 2023. № 3.
  2. Глушак В. М. Отрицание немецких полярных слов и выражений в автоматизированном анализе тональности текста // Филологические науки. Вопросы теории и практики. 2023. Т. 16. Вып. 10. https://doi.org/10.30853/phil20230510
  3. Гончаров А. Р., Лысенкова С. А., Назин А. С. Формирование синонимичных рядов с экспертной оценкой для получения коэффициентов эмоциональности слов // Успехи кибернетики. 2023. Т. 4. № 2. https://doi.org/10.51790/2712-9942-2023-4-2-06
  4. Горожанов А. И. Экспериментальное моделирование базы данных сбалансированного лингвистического корпуса // Филологические науки. Вопросы теории и практики. 2022. Т. 15. Вып. 10. https://doi.org/10.30853/phil20220563
  5. Горожанов А. И., Степанова Д. В. Составление сбалансированного корпуса художественного произведения (на материале романов Ф. Кафки) // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2022. № 7 (862). https://doi.org/10.52070/2542-2197_2022_7_862_31
  6. Груздева А. С., Юрьев Р. Н., Бессмертный И. А. Применение волновой модели текста к задаче сентимент-анализа // Научно-технический вестник информационных технологий, механики и оптики. 2022. Т. 22. № 6. https://doi.org/10.17586/2226-1494-2022-22-6-1159-1165
  7. Комарова Е. В. Проблема цифрового этикета в русских и английских медиатекстах: на материале миграционного дискурса // Медиалингвистика. 2023. Т. 10. № 2. https://doi.org/10.21638/spbu22.2023.207
  8. Логинова А. О. Подходы к обнаружению социальных интернет-ботов // Информация и безопасность. 2022. Т. 25. № 2. https://doi.org/10.36622/VSTU.2022.25.2.005
  9. Панфилова А. С., Ушаков Д. В. Эмоциональный тон российского, итальянского, немецкого и французского новостного интернет-контента в период разворачивания пандемии COVID-19 // Психология. Журнал Высшей школы экономики. 2022. Т. 19. № 3. https://doi.org/10.17323/1813-8918-2022-3-562-586
  10. Пронина Е. В., Пронин Д. Д. Исследовательский потенциал изучения корпуса произведений русской литературы с помощью цифровых лингвистических методов и технологий искусственного интеллекта (проект Lensky) // Современный ученый. 2023. № 3.
  11. Раббимов И. М. Алгоритм построения ансамбля деревьев решений для сентиментального анализа текста // Проблемы вычислительной и прикладной математики. 2022. № 6 (45).
  12. Рудаковский Я. С. Анализ тональности решений по денежно-кредитной политике Национального банка Республики Беларусь с помощью методов машинного обучения // Белорусский экономический журнал. 2023. № 3 (104). https://doi.org/10.46782/1818-4510-2023-3-115-126
  13. Семенова М. О. Подходы к сентимент-анализу // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2022. № 12 (867). https://doi.org/10.52070/2542-2197_2022_12_867_83

Информация об авторах

Горожанов Алексей Иванович

д. филол. н., доц.

Московский государственный лингвистический университет

Информация о статье

История публикации

  • Поступила в редакцию: 11 октября 2023.
  • Опубликована: 16 ноября 2023.

Ключевые слова

  • корпусная лингвистика
  • сбалансированный корпус
  • тональность текста
  • коннотация
  • немецкий язык
  • corpus linguistics
  • balanced corpus
  • sentiment of a text
  • connotation
  • German language

Copyright

© 2023 Автор(ы)
© 2023 ООО Издательство «Грамота»

Лицензионное соглашение

Creative Commons Attribution 4.0 International (CC BY 4.0)