• Научная статья
  • 30 мая 2024
  • Открытый доступ

Кластерный анализ лингвистических профилей скрытых сообществ

Аннотация

Цель исследования – представить кластеры профилей скрытых сообществ на основе лингвистических параметров. В статье проводится анализ структуры и связей между атрибутами кластеров профилей сообществ. Научная новизна исследования заключается в том, что комбинация методов иерархического кластерного анализа скрытых сетевых сообществ и дисперсионного анализа позволит выявить однородность/неоднородность создаваемых авторских текстов на грамматическом и лексическом уровнях. С использованием метода Варда было выделено три кластера лингвистических профилей, каждому из которых была дана формальная оценка Silhouette Score. Содержательная оценка профилей представлена в виде соответствующих лингвистических комментариев. В результате исследования установлено, что для онлайн-публикаций характерно варьирование на уровне синтаксиса, но не на уровне морфологии. Предложенный подход кластеризации сообществ можно применять для идентификации потенциально опасных онлайн-субкультур и лидеров мнений в сетевом пространстве. В результате реализации данного подхода лингвистические профили сообществ дополняются цифровой социодемографической информацией.

Источники

  1. Белоусов Р. Л., Дрожжин Н. А., Костенчук М. И. Построение нечетких лингвистических переменных с использованием методов кластерного анализа данных // Прикладная информатика. 2015. № 1 (55).
  2. Булыга Ф. С., Курейчик В. М. Алгоритмы агломеративной кластеризации применительно к задачам анализа лингвистической экспертной информации // Известия Южного федерального университета. Технические науки. 2021. № 6 (223).
  3. Крылова М. Н. Язык современного интернет-общения (на материале интеллектуального контента социальной сети «ВКонтакте») // Актуальные проблемы филологии и педагогической лингвистики. 2019. № 1.
  4. Литвинова Т. А., Громова А. В. Компьютерные технологии в судебной автороведческой экспертизе: проблемы и перспективы использования // Вестник Волгоградского государственного университета. Серия 2: Языкознание. 2020. Т. 19. № 1.
  5. Литвинова Т. А., Котлярова Е. С., Заварзина В. А. Фактор гендера в ассоциативных связях слов: данные словаря и дистрибутивно-семантической модели // Научный диалог. 2022. Т. 11. № 5.
  6. Мамаев И. Д. Лингвистические профили скрытых сообществ: морфосинтаксический аспект // Филологические науки. Вопросы теории и практики. 2024. Т. 17. Вып. 4.
  7. Мамаев И. Д., Митрофанова О. А. Лингвистические параметры для идентификации скрытых сетевых сообществ // Terra Linguistica. 2024. Т. 15. № 1.
  8. Мамина Т. М. Принципиальная многозначность информации // Вестник Санкт-Петербургского университета. Социология. 2014. № 2.
  9. Масликова О. С. Языковые особенности общения в интернет-пространстве // Инновационная наука. 2019. № 9.
  10. Нокель М. А., Лукашевич Н. В. Тематические модели: добавление биграмм и учет сходства между униграммами и биграммами // Вычислительные методы и программирование. 2015. Т. 16.
  11. Прокофьева Е. В., Прокофьева О. Ю. Сравнительный обзор идентификационных возможностей кластерного, корреляционного и структурно-лингвистического анализа в распознавании образов // Судебная экспертиза. 2013. № 4.
  12. Савотченко С. Е., Проскурина Е. А. Корреляционный и дисперсионный анализ лингвистических особенностей поиска в Интернете // Среднее профессиональное образование. 2012. № 12.
  13. Сковородников А. П. О предмете эколингвистики применительно к состоянию современного русского языка // Экология языка и коммуникативная практика. 2013. № 1.
  14. Степаненко А. А. Гендерная атрибуция текстов компьютерной коммуникации: статистический анализ использования местоимений // Вестник Томского государственного университета. 2017. № 415.
  15. Стрельников А. И., Воробьева М. С. Исследование методов анализа информационной и лексической насыщенности научных текстов // Математическое и информационное моделирование: материалы всероссийской конференции молодых ученых (г. Тюмень, 18-23 мая 2022 г.) / Министерство науки и высшего образования РФ; Тюменский государственный университет; Институт математики и компьютерных наук; ред. колл.: Е. П. Вдовин и др. Тюмень: ТюмГУ-Press, 2022. Вып. 20.
  16. Тулиев У. Ю. Кластерный анализ текстовых документов по отношению их связности // Проблемы вычислительной и прикладной математики. 2019. № 6.
  17. Тюленева В. Н. Принципы адаптации заимствованной лексики в русском и китайском языках (на примере интернет-обзоров электронной техники) // Педагогическое образование в России. 2016. № 11.
  18. Brunato D., Cimino A., Dell’Orletta F., Venturi G., Montemagni S. Profiling-UD: A tool for linguistic profiling of texts // Proceedings of the 12th Language Resources and Evaluation Conference. Marseille, 2020.
  19. Chakraborty I., Kim M., Sudhir K. Attribute sentiment scoring with online text reviews: Accounting for language structure and missing attributes // Journal of Marketing Research. 2022. Vol. 59. Iss. 3.
  20. Crystal D. Language and the Internet. Cambridge: Cambridge University Press, 2001.
  21. Demšar J., Zupan B. Orange: Data mining fruitful and fun-a historical perspective // Informatica. 2013. Vol. 37. Iss. 1.
  22. Kekez M. Model-based imputation of sound level data at thoroughfare using computational intelligence // Open Engineering. 2021. Vol. 11. Iss. 1.
  23. Litvinova T., Litvinova O., Panicheva P. Authorship attribution of Russian forum posts with different types of n-gram features // Proceedings of the 2019 3rd International Conference on Natural Language Processing and Information Retrieval. N. Y., 2019.

Информация об авторах

Мамаев Иван Дмитриевич

Балтийский государственный технический университет «Военмех» имени Д. Ф. Устинова; Санкт-Петербургский государственный университет, г. Санкт-Петербург

Информация о статье

История публикации

  • Поступила в редакцию: 4 мая 2024.
  • Опубликована: 30 мая 2024.

Ключевые слова

  • кластерный анализ
  • скрытые сообщества социальных сетей
  • лингвистическое профилирование
  • морфосинтаксические характеристики постов
  • cluster analysis
  • hidden communities of social networks
  • linguistic profiling
  • morphosyntactic characteristics of posts

Copyright

© 2024 Автор(ы)
© 2024 ООО Издательство «Грамота»

Лицензионное соглашение

Creative Commons Attribution 4.0 International (CC BY 4.0)