• Original research article
  • May 30, 2024
  • Open access

Cluster analysis of linguistic profiles of hidden communities

Abstract

The aim of the study is to present clusters of profiles of hidden communities based on linguistic parameters. The article analyzes the structure and relationships between the attributes of clusters of community profiles. The scientific novelty of the study lies in the fact that the combination of methods of hierarchical cluster analysis of hidden network communities and analysis of variance will reveal the uniformity/heterogeneity of the author's texts created at the grammatical and lexical levels. Using the Ward method, three clusters of linguistic profiles were identified, each of which was given a formal Silhouette Score. A meaningful assessment of the profiles is presented in the form of appropriate linguistic comments. As a result of the study, it was found that online publications are characterized by variation at the level of syntax, but not at the level of morphology. The proposed community clustering approach can be used to identify potentially dangerous online subcultures and opinion leaders in the online space. As a result of the implementation of this approach, linguistic profiles of communities are complemented by digital sociodemographic information.

References

  1. Белоусов Р. Л., Дрожжин Н. А., Костенчук М. И. Построение нечетких лингвистических переменных с использованием методов кластерного анализа данных // Прикладная информатика. 2015. № 1 (55).
  2. Булыга Ф. С., Курейчик В. М. Алгоритмы агломеративной кластеризации применительно к задачам анализа лингвистической экспертной информации // Известия Южного федерального университета. Технические науки. 2021. № 6 (223).
  3. Крылова М. Н. Язык современного интернет-общения (на материале интеллектуального контента социальной сети «ВКонтакте») // Актуальные проблемы филологии и педагогической лингвистики. 2019. № 1.
  4. Литвинова Т. А., Громова А. В. Компьютерные технологии в судебной автороведческой экспертизе: проблемы и перспективы использования // Вестник Волгоградского государственного университета. Серия 2: Языкознание. 2020. Т. 19. № 1.
  5. Литвинова Т. А., Котлярова Е. С., Заварзина В. А. Фактор гендера в ассоциативных связях слов: данные словаря и дистрибутивно-семантической модели // Научный диалог. 2022. Т. 11. № 5.
  6. Мамаев И. Д. Лингвистические профили скрытых сообществ: морфосинтаксический аспект // Филологические науки. Вопросы теории и практики. 2024. Т. 17. Вып. 4.
  7. Мамаев И. Д., Митрофанова О. А. Лингвистические параметры для идентификации скрытых сетевых сообществ // Terra Linguistica. 2024. Т. 15. № 1.
  8. Мамина Т. М. Принципиальная многозначность информации // Вестник Санкт-Петербургского университета. Социология. 2014. № 2.
  9. Масликова О. С. Языковые особенности общения в интернет-пространстве // Инновационная наука. 2019. № 9.
  10. Нокель М. А., Лукашевич Н. В. Тематические модели: добавление биграмм и учет сходства между униграммами и биграммами // Вычислительные методы и программирование. 2015. Т. 16.
  11. Прокофьева Е. В., Прокофьева О. Ю. Сравнительный обзор идентификационных возможностей кластерного, корреляционного и структурно-лингвистического анализа в распознавании образов // Судебная экспертиза. 2013. № 4.
  12. Савотченко С. Е., Проскурина Е. А. Корреляционный и дисперсионный анализ лингвистических особенностей поиска в Интернете // Среднее профессиональное образование. 2012. № 12.
  13. Сковородников А. П. О предмете эколингвистики применительно к состоянию современного русского языка // Экология языка и коммуникативная практика. 2013. № 1.
  14. Степаненко А. А. Гендерная атрибуция текстов компьютерной коммуникации: статистический анализ использования местоимений // Вестник Томского государственного университета. 2017. № 415.
  15. Стрельников А. И., Воробьева М. С. Исследование методов анализа информационной и лексической насыщенности научных текстов // Математическое и информационное моделирование: материалы всероссийской конференции молодых ученых (г. Тюмень, 18-23 мая 2022 г.) / Министерство науки и высшего образования РФ; Тюменский государственный университет; Институт математики и компьютерных наук; ред. колл.: Е. П. Вдовин и др. Тюмень: ТюмГУ-Press, 2022. Вып. 20.
  16. Тулиев У. Ю. Кластерный анализ текстовых документов по отношению их связности // Проблемы вычислительной и прикладной математики. 2019. № 6.
  17. Тюленева В. Н. Принципы адаптации заимствованной лексики в русском и китайском языках (на примере интернет-обзоров электронной техники) // Педагогическое образование в России. 2016. № 11.
  18. Brunato D., Cimino A., Dell’Orletta F., Venturi G., Montemagni S. Profiling-UD: A tool for linguistic profiling of texts // Proceedings of the 12th Language Resources and Evaluation Conference. Marseille, 2020.
  19. Chakraborty I., Kim M., Sudhir K. Attribute sentiment scoring with online text reviews: Accounting for language structure and missing attributes // Journal of Marketing Research. 2022. Vol. 59. Iss. 3.
  20. Crystal D. Language and the Internet. Cambridge: Cambridge University Press, 2001.
  21. Demšar J., Zupan B. Orange: Data mining fruitful and fun-a historical perspective // Informatica. 2013. Vol. 37. Iss. 1.
  22. Kekez M. Model-based imputation of sound level data at thoroughfare using computational intelligence // Open Engineering. 2021. Vol. 11. Iss. 1.
  23. Litvinova T., Litvinova O., Panicheva P. Authorship attribution of Russian forum posts with different types of n-gram features // Proceedings of the 2019 3rd International Conference on Natural Language Processing and Information Retrieval. N. Y., 2019.

Author information

Ivan Dmitrievich Mamaev

Baltic State Technical University “Voenmeh” named after D. F. Ustinov; Saint Petersburg State University, St. Petersburg

About this article

Publication history

  • Received: May 4, 2024.
  • Published: May 30, 2024.

Keywords

  • кластерный анализ
  • скрытые сообщества социальных сетей
  • лингвистическое профилирование
  • морфосинтаксические характеристики постов
  • cluster analysis
  • hidden communities of social networks
  • linguistic profiling
  • morphosyntactic characteristics of posts

Copyright

© 2024 The Author(s)
© 2024 Gramota Publishing, LLC

User license

Creative Commons Attribution 4.0 International (CC BY 4.0)