• Original research article
  • April 16, 2024
  • Open access

Linguistic profiles of hidden communities: A morphosyntactic aspect

Abstract

The aim of the research is to identify quantitative regularities in the functioning of morphosyntactic parameters in the texts by users of hidden online communities. Through statistical methods, the paper attempts to confirm the “cohesion” of the main morphosyntactic features, the information about which was obtained using the Profiling-UD linguistic processor. The scientific novelty of the research lies in the following: based on a corpus of Russian-language social media texts, an experiment is conducted on the correlation analysis of morphosyntactic characteristics, which could become part of the future linguistic profile of hidden communities. Such profiles could be used in modern social media to enhance the functionality of recommendation systems. As a result, the research found that significant positive correlations with moderate statistical significance were identified for over 55% of hidden communities. By applying the proposed methodology, the linguistic profile of hidden communities can be further expanded with syntactic and lexical parameters, allowing for cluster analysis of communities and identification of the homogeneity/heterogeneity of the use of the characteristics across different linguistic levels in user posts from hidden communities.

References

  1. Бодрова Т., Тукмакова Н. Определение коэффициента ранговой корреляции частей речи в русских и чувашских газетных текстах // Мовознавчий вісник. 2012. № 14-15.
  2. Конюшкевич М. Преобразование предложно-падежной синтаксемы в предикативную единицу: корреляция предлога и показателя связи сложного предложения // Лінгвістичні студії. 2013. № 26.
  3. Корниенко Е. Р. Идиолект и идиостиль: к вопросу о соотнесении понятий // Филология: научные исследования. 2019. № 1.
  4. Мамаев И. Д., Митрофанова О. А. Лингвистические параметры для идентификации скрытых сетевых сообществ // Terra Linguistica. 2024. Т. 15. № 1.
  5. Мартыненко Г. Я., Гребенников А. О. Основы стилеметрии: учеб.-метод. пособие. СПб.: Изд-во С.-Петерб. ун-та, 2018.
  6. Потебня А. А. Из записок по русской грамматике: в 4-х т. М.: Учпедгиз, 1958. Т. 1-2.
  7. Русская грамматика / гл. ред. Н. Ю. Шведова. М.: Наука, 1980. Т. 1. Фонетика. Фонология. Ударение. Интонация. Словообразование. Морфология.
  8. Тукмакова Н. П. Определение коэффициента взаимной сопряженности в русских и чувашских газетных текстах // Филологические науки. Вопросы теории и практики. 2020. Т. 13. Вып. 7.
  9. Хохлова М. В., Рубинер В. И. К вопросу о количественном анализе предложно-падежных сочетаний в русском языке на примере законодательных текстов // Корпусная лингвистика – 2019: труды международной конференции. СПб., 2019.
  10. Baumes J., Goldberg M., Magdon-Ismail M., Wallace W. A. Discovering hidden groups in communication networks // International Conference on Intelligence and Security Informatics. Berlin – Heidelberg: Springer Berlin Heidelberg, 2004.
  11. Brunato D., Cimino A., Dell’Orletta F., Venturi G., Montemagni S. Profiling-UD: A tool for linguistic profiling of texts // Proceedings of the 12th Language Resources and Evaluation Conference. Marseille, 2020.
  12. Curtotti M., McCreath E. C. A corpus of Australian Contract Language: Description, profiling and analysis // Proceedings of the 13th International Conference on Artificial Intelligence and Law. 2011. http://dx.doi.org/10.2139/ssrn.2304652
  13. Hengeveld K. Parts-of-speech systems and morphological types // ACLC Working Papers. 2007. Vol. 2.
  14. Lilliefors H. W. On the Kolmogorov-Smirnov test for normality with mean and variance unknown // Journal of the American Statistical Association. 1967. Vol. 62. No. 318.
  15. Litvinova T., Sboev A., Panicheva P. Profiling the age of Russian bloggers // Conference on Artificial Intelligence and Natural Language. Cham: Springer International Publishing, 2018.
  16. Mishra N., Schreiber R., Stanton I., Tarjan R. E. Clustering social networks // International Workshop on Algorithms and Models for the Web-Graph. Berlin – Heidelberg: Springer Berlin Heidelberg, 2007.
  17. Panicheva P., Litvinova T. Authorship attribution in Russian in real-world forensics scenario // International Conference on Statistical Language and Speech Processing. Cham: Springer International Publishing, 2019.

Author information

Ivan Dmitrievich Mamaev

Baltic State Technical University “Voenmekh” named after D. F. Ustinov; Saint Petersburg State University, St. Petersburg

About this article

Publication history

  • Received: February 23, 2024.
  • Published: April 16, 2024.

Keywords

  • лингвистическое профилирование
  • корпус русскоязычных социальных сетей
  • морфосинтаксические характеристики постов
  • скрытые сообщества
  • linguistic profiling
  • corpus of Russian-language social media
  • morphosyntactic characteristics of posts
  • hidden communities

Copyright

© 2024 The Author(s)
© 2024 Gramota Publishing, LLC

User license

Creative Commons Attribution 4.0 International (CC BY 4.0)