• Original research article
  • October 25, 2023
  • Open access

Software tools for creating and analyzing a text data bank of short electronic messages from social network users

Abstract

The research aims at developing an algorithm for creating and analyzing a text data bank of short electronic messages (posts) from social networks using free software tools. The scientific novelty lies in the fact that to solve such a problem, an interdisciplinary approach is used, taking into account the latest achievements of applied and mathematical linguistics and information security, with the involvement of the current regulatory framework. In the course of the work, according to the proposed graphical model, textual research material of ca. 1.5 MB was collected using the Web Scraper plug-in; a text data bank of short electronic messages was generated, converted into a CSV format suitable for further processing; a basic analysis of this data bank was carried out using PolyAnalyst free software package, which included such procedures as the extraction of terms, entities and keywords, sentiment analysis and determination of the subject matter of texts. As a result, the functionality of the created algorithm was proven, prospects for further research were identified – working with big text data and analyzing this data to find destructive content in them.

References

  1. Баранов А. Н. Лингвистика в лингвистической экспертизе (метод и истина) // Вестник Волгоградского государственного университета. Серия 2: Языкознание. 2017. Т. 16. № 2. https://doi.org/10.15688/jvolsu2.2017.2.2
  2. Горожанов А. И. Создание лингвистического корпуса на основе инструментов обработки естественного языка: планирование программных решений // Филологические науки. Вопросы теории и практики. 2023. Т. 16. Вып. 5. https://doi.org/10.30853/phil20230252
  3. Горожанов А. И., Гусейнова И. А., Писарик О. И. Уровневая модель информационной безопасности в условиях виртуального пространства // Вестник МГПУ. Серия: Филология. Теория языка. Языковое образование. 2022. № 2 (46). https://doi.org/10.25688/2076-913X.2022.46.2.11
  4. Джаффарова Н. Т. Административная ответственность за правонарушения в области оборота информации: дисс. … к. юрид. н. М., 2021.
  5. Логинова А. О., Алейникова Д. В. Выявление демаскирующих признаков социального бота на синтаксическом уровне генерируемого сообщения // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. 2023. № 1. https://doi.org/10.17308/sait/1995-5499/2023/1/139-147
  6. Мамченко М. В., Мещеряков Р. В., Галин Р. Р. Социокиберфизическая система для выявления и блокирования деструктивного интернет-контента // Современные проблемы радиоэлектроники и телекоммуникаций. 2022. № 5.
  7. Минаев В. А., Реброва А. Д., Симонов А. В. Выявление деструктивного контента в социальных медиа на основе моделей машинного обучения // Информация и безопасность. 2021. Т. 24. № 1.
  8. Потапова Р. К., Потапов В. В. Интернет-меметика как эмоциогенная среда сетевой коммуникации // Известия Российской академии наук. Серия литературы и языка. 2022. Т. 81. № 2. https://doi.org/10.31857/S160578800019458-9
  9. Токтарова В. И., Попова О. Г., Сагдуллина И. И., Белянин В. А. Технологии искусственного интеллекта в практике современного высшего образования // Вестник Марийского государственного университета. 2023. № 2 (50).
  10. Шуликов К. А. Деструктивный контент: понятие, административно-правовая характеристика, виды // Вестник Нижегородского университета им. Н. И. Лобачевского. 2023. № 2.
  11. Islam T., Latif S., Ahmed N. Using Social Networks to Detect Malicious Bangla Text Content // 1st International Conference on Advances in Science, Engineering and Robotics Technology (ICASERT). Dhaka, 2019.

Funding

The reported study was carried out as a part of state assignment to conduct scientific research No. FSFU-2020-0020 “Promising technologies for implementing the information function of the state and ensuring digital sovereignty”.

Author information

Alina Olegovna Loginova

Moscow State Linguistic University

Alexey Ivanovich Gorozhanov

Dr

Moscow State Linguistic University

Darya Viktorovna Aleynikova

PhD

Moscow State Linguistic University; Peoples’ Friendship University of Russia, Moscow

About this article

Publication history

  • Received: September 12, 2023.
  • Published: October 25, 2023.

Keywords

  • корпусная лингвистика
  • массив текстовых данных
  • информационная безопасность
  • тексты коротких электронных сообщений
  • деструктивный контент
  • corpus linguistics
  • text data bank
  • information security
  • texts of short electronic messages
  • destructive content

Copyright

© 2023 The Author(s)
© 2023 Gramota Publishing, LLC

User license

Creative Commons Attribution 4.0 International (CC BY 4.0)