Программные инструменты создания и анализа массивов текстов коротких электронных сообщений пользователей социальных сетей
Аннотация
В рамках исследования преследуется цель разработки алгоритма создания и анализа массива текстов коротких электронных сообщений (постов) в социальных сетях с помощью общедоступных программных инструментов. Научная новизна состоит в том, что для решения подобной проблемы применяется междисциплинарный подход, учитывающий последние достижения прикладной и математической лингвистики и информационной безопасности, с привлечением актуальной нормативной базы. В ходе работы, согласно предложенной графической модели, посредством плагина Web Scraper был собран текстовый материал исследования объемом около 1,5 МБ; сформирован массив текстов коротких электронных сообщений, конвертированный в пригодный для дальнейшей обработки формат CSV; проведен базовый анализ этого массива текстов посредством общедоступного программного комплекса PolyAnalyst, который включил такие процедуры, как извлечение терминов, сущностей и ключевых слов, анализ тональности и определение тематики текстов. В результате была доказана функциональность созданного алгоритма, определены перспективы дальнейших исследований – работа с текстовыми данными большого объема и анализ этих данных для нахождения в них деструктивного контента.
Источники
- Баранов А. Н. Лингвистика в лингвистической экспертизе (метод и истина) // Вестник Волгоградского государственного университета. Серия 2: Языкознание. 2017. Т. 16. № 2. https://doi.org/10.15688/jvolsu2.2017.2.2
- Горожанов А. И. Создание лингвистического корпуса на основе инструментов обработки естественного языка: планирование программных решений // Филологические науки. Вопросы теории и практики. 2023. Т. 16. Вып. 5. https://doi.org/10.30853/phil20230252
- Горожанов А. И., Гусейнова И. А., Писарик О. И. Уровневая модель информационной безопасности в условиях виртуального пространства // Вестник МГПУ. Серия: Филология. Теория языка. Языковое образование. 2022. № 2 (46). https://doi.org/10.25688/2076-913X.2022.46.2.11
- Джаффарова Н. Т. Административная ответственность за правонарушения в области оборота информации: дисс. … к. юрид. н. М., 2021.
- Логинова А. О., Алейникова Д. В. Выявление демаскирующих признаков социального бота на синтаксическом уровне генерируемого сообщения // Вестник Воронежского государственного университета. Серия: Системный анализ и информационные технологии. 2023. № 1. https://doi.org/10.17308/sait/1995-5499/2023/1/139-147
- Мамченко М. В., Мещеряков Р. В., Галин Р. Р. Социокиберфизическая система для выявления и блокирования деструктивного интернет-контента // Современные проблемы радиоэлектроники и телекоммуникаций. 2022. № 5.
- Минаев В. А., Реброва А. Д., Симонов А. В. Выявление деструктивного контента в социальных медиа на основе моделей машинного обучения // Информация и безопасность. 2021. Т. 24. № 1.
- Потапова Р. К., Потапов В. В. Интернет-меметика как эмоциогенная среда сетевой коммуникации // Известия Российской академии наук. Серия литературы и языка. 2022. Т. 81. № 2. https://doi.org/10.31857/S160578800019458-9
- Токтарова В. И., Попова О. Г., Сагдуллина И. И., Белянин В. А. Технологии искусственного интеллекта в практике современного высшего образования // Вестник Марийского государственного университета. 2023. № 2 (50).
- Шуликов К. А. Деструктивный контент: понятие, административно-правовая характеристика, виды // Вестник Нижегородского университета им. Н. И. Лобачевского. 2023. № 2.
- Islam T., Latif S., Ahmed N. Using Social Networks to Detect Malicious Bangla Text Content // 1st International Conference on Advances in Science, Engineering and Robotics Technology (ICASERT). Dhaka, 2019.
Финансирование
Публикация подготовлена в рамках государственного задания на проведение научно-исследовательских работ № FSFU-2020-0020 «Перспективные технологии реализации информационной функции государства и обеспечения цифрового суверенитета».
Информация об авторах
Информация о статье
История публикации
- Поступила в редакцию: 12 сентября 2023.
- Опубликована: 25 октября 2023.
Ключевые слова
- корпусная лингвистика
- массив текстовых данных
- информационная безопасность
- тексты коротких электронных сообщений
- деструктивный контент
- corpus linguistics
- text data bank
- information security
- texts of short electronic messages
- destructive content
Copyright
© 2023 Автор(ы)
© 2023 ООО Издательство «Грамота»