• Original research article
  • September 9, 2024
  • Open access

Problems of extracting semi-structured textual information based on Text Mining technology (using the material of the Russian and Chuvash languages)

Abstract

The study aims to identify models and algorithms for processing textual information related to modal correction of intentional relationship schemes in languages with different structures based on Text Mining technology. The growth of diverse textual information flows on the internet, consisting of complexly organized documents, poses challenges for analysts. Such challenges are related to differentiated knowledge extraction (Text Mining technology is used in the analysis of diverse textual information). The paper proposes an approach to analyzing information related to modal correction of schemes of intentional semantic relations in languages with different structures involving methods of computational linguistics and Text Mining. Using the Language Resources library, an analysis of Russian and Chuvash corpora in the Datastores database was conducted (transferring information based on an analysis of the problems of integration and compatibility of data with various types of documents from different sources). Based on the proposed conceptual approach, clustering is performed (of document clusters, of the text corpus). The scientific novelty of the study lies in developing a complex of models and algorithms for analyzing intentional relations in languages with different structures, in particular, in Russian and Chuvash, ensuring accuracy and completeness in extracting information in search queries. Attention is focused on the content of linguistic resources; a classification of linguistic resources is conducted according to class-modes of intentional semantic relations. An approach to formalizing lexico-syntactic templates is determined, and on their basis, the task of constructing a taxonomy for the concept of intentional semantic relations is solved. As a result of the study, it has been found that the proposed method is effective for solving problems of Text Mining and interpreting its results.

References

  1. Белоногов Г. Г., Гиляревский Р. С., Хорошилов А. А. Проблемы автоматической смысловой обработки текстовой информации // Научно-техническая информация. Серия 2: Информационные процессы и системы. 2012. № 11.
  2. Большакова Е. И., Баева Н. В., Бордаченкова Е. А., Васильева Н. Э., Морозов С. С. Лексико-синтаксические шаблоны в задачах автоматической обработки // Компьютерная лингвистика и интеллектуальные технологии: труды международной конференции «Диалог 2007». М.: РГГУ, 2007.
  3. Большакова Е. И., Носков А. А. Программные средства анализа текстов на основе лексико-синтаксических шаблонов языка LSPL // Программные системы и инструменты: тематический сборник. 2010. № 11.
  4. Губанов А. Р. Машинный фонд чувашского языка и его компоненты // Актуальные вопросы истории и культуры чувашского народа: сборник. Чебоксары: ЧГИГН, 2013.
  5. Губанов А. Р. Морфологический стандарт для систем автоматической обработки текстов на чувашском языке и архитектура грамматического словаря // Актуальные вопросы истории и культуры чувашского народа: сборник статей. Чебоксары: ЧГИГН, 2015a. Вып. 3.
  6. Губанов А. Р. Национальный корпус чувашского языка: создание лексического поисковика в системе Java // Актуальные вопросы истории и культуры чувашского народа: сборник статей. Чебоксары: ЧГИГН, 2015b. Вып. 3.
  7. Губанов А. Р. Семантико-синтаксические особенности предложений с предикатами интенционального состояния в русском и чувашском языках // Высшая школа – народному хозяйству Чувашии. Гуманитарные науки: тез. докл. / Чуваш. гос. ун-т им. И. Н. Ульянова. Чебоксары, 1992.
  8. Губанов А. Р., Губанова Г. Ф., Свеклова О. В. Тезаурус чувашского языка (чăваш пĕлĕвĕн мулĕ) как языковая система знаний // Вестник Чувашского университета. Гуманитарные науки. 2017. № 2.
  9. Губанов А. Р., Кожемякова Е. А., Губанова Г. Ф. Онтологические модели пословиц как прецедентных текстов (на материале разноструктурных моделей в русском и чувашском языках) // Этническая культура. 2023. Т. 5. № 2.
  10. Ермаков А. Е., Плешко В. В. Семантическая интерпретация в системах компьютерного анализа текста // Информационные технологии. 2009. Т. 6.
  11. Заюкова Е. В. Семантические и прагматические особенности лексических средств выражения интенциональности // Актуальные проблемы гуманитарного знания: материалы региональной научно-практической конференции молодых ученых. Барнаул, 2004.
  12. Каменский М. В. Лингвистическая платформа GATE как среда автоматизированного анализа когнитивно-функциональных свойств дискурсных маркеров // Вестник Северо-Кавказского федерального университета. 2014. № 3 (42).
  13. Клушина Н. И. Интенциональный метод в современной лингвистической парадигме // Медиастилистика. 2012. Вып. 4.
  14. Лукашевич Н. В. Тезаурусы в задачах информационного поиска. М.: Изд-во Московского ун-та, 2011.
  15. Макаревич Т. И. Интеллектуальный анализ текстовой информации в специализированных областях в системе электронного правительства // Цифровая трансформация. 2019. № 2 (7).
  16. Мусаев А. А., Григорьев Д. А. Обзор современных технологий извлечения знаний из текстовых сообщений // Компьютерные исследования и моделирование. 2021. Т. 13. № 6.
  17. Осипов Г. С., Смирнов И. В. Семантический анализ научных текстов и их больших массивов // Системы высокой доступности. 2016. № 1.
  18. Смирнов И. В. Интеллектуальный анализ текстов на основе методов разноуровневой обработки естественного языка: монография. М.: ФИЦ ИУ РАН, 2023а.
  19. Смирнов И. В. Разноуровневая обработка естественного языка для интеллектуального поиска и анализа текстов // Искусственный интеллект и принятие решений. 2023b. № 1.
  20. Тихомиров И. А., Смирнов И. В. Применение методов лингвистической семантики и машинного обучения для повышения точности и полноты поиска в поисковой машине Exactus // Труды международной конференции «Диалог 2009». М., 2009.
  21. Тузов В. А. Компьютерная семантика русского языка. СПб.: Изд-во С.-Петерб. ун-та, 2004.
  22. Чеповский А. М. Информационные модели в задачах обработки текстов на естественных языках. М.: Национальный открытый университет «Интуит», 2014.
  23. Швец А. В. Взаимодействие информационных и лингвистических методов в задачах анализа качества научных текстов: дисс. … к. техн. н. М., 2015.
  24. Шелманов А. О. Исследование методов автоматического анализа текстов и разработка интегрированной системы семантико-синтаксического анализа: дисc. … к. техн. н. М., 2015.

Author information

Aleksey Rafailovich Gubanov

Dr

Chuvash State University, Cheboksary

Andrey Anatolyevich Danilov

Dr

Chuvash State University, Cheboksary

Yuri Nikolaevich Isaev

Dr

Chuvash State Institute of Humanities, Cheboksary

Galina Fedorovna Gubanova

PhD

Chuvash State University, Cheboksary

About this article

Publication history

  • Received: July 10, 2024.
  • Published: September 9, 2024.

Keywords

  • искусственный интеллект
  • Text Mining
  • GATE
  • Data Mining
  • разноструктурные языки
  • интенциональные смысловые отношения (ИСО)
  • artificial intelligence
  • languages with different structures
  • intentional semantic relations

Copyright

© 2024 The Author(s)
© 2024 Gramota Publishing, LLC

User license

Creative Commons Attribution 4.0 International (CC BY 4.0)