• Научная статья
  • 9 сентября 2024
  • Открытый доступ

Проблемы извлечения слабоструктурированной текстовой информации на основе технологии Text Mining (на материале русского и чувашского языков)

Аннотация

Цель исследования – выявить модели и алгоритмы обработки текстовой информации, связанные с модальной коррекцией схем интенциональных отношений в разноструктурных языках на основе технологии Text Mining. Рост потоков разнородной текстовой информации в Интернете, состоящей из сложноорганизованных документов, ставит перед аналитиками проблемы, связанные с дифференцированным извлечением знаний (в интеллектуальном анализе разнородной текстовой информации используется технология Text Mining). В статье предложен подход к анализу информации модальной коррекции схем интенциональных смысловых отношений (ИСО) в разноструктурных языках на основе методов компьютерной лингвистики и Text Mining. При помощи библиотеки Language Resources проведен анализ русских и чувашских корпусов в БД Datastores (перенос информации на основе анализа проблем интеграции и совместимости данных с различными типами документов из разных источников). На основе предложенного концептуального подхода осуществляется кластеризация (кластеров документов, текстового корпуса). Научная новизна исследования состоит в разработке комплекса моделей и алгоритмов для анализа интенциональных отношений в разноструктурных языках – русском и чувашском, обеспечивающих точность и полноту в извлечении информации в поисковых запросах. Акцентируется внимание на контенте лингвистических ресурсов, проводится классификация лингвистических ресурсов по классам-модусам ИСО, определяется подход к формализации лексико-синтаксических шаблонов, на их основе решается задача построения таксономии концепта ИСО. В результате исследования установлено, что предлагаемый метод эффективен для решения задач интеллектуального анализа текстов и интерпретации его результатов.

Источники

  1. Белоногов Г. Г., Гиляревский Р. С., Хорошилов А. А. Проблемы автоматической смысловой обработки текстовой информации // Научно-техническая информация. Серия 2: Информационные процессы и системы. 2012. № 11.
  2. Большакова Е. И., Баева Н. В., Бордаченкова Е. А., Васильева Н. Э., Морозов С. С. Лексико-синтаксические шаблоны в задачах автоматической обработки // Компьютерная лингвистика и интеллектуальные технологии: труды международной конференции «Диалог 2007». М.: РГГУ, 2007.
  3. Большакова Е. И., Носков А. А. Программные средства анализа текстов на основе лексико-синтаксических шаблонов языка LSPL // Программные системы и инструменты: тематический сборник. 2010. № 11.
  4. Губанов А. Р. Машинный фонд чувашского языка и его компоненты // Актуальные вопросы истории и культуры чувашского народа: сборник. Чебоксары: ЧГИГН, 2013.
  5. Губанов А. Р. Морфологический стандарт для систем автоматической обработки текстов на чувашском языке и архитектура грамматического словаря // Актуальные вопросы истории и культуры чувашского народа: сборник статей. Чебоксары: ЧГИГН, 2015a. Вып. 3.
  6. Губанов А. Р. Национальный корпус чувашского языка: создание лексического поисковика в системе Java // Актуальные вопросы истории и культуры чувашского народа: сборник статей. Чебоксары: ЧГИГН, 2015b. Вып. 3.
  7. Губанов А. Р. Семантико-синтаксические особенности предложений с предикатами интенционального состояния в русском и чувашском языках // Высшая школа – народному хозяйству Чувашии. Гуманитарные науки: тез. докл. / Чуваш. гос. ун-т им. И. Н. Ульянова. Чебоксары, 1992.
  8. Губанов А. Р., Губанова Г. Ф., Свеклова О. В. Тезаурус чувашского языка (чăваш пĕлĕвĕн мулĕ) как языковая система знаний // Вестник Чувашского университета. Гуманитарные науки. 2017. № 2.
  9. Губанов А. Р., Кожемякова Е. А., Губанова Г. Ф. Онтологические модели пословиц как прецедентных текстов (на материале разноструктурных моделей в русском и чувашском языках) // Этническая культура. 2023. Т. 5. № 2.
  10. Ермаков А. Е., Плешко В. В. Семантическая интерпретация в системах компьютерного анализа текста // Информационные технологии. 2009. Т. 6.
  11. Заюкова Е. В. Семантические и прагматические особенности лексических средств выражения интенциональности // Актуальные проблемы гуманитарного знания: материалы региональной научно-практической конференции молодых ученых. Барнаул, 2004.
  12. Каменский М. В. Лингвистическая платформа GATE как среда автоматизированного анализа когнитивно-функциональных свойств дискурсных маркеров // Вестник Северо-Кавказского федерального университета. 2014. № 3 (42).
  13. Клушина Н. И. Интенциональный метод в современной лингвистической парадигме // Медиастилистика. 2012. Вып. 4.
  14. Лукашевич Н. В. Тезаурусы в задачах информационного поиска. М.: Изд-во Московского ун-та, 2011.
  15. Макаревич Т. И. Интеллектуальный анализ текстовой информации в специализированных областях в системе электронного правительства // Цифровая трансформация. 2019. № 2 (7).
  16. Мусаев А. А., Григорьев Д. А. Обзор современных технологий извлечения знаний из текстовых сообщений // Компьютерные исследования и моделирование. 2021. Т. 13. № 6.
  17. Осипов Г. С., Смирнов И. В. Семантический анализ научных текстов и их больших массивов // Системы высокой доступности. 2016. № 1.
  18. Смирнов И. В. Интеллектуальный анализ текстов на основе методов разноуровневой обработки естественного языка: монография. М.: ФИЦ ИУ РАН, 2023а.
  19. Смирнов И. В. Разноуровневая обработка естественного языка для интеллектуального поиска и анализа текстов // Искусственный интеллект и принятие решений. 2023b. № 1.
  20. Тихомиров И. А., Смирнов И. В. Применение методов лингвистической семантики и машинного обучения для повышения точности и полноты поиска в поисковой машине Exactus // Труды международной конференции «Диалог 2009». М., 2009.
  21. Тузов В. А. Компьютерная семантика русского языка. СПб.: Изд-во С.-Петерб. ун-та, 2004.
  22. Чеповский А. М. Информационные модели в задачах обработки текстов на естественных языках. М.: Национальный открытый университет «Интуит», 2014.
  23. Швец А. В. Взаимодействие информационных и лингвистических методов в задачах анализа качества научных текстов: дисс. … к. техн. н. М., 2015.
  24. Шелманов А. О. Исследование методов автоматического анализа текстов и разработка интегрированной системы семантико-синтаксического анализа: дисc. … к. техн. н. М., 2015.

Информация об авторах

Губанов Алексей Рафаилович

д. филол. н., проф.

Чувашский государственный университет имени И. Н. Ульянова, г. Чебоксары

Данилов Андрей Анатольевич

д. ист. н., доц.

Чувашский государственный университет имени И. Н. Ульянова, г. Чебоксары

Исаев Юрий Николаевич

д. филол. н., доц.

Чувашский государственный институт гуманитарных наук, г. Чебоксары

Губанова Галина Федоровна

к. филол. н.

Чувашский государственный университет имени И. Н. Ульянова, г. Чебоксары

Информация о статье

История публикации

  • Поступила в редакцию: 10 июля 2024.
  • Опубликована: 9 сентября 2024.

Ключевые слова

  • искусственный интеллект
  • Text Mining
  • GATE
  • Data Mining
  • разноструктурные языки
  • интенциональные смысловые отношения (ИСО)
  • artificial intelligence
  • languages with different structures
  • intentional semantic relations

Copyright

© 2024 Автор(ы)
© 2024 ООО Издательство «Грамота»

Лицензионное соглашение

Creative Commons Attribution 4.0 International (CC BY 4.0)