• Научная статья
  • 25 апреля 2024
  • Открытый доступ

Использование машинного обучения для тематической разметки текстовых материалов корпуса устной речи

Аннотация

Цель исследования состоит в выявлении эффективности тезаурусного метода для формирования списка тематических классов при использовании машинного обучения для тематической классификации текстовых материалов социолингвистических интервью. В статье рассматриваются возможности применения машинного обучения в тематической разметке материалов лингвистического корпуса. Политематичность анализируемого материала обусловлена его жанровой принадлежностью к диалогической речи. Иерархическая структура тем, выявленная в результате предварительного интроспективного анализа текстов, может быть описана с помощью тезауруса. Обсуждаются результаты применения метода машинного обучения без учителя с использованием двух наборов названий тематических классов: списка тем, задействованного при ручной разметке текстов, и расширенного списка микротем, названия которых были отобраны из тезауруса русского языка. Научная новизна работы состоит в том, что впервые предложен тезаурусный метод подбора тематических лейблов для zero-shot классификации слабоструктурированных текстов на русском языке. Полученные результаты показали, что использование более подробного лексического описания для тематических классов даёт улучшение результата классификации.

Источники

  1. Баранов А. Н., Добровольский Д. О. Корпусная модель идиостиля Достоевского. М.: ЛЕКСРУС, 2021.
  2. Захаров В. П., Богданова С. Ю. Корпусная лингвистика. СПб.: Изд-во С.-Петерб. ун-та, 2020.
  3. Казакевич О. А. О принципах построения функциональной типологии малых языков (на материале малых автохтонных языков Сибири и Дальнего Востока) // Функциональное развитие языков в полиэтнических странах мира (Россия – Вьетнам): материалы международного круглого стола. М.: Азбуковник, 2015.
  4. Лукашевич Н. В. Тезаурусы в задачах информационного поиска. М., 2010.
  5. Ляшевская О. Н. Корпусные инструменты в грамматических исследованиях русского языка. М.: Издательский дом ЯСК; Рукописные памятники Древней Руси, 2016.
  6. Резанова З. И. Корпус устной речи русско-тюркских билингвов Южной Сибири: разметка отклонений от речевого стандарта // Вопросы лексикографии. 2019. № 15.
  7. Резанова З. И. Подкорпус устной речи русско-тюркских билингвов Южной Сибири: типологически релевантные признаки // Вопросы лексикографии. 2017. № 11.
  8. Bhambhoria R., Chen L., Zhu X. A Simple and Effective Framework for Strict Zero-Shot Hierarchical Classification // arXiv. 2023. Art. 2305.15282. https://doi.org/10.48550/arXiv.2305.15282
  9. Marian V., Blumenfeld H. K., Kaushanskaya M. The Language Experience and Proficiency Questionnaire (LEAP-Q): Assessing Language Profiles in Bilinguals and Multilinguals // Journal of Speech, Language, and Hearing Research. 2007. Vol. 50 (4).
  10. Plaza-del-Arco F., Nozza D., Hovy D. Wisdom of Instruction-Tuned Language Model Crowds. Exploring Model Label Variation // arXiv. 2023. Art. 2307.12973. https://doi.org/10.48550/arXiv.2307.12973.
  11. Rothman D. Transformers for Natural Language Processing and Computer Vision. Birmingham: Packt Publishing, 2024.
  12. Singh J. Natural Language Processing in the Real World: Text Processing, Analytics, and Classification. 1st ed. N. Y.: Chapman and Hall, 2023.
  13. Song Y., Upadhyay S., Peng H., Mayhew S., Roth D. Toward Any-Language Zero-Shot Topic Classification of Textual Documents // Artificial Intelligence. 2019. Vol. 274.
  14. Wang Z., Pang Y., Lin Y. Large Language Models Are Zero-Shot Text Classifiers // arXiv. 2023. Art. 2312.01044. https://doi.org/10.48550/arXiv.2312.01044
  15. Zhang Y., Yang R., Xu X., Xiao J., Shen J., Han J. TELEClass: Taxonomy Enrichment and LLM-Enhanced Hierarchical Text Classification with Minimal Supervision // arXiv. 2024. Art. 2403.00165. https://doi.org/10.48550/arXiv.2403.00165

Информация об авторах

Погодаева Елена Николаевна

Томский государственный университет

Информация о статье

История публикации

  • Поступила в редакцию: 20 февраля 2024.
  • Опубликована: 25 апреля 2024.

Ключевые слова

  • лингвистический корпус
  • машинное обучение
  • тематическая классификация
  • разметка данных
  • диалогическая речь
  • linguistic corpus
  • machine learning
  • topic classification
  • data annotation
  • dialogical speech

Copyright

© 2024 Автор(ы)
© 2024 ООО Издательство «Грамота»

Лицензионное соглашение

Creative Commons Attribution 4.0 International (CC BY 4.0)