• Научная статья
  • 10 октября 2022
  • Открытый доступ

Экспериментальное моделирование базы данных сбалансированного лингвистического корпуса

Аннотация

Целью исследования является построение функционирующей экспериментальной модели реляционной базы данных для оперирования сбалансированным лингвистическим корпусом художественного произведения. Научная новизна заключается в том, что впервые в рамках гумани-тарного исследования проводится моделирование базы данных лингвистического корпуса с тща-тельным описанием и учетом технических деталей и с опорой на положения авторской концепции профессионально ориентированного программирования. Работа состояла из трех этапов: формиро-вания технического задания (разработана структура двух таблиц реляционной базы данных, выбран формат SQLite, предусмотрены дополнительные колонки таблиц для последующего расширения содержания исследований), написания программного кода создания и наполнения базы данных (ис-пользованы язык программирования Python, модуль обработки естественного языка spaCy) и его апробации на материале текстов трех романов Ф. Кафки «Замок», «Америка» и «Процесс» (получены три функционирующие базы данных). Результаты показали, что современные про-граммные инструменты обработки естественного языка позволяют автоматически создавать пол-ноценные базы данных для обработки запросов SQL, которые впоследствии возможно расширять в ручном или автоматическом режиме.

Источники

  1. Горожанов А. И., Гусейнова И. А. Прикладные аспекты анализа и интерпретации текстов (на материале немецкого и русского языков). Казань: Бук, 2021.
  2. Лесников С. В. Формирование гипертекстового корпуса учебных словарей русского языка // Филологические науки. Научные доклады высшей школы. 2021. № 4. DOI: 10.20339/PhS.4-21.027
  3. Писарик О. И. Принципы разработки базы данных подъязыка предметной области «Строительство» // Вестник Московского государственного лингвистического университета. Гуманитарные науки. 2021. № 5 (847). DOI: 10.52070/2542-2197_2021_5_847_150
  4. Хохлова М. В. Атрибутивные коллокации в золотом стандарте сочетаемости русского языка и их представление в словарях и корпусах текстов // Вопросы лексикографии. 2021. № 21. DOI: 10.17223/22274200/21/2
  5. Ayre K., Bittar A., Kam J., Verma S., Howard L. M., Dutta R. Developing a Natural Language Processing Tool to Identify Perinatal Self-Harm in Electronic Healthcare Records // PLoS ONE. 2021. No. 16 (8). DOI: 10.1371/journal.pone.0253809
  6. Gorozhanov A. I., Guseynova I. A. Programming for Specific Purposes in Linguistics: A New Challenge for the Humanitarian Curricula // Training, Language and Culture. 2020. Vol. 4. No. 4. DOI: 10.22363/2521-442X-2020-4-4-23-38
  7. Jugran S., Kumar A., Tyagi B. S., Anand V. Extractive Automatic Text Summarization Using SpaCy in Python NLP // 2021 International Conference on Advance Computing and Innovative Technologies in Engineering, ICACITE 2021. Greater Noida, 2021. DOI: 10.1109/ICACITE51222.2021.9404712
  8. Mizrahi M., Dickinson M. A. Philosophical Reasoning about Science: A Quantitative, Digital Study // Synthese. 2022. Vol. 200. No. 2. DOI: 10.1007/s11229-022-03670-6
  9. Okhapkin V. P., Okhapkina E. P., Iskhakova A. O., Iskhakov A. Y. Constructing of Semantically Dependent Patterns Based on SpaCy and StanfordNLP Libraries // Communications in Computer and Information Science (in Books). 2021. Vol. 1395. DOI: 10.1007/978-981-16-1480-4_45
  10. Verma A., Sikarvar V., Yadav H., Jaganathan R., Kumar P. Shabd: A Psycholinguistic Database for Hindi // Behavior Research Methods. 2022. Vol. 54. No. 2. DOI: 10.3758/s13428-021-01625-2

Информация об авторах

Горожанов Алексей Иванович

д. филол. н., доц.

Московский государственный лингвистический университет

Информация о статье

История публикации

  • Поступила в редакцию: 4 сентября 2022.
  • Опубликована: 10 октября 2022.

Ключевые слова

  • реляционная база данных
  • корпусная лингвистика
  • профессионально ориентированное программирование
  • SQLite
  • spaCy
  • relational database
  • corpus linguistics
  • professionally oriented programming

Copyright

© 2022 Автор(ы)
© 2022 ООО Издательство «Грамота»

Лицензионное соглашение

Creative Commons Attribution 4.0 International (CC BY 4.0)