• Original research article
  • January 31, 2023
  • Open access

Geoinformation Web Resource “The Dialect Corpus of the Buryat Language”

Abstract

The study aims to provide open access to structured and annotated sound data of the dialect corpus of the Buryat language. It was decided to present the corpus on the Web in the form of a geoinformation system with data binding to a digital map, since the territorial principle plays one of the leading roles in the classification of Buryat dialects. First, the programme of the speech corpus was compiled and sound recordings performed by informants - speakers of the dialects were obtained. The recorded material was segmented and annotated in the ELAN programme. The next step was to develop a programme that allows transferring data from ELAN format files to a relational database. To present data on the Internet, a web application was developed in the form of an interactive digital map based on Google Maps Platform. As a result, a web resource was created that provides users with access to audio dialect data presented in an annotated and structured form and displayed according to the geographic principle. Scientific novelty lies in introducing into scientific and public use materials of a fundamentally new type that make it possible to obtain information about the modern sound of Buryat dialects, as well as to conduct research on modern Buryat dialect speech.

References

  1. Бондарко Л. В., Скрелин П. А., Вольская Н. Б., Шерстинова Т. Ю. Электронные звуковые коллекции в Интернет // Электронные библиотеки. 2000. Т. 3. № 1.
  2. Бураев И. Д. Проблемы классификации бурятских диалектов // Проблемы бурятской диалектологии: сб. ст. Улан-Удэ: Изд-во Бурятского научного центра Сибирского отделения Российской академии наук, 1996.
  3. Ватлина Т. В., Лунькова Е. С. Пространственный анализ диалектного словообразовательного типа, функционирующего на территории Смоленской области // ИнтерКарто. ИнтерГИС. 2015. Т. 21.
  4. Владимиров В. Н. История и география: пути взаимодействия // Вестник Новосибирского государственного университета. Серия «История, филология». 2005. Т. 4. Вып. 2. История.
  5. Дырхеева Г. А. Литературный бурятский язык: история и проблематика // Вестник Бурятского научного центра Сибирского отделения Российской академии наук. 2014. № 1 (13).
  6. Жданова Е. А., Белых А. А. Географические информационные системы в лингвистических исследованиях // Интеллектуальные системы в производстве. 2014. № 2 (24).
  7. Кривнова О. Ф., Смирнова О. С. Интроспективная просодическая разметка письменного текста и его реальное озвучивание (сравнительный анализ на материале коллекции текстов Р. И. Аванесова) // Компьютерная лингвистика и интеллектуальные технологии: по мат. ежегод. междунар. конф. «Диалог» (г. Москва, 29 мая - 1 июня 2019 г.). М., 2019. Вып. 18 (25).
  8. Рассадин В. И. Присаянская группа бурятских говоров. Улан-Удэ: Изд-во Бурятского научного центра Сибирского отделения Российской академии наук, 1996.
  9. Рассказы о сновидениях: корпусное исследование устного русского дискурса / под ред. А. А. Кибрика и В. И. Подлесской. М.: Языки славянских культур, 2009.
  10. Функциональные требования к авторитетным данным: концептуальная модель: заключительный отчет, декабрь 2008 / под ред. Г. Е. Патона; пер. с англ. О. А. Лаврёновой. СПб.: Российская национальная библиотека, 2011.
  11. Andriyanets V., Daniel M., Pakendorf B. Discovering Dialectal Differences Based on Oral Corpora // Компьютерная лингвистика и интеллектуальные технологии: по мат. ежегод. междунар. конф. «Диалог» (г. Москва, 30 мая - 2 июня 2018 г.) / под общ. ред.: В. Селегей, И. М. Кобозева, Т. Е. Янко, И. Богуславский, Л. Л. Иомдин, М. А. Кронгауз, А. Ч. Пиперски. М.: Российский государственный гуманитарный университет, 2018. Вып. 17 (24).
  12. Kachkovskaya T. V., Kocharov D. A., Skrelin P. A., Volskaya N. B. CoRuSS - a New Prosodically Annotated Corpus of Russian Spontaneous Speech // Proceedings of the Tenth Conference on International Language Resources and Evaluation (LREC’16) (Portorož, May 23-28, 2016). Portorož: European Language Resources Association, 2016.
  13. Pennington R. Producing Time-Aligned Interlinear Texts: Towards a SayMore-FLEx-ELAN Workflow. 2014. URL: https://www.academia.edu/6474779/Producing_time_aligned_interlinear_texts_Towards_a_SayMore_FLEx_ELAN_workflow
  14. Wittenburg P., Brugman H., Russel A., Klassmann A., Sloetjes H. ELAN: A Professional Framework for Multimodality Research // Proceedings of LREC 2006, Fifth International Conference on Language Resources and Evaluation. 2006. URL: http://www.lrec-conf.org/proceedings/lrec2006/pdf/153_pdf.pdf

Funding

The reported study was funded by the RFBR as a part of research project No. 20-012-00491.

Author information

Oleg Sergeevich Rinchinov

Dr

Federal State Budgetary Institution of Science "Institute for Mongolian, Buddhist and Tibetan Studies of the Siberian Branch of the Russian Academy of Sciences", Ulan-Ude

Iuliia Dogorzhapovna Abaeva

PhD

Federal State Budgetary Institution of Science "Institute for Mongolian, Buddhist and Tibetan Studies of the Siberian Branch of the Russian Academy of Sciences", Ulan-Ude

About this article

Publication history

  • Received: December 12, 2022.
  • Published: January 31, 2023.

Keywords

  • звуковой корпус
  • бурятский язык
  • диалект
  • аннотирование
  • геоинформационная система
  • sound corpus
  • Buryat language
  • dialect
  • annotation
  • geoinformation system

Copyright

© 2023 The Author(s)
© 2023 Gramota Publishing, LLC

User license

Creative Commons Attribution 4.0 International (CC BY 4.0)