Автоматическое выделение именованных сущностей в китайско-русском корпусе параллельных и сопоставимых текстов политической тематики

Чжу Хуэй; Митрофанова Ольга Александровна

doi:10.30853/phil20240430

Научная статья
4 сентября 2024
Открытый доступ

Автоматическое выделение именованных сущностей в китайско-русском корпусе параллельных и сопоставимых текстов политической тематики

Чжу Хуэй
Митрофанова О. А.

Прикладная лингвистика
2024. Том 17. Выпуск 9
https://doi.org/10.30853/phil20240430

Аннотация

Цель исследования заключается в том, чтобы экспериментальным путем выявить и интерпретировать стандартные и вложенные именованные сущности в китайских и русских политических текстах, общие и специфические для сравниваемых языков, с помощью библиотек HanLP и SpaСy. В ходе исследования был создан китайско-русский корпус параллельных и сопоставимых текстов политической тематики. Научная новизна исследования состоит в том, что в нем представлены результаты распознавания различных именованных сущностей и систематизированы типы ошибок в китайско-русском корпусе параллельных и сопоставимых политических текстов. В результате исследования установлено, что наиболее частотными именованными сущностями в оригинальных китайских и русских политических текстах являются названия локаций, следующие по частоте – это названия организаций, реже всего встречаются названия персон. Большинство высокочастотных именованных сущностей в китайских оригинальных и переводных текстах в основном соответствуют друг другу. Это доказывает, что переводчики чаще всего используют дословный перевод при передаче именованных сущностей с китайского языка на русский в политических текстах. В нашем исследовании систематизируется и обобщается информация о вложенных именованных сущностях в политических текстах, выделены и проанализированы следующие их типы: [[локация]ЛОКАЦИЯ], [[локация]ОРГАНИЗАЦИЯ], [[цифра]ОРГАНИЗАЦИЯ], [[локация]ОБЪЕКТ], [[локация]ПРОЕКТ].

Источники

Бабина О. И. Именованные сущности в корпусе текстов новостных сообщений: лингвистическое описание // Наука ЮУрГУ: материалы 68-й научной конференции / Министерство образования и науки Российской Федерации; Южно-Уральский государственный университет. Челябинск, 2016.
Большакова Е. И., Ефремова Н. Э. Извлечение информации из текстов: портрет направления // Большакова Е. И., Воронцов К. В., Ефремова Н. Э., Клышинский Э. С., Лукашевич Н. В., Сапин А. С. Автоматическая обработка текстов на естественном языке и анализ данных. М., 2017.
Большакова Е. И., Иванов К. М., Сапин А. С., Шариков Е. Ф. Система для извлечения информации из текстов на базе лексико-синтаксических шаблонов // Пятнадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2016: труды конференции: в 3 т. Смоленск: Универсум, 2016. Т. 1.
Брыкина М. М., Файнвейц А. В., Толдова С. Ю. Извлечение и идентификация именованных сущностей с использованием словарей в русском языке // Актуальные инновационные исследования: наука и практика. 2013. № 1.
Захаров В. П., Богданова С. Ю. Корпусная лингвистика. СПб., 2020.
Колпачкова Е. Н. Корпусы китайского языка: современное состояние и основные проблемы // Корпусная лингвистика – 2015: труды международной конференции. СПб., 2015.
Соколовский Д. Е., Некрасов В. Н., Землянский С. А., Аксёнов С. В. Оценка использования инструментов библиотеки SpaCy и DeepPavlov для задачи извлечения именованных сущностей из описаний результатов осмотров пациентов с COVID-19 // Известия Томского политехнического университета. Промышленная кибернетика. 2023. № 2.
Сталтмане В. Э. Ономастическая лексикография. М.: Наука, 1989.
Суперанская А. В. Общая теория имени собственного. М.: Наука, 1973.
Тао Ю., Захаров В. П. Разработка и использование параллельного корпуса русского и китайского языков // Научно-техническая информация. Серия 2: Информационные процессы и системы. 2015. № 4.
Филиппова Е. А. Извлечение информации // Прикладная и компьютерная лингвистика / под ред. И. С. Николаева, О. В. Митрениной, Т. М. Ландо. М.: Ленанд, 2017.
Чжу Х., Захаров В. П. Корпусное сравнение языка китайских и российских политических текстов // Политическая лингвистика. 2024. № 1.
Au T. W. T., Lampos V., Cox I. J. E-NER – an Annotated Named Entity Recognition Corpus of Legal Text // arXiv. 2022. https://doi.org/10.48550/arXiv.2212.09306
Baker M. Corpus Linguistics and Translation Studies: Implications and Applications // Text and Technology: In Honour of John Sinclair / ed. by M. Baker, G. Francis, E. Tognini-Bonelli. Amsterdam: John Benjamins, 1993.
Bonnefoy L., Bellot P., Benoit M. Mesure Non-Supervisée du Degré d’Appartenance d’une Entité à un Type // TALN 2011 (Montpellier, 27 juin – 1er juillet 2011). Montpellier, 2011.
Borthwick A., Sterling J., Agichtein E., Grishman R. NYU: Description of the MENE Named Entity System as Used in MUC-7 // Seventh Message Understanding Conference (MUC-7): Proceedings of a Conference Held in Fairfax, Virginia, 1998. Fairfax, 1998.
Cetoli A., Bragaglia S., Harney A. D., Sloan M. Graph Convolutional Networks for Named Entity Recognition // arXiv. 2018. https://doi.org/10.48550/arXiv.1709.10053
Collobert R., Weston J., Bottou L., Karlen M., Kavukcuoglu K., Kuksa P. Natural Language Processing (Almost) from Scratch // Journal of Machine Learning Research. 2011. Vol. 12.
Devlin J., Chang M., Lee K., Toutanova K. Bert: Pre-Training of Deep Bidirectional Transformers for Language Understanding // arXiv. 2019. https://doi.org/10.48550/arXiv.1810.04805
Gao S., Kotevska O., Sorokine A., Christian J. B. A Pre-Training and Self-Training Approach for Biomedical Named Entity Recognition // PloS One. 2021. Vol. 2.
Grishman R., Sundheim B. Message Understanding Conference – 6: A Brief History // Proceedings of the 16th International Conference on Computational Linguistics. Copenhagen, 1996.
Huang J., Li C., Subudhi K., Jose D., Balakrishnan Sh., Chen W., Peng B., Gao J., Han J. Few-Shot Named Entity Recognition: A Comprehensive Study // arXiv. 2020. https://doi.org/10.48550/arXiv.2012.14978
Keraghel I., Morbieu S., Nadif M. A Survey on Recent Advances in Named Entity Recognition // arXiv. 2024. https://doi.org/10.48550/arXiv.2401.10825
Kozareva Z., Bonev B., Montoyo A. Self-Training and Co-Training Applied to Spanish Named Entity Recognition // Mexican International Conference on Artificial Intelligence. Monterrey: Springer, 2005.
Li Ch., Sun A., Weng J., He Q. Tweet Segmentation and Its Application to Named Entity Recognition // IEEE Transactions on Knowledge and Data Engineering. 2014. Vol. 27 (2).
Li J., Sun A., Han J., Li Ch. A Survey on Deep Learning for Named Entity Recognition // IEEE Transactions on Knowledge and Data Engineering. 2020. Vol. 34 (1).
Alvarado J. C. S., Verspoor K., Baldwin T. Domain Adaption of Named Entity Recognition to Support Credit Risk Assessment // Proceedings of the Australasian Language Technology Association Workshop. Parramatta, 2015.
Li P., Sun T., Tang Q., Yan H., Wu Y., Huang X., Qiu X. CodeIE: Large Code Generation Models are Better Few-Shot Information Extractors // arXiv. 2023. https://doi.org/10.48550/arXiv.2305.05711
Liu P., Guo Y., Wang F., Li G. Chinese Named Entity Recognition: The State of the Art // Neurocomputing. 2022. Vol. 473.
Loukachevitch N., Artemova E., Batura T., Braslavski P., Denisov I., Ivanov V., Manandhar S., Pugachev A., Tutubalina E. NEREL: A Russian Dataset with Nested Named Entities and Relations // Proceedings of the International Conference on Recent Advances in Natural Language Processing. RANLP, 2021.
Luz de Araujo P. H., De Campos T. E., De Oliveira R. R. R., Stauffer M., Couto S., Bermejo P. LeNER-Br: A Dataset for Named Entity Recognition in Brazilian Legal Text // Computational Processing of the Portuguese Language. PROPOR 2018 / ed. by A. Villavicencio, V. Moreira, A. Abad. Cham: Springer, 2018. https://doi.org/10.1007/978-3-319-99722-3_32
Morwal S., Jahan N., Chopra D. Named Entity Recognition Using Hidden Markov Model (HMM) // International Journal on Natural Language Computing. 2012. Vol. 1.
Nadeau D., Sekine S. A Survey of Named Entity Recognition and Classification // Lingvisticae Investigationes. 2007. Vol. 30. Iss. 1.
Popov A. M., Adaskina Yu. V., Andreyeva D. A., Charabet Ja., Moskvina A. D., Protopopova E. V., Yushina T. A. Named Entity Normalization for Fact Extraction Task // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016”. Moscow, 2016.
Sekine S., Sudo K., Nobata C. Extended Named Entity Hierarchy // International Conference on Language Resources and Evaluation. Las Palmas, 2002.
Shaalan K., Raza H. NERA: Named Entity Recognition for Arabic // Journal of the American Society for Information Science and Technology. 2009. Vol. 8.
Shinyama Y., Sekine S. Named Entity Discovery Using Comparable News Articles // COLING 2004: Proceedings of the 20th International Conference on Computational Linguistics, Switzerland. Geneva, 2004.
Shishtla P. M., Gali K., Pingali P., Varma V. Experiments in Telugu NER: A Conditional Random Field Approach // Proceedings of the IJCNLP-08 Workshop on Named Entity Recognition for South and South East Asian Languages. Hyderabad, 2008.
Tran V. C., Hwang D., Jung J. J. Semi-Supervised Approach Based on Cooccurrence Coefficient for Named Entity Recognition on Twitter // 2nd National Foundation for Science and Technology Development Conference on Information and Computer Science (NICS). Ho Chi Minh City, 2015.
Wang X., Yang Ch., Guan R. A Comparative Study for Biomedical Named Entity Recognition // International Journal of Machine Learning and Cybernetics. 2018. Vol. 9 (3).
Yamada H., Kudo T., Matsumoto Y. Japanese Named Entity Extraction Using Support Vector Machine // Transactions of IPSJ. 2002. Vol. 43. Iss. 1.
Zhang X., Wang L. Identification and Analysis of Chinese Organization and Institution Names // Journal of Chinese Information Processing. 1997. Vol. 4.
Zhang Y., Zhang H. 2022. FinBERT-MRC: Financial Named Entity Recognition Using BERT under the Machine Reading Comprehension Paradigm // arXiv. 2022. https://doi.org/10.48550/arXiv.2205.15485
Zhou G., Zhang J., Su J., Shen D., Tan Ch. L. Recognizing Names in Biomedical Texts: A Machine Learning Approach // Bioinformatics. 2004. Vol. 20 (7).
崔卫, 李峰. 俄汉-汉俄平行语料库的构建设想与应用展望 // 中国俄语教学. 2014. № 1 (Цуй В., Ли Ф. Концепция построения и перспективы применения русско-китайского параллельного корпуса // Преподавание русского языка в Китае. 2014. № 1).
李晓倩, 胡开宝. 中国政府工作报告英译文中主题词及其搭配研究 // 中国外语. 2017. № 6 (Ли С., Ху К. Исследование ключевых слов и их сочетаний в английских переводах «Докладов о работе правительства Китая» // Иностранные языки в Китае. 2017. № 6).
王克非, 秦洪武. 英译汉语言特征探讨——基于对应语料库的宏观分析 // 外语学刊. 2009. № 1 (Ван К., Цинь Х. Исследование лингвистических особенностей перевода с английского на китайский – макроанализ на основе корпуса // Журнал иностранных языков. 2009. № 1).
许浩亮, 李雁群, 何云琪, 钱龙华. 中文嵌套命名实体关系抽取研究 // 北京大学学报(自然科学版). 2018. № 4 (Сюй Х., Ли Я., Хэ Ю., Цянь Л. Исследование извлечения связей между вложенными именованными сущностями на китайском языке // Журнал Пекинского университета (естественнонаучное издание). 2018. № 4).
闫璟辉, 宗成庆, 徐金安. 中文医疗文本中的嵌套实体识别方法 // 软件学报. 2024. № 6 (Янь Ц., Цзун Ч., Сюй Ц. Метод распознавания вложенных сущностей в китайских медицинских текстах // Журнал о программном обеспечении. 2024. № 6).

Финансирование

Публикация подготовлена в рамках проекта № 202307130002, утвержденного Советом по стипендиям Министерства образования Китая, при поддержке СПбГУ, шифр проекта 124032900006-1.

Информация об авторах

Чжу Хуэй

Даляньский университет иностранных языков, Китайская Народная Республика

https://orcid.org/0009-0003-2922-8156

Митрофанова Ольга Александровна

к. филол. н., доц.

Санкт-Петербургский государственный университет

https://orcid.org/0000-0002-3008-5514

Информация о статье

История публикации

Поступила в редакцию: 24 июля 2024.
Опубликована: 4 сентября 2024.

Ключевые слова

распознавание именованных сущностей
вложенные именованные сущности
корпус текстов
параллельный корпус
политические тексты
named entity recognition
nested named entities
text corpus
parallel corpus
political texts

Copyright

Лицензионное соглашение

Creative Commons Attribution 4.0 International (CC BY 4.0)