• Original research article
  • September 4, 2024
  • Open access

Automatic extraction of named entities in the Chinese-Russian corpus of parallel and comparable texts on political topics

Abstract

The aim of the research is to experimentally identify and interpret standard and nested named entities in Chinese and Russian political texts, common and specific to the compared languages, using HanLP and SpaСy libraries. During the study, a Chinese-Russian corpus of parallel and comparable political texts was created. The scientific novelty of the research lies in presenting the results of recognizing various named entities and systematizing the types of errors in the Chinese-Russian corpus of parallel and comparable political texts. The study found that the most frequent named entities in original Chinese and Russian political texts are location names, followed by organization names, with person names being the least frequent. Most high-frequency named entities in original Chinese and translated texts generally correspond to each other, proving that translators often use literal translation when rendering named entities from Chinese into Russian in political texts. Our research systematizes and summarizes information on nested named entities in political texts, identifying and analyzing the following types: [[location]LOCATION], [[location]ORGANIZATION], [[number]ORGANIZATION], [[location]OBJECT], [[location]PROJECT].

References

  1. Бабина О. И. Именованные сущности в корпусе текстов новостных сообщений: лингвистическое описание // Наука ЮУрГУ: материалы 68-й научной конференции / Министерство образования и науки Российской Федерации; Южно-Уральский государственный университет. Челябинск, 2016.
  2. Большакова Е. И., Ефремова Н. Э. Извлечение информации из текстов: портрет направления // Большакова Е. И., Воронцов К. В., Ефремова Н. Э., Клышинский Э. С., Лукашевич Н. В., Сапин А. С. Автоматическая обработка текстов на естественном языке и анализ данных. М., 2017.
  3. Большакова Е. И., Иванов К. М., Сапин А. С., Шариков Е. Ф. Система для извлечения информации из текстов на базе лексико-синтаксических шаблонов // Пятнадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2016: труды конференции: в 3 т. Смоленск: Универсум, 2016. Т. 1.
  4. Брыкина М. М., Файнвейц А. В., Толдова С. Ю. Извлечение и идентификация именованных сущностей с использованием словарей в русском языке // Актуальные инновационные исследования: наука и практика. 2013. № 1.
  5. Захаров В. П., Богданова С. Ю. Корпусная лингвистика. СПб., 2020.
  6. Колпачкова Е. Н. Корпусы китайского языка: современное состояние и основные проблемы // Корпусная лингвистика – 2015: труды международной конференции. СПб., 2015.
  7. Соколовский Д. Е., Некрасов В. Н., Землянский С. А., Аксёнов С. В. Оценка использования инструментов библиотеки SpaCy и DeepPavlov для задачи извлечения именованных сущностей из описаний результатов осмотров пациентов с COVID-19 // Известия Томского политехнического университета. Промышленная кибернетика. 2023. № 2.
  8. Сталтмане В. Э. Ономастическая лексикография. М.: Наука, 1989.
  9. Суперанская А. В. Общая теория имени собственного. М.: Наука, 1973.
  10. Тао Ю., Захаров В. П. Разработка и использование параллельного корпуса русского и китайского языков // Научно-техническая информация. Серия 2: Информационные процессы и системы. 2015. № 4.
  11. Филиппова Е. А. Извлечение информации // Прикладная и компьютерная лингвистика / под ред. И. С. Николаева, О. В. Митрениной, Т. М. Ландо. М.: Ленанд, 2017.
  12. Чжу Х., Захаров В. П. Корпусное сравнение языка китайских и российских политических текстов // Политическая лингвистика. 2024. № 1.
  13. Au T. W. T., Lampos V., Cox I. J. E-NER – an Annotated Named Entity Recognition Corpus of Legal Text // arXiv. 2022. https://doi.org/10.48550/arXiv.2212.09306
  14. Baker M. Corpus Linguistics and Translation Studies: Implications and Applications // Text and Technology: In Honour of John Sinclair / ed. by M. Baker, G. Francis, E. Tognini-Bonelli. Amsterdam: John Benjamins, 1993.
  15. Bonnefoy L., Bellot P., Benoit M. Mesure Non-Supervisée du Degré d’Appartenance d’une Entité à un Type // TALN 2011 (Montpellier, 27 juin – 1er juillet 2011). Montpellier, 2011.
  16. Borthwick A., Sterling J., Agichtein E., Grishman R. NYU: Description of the MENE Named Entity System as Used in MUC-7 // Seventh Message Understanding Conference (MUC-7): Proceedings of a Conference Held in Fairfax, Virginia, 1998. Fairfax, 1998.
  17. Cetoli A., Bragaglia S., Harney A. D., Sloan M. Graph Convolutional Networks for Named Entity Recognition // arXiv. 2018. https://doi.org/10.48550/arXiv.1709.10053
  18. Collobert R., Weston J., Bottou L., Karlen M., Kavukcuoglu K., Kuksa P. Natural Language Processing (Almost) from Scratch // Journal of Machine Learning Research. 2011. Vol. 12.
  19. Devlin J., Chang M., Lee K., Toutanova K. Bert: Pre-Training of Deep Bidirectional Transformers for Language Understanding // arXiv. 2019. https://doi.org/10.48550/arXiv.1810.04805
  20. Gao S., Kotevska O., Sorokine A., Christian J. B. A Pre-Training and Self-Training Approach for Biomedical Named Entity Recognition // PloS One. 2021. Vol. 2.
  21. Grishman R., Sundheim B. Message Understanding Conference – 6: A Brief History // Proceedings of the 16th International Conference on Computational Linguistics. Copenhagen, 1996.
  22. Huang J., Li C., Subudhi K., Jose D., Balakrishnan Sh., Chen W., Peng B., Gao J., Han J. Few-Shot Named Entity Recognition: A Comprehensive Study // arXiv. 2020. https://doi.org/10.48550/arXiv.2012.14978
  23. Keraghel I., Morbieu S., Nadif M. A Survey on Recent Advances in Named Entity Recognition // arXiv. 2024. https://doi.org/10.48550/arXiv.2401.10825
  24. Kozareva Z., Bonev B., Montoyo A. Self-Training and Co-Training Applied to Spanish Named Entity Recognition // Mexican International Conference on Artificial Intelligence. Monterrey: Springer, 2005.
  25. Li Ch., Sun A., Weng J., He Q. Tweet Segmentation and Its Application to Named Entity Recognition // IEEE Transactions on Knowledge and Data Engineering. 2014. Vol. 27 (2).
  26. Li J., Sun A., Han J., Li Ch. A Survey on Deep Learning for Named Entity Recognition // IEEE Transactions on Knowledge and Data Engineering. 2020. Vol. 34 (1).
  27. Alvarado J. C. S., Verspoor K., Baldwin T. Domain Adaption of Named Entity Recognition to Support Credit Risk Assessment // Proceedings of the Australasian Language Technology Association Workshop. Parramatta, 2015.
  28. Li P., Sun T., Tang Q., Yan H., Wu Y., Huang X., Qiu X. CodeIE: Large Code Generation Models are Better Few-Shot Information Extractors // arXiv. 2023. https://doi.org/10.48550/arXiv.2305.05711
  29. Liu P., Guo Y., Wang F., Li G. Chinese Named Entity Recognition: The State of the Art // Neurocomputing. 2022. Vol. 473.
  30. Loukachevitch N., Artemova E., Batura T., Braslavski P., Denisov I., Ivanov V., Manandhar S., Pugachev A., Tutubalina E. NEREL: A Russian Dataset with Nested Named Entities and Relations // Proceedings of the International Conference on Recent Advances in Natural Language Processing. RANLP, 2021.
  31. Luz de Araujo P. H., De Campos T. E., De Oliveira R. R. R., Stauffer M., Couto S., Bermejo P. LeNER-Br: A Dataset for Named Entity Recognition in Brazilian Legal Text // Computational Processing of the Portuguese Language. PROPOR 2018 / ed. by A. Villavicencio, V. Moreira, A. Abad. Cham: Springer, 2018. https://doi.org/10.1007/978-3-319-99722-3_32
  32. Morwal S., Jahan N., Chopra D. Named Entity Recognition Using Hidden Markov Model (HMM) // International Journal on Natural Language Computing. 2012. Vol. 1.
  33. Nadeau D., Sekine S. A Survey of Named Entity Recognition and Classification // Lingvisticae Investigationes. 2007. Vol. 30. Iss. 1.
  34. Popov A. M., Adaskina Yu. V., Andreyeva D. A., Charabet Ja., Moskvina A. D., Protopopova E. V., Yushina T. A. Named Entity Normalization for Fact Extraction Task // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016”. Moscow, 2016.
  35. Sekine S., Sudo K., Nobata C. Extended Named Entity Hierarchy // International Conference on Language Resources and Evaluation. Las Palmas, 2002.
  36. Shaalan K., Raza H. NERA: Named Entity Recognition for Arabic // Journal of the American Society for Information Science and Technology. 2009. Vol. 8.
  37. Shinyama Y., Sekine S. Named Entity Discovery Using Comparable News Articles // COLING 2004: Proceedings of the 20th International Conference on Computational Linguistics, Switzerland. Geneva, 2004.
  38. Shishtla P. M., Gali K., Pingali P., Varma V. Experiments in Telugu NER: A Conditional Random Field Approach // Proceedings of the IJCNLP-08 Workshop on Named Entity Recognition for South and South East Asian Languages. Hyderabad, 2008.
  39. Tran V. C., Hwang D., Jung J. J. Semi-Supervised Approach Based on Cooccurrence Coefficient for Named Entity Recognition on Twitter // 2nd National Foundation for Science and Technology Development Conference on Information and Computer Science (NICS). Ho Chi Minh City, 2015.
  40. Wang X., Yang Ch., Guan R. A Comparative Study for Biomedical Named Entity Recognition // International Journal of Machine Learning and Cybernetics. 2018. Vol. 9 (3).
  41. Yamada H., Kudo T., Matsumoto Y. Japanese Named Entity Extraction Using Support Vector Machine // Transactions of IPSJ. 2002. Vol. 43. Iss. 1.
  42. Zhang X., Wang L. Identification and Analysis of Chinese Organization and Institution Names // Journal of Chinese Information Processing. 1997. Vol. 4.
  43. Zhang Y., Zhang H. 2022. FinBERT-MRC: Financial Named Entity Recognition Using BERT under the Machine Reading Comprehension Paradigm // arXiv. 2022. https://doi.org/10.48550/arXiv.2205.15485
  44. Zhou G., Zhang J., Su J., Shen D., Tan Ch. L. Recognizing Names in Biomedical Texts: A Machine Learning Approach // Bioinformatics. 2004. Vol. 20 (7).
  45. 崔卫, 李峰. 俄汉-汉俄平行语料库的构建设想与应用展望 // 中国俄语教学. 2014. № 1 (Цуй В., Ли Ф. Концепция построения и перспективы применения русско-китайского параллельного корпуса // Преподавание русского языка в Китае. 2014. № 1).
  46. 李晓倩, 胡开宝. 中国政府工作报告英译文中主题词及其搭配研究 // 中国外语. 2017. № 6 (Ли С., Ху К. Исследование ключевых слов и их сочетаний в английских переводах «Докладов о работе правительства Китая» // Иностранные языки в Китае. 2017. № 6).
  47. 王克非, 秦洪武. 英译汉语言特征探讨——基于对应语料库的宏观分析 // 外语学刊. 2009. № 1 (Ван К., Цинь Х. Исследование лингвистических особенностей перевода с английского на китайский – макроанализ на основе корпуса // Журнал иностранных языков. 2009. № 1).
  48. 许浩亮, 李雁群, 何云琪, 钱龙华. 中文嵌套命名实体关系抽取研究 // 北京大学学报(自然科学版). 2018. № 4 (Сюй Х., Ли Я., Хэ Ю., Цянь Л. Исследование извлечения связей между вложенными именованными сущностями на китайском языке // Журнал Пекинского университета (естественнонаучное издание). 2018. № 4).
  49. 闫璟辉, 宗成庆, 徐金安. 中文医疗文本中的嵌套实体识别方法 // 软件学报. 2024. № 6 (Янь Ц., Цзун Ч., Сюй Ц. Метод распознавания вложенных сущностей в китайских медицинских текстах // Журнал о программном обеспечении. 2024. № 6).

Funding

The publication was prepared within the framework of project No. 202307130002, approved by the Scholarship Council of the Ministry of Education of China, with the support of the Saint Petersburg State University, project code 124032900006-1.

Author information

Hui Zhu

Dalian University of Foreign Languages, The People’s Republic of China

Olga Aleksandrovna Mitrofanova

PhD

Saint Petersburg State University

About this article

Publication history

  • Received: July 24, 2024.
  • Published: September 4, 2024.

Keywords

  • распознавание именованных сущностей
  • вложенные именованные сущности
  • корпус текстов
  • параллельный корпус
  • политические тексты
  • named entity recognition
  • nested named entities
  • text corpus
  • parallel corpus
  • political texts

Copyright

© 2024 The Author(s)
© 2024 Gramota Publishing, LLC

User license

Creative Commons Attribution 4.0 International (CC BY 4.0)