Автоматическое выделение именованных сущностей в китайско-русском корпусе параллельных и сопоставимых текстов политической тематики
Аннотация
Цель исследования заключается в том, чтобы экспериментальным путем выявить и интерпретировать стандартные и вложенные именованные сущности в китайских и русских политических текстах, общие и специфические для сравниваемых языков, с помощью библиотек HanLP и SpaСy. В ходе исследования был создан китайско-русский корпус параллельных и сопоставимых текстов политической тематики. Научная новизна исследования состоит в том, что в нем представлены результаты распознавания различных именованных сущностей и систематизированы типы ошибок в китайско-русском корпусе параллельных и сопоставимых политических текстов. В результате исследования установлено, что наиболее частотными именованными сущностями в оригинальных китайских и русских политических текстах являются названия локаций, следующие по частоте – это названия организаций, реже всего встречаются названия персон. Большинство высокочастотных именованных сущностей в китайских оригинальных и переводных текстах в основном соответствуют друг другу. Это доказывает, что переводчики чаще всего используют дословный перевод при передаче именованных сущностей с китайского языка на русский в политических текстах. В нашем исследовании систематизируется и обобщается информация о вложенных именованных сущностях в политических текстах, выделены и проанализированы следующие их типы: [[локация]ЛОКАЦИЯ], [[локация]ОРГАНИЗАЦИЯ], [[цифра]ОРГАНИЗАЦИЯ], [[локация]ОБЪЕКТ], [[локация]ПРОЕКТ].
Источники
- Бабина О. И. Именованные сущности в корпусе текстов новостных сообщений: лингвистическое описание // Наука ЮУрГУ: материалы 68-й научной конференции / Министерство образования и науки Российской Федерации; Южно-Уральский государственный университет. Челябинск, 2016.
- Большакова Е. И., Ефремова Н. Э. Извлечение информации из текстов: портрет направления // Большакова Е. И., Воронцов К. В., Ефремова Н. Э., Клышинский Э. С., Лукашевич Н. В., Сапин А. С. Автоматическая обработка текстов на естественном языке и анализ данных. М., 2017.
- Большакова Е. И., Иванов К. М., Сапин А. С., Шариков Е. Ф. Система для извлечения информации из текстов на базе лексико-синтаксических шаблонов // Пятнадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2016: труды конференции: в 3 т. Смоленск: Универсум, 2016. Т. 1.
- Брыкина М. М., Файнвейц А. В., Толдова С. Ю. Извлечение и идентификация именованных сущностей с использованием словарей в русском языке // Актуальные инновационные исследования: наука и практика. 2013. № 1.
- Захаров В. П., Богданова С. Ю. Корпусная лингвистика. СПб., 2020.
- Колпачкова Е. Н. Корпусы китайского языка: современное состояние и основные проблемы // Корпусная лингвистика – 2015: труды международной конференции. СПб., 2015.
- Соколовский Д. Е., Некрасов В. Н., Землянский С. А., Аксёнов С. В. Оценка использования инструментов библиотеки SpaCy и DeepPavlov для задачи извлечения именованных сущностей из описаний результатов осмотров пациентов с COVID-19 // Известия Томского политехнического университета. Промышленная кибернетика. 2023. № 2.
- Сталтмане В. Э. Ономастическая лексикография. М.: Наука, 1989.
- Суперанская А. В. Общая теория имени собственного. М.: Наука, 1973.
- Тао Ю., Захаров В. П. Разработка и использование параллельного корпуса русского и китайского языков // Научно-техническая информация. Серия 2: Информационные процессы и системы. 2015. № 4.
- Филиппова Е. А. Извлечение информации // Прикладная и компьютерная лингвистика / под ред. И. С. Николаева, О. В. Митрениной, Т. М. Ландо. М.: Ленанд, 2017.
- Чжу Х., Захаров В. П. Корпусное сравнение языка китайских и российских политических текстов // Политическая лингвистика. 2024. № 1.
- Au T. W. T., Lampos V., Cox I. J. E-NER – an Annotated Named Entity Recognition Corpus of Legal Text // arXiv. 2022. https://doi.org/10.48550/arXiv.2212.09306
- Baker M. Corpus Linguistics and Translation Studies: Implications and Applications // Text and Technology: In Honour of John Sinclair / ed. by M. Baker, G. Francis, E. Tognini-Bonelli. Amsterdam: John Benjamins, 1993.
- Bonnefoy L., Bellot P., Benoit M. Mesure Non-Supervisée du Degré d’Appartenance d’une Entité à un Type // TALN 2011 (Montpellier, 27 juin – 1er juillet 2011). Montpellier, 2011.
- Borthwick A., Sterling J., Agichtein E., Grishman R. NYU: Description of the MENE Named Entity System as Used in MUC-7 // Seventh Message Understanding Conference (MUC-7): Proceedings of a Conference Held in Fairfax, Virginia, 1998. Fairfax, 1998.
- Cetoli A., Bragaglia S., Harney A. D., Sloan M. Graph Convolutional Networks for Named Entity Recognition // arXiv. 2018. https://doi.org/10.48550/arXiv.1709.10053
- Collobert R., Weston J., Bottou L., Karlen M., Kavukcuoglu K., Kuksa P. Natural Language Processing (Almost) from Scratch // Journal of Machine Learning Research. 2011. Vol. 12.
- Devlin J., Chang M., Lee K., Toutanova K. Bert: Pre-Training of Deep Bidirectional Transformers for Language Understanding // arXiv. 2019. https://doi.org/10.48550/arXiv.1810.04805
- Gao S., Kotevska O., Sorokine A., Christian J. B. A Pre-Training and Self-Training Approach for Biomedical Named Entity Recognition // PloS One. 2021. Vol. 2.
- Grishman R., Sundheim B. Message Understanding Conference – 6: A Brief History // Proceedings of the 16th International Conference on Computational Linguistics. Copenhagen, 1996.
- Huang J., Li C., Subudhi K., Jose D., Balakrishnan Sh., Chen W., Peng B., Gao J., Han J. Few-Shot Named Entity Recognition: A Comprehensive Study // arXiv. 2020. https://doi.org/10.48550/arXiv.2012.14978
- Keraghel I., Morbieu S., Nadif M. A Survey on Recent Advances in Named Entity Recognition // arXiv. 2024. https://doi.org/10.48550/arXiv.2401.10825
- Kozareva Z., Bonev B., Montoyo A. Self-Training and Co-Training Applied to Spanish Named Entity Recognition // Mexican International Conference on Artificial Intelligence. Monterrey: Springer, 2005.
- Li Ch., Sun A., Weng J., He Q. Tweet Segmentation and Its Application to Named Entity Recognition // IEEE Transactions on Knowledge and Data Engineering. 2014. Vol. 27 (2).
- Li J., Sun A., Han J., Li Ch. A Survey on Deep Learning for Named Entity Recognition // IEEE Transactions on Knowledge and Data Engineering. 2020. Vol. 34 (1).
- Alvarado J. C. S., Verspoor K., Baldwin T. Domain Adaption of Named Entity Recognition to Support Credit Risk Assessment // Proceedings of the Australasian Language Technology Association Workshop. Parramatta, 2015.
- Li P., Sun T., Tang Q., Yan H., Wu Y., Huang X., Qiu X. CodeIE: Large Code Generation Models are Better Few-Shot Information Extractors // arXiv. 2023. https://doi.org/10.48550/arXiv.2305.05711
- Liu P., Guo Y., Wang F., Li G. Chinese Named Entity Recognition: The State of the Art // Neurocomputing. 2022. Vol. 473.
- Loukachevitch N., Artemova E., Batura T., Braslavski P., Denisov I., Ivanov V., Manandhar S., Pugachev A., Tutubalina E. NEREL: A Russian Dataset with Nested Named Entities and Relations // Proceedings of the International Conference on Recent Advances in Natural Language Processing. RANLP, 2021.
- Luz de Araujo P. H., De Campos T. E., De Oliveira R. R. R., Stauffer M., Couto S., Bermejo P. LeNER-Br: A Dataset for Named Entity Recognition in Brazilian Legal Text // Computational Processing of the Portuguese Language. PROPOR 2018 / ed. by A. Villavicencio, V. Moreira, A. Abad. Cham: Springer, 2018. https://doi.org/10.1007/978-3-319-99722-3_32
- Morwal S., Jahan N., Chopra D. Named Entity Recognition Using Hidden Markov Model (HMM) // International Journal on Natural Language Computing. 2012. Vol. 1.
- Nadeau D., Sekine S. A Survey of Named Entity Recognition and Classification // Lingvisticae Investigationes. 2007. Vol. 30. Iss. 1.
- Popov A. M., Adaskina Yu. V., Andreyeva D. A., Charabet Ja., Moskvina A. D., Protopopova E. V., Yushina T. A. Named Entity Normalization for Fact Extraction Task // Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016”. Moscow, 2016.
- Sekine S., Sudo K., Nobata C. Extended Named Entity Hierarchy // International Conference on Language Resources and Evaluation. Las Palmas, 2002.
- Shaalan K., Raza H. NERA: Named Entity Recognition for Arabic // Journal of the American Society for Information Science and Technology. 2009. Vol. 8.
- Shinyama Y., Sekine S. Named Entity Discovery Using Comparable News Articles // COLING 2004: Proceedings of the 20th International Conference on Computational Linguistics, Switzerland. Geneva, 2004.
- Shishtla P. M., Gali K., Pingali P., Varma V. Experiments in Telugu NER: A Conditional Random Field Approach // Proceedings of the IJCNLP-08 Workshop on Named Entity Recognition for South and South East Asian Languages. Hyderabad, 2008.
- Tran V. C., Hwang D., Jung J. J. Semi-Supervised Approach Based on Cooccurrence Coefficient for Named Entity Recognition on Twitter // 2nd National Foundation for Science and Technology Development Conference on Information and Computer Science (NICS). Ho Chi Minh City, 2015.
- Wang X., Yang Ch., Guan R. A Comparative Study for Biomedical Named Entity Recognition // International Journal of Machine Learning and Cybernetics. 2018. Vol. 9 (3).
- Yamada H., Kudo T., Matsumoto Y. Japanese Named Entity Extraction Using Support Vector Machine // Transactions of IPSJ. 2002. Vol. 43. Iss. 1.
- Zhang X., Wang L. Identification and Analysis of Chinese Organization and Institution Names // Journal of Chinese Information Processing. 1997. Vol. 4.
- Zhang Y., Zhang H. 2022. FinBERT-MRC: Financial Named Entity Recognition Using BERT under the Machine Reading Comprehension Paradigm // arXiv. 2022. https://doi.org/10.48550/arXiv.2205.15485
- Zhou G., Zhang J., Su J., Shen D., Tan Ch. L. Recognizing Names in Biomedical Texts: A Machine Learning Approach // Bioinformatics. 2004. Vol. 20 (7).
- 崔卫, 李峰. 俄汉-汉俄平行语料库的构建设想与应用展望 // 中国俄语教学. 2014. № 1 (Цуй В., Ли Ф. Концепция построения и перспективы применения русско-китайского параллельного корпуса // Преподавание русского языка в Китае. 2014. № 1).
- 李晓倩, 胡开宝. 中国政府工作报告英译文中主题词及其搭配研究 // 中国外语. 2017. № 6 (Ли С., Ху К. Исследование ключевых слов и их сочетаний в английских переводах «Докладов о работе правительства Китая» // Иностранные языки в Китае. 2017. № 6).
- 王克非, 秦洪武. 英译汉语言特征探讨——基于对应语料库的宏观分析 // 外语学刊. 2009. № 1 (Ван К., Цинь Х. Исследование лингвистических особенностей перевода с английского на китайский – макроанализ на основе корпуса // Журнал иностранных языков. 2009. № 1).
- 许浩亮, 李雁群, 何云琪, 钱龙华. 中文嵌套命名实体关系抽取研究 // 北京大学学报(自然科学版). 2018. № 4 (Сюй Х., Ли Я., Хэ Ю., Цянь Л. Исследование извлечения связей между вложенными именованными сущностями на китайском языке // Журнал Пекинского университета (естественнонаучное издание). 2018. № 4).
- 闫璟辉, 宗成庆, 徐金安. 中文医疗文本中的嵌套实体识别方法 // 软件学报. 2024. № 6 (Янь Ц., Цзун Ч., Сюй Ц. Метод распознавания вложенных сущностей в китайских медицинских текстах // Журнал о программном обеспечении. 2024. № 6).
Финансирование
Публикация подготовлена в рамках проекта № 202307130002, утвержденного Советом по стипендиям Министерства образования Китая, при поддержке СПбГУ, шифр проекта 124032900006-1.
Информация об авторах
Информация о статье
История публикации
- Поступила в редакцию: 24 июля 2024.
- Опубликована: 4 сентября 2024.
Ключевые слова
- распознавание именованных сущностей
- вложенные именованные сущности
- корпус текстов
- параллельный корпус
- политические тексты
- named entity recognition
- nested named entities
- text corpus
- parallel corpus
- political texts
Copyright
© 2024 Автор(ы)
© 2024 ООО Издательство «Грамота»