Распознавание именованных объектов для казахского языка

Z. M. Kozhirbayev; Z. A. Yessenbayev

doi:10.26577/JMMCS.2020.v107.i3.06

Авторы

Z. M. Kozhirbayev Частное учреждение "National Laboratory Astana", г. Нур-Султан, Казахстан http://orcid.org/0000-0003-4235-9049
Z. A. Yessenbayev Частное учреждение "National Laboratory Astana", г. Нур-Султан, Казахстан http://orcid.org/0000-0002-6322-3848

DOI:

https://doi.org/10.26577/JMMCS.2020.v107.i3.06

507 336

Ключевые слова:

распознавание именованных объектов, модель с условным случайным полем, нейронная сеть с долгой краткосрочной памятью, векторное представление слов

Аннотация

Распознавание именованных объектов (NER) считается одной из важных задач обработки естественного языка (NLP). Это способ распознавания объектов реального мира, таких как географическое положение, имя человека, организация и т. д., которые встречаются в предложении. Существует несколько подходов, основанных на созданных вручную правилах грамматики и статистических моделях, таких как машинное обучение и гибридные методы, для решения задачи распознавания именованных объектов. Цель данной работы состоит в том, чтобы поэкспериментировать с методами, основанными на статистическом подходе и на машинном обучение, и проверить как они справляются с агглютинативным казахским языком. В данной работе представлено распознавание именованных объектов на основе подхода машинного обучения, называемого условным случайным полем (CRF), как статистический метод. А также мы используем гибридный подход, сочетающий двунаправленную модель нейронной сети с долгой краткосрочной памятью (LSTM) и модель CRF. Это современный подход к распознаванию именованных объектов. Модель с перекрестным проверенным рандомизированным поиском показывает оценку f1 с 0,95. Гибридная модель LSTM-CRF показывает оценку f1 с 0,88. Результаты выглядит довольно хорошо, и это не требует каких-либо особенностей разработки по сравнению с моделью CRF.
Для проведения экспериментов, был создан корпус (kazNER) для задачи NER с такими метками, как имя человека, местоположение, организация и другие. Корпус состоит из 29629 предложений, которые содержат хотя бы одно собственное существительное, содержащее только теги части речи.

Библиографические ссылки

[1] Gislason P.O., Benediktsson J.S. and Johannes R. "Random forests for land cover classification" , Pattern Recognition Letters vol. 27 (2006): 294–300.

[2] Lample G., Ballesteros M., Subramanian S., Kawakami K. and Dyer C. "Neural architectures for named entity recognition" , arXiv vol. 1603.01360 (2016): 1–11.

[3] Makazhanov A., Sultangazina A., Makhambetov O. and Yessenbayev Z. "Syntactic annotation of kazakh: Following the universal dependencies guidelines. a report" , Proceedings of the 3rd International Conference on Turkic Languages Processing (TurkLang 2015) (Kazan, Russia, 2015): 338–350.

[4] Manning C., Surdeanu M., Bauer J., Finkel J., Bethard S. and McClosky D. "The Stanford CoreNLP natural language processing toolkit" , Proceedings of 52nd annual meeting of the association for computational linguistics: system demonstrations, Baltimore, Maryland, USA (2014): 55-60.

[5] Murphy K. "Naive bayes classifiers" , Journal of the University of British Columbia vol. 18 (2006): 1–60.

Распознавание именованных объектов для казахского языка

Авторы

DOI:

Ключевые слова:

Аннотация

Библиографические ссылки

Загрузки

Как цитировать

Выпуск

Раздел

Язык

Информация

Быстрые ссылки