Распознавание именованных объектов для казахского языка

Z. M. Kozhirbayev; Z. A. Yessenbayev

doi:10.26577/JMMCS.2020.v107.i3.06

Авторлар

Z. M. Kozhirbayev "National Laboratory Astana" жеке мекемесі, Нұр-Сұлтан қ., Қазақстан http://orcid.org/0000-0003-4235-9049
Z. A. Yessenbayev "National Laboratory Astana" жеке мекемесі, Нұр-Сұлтан қ., Қазақстан http://orcid.org/0000-0002-6322-3848

DOI:

https://doi.org/10.26577/JMMCS.2020.v107.i3.06

524 348

Кілттік сөздер:

жалқы есiмдердi тану, шартты кездейсоқ өрiс моделi, ұзақ қысқа мерзiмдi жады, сөздердiң векторлық көрiнiсi

Аннотация

Жалқы есімдерді тану (NER) табиғи тілді өңдеудің (NLP) маңызды тапсырмаларының бірі болып саналады. Бұл сөйлемде кездесетін географиялық атауларды, адамның есімдерин, ұйымның аттарын және т.б. сияқты нақты жалкы есімдерді танудың тәсілі. қолмен жасалған грамматикалық ережелер мен статистикалық модельдерге негізделген бірнеше тәсілдер бар, мысалы, жалқы есімдерді тану мәселесін шешуде машиналық үйрету және гибридтік әдістер. Бұл жұмыстың мақсаты - статистикалық тәсіл мен машиналық оқытуға негізделген әдістермен тәжірибе жасау және олардың агглютинативті қазақ тілімен қалай жұмыс жасайтындығын тексеру. Бұл жұмыста шартты кездейсоқ өріске (CRF) негізделген статистикалық тәсілмен қазақ тілінің жалқы есімдерін тану ұсынылған. Біз сондай-ақ екі бағытты ұзақ қысқа мерзімді жады (LSTM) негізіндегі нейрондық желі және CRF моделімен біріктіретін гибридтік әдісті қолданамыз. Бұл жалқы нысандарды танудың қазіргі заманғы тәсілі. Кросс-расталған рандомизацияланған іздеу моделі 0,95 f1 көрсеткішінде тоқтаса, LSTM-CRF гибридті моделі 0,88 f1 көрсетеді. Нәтижелер өте жақсы көрінеді және CRF моделімен салыстырғанда ешқандай дизайн ерекшеліктерін қажет етпейді. Тәжірибелер үшін NER тапсырмасына адамның есімі, географиялық атаулар, ұйым атаулары және басқалар сияқты белгілері бар корпус (kazNER) құрылды. Корпус 29629 сөйлемнен тұрады, олардың әрқайсысында кем дегенде бір жалқы есім бар.

Библиографиялық сілтемелер

[1] Gislason P.O., Benediktsson J.S. and Johannes R. "Random forests for land cover classification" , Pattern Recognition Letters vol. 27 (2006): 294–300.

[2] Lample G., Ballesteros M., Subramanian S., Kawakami K. and Dyer C. "Neural architectures for named entity recognition" , arXiv vol. 1603.01360 (2016): 1–11.

[3] Makazhanov A., Sultangazina A., Makhambetov O. and Yessenbayev Z. "Syntactic annotation of kazakh: Following the universal dependencies guidelines. a report" , Proceedings of the 3rd International Conference on Turkic Languages Processing (TurkLang 2015) (Kazan, Russia, 2015): 338–350.

[4] Manning C., Surdeanu M., Bauer J., Finkel J., Bethard S. and McClosky D. "The Stanford CoreNLP natural language processing toolkit" , Proceedings of 52nd annual meeting of the association for computational linguistics: system demonstrations, Baltimore, Maryland, USA (2014): 55-60.

[5] Murphy K. "Naive bayes classifiers" , Journal of the University of British Columbia vol. 18 (2006): 1–60.

Қазақ тiлiндегi жалқы есiмдердi тану

Авторлар

DOI:

Кілттік сөздер:

Аннотация

Библиографиялық сілтемелер

Жүктелулер

Как цитировать

Шығарылым

Бөлім

Тіл

Ақпарат

Жылдам сілтемелер