Модель преобразователя с одним состоянием для морфологии казахского и русского языков

  • У. А. Тукеев Казахский национальный университет имени аль-Фараби, г. Алматы, Республика Казахстан
  • Д. Р. Рахимова Казахский национальный университет имени аль-Фараби, г. Алматы, Республика Казахстан
  • Ж. М. Жуманов Казахский национальный университет имени аль-Фараби, г. Алматы, Республика Казахстан
  • А. Ж. Картбаев Казахский национальный университет имени аль-Фараби, г. Алматы, Республика Казахстан

Аннотация

В статье представлено исследование по построению конечных автоматов с одним состоянием для анализа двухуровневой морфологии языка со сложным строением слов, а именно, прямое преобразование их окончании в грамматические характеристики. Это проблема изучена на основе казахских и русских языков, которые являются флективными и агглютинативными по своей природе. Для решения этой проблемы применены тривиальный автомат Мели с одним состоянием и многозначное отображение. Мы изучили полноту ввода конечного автомата для анализируемых языков. Определение этой полноты для морфологического анализа гарантирует принятие конечным автоматом всех слов анализируемого языка. Для агглютинативных языков проблема определения полноты множества возможных окончаний является сложной задачей. Казахский язык является агглютинативным языком со сложной морфологией для многоуровневого машинного изучения. Далее в статье мы определим полноту множества окончаний казахского языка. Предложенная технология реализована для русско-казахского машинного перевода, оценка качество перевода выполнена метрикой BLEU.

Литература

[1] Koskenniemi K. Two-level morphology: A general computational model of word-form recognition and production. // Technical report publication of the University of Helsinki. - 1983. - No.11. - p.115-159.
[2] Gurenko V.V. Intoduction to automata theory - M.:MGTU, 2013. - 62 p.
[3] Oflazer K. Two-level description of Turkish morphology // Literary and Linguistic Computing. - Stroudsburg. - 1994. - No.2. - p.137-148.
[4] Washington J. N., Salimzyanov I., Tyers F.M. Finite-state morphological transducers for three Kypchak languages. // Proceedings of the 9th Conference on Language Resources and Evaluation. - Reykjavik. - 2014. - pp.545-548.
[5] Kairakbay B.M., Zaurbekov D. L. Finite State Approach to the Kazakh Nominal Paradigm. // Proceedings of the 11th International Conference on Finite State Methods and Natural Language Processing. - St. Andrews. - 2013. - p.108-112.
[6] Kessikbayeva G., Cicekli I. Rule Based Morphological Analyzer of Kazakh Language // Proceedings of the 2014 Joint Meeting of SIGMORPHON and SIGFSM.- Baltimore. - 2014. - p.137-148.
[7] Bektayev K. Big Kazakh-Russian and Russian-Kazakh dictionary. - Almaty: Altyn Kazyna, 1999. - 704 p.
Опубликована
2018-04-01
Как цитировать
ТУКЕЕВ, У. А. et al. Модель преобразователя с одним состоянием для морфологии казахского и русского языков. Вестник КазНУ. Серия математика, механика, информатика, [S.l.], v. 89, n. 2, p. 110-117, apr. 2018. ISSN 1563-0277. Доступно на: <http://bm.kaznu.kz/index.php/kaznu/article/view/388>. Дата доступа: 23 apr. 2018