Постредактирование для казахского языка с использованием openNMT
DOI:
https://doi.org/10.26577/JMMCS.2022.v113.i1.12Ключевые слова:
Opennmt, нейронный машинный перевод, тюркские языкиАннотация
Современный мир и наше ближайшее будущее зависят от прикладных интеллектуальных систем, так как новые технологии развиваются с каждым днем. Одной из задач интеллектуальных систем является машинный (автоматизированный) перевод с одного естественного языка на другой. Машинный перевод (МП) позволяет людям общаться независимо от различия языков, поскольку это устраняет языковой барьер и открывает новые языки общения. Машинный перевод - это новая технология, особый шаг в развитии человека. Этот тип перевода может помочь, когда нужно быстро понять, что ваш собеседник написал или сказал в письме. Работа онлайн-переводчиков, используемых для перевода на казахский язык и обратно. Выявлены ошибки перевода, даны общие преимущества и недостатки онлайн систем машинного перевода на казахском языке. Представлена модель разработки системы постредактирования машинного перевода для казахского языка. OpenNMT (Open Neural Machine Translation) – это система с открытым исходным кодом для нейронного машинного перевода и обучения нейронной последовательности. Для обучения языки в OpenNMT нужны параллельные корпуса для языковых пар. Преимуществом OpenNMT является применение ко всем языкам и может работать с большими корпусами.В статье рассматривается обучения тюркские языки в OpenNMT. Было получено экспериментальные данные для англо-казахского языковой пары.
Библиографические ссылки
[2] Bekbulatov, E. and Kartbayev A., "A study of certain morphological structures of Kazakh and their impact on the machine translation quality" , Proceedings of the IEEE 8th International
[3] Conference on Application of Information and Communication Technologies. Astana (2014): 495-501.
[4] Nirenburg S., "Knowledge-Based Machine Translation" , Machine Translation, Springer 1 (4) (1989): 5-24.
[5] Nagao M., "A framework of a mechanical translation between Japanese and English by analogy principle" , Proceedings of the international NATO symposium on Artificial and human intelligence (1984): 173-180.
[6] Ziemski M., Junczys-Dowmunt M. and Pouliquen B., "The United Nations Parallel Corpus" , Proceedings of Language Resources and Evaluation LREC. Slovenia (2016): 3530-3534.
[7] Koehn P., "Europarl: A Parallel Corpus for Statistical Machine Translation" , Proceedings of the 10th Machine Translation Summit Phuket (2005): 79-86.
[8] Boitet C., "Bernard Vauquois’ contribution to the theory and practice of building MT systems" , Proceedings of the 6th International Conference on Natural Language Processing and Knowledge Engineering Beijing (2010): 331-334.
[9] Tomas Mikolov, Wen-tau Yih and Geoffrey Zweig, "Linguistic Regularities in Continuous Space Word Representations" , The Association for Computational Linguistics. In HLTNAACL (2013): 746-751.
[10] Nal Kalchbrenner, Phil Blunsom, "Recurrent Continuous Translation Models" , Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, Seattle, Washington, USA (2013): 1700-1709.
[11] Mikel L. Forcado and Ramon P. Neco, "Recursive Hetero-Associative Memories for Translation" , International WorkConference on Artificial and Natural Neural Networks, IWANN’97 Lanzarote, Canary Islands, Spain (1997): 453-46