Морфологический анализ казахского языка с использованием моделей глубокого обучения

Авторы

  • M.E. Мансурова Казахский национальный университет имени аль-Фараби, г. Алматы, Казахстан https://orcid.org/0000-0002-9680-2758
  • Д.Р. Рахимова Казахский национальный университет имени аль-Фараби, г. Алматы, Казахстан https://orcid.org/0000-0003-1427-198X

DOI:

https://doi.org/10.26577/JMMCS2024-v124-i4-a4
        54 40

Ключевые слова:

Казахский язык, морфологический анализ, RNN, Transformer

Аннотация

Морфологический анализ представляет собой центральную задачу в области обработки естественного языка (NLP), существенно влияя на улучшение эффективности больших языковых моделей (LLM). Несмотря на значительный прогресс в технологиях NLP за последние годы, разработка эффективных алгоритмов для морфологического анализа морфологически сложных языков, таких как казахский, остаётся актуальной и сложной задачей. В данном
исследовании рассматривается разработка алгоритма морфологического анализа, специально адаптированного для казахского языка и интегрированного с LLM. В рамках исследования будут решены следующие ключевые задачи: сбор и обработка корпуса данных, выбор и адаптация алгоритмов, а также обучение и оценка моделей. Статья детализирует применение моделей глубокого обучения для морфологического анализа казахского языка, особенно сосредоточив внимание на рекуррентных нейронных сетях (RNN) и трансформаторных моделях. Поскольку казахский язык является агглютинативным, где морфологические изменения достигаются путём добавления множества суффиксов и префиксов, задача морфологического анализа предъявляет специфические требования к вычислительным моделям. Оценка производительности RNN, включая улучшенные версии с LSTM и GRU, по сравнению с трансформаторными моделями позволяет выявить их способности к анализу сложных морфологических структур казахского языка. Результаты показывают как преимущества, так и ограничения каждого подхода для обработки агглютинативных языков, указывая на то, что RNN часто более эффективны для морфологического анализа казахского языка, в то время как трансформаторные модели могут требовать дополнительной настройки для достижения оптимальных результатов.

Биография автора

M.E. Мансурова, Казахский национальный университет имени аль-Фараби, г. Алматы, Казахстан

Мадина Мансурова (ответственный автор) – кандидат физико-математических наук, профессор кафедры искусственного интеллекта и больших данных факультета информационных технологий Казахского национального университета имени аль-Фараби (г. Алматы, Казахстан, e-mail: mansurova.madina@gmail.com)

Загрузки

Как цитировать

Мансурова M. ., & Рахимова D. . (2025). Морфологический анализ казахского языка с использованием моделей глубокого обучения. Вестник КазНУ. Серия математика, механика, информатика, 124(4), 48–58. https://doi.org/10.26577/JMMCS2024-v124-i4-a4