Морфологический анализ казахского языка с использованием моделей глубокого обучения

Авторы

DOI:

https://doi.org/10.26577/JMMCS2024-v124-i4-a4

Ключевые слова:

Казахский язык, морфологический анализ, RNN, Transformer

Аннотация

Морфологический анализ представляет собой центральную задачу в области обработки естественного языка (NLP), существенно влияя на улучшение эффективности больших языковых моделей (LLM). Несмотря на значительный прогресс в технологиях NLP за последние годы, разработка эффективных алгоритмов для морфологического анализа морфологически сложных языков, таких как казахский, остаётся актуальной и сложной задачей. В данном
исследовании рассматривается разработка алгоритма морфологического анализа, специально адаптированного для казахского языка и интегрированного с LLM. В рамках исследования будут решены следующие ключевые задачи: сбор и обработка корпуса данных, выбор и адаптация алгоритмов, а также обучение и оценка моделей. Статья детализирует применение моделей глубокого обучения для морфологического анализа казахского языка, особенно сосредоточив внимание на рекуррентных нейронных сетях (RNN) и трансформаторных моделях. Поскольку казахский язык является агглютинативным, где морфологические изменения достигаются путём добавления множества суффиксов и префиксов, задача морфологического анализа предъявляет специфические требования к вычислительным моделям. Оценка производительности RNN, включая улучшенные версии с LSTM и GRU, по сравнению с трансформаторными моделями позволяет выявить их способности к анализу сложных морфологических структур казахского языка. Результаты показывают как преимущества, так и ограничения каждого подхода для обработки агглютинативных языков, указывая на то, что RNN часто более эффективны для морфологического анализа казахского языка, в то время как трансформаторные модели могут требовать дополнительной настройки для достижения оптимальных результатов.

Биография автора

  • M.E. Мансурова, Казахский национальный университет имени аль-Фараби, г. Алматы, Казахстан

    Мадина Мансурова (ответственный автор) – кандидат физико-математических наук, профессор кафедры искусственного интеллекта и больших данных факультета информационных технологий Казахского национального университета имени аль-Фараби (г. Алматы, Казахстан, e-mail: mansurova.madina@gmail.com)

Опубликован

2025-01-02

Как цитировать

Морфологический анализ казахского языка с использованием моделей глубокого обучения. (2025). Вестник КазНУ. Серия математика, механика, информатика, 124(4), 48-58. https://doi.org/10.26577/JMMCS2024-v124-i4-a4