Морфологический анализ казахского языка с использованием моделей глубокого обучения
DOI:
https://doi.org/10.26577/JMMCS2024-v124-i4-a4Ключевые слова:
Казахский язык, морфологический анализ, RNN, TransformerАннотация
Морфологический анализ представляет собой центральную задачу в области обработки естественного языка (NLP), существенно влияя на улучшение эффективности больших языковых моделей (LLM). Несмотря на значительный прогресс в технологиях NLP за последние годы, разработка эффективных алгоритмов для морфологического анализа морфологически сложных языков, таких как казахский, остаётся актуальной и сложной задачей. В данном
исследовании рассматривается разработка алгоритма морфологического анализа, специально адаптированного для казахского языка и интегрированного с LLM. В рамках исследования будут решены следующие ключевые задачи: сбор и обработка корпуса данных, выбор и адаптация алгоритмов, а также обучение и оценка моделей. Статья детализирует применение моделей глубокого обучения для морфологического анализа казахского языка, особенно сосредоточив внимание на рекуррентных нейронных сетях (RNN) и трансформаторных моделях. Поскольку казахский язык является агглютинативным, где морфологические изменения достигаются путём добавления множества суффиксов и префиксов, задача морфологического анализа предъявляет специфические требования к вычислительным моделям. Оценка производительности RNN, включая улучшенные версии с LSTM и GRU, по сравнению с трансформаторными моделями позволяет выявить их способности к анализу сложных морфологических структур казахского языка. Результаты показывают как преимущества, так и ограничения каждого подхода для обработки агглютинативных языков, указывая на то, что RNN часто более эффективны для морфологического анализа казахского языка, в то время как трансформаторные модели могут требовать дополнительной настройки для достижения оптимальных результатов.