Разработка алгоритма исправления ошибок для казахского языка

Авторы

DOI:

https://doi.org/10.26577/JMMCS2024-v123-i3-8

Ключевые слова:

Казахский язык, набор данных, одноязычные наборы данных, коллекция корпусов leipzig, расстояния Левенштейна, symspellpy, многодоменный двуязычный набор данных на казахском языке

Аннотация

В данной статье рассматривается метод исправления орфографических ошибок в казахском языке с использованием преимуществ морфологического анализа и модели, основанной на зашумленных каналах. Для достижения поставленной цели были проанализированы современные проблемы авто-
матической обработки казахской текстовой информации, систематизированы существующие
лингвистические ресурсы и системы обработки казахского языка, определены основные тре-
бования к разработке системы анализа казахской текстовой информации на основе машинного обучения, а также модели и алгоритмы извлечения фактов из неструктурированной информации. и были разработаны плохо структурированные текстовые массивы. В этой работе использовалась функция поиска, усовершенствованный алгоритм коррекции
орфографии, который мог предложить потенциально правильное написание входной фразы. Эта функция легко настраивается и поддерживает настройки максимального расстояния редактирования, включения исходного термина при отсутствии близких совпадений и обработки чувствительности к регистру и исключению на основе регулярных выражений. Такая гибкость позволяет алгоритмам эффективно использоваться в различных ситуациях, от простых проверок орфографии пользовательского интерфейса до сложных задач обработки естественного языка. Благодаря своей конструкции функция поиска эффективно выявляет потенциальные исправления и проверяет предложения на соответствие контексту, учитывая пользовательские параметры, такие как маркеры игнорирования и многословие.

Биографии авторов

  • Ш.Ж. Мусиралиева, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

    Мусиралиева Шынар - кандидат физико-математических наук, доцент кафедры информационных систем КазНУ имени аль-Фараби (г. Алматы, Казахстан, email: mussiraliyevash@gmail.com)

  • М.А. Болатбек, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

    Болатбек Милана– PhD, старший преподаватель кафедры Информационных систем КазНУ имени аль-Фараби (г. Алматы, Казахстан, email: bolatbek.milana@gmail.com)

  • Ж. Елтай, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

    Елтай Жастай–  магистр наук, КазНУ им. аль-Фараби (г. Алматы, Казахстан, email: jastayeltay@gmail.com)

  • К. Азанбай, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

    Азанбай Құралай (корреспондент автор) – магистр наук, преподаватель кафедры Информационных систем КазНУ им. аль-Фараби (г. Алматы, Казахстан, email: kuralayazanbay@gmail.com)

Опубликован

2024-10-12

Как цитировать

Разработка алгоритма исправления ошибок для казахского языка. (2024). Вестник КазНУ. Серия математика, механика, информатика, 123(3), 81-97. https://doi.org/10.26577/JMMCS2024-v123-i3-8