Development of an error correction algorithm for Kazakh language

Ш.Ж.  Мусиралиева; М.А. Болатбек; Ж.  Елтай; К.  Азанбай

doi:10.26577/JMMCS2024-v123-i3-8

Авторы

Ш.Ж. Мусиралиева Казахский национальный университет имени аль-Фараби, Алматы, Казахстан https://orcid.org/0000-0001-5794-3649
М.А. Болатбек Казахский национальный университет имени аль-Фараби, Алматы, Казахстан https://orcid.org/0000-0002-2153-180X
Ж. Елтай Казахский национальный университет имени аль-Фараби, Алматы, Казахстан https://orcid.org/0000-0002-9275-7582
К. Азанбай Казахский национальный университет имени аль-Фараби, Алматы, Казахстан https://orcid.org/0000-0002-8151-9175

DOI:

https://doi.org/10.26577/JMMCS2024-v123-i3-8

506 360

Ключевые слова:

Казахский язык, набор данных, одноязычные наборы данных, коллекция корпусов leipzig, расстояния Левенштейна, symspellpy, многодоменный двуязычный набор данных на казахском языке

Аннотация

В данной статье рассматривается метод исправления орфографических ошибок в казахском языке с использованием преимуществ морфологического анализа и модели, основанной на зашумленных каналах. Для достижения поставленной цели были проанализированы современные проблемы авто-
матической обработки казахской текстовой информации, систематизированы существующие
лингвистические ресурсы и системы обработки казахского языка, определены основные тре-
бования к разработке системы анализа казахской текстовой информации на основе машинного обучения, а также модели и алгоритмы извлечения фактов из неструктурированной информации. и были разработаны плохо структурированные текстовые массивы. В этой работе использовалась функция поиска, усовершенствованный алгоритм коррекции
орфографии, который мог предложить потенциально правильное написание входной фразы. Эта функция легко настраивается и поддерживает настройки максимального расстояния редактирования, включения исходного термина при отсутствии близких совпадений и обработки чувствительности к регистру и исключению на основе регулярных выражений. Такая гибкость позволяет алгоритмам эффективно использоваться в различных ситуациях, от простых проверок орфографии пользовательского интерфейса до сложных задач обработки естественного языка. Благодаря своей конструкции функция поиска эффективно выявляет потенциальные исправления и проверяет предложения на соответствие контексту, учитывая пользовательские параметры, такие как маркеры игнорирования и многословие.

Биографии авторов

Ш.Ж. Мусиралиева, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

Мусиралиева Шынар - кандидат физико-математических наук, доцент кафедры информационных систем КазНУ имени аль-Фараби (г. Алматы, Казахстан, email: mussiraliyevash@gmail.com)

М.А. Болатбек, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

Болатбек Милана– PhD, старший преподаватель кафедры Информационных систем КазНУ имени аль-Фараби (г. Алматы, Казахстан, email: bolatbek.milana@gmail.com)

Ж. Елтай, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

Елтай Жастай– магистр наук, КазНУ им. аль-Фараби (г. Алматы, Казахстан, email: jastayeltay@gmail.com)

К. Азанбай, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

Азанбай Құралай (корреспондент автор) – магистр наук, преподаватель кафедры Информационных систем КазНУ им. аль-Фараби (г. Алматы, Казахстан, email: kuralayazanbay@gmail.com)

Разработка алгоритма исправления ошибок для казахского языка

Авторы

DOI:

Ключевые слова:

Аннотация

Биографии авторов

Ш.Ж. Мусиралиева, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

М.А. Болатбек, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

Ж. Елтай, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

К. Азанбай, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

Загрузки

Как цитировать

Выпуск

Раздел

Язык

Информация

Быстрые ссылки