Разработка алгоритма исправления ошибок для казахского языка

Авторы

DOI:

https://doi.org/10.26577/JMMCS2024-v123-i3-8
        100 97

Ключевые слова:

Казахский язык, набор данных, одноязычные наборы данных, коллекция корпусов leipzig, расстояния Левенштейна, symspellpy, многодоменный двуязычный набор данных на казахском языке

Аннотация

В данной статье рассматривается метод исправления орфографических ошибок в казахском языке с использованием преимуществ морфологического анализа и модели, основанной на зашумленных каналах. Для достижения поставленной цели были проанализированы современные проблемы авто-
матической обработки казахской текстовой информации, систематизированы существующие
лингвистические ресурсы и системы обработки казахского языка, определены основные тре-
бования к разработке системы анализа казахской текстовой информации на основе машинного обучения, а также модели и алгоритмы извлечения фактов из неструктурированной информации. и были разработаны плохо структурированные текстовые массивы. В этой работе использовалась функция поиска, усовершенствованный алгоритм коррекции
орфографии, который мог предложить потенциально правильное написание входной фразы. Эта функция легко настраивается и поддерживает настройки максимального расстояния редактирования, включения исходного термина при отсутствии близких совпадений и обработки чувствительности к регистру и исключению на основе регулярных выражений. Такая гибкость позволяет алгоритмам эффективно использоваться в различных ситуациях, от простых проверок орфографии пользовательского интерфейса до сложных задач обработки естественного языка. Благодаря своей конструкции функция поиска эффективно выявляет потенциальные исправления и проверяет предложения на соответствие контексту, учитывая пользовательские параметры, такие как маркеры игнорирования и многословие.

Биографии авторов

Ш.Ж. Мусиралиева, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

Мусиралиева Шынар - кандидат физико-математических наук, доцент кафедры информационных систем КазНУ имени аль-Фараби (г. Алматы, Казахстан, email: mussiraliyevash@gmail.com)

М.А. Болатбек, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

Болатбек Милана– PhD, старший преподаватель кафедры Информационных систем КазНУ имени аль-Фараби (г. Алматы, Казахстан, email: bolatbek.milana@gmail.com)

Ж. Елтай, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

Елтай Жастай–  магистр наук, КазНУ им. аль-Фараби (г. Алматы, Казахстан, email: jastayeltay@gmail.com)

К. Азанбай, Казахский национальный университет имени аль-Фараби, Алматы, Казахстан

Азанбай Құралай (корреспондент автор) – магистр наук, преподаватель кафедры Информационных систем КазНУ им. аль-Фараби (г. Алматы, Казахстан, email: kuralayazanbay@gmail.com)

Загрузки

Как цитировать

Мусиралиева . S. ., Болатбек M. ., Елтай Z., & Азанбай . K. (2024). Разработка алгоритма исправления ошибок для казахского языка. Вестник КазНУ. Серия математика, механика, информатика, 123(3), 81–97. https://doi.org/10.26577/JMMCS2024-v123-i3-8