Development of an error correction algorithm for Kazakh language

Авторлар

DOI:

https://doi.org/10.26577/JMMCS2024-v123-i3-8
        100 97

Кілттік сөздер:

Қазақ тiлi, деректер жинағы, бiр тiлдi деректер жинағы, Лейпциг корпустарының жинағы, Левенштейн арақашықтығы, symspellpy, қазақ тiлiндегi көп домендi екi тiлдi деректер жинағы

Аннотация

Бұл мақалада морфологиялық талдаудың және шулы арналарға негiзделген модельдiң артықшылықтарын пайдалана отырып, қазақ тiлiндегi орфографиялық қателердi түзету әдiсi қарастырылады. Алға қойылған мақсатқа жету үшiн Қазақ мәтiндiк ақпаратын автоматты түрде өңдеудiң қазiргi заманғы мәселелерi талданды. Қазақ тiлiн өңдеудiң қолданыстағы лингвистикалық
ресурстары мен жүйелерi жүйелендi және машиналық оқыту негiзiнде қазақ мәтiндiк ақпаратын талдау жүйесiн әзiрлеуге қойылатын негiзгi талаптар, сондай-ақ құрылымдалмаған ақпараттан фактiлердi алу модельдерi мен алгоритмдерi айқындалды.
Бұл жұмыс iздеу функциясын, кiрiс фразасының ықтимал дұрыс жазылуын ұсына алатын жетiлдiрiлген емленi түзету алгоритмiн қолданды. Iздеу функциясы оңай реттеледi және максималды өңдеу қашықтығының параметрлерiн қолдайды және жақын сәйкестiктер бол-
маған кезде бастапқы терминдi қосады. Сондай ақ регистрлерге негiзделген регистр мен алып тастау сезiмталдығын өңдейдi. Бұл икемдiлiк алгоритмдердi қарапайым UI емле тексерулерiнен бастап табиғи тiлдi өңдеудiң күрделi тапсырмаларына дейiн әртүрлi жағдайларда тиiмдi пайдалануға мүмкiндiк бередi. Дизайнының арқасында iздеу функциясы ықтимал тү-
зетулердi тиiмдi түрде анықтайды және ұсыныстарды елемеу маркерлерi мен сөздiк сияқты теңшелетiн опцияларды ескере отырып, контекстке сәйкестiгiн тексередi.

Авторлардың биографисы

Ш.Ж. Мусиралиева, Әл-Фараби атындағы Қазақ ұлттық университетi, Алматы, Қазақстан

Мүсiралиева Шынар– физика-математика ғылымдарының кандидаты, доцент, әл-Фараби атындағы ҚазҰУ ақпараттық жүйелер кафедрасы (Алматы қ., Қазақстан, email: mussiraliyevash@gmail.com)

М.А. Болатбек, Әл-Фараби атындағы Қазақ ұлттық университетi, Алматы, Қазақстан

Болатбек Милана– PhD, әл-Фараби атындағы ҚазұУ ақпараттық жүйелер кафедрасының аға оқытушысы (Алматы қ., Қазақстан, email: bolatbek.milana@gmail.com)

Ж. Елтай, Әл-Фараби атындағы Қазақ ұлттық университетi, Алматы, Қазақстан

Елтай Жастай– ғылым магистрi, әл-Фараби атындағы ҚазҰУ (Алматы қ., Қазақстан, email: jastayeltay@gmail.com)

Қ. Азанбай, Әл-Фараби атындағы Қазақ ұлттық университетi, Алматы, Қазақстан

Азанбай Құралай (корреспондент автор)– ғылым магистрi, әл-Фараби атындағы ҚазҰУ ақпараттық жүйелер кафедрасының оқытушысы (Алматы қ., Қазақстан, email: kuralayazanbay@gmail.com)

Жүктелулер

Как цитировать

Мусиралиева . S. ., Болатбек M. ., Елтай Z., & Азанбай . K. (2024). Development of an error correction algorithm for Kazakh language. Қазұу Хабаршысы. Математика, механика, информатика сериясы, 123(3), 81–97. https://doi.org/10.26577/JMMCS2024-v123-i3-8