Development of an error correction algorithm for Kazakh language
DOI:
https://doi.org/10.26577/JMMCS2024-v123-i3-8Кілттік сөздер:
Қазақ тiлi, деректер жинағы, бiр тiлдi деректер жинағы, Лейпциг корпустарының жинағы, Левенштейн арақашықтығы, symspellpy, қазақ тiлiндегi көп домендi екi тiлдi деректер жинағыАннотация
Бұл мақалада морфологиялық талдаудың және шулы арналарға негiзделген модельдiң артықшылықтарын пайдалана отырып, қазақ тiлiндегi орфографиялық қателердi түзету әдiсi қарастырылады. Алға қойылған мақсатқа жету үшiн Қазақ мәтiндiк ақпаратын автоматты түрде өңдеудiң қазiргi заманғы мәселелерi талданды. Қазақ тiлiн өңдеудiң қолданыстағы лингвистикалық
ресурстары мен жүйелерi жүйелендi және машиналық оқыту негiзiнде қазақ мәтiндiк ақпаратын талдау жүйесiн әзiрлеуге қойылатын негiзгi талаптар, сондай-ақ құрылымдалмаған ақпараттан фактiлердi алу модельдерi мен алгоритмдерi айқындалды.
Бұл жұмыс iздеу функциясын, кiрiс фразасының ықтимал дұрыс жазылуын ұсына алатын жетiлдiрiлген емленi түзету алгоритмiн қолданды. Iздеу функциясы оңай реттеледi және максималды өңдеу қашықтығының параметрлерiн қолдайды және жақын сәйкестiктер бол-
маған кезде бастапқы терминдi қосады. Сондай ақ регистрлерге негiзделген регистр мен алып тастау сезiмталдығын өңдейдi. Бұл икемдiлiк алгоритмдердi қарапайым UI емле тексерулерiнен бастап табиғи тiлдi өңдеудiң күрделi тапсырмаларына дейiн әртүрлi жағдайларда тиiмдi пайдалануға мүмкiндiк бередi. Дизайнының арқасында iздеу функциясы ықтимал тү-
зетулердi тиiмдi түрде анықтайды және ұсыныстарды елемеу маркерлерi мен сөздiк сияқты теңшелетiн опцияларды ескере отырып, контекстке сәйкестiгiн тексередi.