Терең оқыту модельдерi негiзiнде қазақ тiлiнiң морфологиялық талдауы

Авторлар

DOI:

https://doi.org/10.26577/JMMCS2024-v124-i4-a4
        54 40

Кілттік сөздер:

қазақ тілі, морфорогиялық талдау, RNN, Transformer

Аннотация

Морфологиялық талдау – табиғи тiлдi өңдеудегi (NLP) саласындағы iргелi есеп, үлкен тiлдiк модельдердiң (LLM) өнiмдiлiгiн арттыруда шешушi рөл атқарады. Соңғы жылдары NLP технологиялары қарқынды дамып келедi, алайда бай морфологиясы бар қазақ тiлi үшiн морфологиялық талдаудың тиiмдi алгоритмдерiн әзiрлеу өзектi есеп болып қала бередi. Бұл зерттеудiң мақсаты LLMs-дi пайдалануға арнайы бейiмделген қазақ тiлi үшiн морфологиялық талдау алгоритмiн әзiрлеу болып табылады. Зерттеу келесi мiндеттердi қарастырады: мәлiметтер корпусын жинау және өңдеу, сәйкес алгоритмдердi таңдау және бейiмдеу, модельдердi оқыту және бағалау жасау. Бұл мақалада қазақ тiлiнiң морфологиялық талдауы үшiн терең оқыту модельдерiн қолдану, атап айтқанда, рекуренттi (қайталанатын) нейрондық желiлер (RNN) және трансформаторлық модельдер туралы егжей-тегжейлi зерттеу жасалған. Қазақ тiлi агглютинативтi тiл болғандықтан, сөзжасамға бiрнеше жұрнақтар мен префикстердi қосу арқылы қол жеткiзiледi, морфологиялық талдау мiндетi есептеу модельдерi үшiн ерекше қиындық туғызады. Рекуренттi (қайталанатын) нейрондық желiлердiң (RNNs), соның iшiнде LSTM және GRU жақсартулары бар желiлердiң өнiмдiлiгi трансформаторлық модельдермен салыстырғанда бағаланады, олардың қазақ тiлiнiң күрделi морфологиясын талдау қабiлетiне баса назар
аударылады. Нәтижелер агглютинативтi тiлдердi өңдеудiң әрбiр тәсiлiнiң артықшылықтары мен шектеулерiн сипаттайды, Бұл RNN көбiнесе қазақ морфологиялық талдауы үшiн тиiмдiрек екенiн көрсетедi, Ал трансформер модельдер мұндай тiлдерде оңтайлы нәтижелерге қол жеткiзу үшiн қосымша баптауларды талап етедi. Бiздiң нәтижелерiмiз агглютинативтi тiлдiк тапсырмалар үшiн әрбiр модельдiң күштi жақтары мен шектеулерiн көрсетедi, бұл RNN қазақ тiлiн морфологиялық талдау үшiн қолайлырақ екенiн, ал Transformer модельдерi осындай тiлдердi одан әрi оңтайландыру арқылы ұтымды
болуын көрсетедi.

Автордың биографиясы

M.E. Мансурова, әл-Фараби атындағы Қазақ ұлттық университетi, Алматы қ., Қазақстан

Мадина Мансурова (корреспондент автор)- физика-математика ғылымдарының кандидаты, әл-Фараби атындағы Қазақ ұлттық университетiнiң ақпараттық технологиялар факультетiнiң жасанды интеллект және үлкен деректер кафедрасының профессоры (Алматық., Қазақстан, email: mansurova.madina@gmail.com)

Жүктелулер

Как цитировать

Мансурова M. ., & Рахимова D. . (2025). Терең оқыту модельдерi негiзiнде қазақ тiлiнiң морфологиялық талдауы. Қазұу Хабаршысы. Математика, механика, информатика сериясы, 124(4), 48–58. https://doi.org/10.26577/JMMCS2024-v124-i4-a4