Көптiлдi ортадағы қазақ тiлi үшiн тiрек сөздер арқылы аудиодадағы ақпараттарды iздеу жүйесiнде тiлдi тану
Кілт сөздер:
тiлдi анықтау, ұзақ қысқа мерзiмдi жадылы қайталанатын нейрондық желi, автоматты түрде сөйлеуди тану, аудиодан кiлт сөздер арқылы ақпарат iздеуАңдатпа
Зор деректердi өңдеу қазiргi АТ саласының маңызды бағыттарының бiрi болып табылады,
және аудио деректер оның негiзгi көздерiнiң бiрi ретiнде саналады. Демек, дыбыстық ақпа-
раттың көлемiнiң ұлғаюымен бiрге, сол аудио деректерден тиiмдi ақпараттық-iздеу жүйесiн
(STD) құру қажеттiлiгi жоғары. Дыбыс деректерi әртүрлi тiлдерде болуы мүмкiн болған-
дықтан, аудиодағы тiлдi тану қажет. Автоматты түрде тiлдi тану (LID) сөйлеу үлгiсiнде
айтылған тiлдердi автоматты түрде анықтай алатын тапсырма ретiнде қарастырылады. Сиг-
налдарды өңдеу, машиналық оқыту және нейрондық желiлер сияқты салалардағы техноло-
гиялық жетiстiктер LID көрсеткiштерiн жақсартты.
Бұл жұмыста қазақ тiлiндегi дыбыс үлгiлерiн анықтау үшiн жаңа технология болып сана-
латын ұзақ қысқа мерзiмдi жадылы қайталанатын нейрондық желiлердi (RNN LSTM) қол-
дандық. LSTM желiлерi RNN түрi ретiнде қарастырылады, ол стандартты құрылғылармен
бiрге арнайы бiрлiктердi пайдаланады. Сонымен қатар, LSTM блоктары ұзақ уақыт бойы
ақпаратты жадта сақтауға болатын «жады ұяшығынан» тұрады. STD жүйесi қазақ тiлiнде-
гi аудио материалдарды LID көмегiмен таңдай алады және осылайша есептеу ресурстарын
басқа тiлдердегi аудио деректерге жұмсамайды. Осы мақалада бiз сөйлеудi автоматты түрде
анықтауға, дыбыстық терминдердi табу және қазақ тiлiнде 1c, 2c және 3c үлгiлерiнiң аудио
сегменттерi үшiн LSTM RNN эксперименттерiнiң нәтижелерiн ұсынамыз.
