Қазақ тiлдi веб-контенттегi экстремистiк бағытты анықтауға арналған түйiнсөздер мәлiметтер қорын құру
DOI:
https://doi.org/10.26577/jmmcs-2018-1-492Кілт сөздер:
extremist texts, term frequency, text classification, emotional scoresАңдатпа
Бұл жұмыс мәтiндегi экстремистiк бағытты анықтау үшiн веб-ресурстарды семантикалық
талдау үлгiлерiн құру зерттеуiнiң бөлiмi болып табылады. Аталған есептi шешу үшiн
бес кезеңнен тұратын үлгi құрылды: экстремистiк топтардың веб-сайттарын анықтау,
мәлiметтердi алуға дайындық жүргiзу, мәлiметтердi алу, мәлiметтердi талдау және жiктеу.
Берiлген жұмыс жоғарыда аталған үлгiнiң мңлiметтердi талдау кезеңiнiң нәтижелерiн
көрсетедi. Жұмыстың мақсаты экстремистер жиi қолданатын және келесi кезеңдерде мәтiндi
“экстремистiк” және “бейтарап” санаттарға машиналық оқыту әдiстерi көмегiмен жiктеуде
пайдаланылатын түйiнсөздердi анықтау болып табылады. Қазақ тiлi үшiн мүндай сөздiк
жоқ. Зерттеу нәтижесi ретiнде қазақ тiлiндегi эксперименталдық корпус пен мәлiметтер
қоры құрылды. Түйiнсөздер мәлiметтер қорына бiрнеше морфологиялық нұсқаларымен
бiрге енгiзiлдi. Кiрiс мәтiндi экстремистiк түйiнсөздердiң болуына тексеретiн және табылған
сөздердi қайтаратын бағдарлама құрылды.
