Статистикалық деректер негiзiнде дайындау сөздiк
Кілт сөздер:
автоматты шығарып алу, кiлттi сөздер, N-gramАңдатпа
Мәтiндi автоматты реферерлеу - бұл ақпараттың үлкен санымен жұмыс iстеу кезiндегi өзектi мәселе. Статистикалық деректердiң негiзiнде жұмыс iстейтiн алгоритмдердiң көпшiлiгi мәтiндiк бiрлiктердiң ұқсастығын және олардың қысқаша мазмұн жасау кезiндегi маңыздылығын есептейдi. Мәтiндiк бiрлiк ретiнде сөз, сөйлем немесе бөлiм болуы мүмкiн, бiздiң жағдайда бұл - сөйлем. Сөйлемдерде кiлт сөздердiң болуы, ұқсастық болып саналады. Кiлт сөздер - олар мәтiннiң мазмұнымен болмысына нұсқайтын сөздер. Осы зерттеу жұмысында бiз авттоматты түрде кiлт сөздердi алуды сиппаттаймыз, бұл жерде N - граммалар N 1-ден бастап 5-ке дейiн кiлт сөздер болып табылады. Қазiргi таңда екi алгоритм iске асырылды олар - әр түрлi екi корпустардың тек қана бiрiнде кездесетiн сөздердi алу және жоғары дәрежелi маңыздылығы бар сөздердi алу. N -граммалардың маңыздылығы оның мәтiннiң мазмұнына тиiстiлiгiне қарай белгiленедi. Қазақ және орыс тiлдерiндiегi мәтiндер қолданылды. Алгоритмдер маңызды нәтижелер көрсетуде, екеуi де толық кiлт сөздер сөздiгiн құру барысында пайдаланылуы мүмкiн.










