Статистикалық ақпараттар негiзiнде тексттердi автоматты түрде реферирлеу
Кілт сөздер:
реферирлеу, автоматты шығарып алу, кiлттi сөздер, N-gram, TextRankАңдатпа
Бiздiң күнделiктi ақыл-ойымыздан өтетiн көптеген ақпараттарды тиiмдi өңдеу - бүгiнгi
күннiң өзектi мәселесi. Автоматтандырылған реферирлеу алгоритмдерi жұмыстың зерттеу
объектiсi болып табылады. Мақалада сипатталған мақсат интернеттен алынған жаңалықтар
мақалаларының корпусында реферирлеу алгоритмдерiн жүзеге асыру және салыстыру.
Берiлген зерттеу жұмысы TextRank алгоритмiне негiзделген General TextRank, BM25,
LongestCommonSubstring реферирлеудiң үш алгоритмдерiнiң сипаттамаларын қамтиды.
Орыс және қазақ тiлдерi қолданылған қорпустың ерекше тiлдерi ретiнде атап өтiлген.
Реферирлеулер мен олардың салыстыруларының нәтижесi де берiлген. Қолданылатын алго-
ритмдер жақсы танымал екендiгiн атап өтуге болатынына қарамастан, зерттеу барысындағы
бағалау тәсiлi әдеттегi қысқаша мазмұндағы бағалаудан ерекшеленетiнiң айта кету керек.
Ұсынылып отырылған аннотацияларды бағалаудың әдiсi корпус тақырыбындағы арнайы
бөлiп алынған кiлттiк сөздердi пайдаланады. Тақырыпқа сәйкес мақалада статистикалық
ақпаратты пайдалану сипатталған. Мәтiннiң семантикалық және синтаксистiк қасиеттерi
қарастырылмайды.
