Automatic document summarization based on statistical information

A. Mussina; S. Aubakirov; D. Ahmed-Zaki; P. Trigo

Авторлар

A. Mussina Әл-Фараби атындағы Қазақ ұлттық университеті
S. Aubakirov Әл-Фараби атындағы Қазақ ұлттық университеті
D. Ahmed-Zaki Әл-Фараби атындағы Қазақ ұлттық университеті
P. Trigo Instituto Superior de Engenharia de Lisboa, Лиссабон, Португалия

Кілт сөздер:

реферирлеу, автоматты шығарып алу, кiлттi сөздер, N-gram, TextRank

Аңдатпа

Бiздiң күнделiктi ақыл-ойымыздан өтетiн көптеген ақпараттарды тиiмдi өңдеу - бүгiнгi
күннiң өзектi мәселесi. Автоматтандырылған реферирлеу алгоритмдерi жұмыстың зерттеу
объектiсi болып табылады. Мақалада сипатталған мақсат интернеттен алынған жаңалықтар
мақалаларының корпусында реферирлеу алгоритмдерiн жүзеге асыру және салыстыру.
Берiлген зерттеу жұмысы TextRank алгоритмiне негiзделген General TextRank, BM25,
LongestCommonSubstring реферирлеудiң үш алгоритмдерiнiң сипаттамаларын қамтиды.
Орыс және қазақ тiлдерi қолданылған қорпустың ерекше тiлдерi ретiнде атап өтiлген.
Реферирлеулер мен олардың салыстыруларының нәтижесi де берiлген. Қолданылатын алго-
ритмдер жақсы танымал екендiгiн атап өтуге болатынына қарамастан, зерттеу барысындағы
бағалау тәсiлi әдеттегi қысқаша мазмұндағы бағалаудан ерекшеленетiнiң айта кету керек.
Ұсынылып отырылған аннотацияларды бағалаудың әдiсi корпус тақырыбындағы арнайы
бөлiп алынған кiлттiк сөздердi пайдаланады. Тақырыпқа сәйкес мақалада статистикалық
ақпаратты пайдалану сипатталған. Мәтiннiң семантикалық және синтаксистiк қасиеттерi
қарастырылмайды.