Automatic document summarization based on statistical information

A. Mussina; S. Aubakirov; D. Ahmed-Zaki; P. Trigo

Авторы

A. Mussina Казахский национальный университет имени аль-Фараби
S. Aubakirov Казахский национальный университет имени аль-Фараби
D. Ahmed-Zaki Казахский национальный университет имени аль-Фараби
P. Trigo Instituto Superior de Engenharia de Lisboa, Лиссабон, Португалия

Ключевые слова:

реферирование, автоматическое извлечение, ключевые слова, N-gram

Аннотация

На сегодняшний день актуальной проблемой остается эффективная обработка большого объ-
ема информации, проходящей через наше сознание каждый день. Объектами данного ис-
следования являются алгоритмы автоматического реферирования. Описанная в статье цель
заключается в реализации и сравнении алгоритмов реферирования на корпусе новостных
статей, взятых из интернета. Данная исследовательская работа содержит описание трех
алгоритмов реферирования основанных на алгоритме TextRank: General TextRank, BM25,
LongestCommonSubstring. Особенно отмечаются языки используемого корпуса: русский и ка-
захский. Предоставлены результаты реферирования и их сравнение. Следует подчеркнуть,
что используемые алгоритмы хорошо известны, но способ их оценки на изучаемом корпусе
отличается от тех что обычно используются при оценке краткого содержания. Предлагае-
мый метод оценки аннотаций использует специальный извлеченный словарь ключевых слов
по теме корпуса. Согласно названию в статье описывается применение статистической ин-
формации. Семантические и синтаксические свойства текста не рассматриваются.