Автоматическое реферирование текстов на основе статистической информации
Ключевые слова:
реферирование, автоматическое извлечение, ключевые слова, N-gramАннотация
На сегодняшний день актуальной проблемой остается эффективная обработка большого объ-
ема информации, проходящей через наше сознание каждый день. Объектами данного ис-
следования являются алгоритмы автоматического реферирования. Описанная в статье цель
заключается в реализации и сравнении алгоритмов реферирования на корпусе новостных
статей, взятых из интернета. Данная исследовательская работа содержит описание трех
алгоритмов реферирования основанных на алгоритме TextRank: General TextRank, BM25,
LongestCommonSubstring. Особенно отмечаются языки используемого корпуса: русский и ка-
захский. Предоставлены результаты реферирования и их сравнение. Следует подчеркнуть,
что используемые алгоритмы хорошо известны, но способ их оценки на изучаемом корпусе
отличается от тех что обычно используются при оценке краткого содержания. Предлагае-
мый метод оценки аннотаций использует специальный извлеченный словарь ключевых слов
по теме корпуса. Согласно названию в статье описывается применение статистической ин-
формации. Семантические и синтаксические свойства текста не рассматриваются.
