Автоматическое реферирование текстов на основе статистической информации

Авторы

  • A. Mussina Казахский национальный университет имени аль-Фараби image/svg+xml
  • S. Aubakirov Казахский национальный университет имени аль-Фараби image/svg+xml
  • D. Ahmed-Zaki Казахский национальный университет имени аль-Фараби image/svg+xml
  • P. Trigo Instituto Superior de Engenharia de Lisboa, Лиссабон, Португалия

Ключевые слова:

реферирование, автоматическое извлечение, ключевые слова, N-gram

Аннотация

На сегодняшний день актуальной проблемой остается эффективная обработка большого объ-
ема информации, проходящей через наше сознание каждый день. Объектами данного ис-
следования являются алгоритмы автоматического реферирования. Описанная в статье цель
заключается в реализации и сравнении алгоритмов реферирования на корпусе новостных
статей, взятых из интернета. Данная исследовательская работа содержит описание трех
алгоритмов реферирования основанных на алгоритме TextRank: General TextRank, BM25,
LongestCommonSubstring. Особенно отмечаются языки используемого корпуса: русский и ка-
захский. Предоставлены результаты реферирования и их сравнение. Следует подчеркнуть,
что используемые алгоритмы хорошо известны, но способ их оценки на изучаемом корпусе
отличается от тех что обычно используются при оценке краткого содержания. Предлагае-
мый метод оценки аннотаций использует специальный извлеченный словарь ключевых слов
по теме корпуса. Согласно названию в статье описывается применение статистической ин-
формации. Семантические и синтаксические свойства текста не рассматриваются.

Опубликован

2019-01-14

Как цитировать

Автоматическое реферирование текстов на основе статистической информации. (2019). Вестник КазНУ. Серия математика, механика, информатика, 96(4), 76-87. https://bm.kaznu.kz/index.php/kaznu/article/view/581