Automatic document summarization based on statistical information

A. Mussina; S. Aubakirov; D. Ahmed-Zaki; P. Trigo

Авторы

A. Mussina Казахский национальный университет имени аль-Фараби
S. Aubakirov Казахский национальный университет имени аль-Фараби
D. Ahmed-Zaki Казахский национальный университет имени аль-Фараби
P. Trigo Instituto Superior de Engenharia de Lisboa, Лиссабон, Португалия

148 97

Ключевые слова:

реферирование, автоматическое извлечение, ключевые слова, N-gram

Аннотация

На сегодняшний день актуальной проблемой остается эффективная обработка большого объ-
ема информации, проходящей через наше сознание каждый день. Объектами данного ис-
следования являются алгоритмы автоматического реферирования. Описанная в статье цель
заключается в реализации и сравнении алгоритмов реферирования на корпусе новостных
статей, взятых из интернета. Данная исследовательская работа содержит описание трех
алгоритмов реферирования основанных на алгоритме TextRank: General TextRank, BM25,
LongestCommonSubstring. Особенно отмечаются языки используемого корпуса: русский и ка-
захский. Предоставлены результаты реферирования и их сравнение. Следует подчеркнуть,
что используемые алгоритмы хорошо известны, но способ их оценки на изучаемом корпусе
отличается от тех что обычно используются при оценке краткого содержания. Предлагае-
мый метод оценки аннотаций использует специальный извлеченный словарь ключевых слов
по теме корпуса. Согласно названию в статье описывается применение статистической ин-
формации. Семантические и синтаксические свойства текста не рассматриваются.

Библиографические ссылки

[1] Chin-Yew Lin, "ROUGE: A Package For Automatic Evaluation Of Summaries,"ACL Anthology Network (2004): 74–81,
accessed October 20, 2016
[2] Chuleerat Jaruskulchai and Canasai Kruengkrai, "A Practical Text Summarizer by Paragraph Extraction for Thai,"(paper
presented at the Proceedings of the Sixth InternationalWorkshop on Information Retrieval with Asian Languages, Sappro,
Japan, July 7, 2003)
[3] Federico Barrios, Federico Lopez, Luis Argerich, RositaWachenchauzer, "Variations of the Similarity Function of TextRank
for Automated Summarization,"Cornell University Library (2016): 65-72, accessed November 14, 2016, arXiv:1602.03606.
[4] Fukumoto F., Suzuki Y., Fukumoto J., "An Automatic Extraction of Key Paragraphs Based on Context
Dependency,"Natural language processing Vol. 4 (1997): 89-109, DOI:10.5715/jnlp.4.2_89.
[5] Mandar Mitrat, Amit Singhal, Chris Buckleytt, "Automatic Text Summarization by paragraph Extraction,"Intelligent
Scalable Text Summarization (1997):39-46.
[6] Nagwani N.K., "Summarizing large text collection using topic modeling and clustering based on MapReduce
framework,"Journal of Big Data (2015): 18.
[7] Page L., Brin S., Motwani R., Winograd T., "The pagerank citation ranking: Bringing order to the web,"(paper presented
at the Proceedings of the 7th International World Wide Web Conference, Brisbane, Australia, 1998)
[8] Sandeep S. and Jagadeesh J., "Summarization Approaches Based on Document Probability Distributions,"(paper
presented at Proceedings of the 23rd Pacific Asia Conference on Language, Information and Computation, Hong Kong,
China, December 3-5, 2009).
[9] Wikipedia. "Automatic summarization."Accessed November 25, 2016,
https://en.wikipedia.org/wiki/Automatic_summarization.
[10] Wikipedia. "Stop words."Accessed June 30, 2015, https://en.wikipedia.org/wiki/Stop_words.
[11] Yacko V.A., "Simmetrichnoe referirovanie: teoreticheskie osnovy i metodika,"Nauchno-tehnicheskaya informaciya Ser.2
(2002): 18-28

Автоматическое реферирование текстов на основе статистической информации

Авторы

Ключевые слова:

Аннотация

Библиографические ссылки

Загрузки

Как цитировать

Выпуск

Раздел

Язык

Информация

Быстрые ссылки