Извлечение словаря на основе статистических данных

Авторы

  • A. Mussina Казахский национальный университет имени аль-Фараби, г. Алматы, Республика Казахстан
  • S. Aubakirov Казахский национальный университет имени аль-Фараби, г. Алматы, Республика Казахстан

Ключевые слова:

автоматическое извлечение, ключевые слова, N-gram

Аннотация

Автоматическое реферирование текста это актуальная проблема при работе с большим количеством информации. Большинство алгоритмов, которые работают на основе статистических данных, подсчитывают схожесть текстовых единиц и их важность при состовлении краткого содержания. Текстовой единицей может быть слово, предложение или параграф, в нашем случае это предложение. Сходство считается наличием ключевых слов в предложениях. Ключевые слова - это слова, которые указывают на тематику текста. В этой исследовательской работе мы опишим автоматическое извлечение ключевых слов, где ключевыми словами являются N-граммы с N от 1 до 5. Реализованы два алгоритма: получение слов, которые встречаются только в одном из двух разных корпусов и получение слов с высокой степенью важности. Важность N-gram обозначается его принадлежностью к тематике текста. Использованы тексты на русском и казахском языках. Алгоритмы показывают важные результаты, оба могут быть использованы в создании полного словаря ключевых слов.

Опубликован

2018-07-16

Как цитировать

Извлечение словаря на основе статистических данных. (2018). Вестник КазНУ. Серия математика, механика, информатика, 94(2), 72-82. https://bm.kaznu.kz/index.php/kaznu/article/view/447