Извлечение словаря на основе статистических данных
Ключевые слова:
автоматическое извлечение, ключевые слова, N-gramАннотация
Автоматическое реферирование текста это актуальная проблема при работе с большим количеством информации. Большинство алгоритмов, которые работают на основе статистических данных, подсчитывают схожесть текстовых единиц и их важность при состовлении краткого содержания. Текстовой единицей может быть слово, предложение или параграф, в нашем случае это предложение. Сходство считается наличием ключевых слов в предложениях. Ключевые слова - это слова, которые указывают на тематику текста. В этой исследовательской работе мы опишим автоматическое извлечение ключевых слов, где ключевыми словами являются N-граммы с N от 1 до 5. Реализованы два алгоритма: получение слов, которые встречаются только в одном из двух разных корпусов и получение слов с высокой степенью важности. Важность N-gram обозначается его принадлежностью к тематике текста. Использованы тексты на русском и казахском языках. Алгоритмы показывают важные результаты, оба могут быть использованы в создании полного словаря ключевых слов.










