Dictionary extraction based on statistical data

A. Mussina; S. Aubakirov

Авторы

A. Mussina Казахский национальный университет имени аль-Фараби, г. Алматы, Республика Казахстан
S. Aubakirov Казахский национальный университет имени аль-Фараби, г. Алматы, Республика Казахстан

Ключевые слова:

автоматическое извлечение, ключевые слова, N-gram

Аннотация

Автоматическое реферирование текста это актуальная проблема при работе с большим количеством информации. Большинство алгоритмов, которые работают на основе статистических данных, подсчитывают схожесть текстовых единиц и их важность при состовлении краткого содержания. Текстовой единицей может быть слово, предложение или параграф, в нашем случае это предложение. Сходство считается наличием ключевых слов в предложениях. Ключевые слова - это слова, которые указывают на тематику текста. В этой исследовательской работе мы опишим автоматическое извлечение ключевых слов, где ключевыми словами являются N-граммы с N от 1 до 5. Реализованы два алгоритма: получение слов, которые встречаются только в одном из двух разных корпусов и получение слов с высокой степенью важности. Важность N-gram обозначается его принадлежностью к тематике текста. Использованы тексты на русском и казахском языках. Алгоритмы показывают важные результаты, оба могут быть использованы в создании полного словаря ключевых слов.