Классификация новостей при помощи Apache Lucene

Авторы

  • S. S. Aubakirov Казахский национальный университет имени аль-Фараби image/svg+xml
  • D. Zh. Akhmed-Zaki Казахский национальный университет имени аль-Фараби image/svg+xml
  • P.S. Trigo Instituto Superior de Engenharia de Lisboa, Biosystems and Integrative Sciences Institute Agent and Systems Modeling

Ключевые слова:

бинарная классификация, алгоритмы обучения, Apache Lucene

Аннотация

В данной статье рассматривается задача бинарной классификации текстовых сообщений на базе индексов платформы Apache Lucene. Сформулирована задача классификации текстовых новостей, поступающих в режиме реального времени. Разработаны методы получения тестовой и обучающей выборки, а также методы оценки точности классификации. Для исследования были выбраны три основных атрибута, влияющих на индексы Apache Lucene и, как следствие, на точность классификаторов. Одним из атрибутов индексов являются слова, на основе которых они построены. Мы используем понятие Ngram вместо слов, где число N варьируются от одного до пяти. Второй атрибут - метод предварительной обработки текста, а именно нормализация текста и фильтрация стоп-слов. Третий атрибут - алгоритм построения модели классификации. Для данного исследования мы выбрали два алгоритма: классификация методом “K-ближайших соседей” и “наивный байесовский классификатор”. Изменение первых двух атрибутов приводит к изменению свойств индекса и, как результат, к формированию различных типов индексов. В работе рассмотрена практическая реализация создания и обучения классификаторов в зависимости от типа индексов. Проведен анализ влияния типа индексов на точность классификаторов.

Опубликован

2017-11-20

Как цитировать

Классификация новостей при помощи Apache Lucene. (2017). Вестник КазНУ. Серия математика, механика, информатика, 91(3), 59-65. https://bm.kaznu.kz/index.php/kaznu/article/view/345