Классификация новостей при помощи Apache Lucene

Авторы

  • S. S. Aubakirov Казахский национальный университет имени аль-Фараби
  • D. Zh. Akhmed-Zaki Казахский национальный университет имени аль-Фараби
  • P.S. Trigo Instituto Superior de Engenharia de Lisboa, Biosystems and Integrative Sciences Institute Agent and Systems Modeling
        47 27

Ключевые слова:

бинарная классификация, алгоритмы обучения, Apache Lucene

Аннотация

В данной статье рассматривается задача бинарной классификации текстовых сообщений на базе индексов платформы Apache Lucene. Сформулирована задача классификации текстовых новостей, поступающих в режиме реального времени. Разработаны методы получения тестовой и обучающей выборки, а также методы оценки точности классификации. Для исследования были выбраны три основных атрибута, влияющих на индексы Apache Lucene и, как следствие, на точность классификаторов. Одним из атрибутов индексов являются слова, на основе которых они построены. Мы используем понятие Ngram вместо слов, где число N варьируются от одного до пяти. Второй атрибут - метод предварительной обработки текста, а именно нормализация текста и фильтрация стоп-слов. Третий атрибут - алгоритм построения модели классификации. Для данного исследования мы выбрали два алгоритма: классификация методом “K-ближайших соседей” и “наивный байесовский классификатор”. Изменение первых двух атрибутов приводит к изменению свойств индекса и, как результат, к формированию различных типов индексов. В работе рассмотрена практическая реализация создания и обучения классификаторов в зависимости от типа индексов. Проведен анализ влияния типа индексов на точность классификаторов.

Библиографические ссылки

[1] Markus M., Matthias H., Ulrike H. Optimal construction of k-nearest neighbor graphs for identifying noisy clusters. // Theoretical Computer Science. – 2009. – No 410(19). – P. 1749–1764.
[2] David M W Powers. Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness and Correlation. // Journal of Machine Learning Technologies. – 2011. – Vol. 2 (1). – P. 37–63.
[3] Landis J.R., Koch G.G. The Measurement of Observer Agreement for Categorical Data. // Biometrics. – 1977. – Vol. 33. – No 1. – P. 159–174.
[4] Saman M., Robert S. The Learning Curve and Optimal Production under Uncertainty. // Rand Journal of Economics. – 1987. – Vol. 20. – No 3. – P. 331–343.
[5] Christopher M., Bo T., David H. The Learning Curve Sampling Method Applied to Method Based Clustering. // Journal of Machine Learning Research 2S. – 2002. – P. 397–418.

Загрузки

Опубликован

2017-11-20

Как цитировать

Aubakirov, S. S., Akhmed-Zaki, D. Z., & Trigo, P. (2017). Классификация новостей при помощи Apache Lucene. Вестник КазНУ. Серия математика, механика, информатика, 91(3), 59–65. извлечено от https://bm.kaznu.kz/index.php/kaznu/article/view/345