Классификация новостей при помощи Apache Lucene
Ключевые слова:
бинарная классификация, алгоритмы обучения, Apache LuceneАннотация
В данной статье рассматривается задача бинарной классификации текстовых сообщений на базе индексов платформы Apache Lucene. Сформулирована задача классификации текстовых новостей, поступающих в режиме реального времени. Разработаны методы получения тестовой и обучающей выборки, а также методы оценки точности классификации. Для исследования были выбраны три основных атрибута, влияющих на индексы Apache Lucene и, как следствие, на точность классификаторов. Одним из атрибутов индексов являются слова, на основе которых они построены. Мы используем понятие Ngram вместо слов, где число N варьируются от одного до пяти. Второй атрибут - метод предварительной обработки текста, а именно нормализация текста и фильтрация стоп-слов. Третий атрибут - алгоритм построения модели классификации. Для данного исследования мы выбрали два алгоритма: классификация методом “K-ближайших соседей” и “наивный байесовский классификатор”. Изменение первых двух атрибутов приводит к изменению свойств индекса и, как результат, к формированию различных типов индексов. В работе рассмотрена практическая реализация создания и обучения классификаторов в зависимости от типа индексов. Проведен анализ влияния типа индексов на точность классификаторов.
Библиографические ссылки
[2] David M W Powers. Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness and Correlation. // Journal of Machine Learning Technologies. – 2011. – Vol. 2 (1). – P. 37–63.
[3] Landis J.R., Koch G.G. The Measurement of Observer Agreement for Categorical Data. // Biometrics. – 1977. – Vol. 33. – No 1. – P. 159–174.
[4] Saman M., Robert S. The Learning Curve and Optimal Production under Uncertainty. // Rand Journal of Economics. – 1987. – Vol. 20. – No 3. – P. 331–343.
[5] Christopher M., Bo T., David H. The Learning Curve Sampling Method Applied to Method Based Clustering. // Journal of Machine Learning Research 2S. – 2002. – P. 397–418.