Автоматическая классификация отзывов, основанная на алгоритмах машинного обучения
Ключевые слова:
тоновая классификация, машинное обучение, машина опорных векторов, логистическая регрессия, наивный байесовский классификаторАннотация
В настоящее время проявляется большой интерес к задаче автоматического анализа мнений пользователей Интернета по различным вопросам. Одной из основных проблем при анализе мнений является классификация текстов по тональности. В работе даны различные подходы к задаче тоновой классификации на 3 класса с использованием методов машинного обучения на примере трех коллекций. Основными задачами, которые ставились в данной работе, являются сравнение различных подходов к представлению текста в рамках векторной модели, применение нескольких методов машинного обучения, различное сочетание статистических и лингвистических признаков, а также анализ полученных результатов. Для построения модели тоновой классификации был выявлен следующий набор статистических и лингвистических признаков: построение векторов слов, учет N -граммов, учет эмотиконов, подсчет восклицательных и вопросительных знаков, учет частей речи, замена долгого повторения гласного на одну гласную, учет отрицаний, учет длины отзывов. В работе были использованы следующие методы машинного обучения: машина опорных векторов, логистическая регрессия и наивный байесовский классификатор. Вычислительные эксперименты проводились с различными вариантами векторной модели слов, N -граммов и признаков описания текста. Результаты экспериментов позволяют сделать рекомендации по выбору наиболее эффективных признаков для тоновой классификации.
