Автоматическая классификация отзывов, основанная на алгоритмах машинного обучения
Ключевые слова:
тоновая классификация, машинное обучение, машина опорных векторов, логистическая регрессия, наивный байесовский классификаторАннотация
В настоящее время проявляется большой интерес к задаче автоматического анализа мнений пользователей Интернета по различным вопросам. Одной из основных проблем при анализе мнений является классификация текстов по тональности. В работе даны различные подходы к задаче тоновой классификации на 3 класса с использованием методов машинного обучения на примере трех коллекций. Основными задачами, которые ставились в данной работе, являются сравнение различных подходов к представлению текста в рамках векторной модели, применение нескольких методов машинного обучения, различное сочетание статистических и лингвистических признаков, а также анализ полученных результатов. Для построения модели тоновой классификации был выявлен следующий набор статистических и лингвистических признаков: построение векторов слов, учет N -граммов, учет эмотиконов, подсчет восклицательных и вопросительных знаков, учет частей речи, замена долгого повторения гласного на одну гласную, учет отрицаний, учет длины отзывов. В работе были использованы следующие методы машинного обучения: машина опорных векторов, логистическая регрессия и наивный байесовский классификатор. Вычислительные эксперименты проводились с различными вариантами векторной модели слов, N -граммов и признаков описания текста. Результаты экспериментов позволяют сделать рекомендации по выбору наиболее эффективных признаков для тоновой классификации.
Библиографические ссылки
[2] Feng, V. W., Hirst G. Detecting deceptive opinions with profile compatibility. // In: Proceedings of the 6th international joint conference on natural language processing. – 2013. – P. 338–346.
[3] Liu B. Sentiment Analysis and Opinion Mining. Morgan and Claypool Publ. – 2012.
[4] Kotelnikov Y.V. Combined method of automatic determination of the text tonality. // J. Software products and systems. – 2012. – Vol 3. – P. 189–195.
[5] Prabowo R., Thelwall M. Sentiment analysis: A combined approach. // Journal of Informetrics. – Vol. 3, issue 2. – 2009. – P. 143-157.
[6] Kevin P. Murphy. Machine Learning: A Probabilistic Perspective (Adaptive Computation and Machine Learning series). The MIT Press. – 2012.
[7] Jindal N., Liu B., Lim E. DFinding unusual review patterns using unexpected rules. // In: CIKM ’10, Proceedings of the 19th ACM international conference on information and knowledge management. – 2010. – P. 219–230.
[8] Montoyo A., Martinez-Barco P., Balahur A. (2012). Subjectivity and sentiment analysis: An overview of the current state of the area and envisaged developments. // J. Decision Support Systems. – Vol. 53, issue 4. – P. 675–679.
[9] Panicheva P., Cardiff J., Rosso P. Identifying subjective statements in news titles using a personal sense annotation framework. // Journal of the American Society for Information Science and Technology. – 2013. – Vol. 64, issue 7. – P. 1411–1422.
[10] Severyn A., Moschitti A., Uryupina O., Plank B., Filippova K. Opinion mining on YouTube. // In: Proceedings of the Conference ACL. – 2014.
[11] Uryupina O., Plank B., Severyn A., Rotondi A., Moschitti A. SenTube: A corpus for sentiment analysis on YouTube social media. // In: Proceedings of the International Conference on Language Resources and Evaluation LREC. – 2014.
[12] Basile V., Nissim M. Sentiment analysis on Italian tweets. // In: Proceedings of the 4th Workshop on computational approaches to subjectivity, sentiment and social media analysis. – 2013.