Создание базы данных ключевых слов, для определения экстремистской направленности в веб-контенте на казахском языке
DOI:
10.26577/jmmcs-2018-1-492Ключевые слова:
экстремистские тексты, частота терминов, классификация текстаАннотация
Данная работа является частью исследования создания моделей семантического анализа
для определения экстремистской направленности в тексте. Для решения данной задачи
была построена модель, которая состоит из пяти этапов: определение веб-сайтов
экстремистских групп, подготовка к извлечению данных, извлечение данных, анализ данных
и классификация. Данная работа представляет результаты этапа анализа данных указанной
модели. Целью исследования является определение ключевых слов, часто использующихся
экстремистами, которые в дальнейшем будут использоваться для классификации текстов
на «экстремистские» и «нейтральные» категорий с использованием методов машинного
обучения. Для казахского языка не существует такой базы данных. В результате этого
исследования был создан экспериментальный корпус и список ключевых слов на казахском
языке. Ключевые слова были добавлены в базу данных с различными морфологическими
вариантами. Была разработана программа, которая проверяет входной текст на наличие
экстремистских ключевых слов и возвращает найденные слова.










