Создание базы данных ключевых слов, для определения экстремистской направленности в веб-контенте на казахском языке

Авторы

  • M. A. Bolatbek Казахский национальный университет имени аль-Фараби, г. Алматы, Республика Казахстан
  • Sh. Zh. Mussiraliyeva Казахский национальный университет имени аль-Фараби, г. Алматы, Республика Казахстан
  • U. A. Tukeyev Казахский национальный университет имени аль-Фараби, г. Алматы, Республика Казахстан

DOI:

10.26577/jmmcs-2018-1-492

Ключевые слова:

экстремистские тексты, частота терминов, классификация текста

Аннотация

Данная работа является частью исследования создания моделей семантического анализа
для определения экстремистской направленности в тексте. Для решения данной задачи
была построена модель, которая состоит из пяти этапов: определение веб-сайтов
экстремистских групп, подготовка к извлечению данных, извлечение данных, анализ данных
и классификация. Данная работа представляет результаты этапа анализа данных указанной
модели. Целью исследования является определение ключевых слов, часто использующихся
экстремистами, которые в дальнейшем будут использоваться для классификации текстов
на «экстремистские» и «нейтральные» категорий с использованием методов машинного
обучения. Для казахского языка не существует такой базы данных. В результате этого
исследования был создан экспериментальный корпус и список ключевых слов на казахском
языке. Ключевые слова были добавлены в базу данных с различными морфологическими
вариантами. Была разработана программа, которая проверяет входной текст на наличие
экстремистских ключевых слов и возвращает найденные слова.

Опубликован

2018-08-29

Как цитировать

Создание базы данных ключевых слов, для определения экстремистской направленности в веб-контенте на казахском языке. (2018). Вестник КазНУ. Серия математика, механика, информатика, 97(1), 134-142. https://doi.org/10.26577/jmmcs-2018-1-492