Создание модели семантического анализа текстов экстремистской направленности на казахском языке

Авторы

  • Ш.Ж. Мусиралиева Казахский национальный университет имени аль-Фараби, Казахстан, г. Алматы https://orcid.org/0000-0001-5794-3649
  • М.А. Болатбек Казахский национальный университет имени аль-Фараби, Казахстан, г. Алматы https://orcid.org/0000-0002-2153-180X
  • А.Н. Жумаханова Казахский национальный университет имени аль-Фараби, Казахстан, г. Алматы https://orcid.org/0009-0008-0210-4037
  • Г. Байспай Казахский национальный университет имени аль-Фараби, Казахстан, г. Алматы https://orcid.org/0000-0003-4292-2938
  • Ж. Медетбек Казахский национальный университет имени аль-Фараби, Казахстан, г. Алматы https://orcid.org/0000-0001-7536-5889

DOI:

https://doi.org/10.26577/JMMCS2024121111
        157 133

Ключевые слова:

интернет экстремизм, машинное обучение, глубокое обучение, социальные сети, нейронные сети

Аннотация

В настоящее время большое внимание уделяется использованию семантического анализа для изучения текстов и точек зрения, выраженных на казахском языке в социальных сетях, с основной целью выявления контента подозрительного или экстремистского характера. Эта исследовательская статья посвящена изучению применения методов машинного обучения и глубокого обучения в области обнаружения экстремистского контента в текстовых данных.

В исследовании учитывается несколько важных факторов, в том числе избыточная и недостаточная выборка на этапе обработки признаков, тонкая дифференциация между экстремистскими и нейтральными субъектами, а также решение проблем несбалансированной классификации. Эти соображения завершаются разработкой сложной модели глубокого обучения для классификации текста. Исследование включает в себя использование различных моделей машинного обучения для выявления экстремистского содержания в текстовых материалах. Кроме того, проводится всесторонний сравнительный анализ методологий машинного обучения для определения наиболее эффективного подхода к этой задаче с учетом методов передискретизации и недостаточной выборки для решения проблем дисбаланса данных.

Исследовательские усилия разделены на две основные подзадачи: разработка модели машинного обучения, специализирующейся на обнаружении экстремистского контента в тексте, и построение модели глубокого обучения, учитывающей уникальные характеристики казахского языка и доступный набор данных.

Кроме того, исследование углубляется в тонкости обработки признаков, кульминацией которых является сравнительная оценка результатов, полученных с помощью ряда алгоритмов машинного обучения, используемых для классификации религиозного экстремизма, каждый из которых использует отдельные комбинации признаков. Исследованные методологии включают деревья решений, случайные леса, машины опорных векторов, k-ближайших соседей, логистическую регрессию и наивный байесовский подход.

Это исследование вносит значительный вклад в области анализа текста, искусственного интеллекта и машинного обучения, предлагая практические рекомендации по обработке и категоризации текстов, связанных с религиозным экстремизмом. Более того, это подчеркивает современную значимость проведения семантического анализа экстремистских текстов, написанных на казахском языке.

Библиографические ссылки

Bolatbek M.A., Mussiraliyeva Sh.Zh. Identification of extremist texts using machine learning methods // Bulletin of KazUTZU. – 2018. No. 6 (130). - P. 300-304.

Yntykbai B.N., Mussiraliyeva Sh.Zh., Bolatbek M.A. Analysis of security and confidentiality in social networks using machine learning methods // Materials of the International Scientific Conference of Students and Young Students "Farabi World". - Almaty: Kazakh University, 2021. - P.119.

Chesnokov V.O. The application of the algorithm of selection of communities in information warfare in social networks // Questions of cyber security. – 2017. – No. 1 (19). - C. 37-44.

Ripeanu, K. Beznosov, and E. Santos-Neto. Thwarting fake OSN accounts by predicting their victims // Proceedings of the 8th ACM Workshop on Artificial Intelligence and Security. - 2015. - P.81-89.

Basu A. Social network analysis: A methodology for studying terrorism // Social Networking, ser. Intelligent Systems Reference Library. - 2014. - Vol. 65. P. 215–242.

Freeman, M. The Sources of Terrorist Financing: Theory and Typology // Studies in Conflict & Terrorism -2011. - No. 34. P. 461-475. doi:10.1080/1057610X.2011.571193.

Ahmad S., Asghar M.Z., Alotaibi F.M., Awan I. Detection and classification of social media-based extremist affiliations using sentiment analysis techniques // Human- centric Computing and Information Sciences. – 2019. –Vol.9, №24. – Р. 1 – 23. Q1

Mayur G., Swati A., Ketan K., Ajith A. Multi-ideology Multi-class Extremism Classification using Deep Learning Techniques. // IEEE Access. –2022. Q1

M. Asif, A. Ishtiaq, H. Ahmad, H. Aljuaid, and J. Shah. Sentiment analysis of extremism in social media from textual information. // Telematics Informat. – 2020. vol. 48, Art. no. 101345,. Q1

J. Klausen, C. E. Marks, and T. Zaman. Finding extremists in online social networks. // European Journal of Operational Research. – 2018. vol. 66, no. 4, pp. 957–976. Q1

Taha K., Yoo PD. Shortlisting the influential members of criminal organizations and identifying their important communication channels // IEEE Transactions on Information Forensics and Security. - 2019. - Vol. 14. No. 8. P. 1988-1999.

Devyatkin D.A., Smirnov I.V., Ananyeva M.I., Kobozeva M.V., Chepovskiy A.M., Solovyev F.N. Exploring linguistic features for extremist texts detection (on the material of Russian-speaking illegal texts) // 2017 IEEE International Conference on Intelligence and Security Informatics (ISI). - 2017. - P.188-190.

Bissaliyev M.S., Nyussupov A.T., Mussiraliyeva Sh.Zh. Enterprise Security Assessment Framework for Cryptocurrency Mining Based on Monero // Vestnik KazNU Series "Mathematics, Mechanics, Informatics". - 2018. - No. 2(98). - P. 67-76.

Nouh M., Nurse J. Identifying Key Players in Online Activist Groups on Facebook Social Network // IEEE Computer Society. - 2015. - P. 969-978.

Загрузки

Как цитировать

Мусиралиева S. ., Болатбек M. ., Жумаханова A. ., Байспай G. ., & Медетбек Z. . (2024). Создание модели семантического анализа текстов экстремистской направленности на казахском языке. Вестник КазНУ. Серия математика, механика, информатика, 121(1), 110–121. https://doi.org/10.26577/JMMCS2024121111