Реализация параллельного алгоритма извлечения N-gram из текста на функциональном языке

Авторы

  • B. S. Daribayev Казахский национальный университет имени аль-Фараби, Университет международного бизнеса (UIB), г. Алматы, Казахстан http://orcid.org/0000-0003-1313-9004
  • D. V. Lebedev Казахский национальный университет имени аль-Фараби, г. Алматы, Казахстан http://orcid.org/0000-0002-5186-6483
  • D. Zh. Akhmed-Zaki Университет международного бизнеса (UIB), г. Алматы, Казахстан http://orcid.org/0000-0001-8100-8263

DOI:

10.26577/JMMCS.2020.v107.i3.05

Ключевые слова:

параллельный алгоритм, функциональный язык, LuNA, N-gram, фрагментированное программирование

Аннотация

В данной статье рассматривается реализация параллельного алгоритма извлечения N-gram из слабоструктурированного текста на функциональном языке системы LuNA реализующий технологию фрагментированного программирования. Алгоритм извлечения N-gram относится к задачам NLP. Проведен анализ других реализаций рассматриваемого параллельного алгоритма с использованием технологий MPJ Express, Apache Spark и Apache Hadoop. На основе анализа предлагается выбрать систему LuNA из-за того, что она умеет автоматически настраивать алгоритм на конкретную вычислительную систему за счёт используемой модели алгоритма в виде множества последовательных информационно зависимых задач, которые динамически распределяются по процессорам и ядрам вычислителя. В работе описывается схема реализации данного алгоритма, с применением технологии фрагментированного программирования. В статье была описана схема разделения на фрагменты данных и фрагменты вычислений. Приведена схема реализации алгоритма извлечения N-gram. Проведено тестирование на различном количестве процессоров для извлечения N-gram по словам. При извлечении токенов были удалены все стоп слова, которые задаются заранее в отдельном текстовом хранилище. Тестирование показало хорошую эффективность предлагаемого подхода по реализации алгоритмов с использованием системы LuNA.

Загрузки

Опубликован

2020-09-30

Как цитировать

Реализация параллельного алгоритма извлечения N-gram из текста на функциональном языке. (2020). Вестник КазНУ. Серия математика, механика, информатика, 107(3), 47-56. https://doi.org/10.26577/JMMCS.2020.v107.i3.05