Применение технологии MapReduce Hadoop для кластеризации больших объемов данных. Application of MapReduce Hadoop technology for clustering large amounts of data.


  • М. Е. Мансурова Казахский Национальный Университет имени аль-Фараби
  • С. Е. Шоманов Казахский Национальный Университет имени аль-Фараби
  • Б. Н. Тулепбергенов Казахский Национальный Университет имени аль-Фараби
  • С. С, Исахов Казахский Национальный Университет имени аль-Фараби
  • Е. А. Дадыкина Казахский Национальный Университет имени аль-Фараби
        105 74


MapReduce, Hadoop, алгоритм кластеризации, параллельные вычисления, MPI, clustering algorithm, parallel computing.


Целью данной работы является реализация параллельного алгоритма ISODATA для кластеризации гиперспектральных изображений. В данном исследовании параллельный алгоритм кластеризации построен на модели программирования MapReduce. Алгоритм реализован на платформе Hadoop, которая является инфраструктурой с открытым исходным кодом, предназначенной для создания и выполнения распределенных приложений, обрабатывающих большие объемы данных. Результаты исследований сравниваются с результатами, полученными с разными параметрами кластера и MPI модели. The goal of this study is the implementation of parallel ISODATA algorithm for clustering of hyperspectral images. In this study parallel ISODATA clustering algorithm is based on MapReduce programming model. The algorithm is implemented on the platform Hadoop, which is a framework of open source software designed to create and run distributed applications that process large amounts of data. Research results are compared with the results with different cluster settings and MPI model.


