Применение технологии MapReduce Hadoop для кластеризации больших объемов данных. Application of MapReduce Hadoop technology for clustering large amounts of data.

Authors

  • М. Е. Мансурова Казахский Национальный Университет имени аль-Фараби
  • С. Е. Шоманов Казахский Национальный Университет имени аль-Фараби
  • Б. Н. Тулепбергенов Казахский Национальный Университет имени аль-Фараби
  • С. С, Исахов Казахский Национальный Университет имени аль-Фараби
  • Е. А. Дадыкина Казахский Национальный Университет имени аль-Фараби

Keywords:

MapReduce, Hadoop, алгоритм кластеризации, параллельные вычисления, MPI, clustering algorithm, parallel computing.

Abstract

Целью данной работы является реализация параллельного алгоритма ISODATA для кластеризации гиперспектральных изображений. В данном исследовании параллельный алгоритм кластеризации построен на модели программирования MapReduce. Алгоритм реализован на платформе Hadoop, которая является инфраструктурой с открытым исходным кодом, предназначенной для создания и выполнения распределенных приложений, обрабатывающих большие объемы данных. Результаты исследований сравниваются с результатами, полученными с разными параметрами кластера и MPI модели. The goal of this study is the implementation of parallel ISODATA algorithm for clustering of hyperspectral images. In this study parallel ISODATA clustering algorithm is based on MapReduce programming model. The algorithm is implemented on the platform Hadoop, which is a framework of open source software designed to create and run distributed applications that process large amounts of data. Research results are compared with the results with different cluster settings and MPI model.

References

[1] Шовенгердт Р.А., Дистанционное зондирование. Модели и методы обработки изображений. – М.: Теносфера, 2010. – 560 с.

[2] Antonio J. Plaza and Chein-I Chang, High Performance Computing in Remote Sensing.– Chapman and Hall/CRC, 2007. – 496 p.

[3] J. Dean, S. Ghemawat, MapReduce: Simplified Data Processing on Large Clusters.Communications of The ACM, 2008. – 51(1). – p. 107-113.

[4] Дж. Ту, Р. Гонсалес., Принципы распознавания образов. М.: «Мир», 1978 г., 411 с.

[5] C. Pughineanu, I. Balan, Parallel Algorithm Evaluation in the Image and Clustering Processing // Electronics and electrical engineering. system engineering, computer technology T 120 No. 4 (110). 2011. P. 89-92.

[6] A. Plaza, Chein-I Chang, Javier Plaza, David Valencia, Commodity cluster and hardware-based massively parallel implementations of hyperspectral imaging algorithms // Algorithms and Technologies for Multispectral, Hyperspectral, and Ultraspectral Imagery XII. Proc. of SPIE Vol. 6233, 623316. 2006.

[7] Ping ZHOU, Jingsheng LEI, Wenjun YE., Large-Scale Data Sets Clustering Based on MapReduce and Hadoop // Journal of Computational Information Systems 7: 16(2011). P. 5956-5963.

[8] Bo Li, Hui Zhao, Zhen Hua LV., Parallel ISODATA Clustering of Remote Sensing Images Based on MapReduce // Proceedings of the International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery, 2010. pp. 380-383.

[9] Mohamed H. Almeer., Cloud Hadoop Map Reduce For Remote Sensing Image Analysis // Journal of Emerging Trends in Computing and Information Sciences. VOL. 3, NO. 4, April 2012. P. 637-644.

[10] Z. Lv, Y. Hu, H. Zhong, J. Wu, B. Li, and H. Zhao, 2010. “Parallel K-means clustering of remote sensing images based on MapReduce”, in Proc. 2010 Int. Conf. Web Information Systems and Mining (WISM ’10), pp. 162-170.

[11] Satish Narayana Srirama, Pelle Jakovits, Eero Vainikko, Adapting scientific computing problems to clouds using MapReduce // Future Generation Computer Systems 28(2012). P. 184–192.

[12] Чак Лэм, Hadoop в действии. М.: ДМК Пресс, 2012. – 424 с.

[13] White T., Hadoop: The Definitive Guide. Stamford: O’Reilly Media, Inc. 2012. 625 p.

[14] Мансурова М.Е., Шоманов А., Тулепбергенов Б., Параллельный алгоритм кластеризации для обработки гиперспектральных изображений на основе MapReduce Hadoop // Международная конференция "ИКТ: образование, наука, инновации”, Алматы, 20-21 мая 2013 г. – с. 56-61.

[15] Yanfeng Zhang, Qinxin Gao, LixinGao, and Cuirong Wang, imapreduce: A distributed computing framework for iterative computation. J. Grid Comput,10(1). P. 47-68,

Downloads

Issue

Section

Mechanics, Mathematics, Computer Science