Инд. авторы: Потапов В.П., Костылев М.А., Попов С.Е.
Заглавие: Потоковая обработка радарных данных в распределенной среде Apache Spark
Библ. ссылка: Потапов В.П., Костылев М.А., Попов С.Е. Потоковая обработка радарных данных в распределенной среде Apache Spark // Вестник Санкт-Петербургского университета. Серия 10. Прикладная математика. Информатика. Процессы управления. - 2017. - Т.13. - № 2. - С.168-181. - ISSN 1811-9905. - http://vestnik.spbu.ru/html17/s10/s10v2/04.pdf
Внешние системы: DOI: 10.21638/11701/spbu10.2017.204; РИНЦ: 29816739; SCOPUS: 2-s2.0-85031092325; WoS: 000425306800004;
Реферат: rus: В статье описан современный подход к созданию распределенного программного комплекса на базе массово-параллельной технологии для потоковой пре- и постобработки радарных снимков. Отличительными особенностями системы являются ее способность работы в режиме реального времени с большими объемами потоковых данных, а также применение существующих алгоритмов, не предназначенных для распределенной обработки, на множестве узлов без изменения реализации последних. Проведено сравнение технологий распределенных вычислений, на основе которого делается выбор в пользу системы Apache Spark. Показано, что ее функциональность позволяет организовать автоматическую обработку поступающих радарных снимков в виде последовательности операций (workflow), которые необходимо выполнить над входными данными в зависимости от заданных ранее условий. Результаты обработки остаются доступными в системе в виде устойчивых к сбоям распределенных коллекций данных (RDD-Resilient Distributed Data), что позволяет по мере поступления космических снимков и их автоматической обработки, согласно цепочке алгоритмов, на каждом этапе получать/сохранять промежуточный результат в распределенную файловую систему HDFS. Охарактеризованы особенности имплементации конкретных задач процессинга радарных данных в рамках предложенного подхода (расчет фазы, корегистрация, формирование интерферограммы и развертка фазы методом роста регионов). Представлена блок-схема алгоритма развертки фазы с возможностью его запуска на платформах с использованием графических устройств, поддерживающих технологию NVIDIA CUDA. Представлена адаптация ее к системам с массово-параллельным исполнением заданий. Имплементация алгоритма ориентирована на вычисления для пары радарных изображений на одном вычислительном узле. Ускорение достигается за счет возможности одновременной обработки множества пар изображений, равных количеству узлов кластера. Показан пример реализаций методов работы с потоками бинарных данных (BinaryRecordsStream), осуществляющих мониторинг распределенной файловой системы HDFS на наличие поступающих радарных данных и чтение/запись их как бинарных файлов со значением фиксированного размера байт. В качестве входных параметров используются каталог и размер одной записи в байтах. В заключении приведены результаты тестирования разработанных алгоритмов на демонстрационном кластере. Показано, что при количестве узлов, равном восьми, в среднем возможно достижение 8-кратного прироста скорости работы для такого же количества пар изображений по сравнению с их последовательной обработкой на отдельном вычислительном узле. Результаты тестирования дают возможность повышения производительности представленных алгоритмов при увеличении количества узлов кластера без внесения изменений в их реализацию, что оправдывает применение распределенного подхода для решения задач пре- и постобработки радарных данных. Библиогр. 26 назв. Ил. 4. Табл. 3.
eng: This article presents a modern approach to creating a distributed program complex based on mass-parallel technology for pre- and postprocessing of SAR images. The unique features of the system is the ability to work in real time mode with huge amounts of streaming data and applying existing algorithms that are not used for distributed processing on multiple nodes without changing the algorithms’ implementation. A comparison has been made of distributed processing technologies based on which we have selected Apache Spark. The ability to organise automatic processing of input SAR images as a sequence of operations which should be performed based on defined conditions is demonstrated. The results of processing store in the system as fault tolerant distributed collections of data (RDD-Resilient Distributed Data), which allows getting and saving the intermediate results in the distributed file system HDFS as and when new space images became available and processed by the sequence of algorithms. This article described the implementation for the specific tasks of SAR data processing based on the suggested approach is described (phase estimation, coregistration, interferogram creation and phase unwrapping with region growing method). A scheme of the phase unwrapping algorithm with the ability to use GPU and NVIDIA CUDA technology is presented. An adaptation of the algorithm for the mass-parallel systems is shown. The algorithm implementation focused on processing pair of SAR images on one node. Performance growth is achieved by simultaneous processing multiple images whose number is equal to cluster nodes count. An example of methods implementation for working with streaming binary data (BinaryRecordStream) which perform monitoring of new SAR data in distributed file system HDFS and readingthis data as binary files with fixed bytes size is shown. A directory and size of one record are used as the input parameters. The results of testing developed algorithms on demonstration cluster is presented. A possibility of getting up to eight times better processing speed using eight nodes in a cluster for the same images count in comparison with sequential processing on one node is shown. Results of testing provide the ability to improve the performance of presented algorithms without any changes in implementation and this in turn justifies the utility of applying distributed approach for SAR data processing. Refs 26. Figs 4. Tables 3.
Ключевые слова: Distributed information systems; Apache spark; Apache hadoop; Apache spark; Processing algorithms; SAR interfometry; processing algorithms; sar interfometry; distributed information systems; алгоритмы обработки; радарная интерферометрия; распределенные информационные системы; Apache Hadoop;
Издано: 2017
Физ. характеристика: с.168-181
Ссылка: http://vestnik.spbu.ru/html17/s10/s10v2/04.pdf
Цитирование: 1. Елизаветин И. В., Шувалов Р. И., Буш В. А. Принципы и методы радиолокационной съемки для целей формирования цифровой модели местности // Геодезия и картография. 2009. № 1. C. 39-45. 2. Ferretti A., Monti-Guarnieri A., Prati C. et al. InSAR Principles: Guidelines for SAR interferometry processing and interpretation // URL: http://www.esa.int/esapub/tm/tm19/TM-19_ptA.pdf (дата обращения: 02.08.2016). 3. Zhengxiao Li, Bethel J. Image coregistration in SAR interferometry // The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. Beijing, 2008. Vol. XXXVII. Pt B1. P. 433-438. 4. Massonnet D., Feigl K. L. Radar interferometry and its application to changes in the earth’s surface // Reviews of Geophysics. 1998. Vol. 36, Iss. 4. P. 441-500. 5. Costantini M., Farina A., Zirilli F. A fast phase unwrapping algorithm for SAR interferometry // IEEE Trans. GARS. 1999. Vol. 37, N 1. P. 452-460. 6. Mistry P., Braganza S., Kaeli D., Leeser M. Accelerating phase unwrapping and affine transformations for optical quadrature microscopy using CUDA // Proceedings of 2nd Workshop on General Purpose Processing on Graphics Processing Units. GPGPU: Conference. Washington, D.C., USA: ACM, 2009. P. 28-37. 7. Karasev P. A., Campbell D. P., Richards M. A. Obtaining a 35x Speedup in 2D phase unwrapping using commodity graphics processors // Radar Conference. IEEE. 2007. P. 574-578. 8. Wu Z., Ma W., Long G., Li Y., Tang Q., Wang Z. High performance two-dimensional phase unwrapping on GPUs // Proceedings of the 11th ACM Conference on Computing Frontiers - CF’14. New York, NY, USA: ACM, 2014. P. 35:1-35:10. 9. Xin-Liang S., Xiao-Chun X. GPU acceleration of range alignment based on minimum entropy criterion // Radar Conference. IET International. 14-16 April 2013. P. 1-4. 10. Guerriero A., Anelli V. W., Pagliara A., Nutricato R., Nitti D. O. High performance GPU implementation of InSAR time-consuming algorithm kernels // Proceedings of the 1st WORKSHOP on the State of the art and Challenges of Research Efforts at POLIBA. Bari, Italy: Politecnico di Bari, 2014. P. 383. 11. Zhang F., Wang B., Xiang M. Accelerating InSAR raw data simulation on GPU using CUDA // Geoscience and Remote Sensing Symposium (IGARSS). IEEE International. Bari, Italy: Politecnico di Bari, 25-30 July 2010. P. 2932-2935. 12. Marinkovic P. S., Hanssen R. F., Kampes B. M. Utilization of parallelization algorithms in InSAR/PS-InSAR processing // Proceedings of the 2004 Envisat ERS Symposium (ESA SP-572). Salzburg, Austria: ESA, 6-10 September 2004. P. 1-7. 13. Sheng G., Qi-Ming Z., Jian J., Cun-Ren L., Qing-xi T. Parallel processing of InSAR interferogram filtering with CUDA programming // Zhongguo Cehui Kexue Yanjiuyan, China. 2015. Vol. 40, N 1. P. 67-88. 14. Верба В. С., Неронский Л. Б., Осипов И. Г., Турук В. Э. Радиолокационные системы землеобзора космического базирования. M.: Радиотехника, 2010. 675 с. 15. Gabriel E., Fagg G. E., Bosilca G. et al. Open MPI: Goals, Concept, and Design of a Next Generation MPI Implementation // URL: https://www.open-mpi.org/papers/euro-pvmmpi-2004-overview/euro-pvmmpi-2004-overview.pdf (дата обращения: 30.06.2016). 16. Kampes B., Hanssen R., Perski Z. Radar Interferometry with Public Domain Tools presentation // URL: http://doris.tudelft.nl/Literature/kampes_fringe03.pdf (дата обращения: 30.06.2016). 17. Frigo M., Johnson S. G. FFTW: An Adaptive Software Architecture for the FFT // ICASSP conference proceedings. Seattle, Washington, USA: IEEE, 15 May 1998. Vol. 3. P. 1381-1384. 18. Larkin J. Fast GPU Development with CUDA Libraries // URL: https://www.olcf.ornl.gov/wpcontent/uploads/2013/02/GPU_libraries-JL.pdf (дата обращения: 30.06.2016). 19. Demmel J., Dongarra J. ST-HEC: Reliable and scalable software for linear algebra computations on High End Computers // URL: https://people.eecs.berkeley.edu/ demmel/Sca-LAPACK-Proposal.pdf (дата обращения: 30.06.2016). 20. Феоктистов А. А., Захаров А. И., Гусев М. А., Денисов П. В. Исследование возможностей метода малых базовых линий на примере модуля SBaS программного пакета SARScape и данных РСА ASAR/ENVISat и PALSAR/ALOS. Ч. 1. Ключевые моменты метода // Журн. радиоэлектроники. 2015. № 9. С. 1-26. 21. Reyes-Ortiz J. L., Oneto L., Anguita D. Big Data analytics in the cloud: Spark on Hadoop vs MPI/OpenMP on Beowulf // INNS Conference on Big Data 2015 Program. San Francisco, USA. 8-10 August 2015. P. 121-130. 22. Kannan P. Beyond Hadoop MapReduce Apache Tez and Apache Spark // URL: http://www.sjsu.edu/people/robert.chun/courses/CS259Fall2013/s3/F.pdf (дата обращения: 02.08.2016). 23. Nathan P. Real-Time analytics with Spark Streaming // URL: http://viva-lab.ece.virginia.edu/foswiki/pub/InSAR/RitaEducation/InSAR Technology Literature Search.pdf (дата обращения: 02.08.2016). 24. Nagler E. Introduction to Oozie // Apache Oozie Documentation. URL: http://www.cse.buffalo.edu/bina/cse487/fall2011/Oozie.pdf (дата обращения: 02.08.2016). 25. Jhajj R. Apache Hadoop Hue Tutorial // URL: https://examples.javacodegeeks.com/enterprisejava/apache-hadoop/apache-hadoop-hue-tutorial/ (дата обращения: 02.08.2016). 26. Потапов В. П., Попов C. Е. Высокопроизводительный алгоритм роста регионов для развертки интерферометрической фазы на базе технологии CUDA // Программная инженерия. 2016. № 2. C. 61-74.