Инд. авторы: | Потапов В.П., Попов С.Е., Ощепков А.Ю. |
Заглавие: | Хранение и обработка данных спутниковых мульти- и гиперспектральных снимков на основе формата Apache Parquet |
Библ. ссылка: | Потапов В.П., Попов С.Е., Ощепков А.Ю. Хранение и обработка данных спутниковых мульти- и гиперспектральных снимков на основе формата Apache Parquet // Программная инженерия. - 2018. - Т.9. - № 3. - С.123-131. - ISSN 2220-3397. - http://novtex.ru/prin/rus/10.17587/prin.9.123-131.html |
Внешние системы: | DOI: 10.17587/prin.9.123-131; РИНЦ: 32614128; |
Реферат: | rus: Рассмотрены способы хранения и алгоритмы последующей обработки данных мульти- и гиперспектральных спутниковых снимков, которые реализуются механизмами распределенных вычислительных систем, входящих в экосистему Apache Hadoop. Отличительной особенностью представленных в работе решений является способ хранения данных дистанционного зондирования. Такой способ позволяет снизить объем хранимой информации за счет архивации посредством технологии Apache Parquet, а также дает возможность работы с данными с использованием запросов Spark SQL. Приведены решения конкретных задач на примере вычисления нормализованных вегетационных индексов спутниковых снимков космических аппаратов Ресурс-П и Sentinel-2A на базе фрэйворков Apache Spark и Apache Flink. eng: The article describes ways storing and processing the satellite spectral imaging data by means of distributed computing systems included in the Apache Hadoop. The review of different works devoted to the distributed processing of such data shows that improvement of the performance is achieving by the build-up or extending hardware parts of the computing cluster. The distinctive feature of the proposed approach is the way of storing the spectral images data in the Parquet-file format. It shows that a columnar disposition of the data provides an access to different pieces of the image pixel values like to the record in the database, avoiding the whole image loading into CPU memory. Besides, it retains the way of the parallel image processing by the per-pixel manner. The authors have made a comparative analysis of the storage formats for the spectral images, such as JSON, XML, sequence-file, Apache Avro, Apache Parquet. Which is consists from the following steps: the data extraction from Parquet-file, the data conversion to the Spark or Flink Dataset, the computing of the normalized vegetation index, and includes the process of the result data iterating and saving them to the HDFS. The stress tests have been accomplished on the hybrid frameworks of the Apache Hadoop ecosystem. The Apache Spark API has been chosen as the preferable spectral images processor by the reason of the native input/output methods for the Parquet-file and lesser load to the cluster hardware. In conclusion, authors demonstrate the calculating of the normalized vegetation index (NDVI) on the example of two images of the spacecraft missions (Resource-P and Sentinel-1A) based on the Apache Spark and the Apache Flink frameworks for the auditing and confirmation that the choice of the technology described in the work was correct. |
Ключевые слова: | Apache spark; Apache Flink; java; GDAL; распределенные информационные системы; Apache Parquet; мульти- и гиперспектральные спутниковые снимки; distributed information systems; remote sensing data; spectral satellite images; сжатие данных; Apache Avro; |
Издано: | 2018 |
Физ. характеристика: | с.123-131 |
Ссылка: | http://novtex.ru/prin/rus/10.17587/prin.9.123-131.html |
Цитирование: | 1. ESA Sentinel Online. URL: https://sentinel.esa.int/web/ sentinel/missions/sentinel-5p (дата обращения 07.12.2017). 2. Ресурс-П - Российские космические системы. URL: http://russianspacesystems.ru/bussines/dzz/orbitalnaya-gruppirovka-ka-dzz/resurs-p/ (дата обращения 07.12.2017). 3. Apache Storm Documentation. URL: http://storm.apache. org/releases/1.1.1/index.html (дата обращения 30.11.2017). 4. Heron Documentation. URL: https://twitter.github.io/heron/ docs/getting-started/ (дата обращения 30.11.2017). 5. Документация Amazon Kinesis. URL: https://aws.amazon. com/ru/kinesis/ (дата обращения 30.11.2017). 6. Disco Map Reduce Documentation. URL: http://disco. readthedocs.io/en/develop/ (дата обращения 30.11.2017). 7. Apache Kylin Overview. URL: http://kylin.apache.org/ docs21/ (дата обращения 30.11.2017). 8. Apache Apex Documentation. URL: http://apex.apache.org/ docs.html (дата обращения 30.11.2017). 9. Apache Spark TM - Lightning-Fast Cluster Computing. URL: http://spark.apache.org/ (дата обращения 30.11.2017). 10. Apache Flink: Scalable Batch and Stream Data Processing. URL: https://flink.apache.org/ (дата обращения 30.11.2017). 11. Carbone P., Ewen S., Haridi S., Katsifodimos A., Markl V., Tzoumas K. Apache Flink: Stream and Batch Processing in a Single Engine // Bulletin of the IEEE Computer Society Technical Committee on Data Engineering. 2015. Vol. 38. P. 28-38. 12. Perera S., Perera A., Hakimzadeh K. Reproducible Experiments for Comparing Apache Flink and Apache Spark on Public Clouds // Computing Research Repository. Интернет-журнал. 14.10.16. URL: https://arxiv.org/abs/1610.04493. 13. Wei Huang, Lingkui Meng, Dongying Zhang. In-Memory Parallel Processing of Massive Remotely Sensed Data Using an Apache Spark on Hadoop YARN Model // IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing. 2016. Vol. 10. P. 3-19. 14. Sun Z., Chen F., Chi M., Zhu Y. A Spark-Based Big Data Platform for Massive Remote Sensing Data Processing // Data Science. Lecture Notes in Computer Science. 2015. Vol. 9208. P. 120-126. 15. Tapan Sharma, Vinod Shokeen, Sunil Mathur. Multiple K Means++ Clustering of Satellite Image Using Hadoop MapReduce and Spark // International journal of advanced studies in computer science and engineering. 2016. Vol. 5. P. 23-31. 16. Li J., Meng L., Wang F. Z., Zhang W., Cai Y. A map-reduce-enabled SOLAP cube for large-scale remotely sensed data aggregation // Computers & Geosciences. 2014. Vol. 70. P. 110-119. 17. Введение в JSON. URL: http://www.json.org/json-ru.html (дата обращения 30.11.2017). 18. Основы XML для начинающих пользователей. URL: https://www. ibm.com/developerworks/ru/library/x-newxml/ (дата обращения 30.11.2017). 19. Обзор файла последовательности. URL: https://wiki. apache.org/hadoop/SequenceFile (дата обращения 30.11.2017). 20. Документация формата Apache Avro. URL: http://avro. apache.org/docs/current/ (дата обращения 30.11.2017). 21. Документация формата Apache Parquet. URL: http://parquet. apache.org/documentation/latest/ (дата обращения 30.11.2017). 22. Efficient DataFrame Storage with Apache Parquet URL: https://tech.blue-yonder.com/efficient-dataframe-storage-with-apache-parquet/ (дата обращения 09.01.2018). 23. Rishi Yadav. Spark Cookbook. Birmingham, UK: Packet Publishing Ltd., 2015. 98 p. 24. Friedman E., Tzoumas K. Introduction to Apache Flink, CA: O'Reilly Media, Inc. 2016. 46 p. 25. Вегетационные индексы. URL: http://gis-lab.info/qa/ vi.html (дата обращения 11.12.2017). 26. Overview GDAL/OGR Java Bindings API. URL: http:// gdal.org/java/ (дата обращения 11.12.2017)/ |