Инд. авторы: Калиниченко Л.А., Вольнова А.А., Гордов Е.П., Киселева Н.Н., Ковалева Д.А., Малков О.Ю., Окладников И.Г., Подколодный Н.Л., Позаненко А.С., Пономарева Н.В., Ступников С.А., Фазлиев А.З.
Заглавие: Проблемы доступа к данным в исследованиях с интенсивным использованием данных в россии
Библ. ссылка: Калиниченко Л.А., Вольнова А.А., Гордов Е.П., Киселева Н.Н., Ковалева Д.А., Малков О.Ю., Окладников И.Г., Подколодный Н.Л., Позаненко А.С., Пономарева Н.В., Ступников С.А., Фазлиев А.З. Проблемы доступа к данным в исследованиях с интенсивным использованием данных в россии // Информатика и ее применения. - 2016. - Т.10. - № 1. - С.2-22. - ISSN 1992-2264.
Внешние системы: DOI: 10.14357/19922264160101; РИНЦ: 26008726; SCOPUS: 2-s2.0-85010651109;
Реферат: rus: Целью данного обзора является анализ глобальных тенденций создания массивных коллекций данных в мире и обеспечения возможности совместного использования таких коллекций при решении задач исследования и принятия решений в различных областях с интенсивным использованием данных (ОИИД) в России. Конкретный набор ОИИД, отобранный для обзора, включает астрономию, материаловедение, науки о Земле, геномику и протеомику, нейронауку. По каждой из рассмотренных ОИИД представлены крупные стратегические инициативы США и ЕС, примеры крупных коллекций данных в мире до 2025 г., известные проекты информационных и телекоммуникационных инфраструктур и центров данных. Включенный в обзор набор массивных коллекций данных, планируемых к получению в мире, предлагается использовать в качестве ориентира при планировании и развитии исследовательских инфраструктур для накопления и анализа данных, совместимых с зарубежными открытыми инфраструктурами в науке. В частности, рассматриваемые в обзоре коллекции данных, цели их создания и научные исследования, планируемые к осуществлению с их помощью, позволяют перейти к постановке и решению задач создания компонентов перспективных информационных и телекоммуникационных инфраструктур, таких как, например, средства концептуализации ОИИД, необходимые метамодели, средства обеспечения возможности повторного использования коллекций данных, воспроизводимости программ и потоков работ и др.
eng: The goal of this survey is to analyze the global trends of development of massive data collections and related infrastructures in the world aimed at the evaluation of the opportunities for the shared usage of such collections during research, decision making, and problem solving in various data intensive domains (DIDs) in Russia. The representative set of DIDs selected for the survey includes astronomy, genomics and proteomics, neuroscience (human brain investigation), materials science, and Earth sciences. For each of such DIDs, the strategic initiatives (or large projects) in the USA and Europe aimed at creation of big data collections and the respective infrastructures planned up to 2025 are briefly overviewed. The information technology projects aimed at the development of the infrastructures supporting access to and analysis of such data collections are also briefly overviewed. The set of large data collections included into the survey and expected to be created soon is planned to be used as a reference point for the design and development of the research infrastructures for data management and analysis making them compatible with the foreign open research infrastructures. In particular, the data collections considered in the survey, the goals of their creation and the researches planned to be accomplished based on them make it possible to proceed to the design and implementation of the advanced components of the research infrastructures, such as, for example, conceptualization facilities of the application domains to be investigated in data intensive research, respective metamodels, components intended for data reuse and reproducing of programs and workflows, etc.
Ключевые слова: Data collections; Big data; области с интенсивным использованием данных; исследовательские инфраструктуры; коллекции данных; Research infrastructures; Fourth paradigm; Data intensive domains; 4-я парадигма; Big Data; data collections; research infrastructures; data intensive domains; fourth paradigm; Большие Данные;
Издано: 2016
Физ. характеристика: с.2-22
Цитирование: 1. The fourth paradigm: Data-intensive scientific discovery / Eds. T. Hey, S. Tansley, K. Tolle. - Redmond, WA, USA: Microsoft Research, 2009. 284p. http://goo.gl/edvr6W. 2. Juric M., Tyson T. LSST data management: Entering the era of petascale optical astronomy // High. Astron., 2015. Vol. 16. P. 675. 3. Taylor A.R. Data intensive radio astronomy en route to the SKA: The rise of big radio data // High. Astron., 2015. Vol. 16. P. 677. 4. Fleming S.W., Abney F., Donaldson T., et al. Beyond the prime directive: The MAST discovery portal and high level science products // American Astronomical Society Meeting (AAS 225), 2015. #336.59. 5. Zhelenkova O., Vitkovsky V., Plyaskina T. Electronic archive of observational data of astrophysical observatory// Russ. J. Digital Libraries, 2010. Vol. 13. Iss. 4. http://www.elbib.ru/index.phtml?page=elbib/rus/journal/2010/part4/ZVP. 6. Kardashev N.S., Khartov V.V., Abramov V.V., et al. “Ra-dioAstron” - a telescope with a size of 300 000 km: Main parameters and first observational results // Astron. Rep., 2013. Vol. 57. Iss. 3. P. 153-194. 7. Shustov B.M., Gomez de Castro A.I., Sachkov M., et al. WSO-UV progress and expectations // Astrophys. Space Sci., 2014. Vol. 354. Iss. 1. P. 155-161. 8. Кардашёв Н.С., Новиков И.Д., Лукаш В.Н. и др. Обзор научных задач для обсерватории Миллиметрон // УФН, 2014. Т. 184. № 12. С. 1319-1352. 9. Why neuroinformatics? International Neuroinformatics Coordinating Facility, http://www.incf.org/about/whyneuroinformatics. 10. Human Brain Project. https://www.humanbrainproject.eu. 11. Human Connectome Project. WU-Minn HCP 500 Subjects Data Release: Reference manual. 2014. 166 p. http://www.humanconnectome.org/documentation/S500/HCP_S500_Release_Reference_Manual.pdf. 12. Hawrylycz M.J., Lein E.S., Guillozet-Bongaarts A.L., et al. An anatomically comprehensive atlas of the adult human brain transcriptome // Nature, 2012. Vol. 489. P. 391-399. 13. Gomez-Cabrero D., Abugessaisa I., Maier D., Teschendorf A., Merkenschlager M., Gisel A., Ballestar E., Bongcam-Rudloff E., Conesa A., TegnerJ. Data integration in the era of omics: Current and future challenges // BMC Syst. Biol., 2014. Vol. 8. Suppl. 2. P. I1. 14. Greene C.S., Tan J., Ung M., Moore J.H., Cheng C. Big data bioinformatics // J. Cell. Physiol., 2014. Vol. 229. Iss. 12. P. 1896-1900. 15. Herland M., Khoshgoftaar T.M., Wald R. A review of data mining using big data in health informatics // J. Big Data, 2014. Vol. 1. Iss. 2. 35 p. 16. Kamesh D.B.K., Neelima V., Ramya Priya R. A review of data mining using bigdata in health informatics // Int. J. Sci. Res. Publ., 2015. Vol. 5. Iss. 3. 35 p. 17. Genome 10K community of scientists. Genome 10K: A proposal to obtain whole-genome sequence for 10 000 vertebrate species // J. Heredity, 2009. Vol. 100. Iss. 6. P. 659-674. 18. Davis-Dusenbery B., Onder Z., Locke D., Kural D. Petabyte-scale cancer genomics in the cloud // TCGA Symposium Oral Presentations, 2015. P. 34. 19. Materials Genome Initiative for Global Competitiveness. 2011. http://www.whitehouse.gov/sites/default/files/microsites/ostp/materials_genome_initiative-final.pdf. 20. The Materials Data Facility. http://www.nationaldataservice.org/mdf. 21. Versailles Project on Advanced Materials and Standards (VAMAS). http://www.vamas.org. 22. Belov G. V., lorish V. S., Yungman V. S. IVTANTHERMO for Windows - database on thermodynamic properties and related software // CALPHAD, 1999. Vol. 23. Iss. 2. P. 173-180. 23. Киселева Н.Н., Дударев В. А., Земсков В. С. Компьютерные информационные ресурсы неорганической химии и материаловедения // Усп. хим., 2010. Т. 79. Вып. 2. С. 162-188. 24. Copernicus. Observing the Earth. http://www.esa.int/ Our_Activities/Observing_the_Earth/Copernicus/ Overview3. 25. Ramapriyan H.K., Behnke J., Sofinowski E., Lowe D., Esfandiari M.A. Evolution of the Earth Observing System (EOS) data and Information System (EOSDIS) // Standard-based data and information systems for Earth observation / Eds. L. Di, H.K. Ramapriyan. - Lecture notes in geoinformation and cartography ser. - BerlinHeidelberg: Springer, 2010. P. 63-92. 26. Schnase J.L., Duffy D.Q., McInerney M.A., et al. Climate analytic as a service // Conference on Big Data from Space (BiDS’14) Proceedings. - Luxembourg: Publications Office of the European Union, 2014. P. 90-93. 27. Dubernet M.L., Boudon V., Culhane J.L., et al. Virtual atomic and molecular data centre // J. Quant. Spectrosc. Ra. Transfer, 2010. Vol. 111. Iss. 15. P. 2151-2159. 28. Rixon G., Dubernet M.-L., Piskunov N., et al. VAMDC - the Virtual Atomic and Molecular Data Centre - a new way to disseminate atomic and molecular data - VAMDC Level 1 Release // J. Phys. Conf. Ser., 2011. Vol. 1344. P. 107-115. 29. National Data Service (NDS). http://www.nationaldataservice.org. 30. Gangler E. Big data challenge posed by the Large Synoptic Survey Telescope // Conference on Big Data from Space (BiDS’14) Proceedings. - Luxembourg: Publications Office of the European Union, 2014. P. 194-197. 31. Frezouls B., Brunet P.-M. Big data technology in the service of the Gaia data processing // Conference on Big Data from Space (BiDS’14) Proceedings. - Luxembourg: Publications Office of the European Union, 2014. P. 198-201.