Создание системы распределенных вычислений на основе Hadoop технологий

Потапов В.П.; Гиниятуллина О.Л.; Харлампенков И.Е.

Инд. авторы:	Потапов В.П., Гиниятуллина О.Л., Харлампенков И.Е.
Заглавие:	Создание системы распределенных вычислений на основе Hadoop технологий
Библ. ссылка:	Потапов В.П., Гиниятуллина О.Л., Харлампенков И.Е. Создание системы распределенных вычислений на основе Hadoop технологий // XV Российская конференция с международным участием «Распределенные информационные и вычислительные ресурсы» DICR-2014: Новосибирск, 2-5 декабря 2014 г: Программа. Тезисы докладов. Авторский указатель участников / Институт вычислительных технологий СО РАН. - 2014. - Новосибирск: Институт вычислительных технологий Сибирского отделения РАН. - С.17-17. - ISBN: 978-5-905569-06-7.
Внешние системы:	РИНЦ: 27420830;
Реферат:	rus: В работе рассматриваются вопросы построения системы распределенных вычислений. В настоящее время Кемеровский филиал Института вычислительных технологий СО РАН (КФ ИВТ СО РАН) принимает участие в проектах, генерирующих потоки данных различных предметных областей (данные экологического мониторинга горнодобывающих предприятий, спутниковые снимки и т.д.). Обработка подобного рода разнородных данных требует применения специальных алгоритмов и подходов к интеграции, что накладывает определенные ограничения на технологию и реализацию вычислений. В докладе предлагается применение концепции BigData [1] для решения задач, так как поступающая информация соответствует определяющим характеристикам для больших данных, известным как «три V»[1]: • объём (volume) – физический размер данных; • скорость (velocity) как поступления, так и обработки для получения результатов; • многообразие (variety) источников, структур и форматов обрабатываемых данных. Для построения системы предлагается использовать технологию MapReduce[1], которая позволяет выполнять отдельные операции обработки данных параллельно на нескольких узлах сети, а потом суммировать их для получения конечного результата. В качестве реализации выбрана система Apache Hadoop [2] с рядом инфраструктурных проектов. Взаимодействие с пользователем осуществляется через web-интерфейс, содержащий ряд инструментов: средства поиска данных из всех доступных источников (базы данных, файловые архивы и внешние сервисы), их преобразования и загрузки в кэш на основе NoSQL систем; конструктор заданий обработки на основе комбинации готовых процедур; подсистема запуска и контроля выполнения задач; средства визуализации результатов и их анализа. Расширение возможностей информационной системы по обработке данных предлагается через написание новых модулей на основе Hadoop framework. Также возможно создание пользовательских алгоритмов на языке Python в рамках предлагаемого программным комплексом API. В настоящее время система распределенных вычислений находится на стадии формирования окончательных требований, проектирования архитектуры, выбора библиотек и механизмов из взаимодействия.
Издано:	2014
Физ. характеристика:	с.17-17
Конференция:	Название: XV Российская конференция с международным участием «Распределенные информационно-вычислительные ресурсы» Аббревиатура: DICR-2014 Город: Новосибирск Страна: Россия Даты проведения: 2014-12-02 - 2014-12-05 Ссылка: http://konf.ict.nsc.ru/dicr2014/
Цитирование:	1. Sawant N, Shah H. Big Data Application Architecture Q&A. New York: Apress. 2013. – 172 p. 2. Apache Hadoop [Электронный ресурс]: http://hadoop.apache.org/