Основные задачи и требования к ЦКП "ИКИ-Мониторинг"
ЦКП «ИКИ-Мониторинг» функционирует на базе разработанного в ИКИ РАН программно-аппаратного комплекса, в рамках которого реализуется целый ряд автоматизированных блоков, обеспечивающих решение базовых задач, связанных с организацией работы с данными дистанционного зондирования. К таким задачам в первую очередь следует отнести:
- Сбор спутниковых данных различного уровня обработки из центров их приема и обработки. В том, числе возможность онлайн получения информации из различных источников.
- Проведение потоковой обработки данных для формирования различных информационных продуктов в формате, обеспечивающем к ним удобный и достаточно быстрый удаленный доступ.
- Ведение архивов спутниковой информации и результатов их обработки, позволяющее эффективно организовывать доступ к данным для решения локальных и распределенных задач.
- Поддержка механизмов эффективного распределенного доступа к спутниковой информации и результатам ее обработки.
- Предоставление различных возможностей, позволяющих проводить обработку и анализ данных с использованием распределенных вычислительных ресурсов (в том числе web-инструментов).
При разработке программно-аппаратного комплекса ЦКП «ИКИ-Мониторинг» к нему предъявлялись следующие основные требования:
- Автоматизация всех операций получения, обработки и архивации спутниковых данных.
- Возможность масштабирования системы при наращивании количества различных типов спутниковых данных и их объемов.
- Максимальное использование ПО, разработанного в ИКИ РАН, а также свободно распространяемого ПО.
- Организация вычислительных ресурсов комплекса на основе использования достаточно недорогих аппаратных решений, позволяющих проводить их поэтапную замену и наращивание.
- Обеспечение возможности эффективного управления и контроля работоспособности работы комплекса.
Архитектура построения ЦКП "ИКИ-Мониторинг"
Программно-аппаратный комплекс ЦКП «ИКИ-Мониторинг» построен на основе технологий и базового программного обеспечения (созданных в отделе «Технологии спутникового мониторинга» ИКИ РАН), которые более пятнадцати лет разрабатывались и совершенствовались при решении задач, связанных с созданием и развитием научных и прикладных систем дистанционного мониторинга (Лупян и др., 2011; Лупян и др. 2004; Миклашевич и др., 2012; Лупян и др., 2015). Общая архитектура построения ЦКП «ИКИ-Мониторинг» приведена на рис.1. Ниже мы кратко рассмотрим основные задачи подсистем комплекса, особенности их реализации, а также опишем особенности их взаимодействия (основные потоки данных).
Рис.1. Общая архитектура построения ЦКП «ИКИ-Мониторинг»
Подсистема сбора данных предназначена для получения исходных спутниковых данных и информационных продуктов, получаемых на основе их обработки из различных источников, в качестве которых могут выступать центры распространения спутниковых данных, центры приема и обработки спутниковых данных, а также другие организации, предоставляющие доступ к находящимся у них спутниковым данным. Основным достоинством реализованной подсистемы является полная автоматизация процессов получения спутниковых данных. Следует отметить, что с этой целью нами были разработаны подходы, позволяющие достаточно однотипным образом создавать автоматизированные процедуры получения информации из различных источников (Балашов и др., 2013; Лупян, Балашов и др., 2012).
Подсистема архивации данных отвечает за архивацию поступающих в центр спутниковых данных и обеспечивает возможность проведения архивации данных различных уровней обработки. Она также предоставляет спутниковые данные для проведения последующих обработок. Разработанная в ИКИ РАН технология построения архивов спутниковых данных (Антонов и др., 2010; Балашов и др., 2008; Ефремов и др., 2004 (1)) позволяет унифицировать задачи архивации самых разных типов спутниковых данных, отличающихся как по пространственному разрешению и методике хранения, так и по набору описывающих их атрибутов. Основными функциональными особенностями системы являются:
- обеспечение достаточно быстрого поиска и выбора необходимой информации для представления в интерактивных интерфейсах работы с данными;
- обеспечение возможности автоматизированного выбора наборов данных для проведения их автоматизированной обработки;
- поддержку распределенного хранения данных, включая взаимодействие с внешними удаленными архивами данных.
Подсистема обработки данных предназначена для проведения полностью автоматизированной обработки спутниковых данных. Она обеспечивает потоковую оперативную обработку данных, поступающих в ЦКП «ИКИ-Мониторинг» из различных источников, а также позволяет проводить автоматизированную обработку данных при построении различных информационных продуктов, имеющихся в архивах ЦКП «ИКИ-Мониторинг». Для проведения обработки используется достаточно большой пул компьютеров, который может легко наращиваться или сокращаться в зависимости от текущих конкретных задач системы. При этом, с увеличением объемов обрабатываемых данных, количества реализуемых цепочек обработки спутниковых данных и числа задействованных для этих задач компьютеров наиболее остро встают вопросы управления и контроля. Для решения выше перечисленных задач в ЦКП «ИКИ-Мониторинг» используются специализированные решения, разработанные в ИКИ РАН (Егоров и др., 2004; Кобец и др., 2015; Лупян и др., 1994, Лупян, Саворский, 2012), которые обеспечивают централизованное управление и распределенный контроль процессов обработки. Это позволило реализовать достаточно надежную систему обработки, в которой задействованы десятки компьютеров.
Подсистема обеспечения доступа к данным реализует три основных функциональных блока: спутниковый информационный сервис «ВЕГА-SCIENCE» для доступа удаленных пользователей к информации, предоставляемой центром (сервис семейства Вега (Барталев и др., 2012; Лупян, Барталев и др., 2014; Толпин, Балашов, Лупян и др., 2011), программные интерфейсы для доступа к данным из тематических информационных систем и программный шлюз, позволяющий предоставлять доступ к данным, физически располагаемым во внешних архивах спутниковых данных. Ключевым преимуществом реализованных в центре решений (Кашницкий и др., 2015) является поддержка достаточно сложных инструментов для работы со спутниковыми данными на базе различных специализированных web-интерфейсов. Многие из таких инструментов анализа и обработки данных до недавнего времени были доступны только в специализированных локальных (настольных) и достаточно дорогостоящих комплексах анализа спутниковой информации.
Подсистема управления и контроля предназначена для обеспечения бесперебойного функционирования центра коллективного пользования и позволяет решать следующие основные задачи:
- управление автоматическим запуском всех процедур по работе с данными;
- диспетчеризация потоков данных;
- контроль за выполнением всех процедур по работе с данными;
- контроль за своевременным поступлением данных в архивы;
- контроль за состоянием компьютеров и их доступностью;
- документирование программных и аппаратных компонент системы;
- детектирование сбоев и ошибок в работе системы и сопровождение процесса их устранения.
Основной особенностью данной подсистемы является максимально автоматизированный контроль достаточно большого числа процессов, задействованных на разных этапах работы ЦКП «ИКИ-Мониторинг» и реализация распределенных инструментов контроля и управления ЦКП «ИКИ-Мониторинг» с помощью развитой системы web-интерфейсов.
Сведения о реализации
Реализация ЦКП «ИКИ-Мониторинг» основана на использовании технологий и программного обеспечения, разработанных в отделе «Технологии спутникового мониторинга» ИКИ РАН (Лупян и др., 2015; Лупян и др., 2011; Лупян и др., 2004).
Для обеспечения работы ЦКП «ИКИ-Мониторинг» создан программно-аппаратный комплекс, базовая конфигурация которого описана в (Миклашевич и др., 2012). Технические возможности комплекса в последние годы постоянно расширяются. При этом количество компьютеров, используемых для решения той или иной задачи, может варьироваться в зависимости от потребностей. Так при возрастании объемов данных возникает необходимость в увеличении числа серверов, используемых для хранения данных, при увеличении нагрузки на подсистему обработки – в увеличении числа станций обработки, а при возрастании нагрузки на подсистему доступа – в увеличении числа станций, предназначенных для динамического формирования информационных продуктов. На начало 2015 года вычислительный комплекс ЦКП «ИКИ-Мониторинг» включал в себя более чем 20 серверов, решающих задачи хранения и представления данных и более 20 серверов и рабочих станций, обеспечивающих постоянную автоматическую обработку данных. Суммарный объем дискового пространства серверов, обеспечивающих хранение и online доступ к спутниковым данным и результатам их обработки, составляет примерно 0,8 петабайт.
Вычислительные средства, используемые в ЦКП «ИКИ-Мониторинг», могут работать под управлением различных операционных систем в зависимости от решаемых ими задач. Средства, обеспечивающие работу систем сбора, архивации и предоставления доступа к данным, а также решение задач контроля и управления элементами системы, реализованы в основном под управлением ОС FreeBSD, а специфические задачи обработки – под ОС Linux. Комплексы, осуществляющие автоматизированную потоковую обработку данных, работают обычно под управлением различных ОС Windows. В последние годы в центре также реализованы различные системы поддержки виртуализации, что позволяет в ряде случаев достаточно оперативно проводить переконфигурацию ресурсов системы для оптимизации ее под решение текущих задач.
Решение различных задач, возникающих в работе ЦКП «ИКИ-Мониторинг», осуществляется на основе базового программного обеспечения, созданного и развиваемого в ИКИ РАН (Лупян и др., 2015; Лупян и др., 2011). Прежде всего, это касается программного обеспечения серверов, реализованного с использованием различных языков программирования (С++, Perl, JavaScript, и др.). В качестве СУБД используется MySQL или MariaDB, а в качестве HTTP-сервера – Apache.
Ниже мы остановимся на основных особенностях реализации подсистем, обеспечивающих работу ЦКП «ИКИ-Мониторинг».
Подсистема сбора данных реализована на базе созданного в ИКИ РАН программного обеспечения Proc_download, предназначенного для получения требуемых спутниковых данных из различных источников в сети Интернет (Балашов и др., 2013; Лупян, Балашов и др., 2012). Важной особенностью реализованного программного обеспечения является возможность работы в полностью автоматизированном режиме, для чего, в частности, был реализован механизм автоматического формирования заказов на получение данных. При необходимости скачивание спутниковых данных производится в многопоточном режиме одновременно на группе серверов. Для контроля за процессом получения спутниковых данных ежедневно формируются отчеты, которые становятся доступны операторам системы через специализированные web-интерфейсы или могут автоматически направляться им по электронной почте. Полная автоматизация процессов обработки данных позволяет сегодня поддерживать постоянное поступление в ЦКП «ИКИ-Мониторинг» огромных объемов информации. Так, например, в сентябре 2015 года в центр ежедневно поступало более 1500 различных спутниковых данных и информационных продуктов, получаемых на их основе. Следует также отметить, что созданная система позволяет достаточно быстро налаживать получение новой информации, необходимой для решения задач конкретных проектов.
Подсистема архивации данных Подсистема реализована на базе разработанной в ИКИ РАН технологии построения автоматизированных систем хранения спутниковых данных и созданного программного пакета ArcSmis (Антонов и др., 2010; Балашов и др., 2008; Ефремов и др., 2004 (1); Лупян и др. 2015). В рамках этой технологии для работы с архивами, содержащими файлы данных, используется программный пакет FDB (File Data Base), обеспечивающий согласованное изменение метаданных и содержимого файлового хранилища. Хранение файлов данных в архиве реализуется на основе распределенного файлового хранилища, представляющего из себя набор серверов хранения с дисковыми массивами RAID 6, объединенных в единое логическое пространство при помощи протокола NFS. Базы данных преимущественно расположены на выделенных серверах с быстрой файловой системой. В системе реализовано регулярное резервное копирование баз данных. Резервные копии самих файлов данных делаются только выборочно, так как для этого требуются большие ресурсы хранения.
Подсистема обработки данных Программная реализация основана на разработанных в ИКИ РАН технологиях (Егоров и др., 2004; Кобец и др., 2015; Лупян и др., 1994; Лупян, Саворский и др., 2012) и созданного специализированного программного пакета ProcSmis. Он предназначен для решения широкого спектра задач по обработке спутниковых данных. При этом функционал программного пакета постоянно расширяется путем добавления модулей, отвечающих за новые типы обработки. Пакет ProcSmis однотипно устанавливается на станции под управлением ОС Windows.
В последние годы для проведения потоковой обработки данных также активно используется и различное свободно распространяемое программное обеспечение, ориентированное на обработку спутниковых и других изображений. Например, такие программные пакеты как GDAL, GRAS GIS, Proj, Imager, libpng, libjpeg и др. Это, в частности, позволяет задействовать в процессах обработки не только специально выделенные сервера и рабочие станции, но и возможности серверов сбора и хранения данных, работающих под управлением ОС UNIX.
Управление процессами обработки спутниковых данных реализуется на базе серверов, формирующих задания на обработку, включающих в себя инструкции по обработке данных и сам набор требуемых данных. Система легко масштабируется как при добавлении новых обработчиков, так и при их выходе из строя, что не приводит к прекращению обработки поступающих исходных данных. Реализована централизованная система управления заданиями на обработку данных и контроля за их выполнением на основе специализированного веб-интерфейса.
Подсистема обеспечения доступа к данным реализована на основе разработанных в ИКИ РАН технологий и программных комплексов (Балашов и др., 2009; Ефремов и др., 2004 (1); Кашницкий и др., 2015, Толпин, Балашов, Ефремов и др., 2011). Ключевой технологией, позволяющей создавать многофункциональные web-интерфейсы, предназначенные не только для поиска и выбора необходимых пользователям наборов данных, но и для проведения их анализа и обработки с использованием распределенных вычислительных ресурсов, является технология GeoSmis (Носенко, Лошкарев, 2010). Эта технология позволяет организовывать доступ к информации о наличии данных и получать доступ к самим данным на основе программных сервисов, построенных по технологии SMISWMS, базирующейся на стандарте WMS. Доступ к новым типам данных реализуется путем добавления модулей доступа. Для увеличения скорости доступа к данным такие сервисы, как правило, устанавливаются на группу серверов, запросы между которыми распределяет выделенный сервер архивации спутниковых данных. Ключевой особенностью реализованных сервисов получения данных является поддержка динамического формирования требуемых информационных продуктов на основе базовых продуктов, содержащихся в архиве, а также поддержка различных инструментов для анализа данных (Балашов и др., 2009; Кашницкий и др., 2015). Для доступа к данным, находящимся во внешних архивах, реализован специальный программный шлюз. Особо следует также отметить, что для расширения возможностей организации распределенной работы с данными в ИКИ РАН была реализована специальная технология, позволяющая создавать различные web-интерфейсы для анализа и обработки спутниковой информации, находящейся в сверхбольших распределенных архивах данных с использованием удаленных вычислительных ресурсов (Кашницкий и др., 2015).
В рамках ЦКП «ИКИ-Мониторинг» в настоящее время реализуются три основных варианта работы с данными:
- Доступ к данным на основе использования спутникового информационного сервиса «ВЕГА-Sсience», предназначенного для получения, обработки и анализа спутниковых данных и информации, полученной на их основе (Барталев и др., 2012; Лупян, Барталев и др., 2014; Толпин, Балашов, Лупян и др., 2011). Сервис ориентирован на решение различных научных задач. Он, в частности, предоставляет пользователям возможность работы с картографическими веб-интерфейсами, позволяя получать доступ к сверхбольшим распределенным архивам данных и инструментам для работы с ними. В рамках этих интерфейсов в настоящее время реализован целый ряд достаточно сложных инструментов для анализа данных, таких как классификация изображений, их сегментация и синтез изображений и т.д.. При этом пользователям не требуется установка на свои компьютеры специального дорогостоящего программного обеспечения, необходимого для проведения анализа спутниковой информации.
- Интеграция на базе использования специальных программных интерфейсов, реализованных в виде расширенных wms-сервисов, данных архивов ЦКП «ИКИ-Мониторинг» в информационные системы, создаваемые в интересах конкретных научных проектов. Важно отметить, что эти сервисы позволяют не только получить доступ к данным архивов, но и позволяют работать с инструментами для их анализа.
- Потоковая передача данных в другие информационные системы. Этот механизм используется в тех случаях, когда есть необходимость в физической передаче данных в другие информационные системы. Как правило, требуемые данные передаются в другие информационные системы в полностью автоматическом режиме по протоколам FTP, SFTP.
Подсистема управления и контроля также реализована на базе технологий и программного обеспечения, разработанных в ИКИ РАН (Балашов и др., 2011; Балашов и др., 2010; Ефремов и др., 2004 (2); Мамаев и др. 2008). Задачи управления и контроля решаются на базе использования созданного в ИКИ РАН программного обеспечения ControlSmis. Базовым элементом этого ПО является программный пакет PMS (Process Monitoring System), предназначенный для контроля за выполнением отдельных процедур как на серверах, так и на станциях обработки. Компоненты этого пакета устанавливаются на все сервера и станции обработки. Для решения задач документирования компонент программно-аппаратного комплекса, детектирования и сопровождения ошибок и сбоев в работе системы и многих других задач, связанных с управлением и контролем за работой комплекса в целом, используется разработанная в ИКИ РАН система документирования и контроля (СДКП). Диспетчеризация потоков данных реализована на базе запатентованного ПО DataDispSmis, основой которого является программный пакет DDS (Data Distribution System). В рамках ЦКП «ИКИ-Мониторинг» также реализована система контроля за состоянием серверов хранения, которая позволяет получить детальную информацию о наполнении серверов, наличии свободного места, состоянии дисковых массивов, производительности файловых систем, а также оценить скорости возрастания объемов архивов, что необходимо для прогнозирования потребности в расширении парка серверов.
Архивы данных ЦКП «ИКИ-Мониторинг»
На настоящий момент ЦКП «ИКИ-Мониторинг» обеспечивает возможность доступа пользователей к архивам данных, имеющим фактически уникальное для отечественных ресурсов временное и пространственное покрытие. На текущий момент основная область покрытия регулярными спутниковыми данными, доступными через ЦКП «ИКИ-Мониторинг», составляет около 25% площади поверхности суши Земли. В эту область входит вся Северная Евразия, включая арктические территории, приграничные моря России, а также ряд регионов в Африке, Азии, Северной и Южной Америке, наблюдаемых в рамках международных проектов. Для ряда данных, таких как метеоинформация и информация о пожарах, доступно регулярное глобальное покрытие. Также потенциально благодаря возможности получения информации из единой системы работы с данными ФГБУ «НИЦ «Планета» (Лупян, Милехин и др., 2014) пользователи имеют возможность работы с глобальными покрытиями данных, получаемых некоторыми российскими системами наблюдений (например, системой МСУ-МР, установленной на спутнике Метеор М № 2 ).
На наш взгляд достаточно важно, что в архивах центров имеются достаточно однородные ряды данных различных приборов. Так, например, пользователям системы доступны данные, получаемые спутниками Landsat с 1984 года. А хорошо очищенные и нормализованные данные приборов MODIS, установленных на спутниках Terra и Aqua, имеются в архивах центра с февраля 2000 года.
В Таблице 1 (Состояние архивов спутниковых данных ЦКП «ИКИ-Мониторинг» на 1 августа 2015 года) приводится информация о спутниковых данных и информационных продуктах, полученных на основе их обработки, которые доступны пользователям ЦКП «ИКИ-Мониторинг» непосредственно в архивах центра или в архивах данных объединенной системы работы с данными центров «НИЦ «Планета» (Бурцев и др., 2012; Лупян, Милехин и др., 2014). Доступ к информации, размещенной в этих центрах, организован в рамках соглашения Росгидромета и РАН договора между ИКИ РАН и НИЦ "Планета" об организации доступа к спутниковой информации для выполнения научных проектов и программ.
Представленная в Таблице 1 информация сгруппирована по спутникам, приборам и типам спутниковых данных и информационным продуктам, получаемым на основе их обработки. Для каждого типа данных указывается диапазон имеющихся в архиве данных, количество сцен, суммарный объем данных и средняя скорость поступления данных в архивы. Курсивом обозначены типы данных, к которым не реализован непосредственно доступ из интерфейсов системы Вега-Science. Как правило, такие данные используются для проведения потоковой обработки для формирования базовых информационных продуктов. В тоже время эта информация может предоставляться в информационные системы конкретных проектов с использованием описанных выше интерфейсов для работы с архивами ЦКП «ИКИ-Мониторинг».
Кроме спутниковых данных и продуктов их обработки в архивах ЦКП «ИКИ-Мониторинг» содержатся также и некоторые другие типы информации, используемые при решении задач мониторинга окружающей среды. В частности, в рамках центра поддерживаются архивы метеоданных в формате NCEP, получаемые из Национального центра атмосферных исследований США (NCAR) В настоящее время в архиве содержатся метеоданные с 2000 года по настоящее время по всему земному шару, относящиеся к следующим типовым наборам:
- ds093.0/ds094.0 -- данные реанализа на регулярной сетке с шагом 0,5 градуса
- ds335.0 -- данные прогноза на регулярной сетке с шагом 1 градус
Как уже отмечалось информационные ресурсы, доступные пользователям ЦКП «ИКИ-Мониторинг», постоянно (ежедневно) пополняются благодаря полностью автоматизированному поступлению данных новых наблюдений и различных информационных продуктов. При этом также постоянно расширяется состав информации, доступный пользователям центра.
Отметим, что на середину 2015 года суммарная скорость пополнения архивов доступных пользователям ЦКП «ИКИ-Мониторинг» (архивы ИКИ РАН и НИЦ "Планета") приближается к 1 Тбт/сутки, а объем информации находящейся в непосредственном доступе в 1 Птб.
Актуальную информацию о наличии данных в архивах ЦКП "ИКИ-Мониторинг" можно получить в разделе сайта "Архивы данных"
Опыт использования возможностей ЦКП «ИКИ-Мониторинг»
Возможности, предоставляемые ЦКП «ИКИ-Мониторинг», используются сегодня различными научными коллективами и проектами. Так, например, по состоянию на конец августа 2015 года пользователями, выполняющими различные научные проекты, являлось более 20 научных организаций и групп.
Возможности центра активно используются для решения задач различных проектов, поддерживаемых Российским научным фондом, Российским фондом фундаментальных исследований и Министерством образования и науки. В частности, они были использованы для выполнения следующих проектов РНФ (14-17-00389), РФФФ (11-07-12026-офи-м, 11-07-12028-офи-м, 13-07-00513, 13-07-12017, 13-07-12116, 13-07-12180, 13-05-41420-рго-а, 13-07-13168-офи-м, 14-05-20238, 14-35-10137), Минобрнауки (14.515.11.0007, 14.515.11.0014, 14.515.11.0030, 14.515.11.0011).
Инфраструктура и архивы данных, накопленных в ЦКП «ИКИ-Мониторинг», используются сегодня для проведения работ по созданию и обеспечению следующих специализированных информационных систем, создающихся в интересах различных научных проектов:
- Информационная система «VEGA-GEOGLAM» , разрабатываемая в рамках проекта SIGMA. Целью системы является обеспечение участников международного проекта SIGMA, ориентированного на разработку методов и технологий дистанционного сельскохозяйственного мониторинга в интересах создания глобальной системы мониторинга сельского хозяйства, инструментами анализа данных дистанционных наблюдений.
- Информационная система «Дистанционный мониторинг активности вулканов Камчатки и Курил» VolSatView. Основной задачей системы является обеспечение специалистов-вулканологов оперативными спутниковыми данными и различными информационными продуктами, получаемыми на основе их обработки, для мониторинга и изучения вулканической активности Камчатки и Курил (Гирина и др., 2015; Гордеев и др., 2015; Ефремов и др., 2012). Система создавалась и развивается в рамках проектов РФФИ (11-07-12026-офи-м, 13-07-12180).
- Спутниковый сервис Sее Thе Sеа (STS) – это информационная система, ориентированная на работу с данными спутниковых наблюдений для решения междисциплинарных задач исследования Мирового океана (Лупян, Матвеев и др., 2012; Митягина и др., 2013; Mityagina et al., 2014). Особое внимание в системе уделяется возможности работы с данными спутниковой радиолокации. Система призвана обеспечить специалистов, работающих в области исследования Мирового океана, возможностью одновременной работы с различными видами спутниковой информации и удобным инструментарием, позволяющим проводить ее комплексный анализ. Система создавалась и развивается в рамках проектов РФФИ (11-07-12025-офи-м, 13-07-12017).
ЦКП «ИКИ-Мониторинг» также использовался для проведения разработок методов обработки и анализа спутниковых данных, которые в дальнейшем были внедрены в различные прикладные информационные системы дистанционного мониторинга. В том числе в: