Loading
Пропустить Навигационные Ссылки.

Авторизоваться
Для зарегистрированных пользователей

Подсистема подготовки блоков данных для проведения дальнейшей их обработки

Для предоставления данных для проведения их дальнейшей обработки в 2022 году была разработана новая программная подсистема. Первоначально она была реализована для выгрузки блоков данных, полученных в результате проведения обработки данных прибора КМСС, но затем ее функционал был расширен, и в настоящее время она позволяет подготавливать для обработки любые типы файлов данных, находящихся в архивах ЦКП «ИКИ-Мониторинг». Основным ее отличием от используемых ранее аналогов является гибкость настроек и поддержка большого числа различных вариантов именования получаемых файлов данных, включая использование требуемых структур директорий. Ниже сначала приводятся общие сведения об организации архивов данных «ЦКП ИКИ-Мониторинг», а затем описывается разработанная подсистема для предоставления хранящихся в них файлов данных для проведения их обработки.

Система ведения архивов спутниковых данных ЦКП «ИКИ-Мониторинг» реализована на базе унифицированной технологии ведения сверхбольших распределенных архивов разнородных спутниковых данных UNISAT. В рамках использования этой технологии метаданные, т.е. информация об имеющихся в архивах данных и их атрибуты, сохраняются в базу данных unisat, а сами файлы данных помещаются в файловое хранилище. Структура БД unisat включает в себя две основные таблицы:

  • fragments – описание фрагментов спутниковых продуктов;
  • fragment_products – описание информационных продуктов, относящихся к фрагментам, которым соответствуют файлы данных, которые в основном представлены в виде спутниковых изображений в формате GeoTIFF.

Хранение файлов спутниковых данных в архивах ЦКП «ИКИ-Мониторинг» в каждом из центров реализуется на основе использования распределенных файловых хранилищ, состоящих из UNIX серверов и специализированных систем хранения (NAS), объединенных в единое логическое пространство при помощи протокола NFS. На текущий момент в ИКИ РАН задействовано более 30 серверов хранения Файлы архива хранятся поддиректориях, в каждой из которых по умолчанию может быть до ста тысяч файлов. Имена поддиректорий и самих файлов формируются на основании идентификатора соответствующей записи в таблице product_fragments. К примеру, записи с идентификатором 12345678, описывающей GeoTIFF файл, соответствует относительный путь к файлу “00123/45678.tif”.

За пополнение и изменение данных каждого из архивов отвечает выделенный сервер архивации. На нем располагается базовая директория хранилища файлов архива, в которую линкуются поддиректории с данными, находящимися на различных сетевых разделах. При этом сами разделы должны быть присоединены к этому серверу в режиме чтения и записи по протоколу NFS.

На серверах, которым необходим только доступ к файлам в архиве, присоединяется по NFS базовая директория архива, а требуемые сетевые разделы присоединяются по протоколу NFS в режиме только чтения. На серверах, которые обеспечивают формирование данных для занесения их в архив, присоединяется по NFS специальная директория с сервера архивации, которая всегда указывает на текущий раздел пополнения данными, а также сам этот раздел и следующие за ним. Это позволяет избежать лишнего копирования файлов и помещать их сразу на требуемый сетевой раздел, после чего в рамках процедур архивации они перемещаются внутри этого раздела в поддиректории с данными, что является нетребовательной к ресурсам операцией. Схема организации распределенного файлового хранилища спутниковой информации приведена на рисунке 1.

Рисунок 1 - Схема организации распределенного файлового хранилища

Процедура получения файлов данных из заданного распределенного архива может выполняться на серверах, к которым по протоколу NFS подсоединены базовая директория соответствующего архива и все его локальные (находящиеся в пределах одного центра данных) разделы. Функциональная схема подсистемы подготовки данных приведена на рисунке 2. На вход процедуре подготовки данных поступает конфигурационный файл, содержащий все необходимые параметры требуемых данных, включая идентификатор распределенного архива данных, центры данных, спутники, схему представления результатов и т.п. На первом этапе выполнения процедуры производится запрос к каталогам архивов указанных в конфигурации центров данных для получения списка требуемых файлов. Необходимость в этом связана с тем, что в каждом из узлов распределенного архива содержится информация обо всех имеющихся в нем данных, но информация об именах файлов данных находится локально. После этого производится непосредственно получение данных из файловых хранилищ. В том случае, когда это хранилище является локальным, производится операция копирования или линкования файла по протоколу NFS, а данные из удаленных центров запрашиваются в параллельном режиме по протоколу http при помощи программы aria2c. Помимо самих файлов данных, в директорию для выкладки файлов могут также помещаться файлы, содержащие их метаданные. Информация о полученных файлах или ошибках при их получении сохраняется в специализированную базу данных.

Рисунок 2 - Функциональная схема подсистемы подготовки данных