Вариант с использованием прямого доступа к файлам данных со стороны серверов обработки
Рассматриваемый вариант организации подсистемы блочного доступа к файлам данных применим в тех случаях, когда вычислительные узлы имеют прямой доступ к файлам данных в архивах спутниковых данных. В частности, нами прорабатывалась конфигурация, когда сервера обработки функционируют под операционной системой UNIX, а прямой доступ к файлам данных в архивах с их стороны обеспечивается по протоколу NFS.
Принципиальная схема построения подсистемы блочного доступа к файлам для проведения их распределенной параллельной обработки при использовании рассматриваемого варианта приведена на рисунке 4.1.3.1. Сервера диспетчеризации обработки отвечают за формирование заданий на проведение обработки по каждой из ячеек разбиения и предоставление их серверам обработки. Универсальная процедура формирования заданий на получение наборов исходных данных использует гибкую систему настроек, позволяющую задать географическую область, параметры ее разбиения на ячейки и наборы различных типов спутниковых данных, необходимых для проведения обработки, и географическую проекцию, в которой они должны быть предоставлены. Если требуемые файлы данных являются многоканальными, то также указываются только те из них, которые реально нужны для проведения обработки. Для каждой из ячеек разбиения производится поиск необходимых данных в указанных архивах и формируется задание, содержащее NFS-пути для доступа ко всем выбранным файлам данных, а также необходимые для их обработки метаданные. Важно отметить, что для реализации такого варианта доступа к файлам данных на каждом из серверов обработки единообразным образом должны быть примонтированы по NFS все разделы хранения данных. Распределение сформированных таким образом заданий по серверам обработки производится на базе подсистемы управления обработкой, рассмотрение которой выходит за рамки настоящего изложения.
Рисунок 4.1.3.1. Схема организации блочного доступа к данным с использованием прямого доступа к данным архивов со стороны серверов обработки.
На всех серверах обработки устанавливается универсальный программный модуль для подготовки исходных данных для обработки, который для повышения эффективности реализуется в многопоточном режиме. В результате его выполнения по каждому из спутниковых сеансов (пролетов) формируется GeoTIFF файл в заданной географической проекции. При этом его экстент соответствует границам текущей ячейки разбиения или же несколько большей области, если это требуется для проведения обработки. Отметим, что в текущей реализации все операции по обработке спутниковых изображений реализованы на основе использования свободно распространяемого ПО GDAL.
Хотя рассмотренный вариант относительно прост в реализации, он обладает рядом недостатков. Во-первых, обеспечение прямого доступа к файлам данных со стороны серверов обработки связано с необходимостью монтирования на каждом из серверов всех разделов хранения данных, а в некоторых реальных конфигурациях может быть просто невозможным. В частности, такой вариант не подходит, когда мы имеем дело с распределенными архивами спутниковых данных, находящимися в различных информационных центрах. Во-вторых, такой вариант не позволяет использовать для предварительной подготовки данных вычислительные ресурсы самих серверов хранения данных, в том числе нет возможности обрабатывать данные непосредственно по месту их расположения в тех случаях, когда это возможно