Loading
Пропустить Навигационные Ссылки.

Авторизоваться
Для зарегистрированных пользователей

Методика оценки временных затрат на подготовку блоков данных

В рамках разработанной технологии динамического блочного доступа к данным в архивах спутниковых данных подготовка блоков данных производится в параллельном режиме на кластере специализированных серверов, на которых реализован прямой доступ к файлам данных в архиве. При этом в каждом из информационных узлов распределенного архива устанавливается группа таких серверов, обслуживающих запросы на получение данных из соответствующего раздела архива. За формирование к ним HTTP запросов на получение требуемых для проведения обработки файлов данных отвечает сервера диспетчеризации, который реализуют гибкий механизм балансировки нагрузки, учитывающий физическое расположение исходных файлов данных в архиве. Процедура формирования блока данных реализована на основе свободно распространяемого ПО GDAL (Geospatial Data Abstraction Library). В рамках ее выполнения производится чтение только необходимых фрагментов исходных файлов данных и формируется файл в формате GeoTIFF со следующими заданными характеристиками: размер, проекция, разрешение, набор каналов и алгоритм сжатия. После этого файл пересылается по сети на сервер, выполняющий функцию дискового буфера, который обеспечивает кэширование подготовленных блоков данных и является источником исходной информации для проведения одной или нескольких обработок. Для того чтобы оценить суммарное время подготовки данных, необходимых для проведения конкретного типа обработки необходимо получить среднее время выполнение запроса на получение одного блока данных.


Время выполнения запроса на подготовку блока данных зависит от множества факторов, включая вышеперечисленные характеристики подготавливаемых файлов, а также типа исходных данных, схемы организации их хранения, скорости доступа к конкретным файловым серверам и производительности сетевых каналов. Установление всех зависимостей без использования упрощенной модели требует очень большого времени и ресурсов, что не позволяет оперативно оценить требуемое время для нового типа обработки. Для построения такой модели было проанализировано влияние наиболее значимых из них, и был установлен целый ряд упрощенных зависимостей, которые можно использовать для оценки времени подготовки разных выборок исходных данных. В частности, время передачи данных по сети, также как и время, необходимое для их сжатия не зависят существенно от типа исходных данных и организации их хранения. Также в рамках выработанной модели используются зависимости времени подготовки блоков данных не от их размера в географических координатах, а от размера в пикселах изображения. Важно отметить, что описанная ниже модель является приближенной, а оценки для выбранного на ее использования варианта могут быть при необходимости уточнены. В качестве основного времени, которое необходимо смоделировать было выбрано время подготовки данных по одному типу (продукту) исходных данных. Ниже приводится формула для оценки этого времени как сумма разных зависимостей, которые могут быть установлены экспериментально:

T-product(n, arch_type, dst_proj, compression) =
   T-base(n, arch_type , dst_proj)
   + T-compression(n, compression)
   + T-get( size(n, compression ) )


Где n – линейный размер получаемого блока данных в пикселах в предположении, что блоки имеют квадратную форму,

   arch_type – совокупность характеристик исходных файлов, ключевыми из которых являются их проекция и характерный размер фрагментов,

   dst_proj – проекция получаемых данных,

   compression – используемый алгоритм сжатия,

   size(n, compression) – размер блока данных после применения заданного алгоритма сжатия

Первое слагаемое в формуле T-base описывает базовое (основное) время формирования блока данных в зависимости от его размера, проекции и фрагментации исходных данных и проекции, в которой должны быть получены результаты. Существенно, что полученная для конкретного типа данных зависимость может быть применена и для похожих по организации хранения других типов спутниковых данных. Второе слагаемое  T-compression соответствует времени, необходимому для сжатия получаемых данных по блоку и зависит только от размера блока и используемого алгоритма сжатия. Третье слагаемое T-get определяет время, необходимое для передачи результирующего файла по сети, и зависит только от размера данных. Далее в статье кратко приводится основные методы для оценки каждой из рассматриваемых выше зависимостей с примерами полученных зависимостей.