Этап обработки
На этапе обработки вычислительные узлы получают из дискового буфера предназначенные для них наборы блоков (кластеры данных), выполняют собственно их обработку и передают результаты на сервера архивации. Время выполнения этих операций для одного вычислительного узла (задания) можно оценить по формуле:
где
а – размер блока,
p – число блоков, входящих в кластер без учета буферной зоны,
Tget(a) – среднее время скачивания блока по всем используемым типам данных на сервер обработки,
Tproc(a) – среднее время обработки данных блока, включая чтение и запись данных,
Tupl(a) – среднее время передачи блока на сервер архивации.
Зависимость функций Tget(a), Tproc(a), Tupl(a) от размера блока а в общем случае не может быть описана аналитически, поэтому должна вычисляться экспериментальным путем для конкретной обработки.
Для оценки ограничений количества используемых вычислительных узлов необходимо оценить нагрузку на канал доступа к дисковому буферу и канал передачи данных на архивацию, которая создается при выполнении одного задания на обработку. Такая нагрузка может быть оценена следующим образом:
где
Vtget(a,p) – средний трафик, создаваемый одним заданием на канал получения данных из дискового буфера,
Vtupl(a,p) – средний трафик, создаваемый заданием на канал отдачи результатов обработки,
SourceUnitSize (а) – средний объем всех типов исходных данных для блока размера а,
ResultUnitSize (а) – средний объем результатов, получаемых при обработке блока с размером а.
Важно отметить, что для равномерной нагрузки на сетевую инфраструктуру при проведении параллельной обработки на множестве вычислительных узлов, необходимо тем или иным образом разводить по времени выполнение операций по получению данных и возврату получаемых результатов различными вычислительными узлами.