4.1.1. Разработка методов, алгоритмов и технологий построения автоматизированных систем сбора и обработки спутниковых данных.
Сегодня спутниковые системы мониторинга используются для решения различных научных и прикладных задач, связанных с исследованием и контролем природных и антропогенных явлений, процессов и объектов. Во многих отраслях, таких как метеорология, океанология, картография, сельское и лесное хозяйство и др., спутниковые данные уже сегодня являются незаменимыми. Так, например, в последние годы в задачах, связанных с контролем и прогнозом погоды, спутниковые данные по различным оценкам составляют около 90% объема используемой информации. Особо хотелось бы отметить, что с появлением высококачественных систем дистанционного наблюдения, обеспечивающих достаточно устойчивое и быстрое получение информации по всей территории Земли, мы получили возможность перейти к принципиально новому качеству использования спутниковых систем дистанционного наблюдения. Фактически появилась возможность не только использовать поступающую со спутников информацию для визуальных оценок, но и осуществлять на основе данной информации количественный анализ различных процессов и явлений. Кроме того, практически во всех областях, где активно применяется информация спутникового дистанционного зондирования, ее все чаще используют для решения задач постоянного мониторинга тех или иных явлений. Это, в свою очередь, потребовало создания подходов и технологий, которые смогли бы обеспечить массовую, оперативную, автоматизированную обработку информации. Разработке таких подходов и технологий была посвящена серия работ, которые выполнялись в ИКИ РАН в последние годы. В 2011 году был проведен комплексный анализ сложившейся в данной области ситуации и были сформулированы новые требования к технологиям обработки данных, которые позволили объединить разработки последних лет, выполненные в ИКИ РАН, и на их основе начать формирование единой современной технологии сбора, обработки и распространения спутниковых данных.
Для того чтобы сформулировать такие требования был рассмотрен и проанализирован «жизненный цикл», который проходит информация дистанционного зондирования в современных информационных системах. При этом были выделены основные его элементы и проанализированы их основные современные особенности и общие возможные схемы построения. Также на примере опыта работ, выполненных в Институте космических исследований РАН (ИКИ РАН), были рассмотрены возможности создания базовых технологий и программных решений, необходимых для реализации различных блоков систем сбора, обработки и распространения спутниковых данных.
Рис.4.1.1.1 Характерный «жизненный цикл» спутниковой информации в различных информационных системах.
На рис. 4.1.1.1 представлен упрощенный «жизненный цикл», который обычно проходит спутниковая информация в различных информационных системах. Фактически этот цикл можно разбить на следующие основные элементы:
- Получение спутниковых данных;
- Архивация данных;
- Первичная обработка данных;
- Тематическая обработка данных;
- Формирование различных информационных продуктов (карт, полей различных параметров, отчетов и т.д.);
- Предоставление данных пользователям (исследователям, аналитикам, специалистам, контролирующим те или иные процессы и явления, и т.д.).
Следует также обратить внимание на то, что в ходе «жизненного цикла» данные могут по нескольку раз возвращаться в отдельные блоки. Кроме того, в отдельных случаях в конкретных системах могут присутствовать какие-то дополнительные этапы или отсутствовать некоторые из вышеперечисленных этапов, а также могут возникать ситуации, в которых нет жесткой грани между отдельными этапами. Однако, на наш взгляд, придерживаясь приведенной схемы разделения «жизненного цикла» на отдельные элементы, практически всегда удается сделать структуру систем, обеспечивающих работу со спутниковыми данными, достаточно прозрачной и понимаемой. Поэтому мы постараемся остановиться на особенностях именно этих блоков, для того чтобы стало понятно, какие именно задачи они обычно решают.
При построении современных систем мониторинга процесс получения спутниковых данных следует рассматривать достаточно широко. В настоящее время существует несколько схем получения данных. Наиболее распространенными из них являются непосредственный прием данных на станциях, входящих в состав систем мониторинга, и оперативное получение данных из различных специализированных центров приема и обработки данных. Следует отметить, что второй путь в настоящее время используется наибольшим числом пользователей. Этот путь имеет несколько основных преимуществ. Так, он позволяет не расходовать средства на приобретение и поддержку достаточно дорогостоящих систем приема. Кроме того, при выборе такого пути можно достаточно быстро организовывать получение различных типов данных и до какой-то степени не зависеть от спутниковых систем, для которых были приобретены средства приема. Нельзя также не отметить, что во многих случаях из специализированных центров может быть обеспечено получение не исходных («сырых») данных, а данных, прошедших уже достаточно глубокую первичную обработку, которые уже достаточно легко могут быть использованы для проведения специализированных тематических обработок. Следует также иметь в виду, что в последние годы все активнее развиваются крупные центры приема и обработки данных, основной задачей которых является обеспечение приема данных, формирование базовых стандартизованных продуктов первичной обработки и оперативное предоставление таких продуктов в специализированные системы мониторинга. Такие центры обычно обладают достаточно широким набором различных средств приема, которые обеспечивают возможность работы с разными спутниковыми системами, достаточно большими вычислительными ресурсами, необходимыми для осуществления оперативной автоматической обработки данных и организации долговременного хранения информации, а также хорошими внешними коммуникациями, обеспечивающими быстрый доступ пользователей к информации. Технические возможности таких центров при необходимости могут также обеспечивать автоматическую тематическую обработку данных в интересах конкретных специализированных систем.
Задачи архивации данных, как и задачи обработки, делятся на несколько основных этапов, каждый из которых имеет свою специфику. С технологической точки зрения архивы можно условно разделить на оперативные и долговременные. Задача оперативных архивов в основном заключается в обеспечении работы с информацией на этапе ее первой обработки. При этом в оперативных архивах можно организовывать хранение некоторых промежуточных результатов обработки. Фактически основной задачей оперативных архивов является достаточно удобный, быстрый и автоматический доступ к данным и различным процедурам их обработки. В долговременные архивы обычно попадают данные, уже прошедшие определенную обработку (однако не исключаются варианты, когда в долговременных архивах организуется резервное хранение и всей исходной информации). Основными задачами долговременных архивов является организация работы с большими объемами данных, которые могут находиться в различных хранилищах. С функциональной точки зрения современные архивы можно также условно разделить на архивы, обеспечивающие хранение исходных и промежуточных продуктов, и архивы, обеспечивающие хранение результатов тематической обработки. Первые архивы должны обеспечивать предоставление данных различным автоматизированным процедурам обработки и обмена информации, поэтому в них обычно не ставится задача обеспечивать выдачу информации в режиме, близком к реальному времени, который необходим в первую очередь для проведения интерактивного анализа данных. Тематические архивы в основном обеспечивают хранение информации, которую могут анализировать уже конечные пользователи, или на базе нее по запросам пользователей формируются различные отчеты, карты, бюллетени и т.д. К таким архивам во многих случаях создается достаточно развитая система интерфейсов, рассчитанных на интерактивную работу. Поэтому одним из существенных требований к таким архивам является организация достаточно быстрого доступа к данным. В любом случае следует помнить, что системы архивации, рассчитанные на работу со спутниковыми данными наблюдения Земли, должны быть рассчитаны на работу с достаточно большими объемами данных. Сегодня емкость архивов даже не самых крупных центров обычно приближается или превосходит пентабайтные рубежи.
Очень важным этапом современных информационных систем, обеспечивающих работу со спутниковыми данными, является их первичная обработка. Еще не так давно к этой части обработки относили в основном декодирование потока данных, поступающих со спутников, включение различной дополнительной информации, необходимой для обработки (временные метки, условия освещенности, информация для проведения калибровок), а также запись данных в более или менее удобные для дальнейшей работы форматы. Сегодня, в связи с быстрым ростом числа тематических задач и требований к качеству информации, к первичной обработке предъявляются все более жесткие требования и границы ее существенно расширяются. Так в большинстве случаев первичная обработка данных должна обязательно обеспечить:
- качественную временную и географическую привязку (при этом в большинстве случаев точность привязки должна быть такой же или меньшей, чем пространственное разрешение используемого прибора);
- качественную калибровку, точность и стабильность которой в конечном итоге определяет круг задач, для которых в дальнейшем используются данные (для современных систем наблюдения такая точность должна составлять проценты, а иногда и доли процентов измеряемых величин);
- коррекцию на условия освещенности (особенно для приборов, работающих в диапазонах, в которых регистрируются потоки не только собственного излучения объектов, но и отраженное излучение);
- атмосферную коррекцию, которая по возможности при наблюдении объектов на поверхности земли или на границе низкой облачности должна обеспечивать исключение влияния атмосферы (естественно, что такие процедуры достаточно хорошо работают только в тех условиях наблюдения, когда атмосфера достаточно прозрачна и стабильна);
- перевод данных в географические проекции (в идеале с учетом рельефа);
- подготовка наборов данных для помещения их в архивы и передачи в процедуры тематической обработки. Долгое время считалось, что данные после прохождения первичной обработки должны быть записаны в некоторых стандартных форматах, вопросам разработки которых было посвящено значительное число работ. Однако в связи с тем, что с одной стороны данные становятся все боле разнообразными, а с другой стороны для проведения различной тематической обработки и анализа требуются иногда разные наборы данных, разработанные «стандартные» форматы становятся все более сложными и все менее удобными для работы. Поэтому во многих случаях при создании системы работы с данными конкретных приборов все чаще используются системы хранения, ориентированные на конкретную специфику прибора. При этом такие системы хранения могут обычно в автоматизированном режиме формировать разные наборы данных для дальнейшей обработки архивов.
Особо следует отметить, что в первую очередь из-за того, что системы первичной обработки данных должны обеспечивать обработку достаточно больших практически постоянно поступающих потоков информации, они сегодня должны быть полностью автоматизированы. Конечно, поскольку сегодня в систему первичной обработки данных входят достаточно сложные процедуры (например, процедуры точной географической привязки и атмосферной коррекции), то создание таких систем требует обычно проведения достаточно серьезных разработок, которые во многом зависят от специфики конкретного прибора. Проведение таких разработок сегодня практически полностью ложится на плечи производителя спутниковой системы наблюдения и требует достаточно большого времени и финансовых затрат (эти затраты составляют достаточно значительную часть от производства спутниковой системы). Поэтому действительно высококачественные системы первичной обработки данных созданы сегодня в мире для очень небольшого числа спутниковых систем. В то же время, системы, для которых сегодня реализованы современные технологии первичной обработки данных, позволили существенно расширить область их использования, и открыли возможности создания принципиально новых технологий использования данных (в первую очередь технологий, которые обеспечивают получение количественной информации на основе данных спутниковых наблюдений). Безусловно, лидирующими в этой области являются системы, обеспечивающие работу с данными приборов MODIS [1] и LANDSAT ETM и ETM+ [2]. Видимо, также в ближайшие годы реально широко использоваться будут только те спутниковые системы, для которых созданы системы первичной обработки, удовлетворяющие, в том числе, и перечисленным выше требованиям.
Задачи тематической обработки данных сегодня очень разнообразны и разноплановы, и совершенно по-разному организованы в зависимости от конкретных проектов и систем. В то же время можно выделить некоторые отдельные тенденции и особенности проведения такой обработки. Безусловно, общая тенденция в тематической обработке, использующейся сегодня в промышленных системах, заключается в том, что они в основном начинают ориентироваться на использование полностью автоматизированных методов и алгоритмов обработки данных. Несмотря на достаточно большие сложности и трудозатраты, связанные с их созданием, сегодня разрабатывается и внедряется все больше именно таких систем. Необходимость создания и внедрения полностью автоматизированных методов обуславливается с одной стороны тем, что при массовом использовании данных спутникового мониторинга в случаях, когда значительная часть обработки проводится с участием оператора, эксплуатация таких систем становится достаточно дорогой, особенно в тех случаях, когда нужно регулярно получать и обрабатывать значительные объемы информации по достаточно большим территориям. С другой стороны участие человека в процессе обработки неизбежно вносит в результат некоторую субъективность, что во многом снижает одно из основных преимуществ спутниковых систем – возможность получения объективной, сопоставимой информации по достаточно большим территориям. Поэтому сегодня большое число разработок в мире направлено именно на то, чтобы создать полностью автоматизированные процедуры, способные обеспечить качественный анализ данных без участия человека. В этом направлении в последние годы в отдельных областях достигнуты достаточно большие успехи, например, достаточно надежно работают системы, восстанавливающие различные характеристики морской поверхности (в первую очередь температуру) [3], разработаны устойчивые процедуры детектирования активных пожаров [4], созданы системы, обеспечивающие оценку и картирование различной растительности (в первую очередь лесной) [5,6]. Конечно, для решения многих задач пока не удается создать полностью автоматизированные технологии обработки, поэтому пока во многих системах этап тематической обработки продолжает включать в себя и некоторые процедуры «ручной» обработки. Но практически во всех постоянно действующих системах мониторинга эти процедуры стараются минимизировать и максимально стандартизировать. Кроме того, важным является максимальная автоматизация всех «механических» процессов, связанных с подготовкой данных для анализа, их визуализации в виде, удобном для анализа, простое сохранение результатов анализа и организация формирования на их основе уже окончательных информационных продуктов (карт, отчетов, данных для работы моделей и т.д.).
С точки зрения технических особенностей, связанных с организацией работы блоков тематической обработки спутниковых данных в различных информационных системах, следует отметить следующие:
- во многих случаях приходится использовать достаточно разнородные процедуры обработки данных, порой даже работающие в различных операционных средах, поэтому приходится организовывать достаточно гибкое взаимодействие этих процедур и обеспечивать комплексный контроль их работы. Это, в свою очередь, накладывает достаточно жесткие требования на то, как должны быть оформлены используемые процедуры, для того чтобы можно было обеспечить их контроль и управление;
- очень часто возникает задача оптимального использования достаточно разнородных вычислительных ресурсов. Во многих случаях такие ресурсы являются распределенными. Это также требует создания специальных процедур управления обработкой;
- в случаях, когда в цепочке обработки имеется «ручная часть», должны быть предусмотрены специальные процедуры контроля выходных результатов, для того чтобы избежать попадания в систему ошибочных данных. Часть такого контроля должна проводиться полностью автоматически, однако в ряде случаев должны быть предусмотрены схемы, обеспечивающие проверки результатов квалифицированными «контролерами». При этом, поскольку во многих случаях в больших системах задействованы в работе территориально распределенные коллективы специалистов, должна быть обеспечена возможность их совместной работы.
По мере проведения этапа тематической обработки в системах мониторинга должны быть сформированы различные информационные продукты (карты, отчеты, бюллетени и т.д.). Эти отчеты обычно рассчитаны на специалистов, которые должны получить уже интегрированную информацию для принятия тех или иных решений. Одна из основных особенностей таких продуктов заключается в том, что они обычно формируются не только на основе информации, полученной на основе спутниковых данных, но и на информации, полученной из других источников (различных картографических данных, статистической информации, метеоинформации, данных наземных наблюдений и т.д.). Поэтому в реально использующихся системах дистанционного мониторинга неизбежно встает вопрос интеграции различных типов данных. Хотя этот вопрос, безусловно, является пограничным для рассматриваемых систем, от уровня и качества его решения во многом зависит эффективность использования и востребованность информации. Следует также помнить, что именно необходимость получения тех или иных информационных продуктов, в конечном счете, и определяет требования к блокам тематической обработки данных, использующихся в конкретной системе мониторинга. Однако при построении системы следует в то же время учитывать реально существующие возможности современных спутниковых систем наблюдения, технологии и методы обработки данных и не пытаться сформировать выходные продукты, полностью повторяющие привычную для пользователей информацию, которая использовалась до начала применения дистанционного мониторинга. Фактически здесь необходимо стремиться к ситуации, когда информационные продукты, полученные с использованием дистанционных данных, открывали бы для пользователей новые классы задач и возможностей их решения.
Безусловно, одним из наиболее важных элементов любой системы является блок, обеспечивающий для пользователей работу с информацией. При этом в системах дистанционного мониторинга обычно возникает такое разнообразие различных информационных продуктов, что становится невозможным статическое формирование их на все случаи, которые могут возникнуть в системе. Поэтому, естественно, в большинстве систем сегодня строятся специальные интерфейсы, обеспечивающие формирование того или иного продукта автоматически по запросу пользователя. Следует также иметь в виду, что поскольку во многом результаты обработки спутниковых данных представляют собой в том или ином виде географически привязанную информацию, то одним из основных видов интерфейсов работы с такими данными является ГИС системы. При этом особый интерес по мере развития различных Интернет-технологий представляют системы, обеспечивающие возможность работы с информацией не только локальных, но и удаленных пользователей. При этом при создании таких интерфейсов следует учитывать некоторые основные особенности работы со спутниковыми данными и результатами их обработки:
- спутниковые данные и результаты их обработки имеют обычно достаточно большой объем, поэтому для обеспечения достаточно быстрых реакций интерфейса необходимо использовать специальные подходы к организации хранения и выборки данных. Одним из наиболее эффективных и простых подходов является подход, использующийся в компании GOOGLE [7]. Пожалуй, существенным недостатком такого подхода является то, что данные для его использования должны быть очень жестко структурированы, что несколько затрудняет создание продуктов на основе разнородной информации;
- в силу того, что мы вынуждены работать с большими объемами информации, которая к тому же может быть получена и храниться в территориально разделенных центрах, необходимо использовать специальные технологии, обеспечивающие быструю интеграцию данных, хранящихся в различных архивах, на уровне интерфейсов работы с ними;
- необходимо иметь возможность отображения и анализа совместно со спутниковыми данными и результатами их обработки другой информации, использующейся в системе;
- в идеале, в первую очередь для сокращения объемов архивов тематических продуктов, нужно иметь возможность быстрого построения различных производных продуктов на основе некоторого набора базовых (к примеру, построение различных усредненных характеристик, перевод результатов обработки в различные проекции, формирование оптимальных цветосинтезированных композитов и т.д.);
- все больше в последнее время требуются возможности проведения анализа не только одномоментных данных, но и информации, полученной в различные моменты времени, в частности, проведение анализа динамики тех или иных индексов, полученных на основе спутниковых данных в отдельных точках.
Конечно, конкретный создаваемый интерфейс зависит от конкретной информационной системы, однако перечисленные выше свойства присутствуют во многих системах. Поэтому становится понятно, что в случаях активно работающих систем дистанционного мониторинга, когда интерфейсы должны обеспечивать возможность работы с архивами, емкость которых исчисляется сотнями гигабайт данных, создание качественного, эффективно работающего интерфейса требует достаточно больших вычислительных ресурсов.
Таким образом, мы попытались кратко остановиться на особенностях построения различных элементов систем дистанционного мониторинга. Естественно, что в силу сложности и разнообразия решаемых в подобных системах задач достаточно трудно ожидать, что можно создать некоторую универсальную систему, которая будет одинаково оптимально решать задачи, необходимые для различных областей деятельности. Как показывает опыт, наиболее эффективным является путь, когда формируются системы, ориентированные на решение какого-то определенного круга задач. В то же время блоки, из которых создаются такие системы, могут быть достаточно универсальны и с технической точки зрения мало отличаться. Именно наличие таких блоков позволяет достаточно быстро создавать и эффективно поддерживать различные системы. В следующей части данного раздела мы кратко остановимся на опыте создания таких блоков, который был в последние годы накоплен в ИКИ РАН.
Опыт создания различных информационных систем позволяет выделить следующие основные базовые технологии, которые могут служить основой для построения различных специализированных систем дистанционного мониторинга:
- технология, обеспечивающая автоматизированный прием и/или получение спутниковых данных из специализированных центров;
- технология автоматизированного ведения архивов спутниковых данных;
- технология автоматизированной обработки спутниковых данных;
- технология представления спутниковых данных и результатов их обработки пользователям;
- технология контроля и управления различными элементами систем дистанционного мониторинга.
Данные технологии должны обеспечивать:
- возможность высокого уровня автоматизации;
- возможность их использования для построения распределенных систем;
- простоту их доработки и расширения (масштабируемость);
- надежность в работе и простоту в обслуживании.
Такие технологии в последние десятилетия активно разрабатывались в ИКИ РАН для создания различных систем дистанционного мониторинга. Это позволяет в настоящее время сформировать единую технологию сбора, обработки и распространения спутниковых данных. Следует отметить, что данная технология может стать одной из элементов Единой территориально распределенной системы (ЕТРИС), которая должна обеспечить возможность работы с перспективными российскими спутниковыми системами (данная система в настоящее время создается в рамках специализированного проекта Роскосмоса). Использование технологии ИКИ РАН при создании ЕТРИС облегчит еще и тот факт, что ее элементы уже сегодня работают в базовых центрах приема Росгидромета и Роскосмоса, которые обеспечивают в ЕТРИС инфраструктуру сбора данных.