Общая информация
Современные системы доступа к данным ДЗЗ и результатам их обработки представляют из себя сложные территориально распределенные программно-аппаратные комплексы, в работе которых участвуют многие десятки компьютеров, функционирующих в автоматизированном режиме. К таким системам, безусловно, относится реализованный в ИКИ РАН центр коллективного пользования системами архивации, обработки и анализа данных спутниковых наблюдений ЦКП «ИКИ-Мониторинг». В настоящее время в его работе задействовано более 50 серверов архивации и специализированных систем хранения данных (NAS), свыше 60 серверов, предназначенных для обработки спутниковых данных, а также более десяти специализированных серверов, предназначенных для формирования спутниковых изображений для картографических WEB интерфейсов. В настоящее время пользователям ЦКП «ИКИ-Мониторинг» обеспечивается доступ к архивам данных ДЗЗ, суммарный объем которых превышает 5 петабайт, при этом ежесуточно в архивы центра поступает более 3 Тб новых данных.
Для обеспечения бесперебойного функционирования программно-аппаратного комплекса ЦКП «ИКИ-Мониторинг» был разработан и развивается в настоящее время целый ряд программных решений, предназначенный для решения следующих основных задач:
- Контроль выполнения процессов
Эта задача контроля является наиболее очевидной. Для ее качественного решения необходимо вести протоколы выполнения всех процессов по работе с данными в системе, а также их коды возврата, которые при этом должны быть стандартизированы.
- Автоматическое детектирование сбоев в работе программно-аппаратного комплекса
Как показывает многолетний опыт разработки и эксплуатации сложных распределенных систем, задача автоматического обнаружения различных типов критических неполадок в работе системы является ключевой для достижения своевременного оперативного их устранения и обеспечения бесперебойной работы программно-аппаратного комплекса
- Документирование сбоев в работе комплекса
Для того чтобы эффективно устранять неполадки в работе сложного программно-аппаратного комплекса необходимо вести систематизированную информацию о возникающих ошибках, оперативно оповещать о них ответственных специалистов и отслеживать процесс их устранения.
- Ежедневные отчеты о функционировании отдельных подсистем комплекса
Ошибки при выполнении отдельных процессов не обязательно являются критическими и требующими немедленного исправления, при этом даже отсутствие ошибок в работе процессов еще не означает, что в работе системы отсутствуют неполадки, в частности, возникшие по внешним для нее причинам. Для качественной оценки работы целых подсистем комплекса используются ежедневные отчеты, рассылаемые ответственным специалистам по электронной почте.
- Инструменты для анализа работы различных подсистем комплекса
Инструменты анализа позволяют разобраться в причинах возникших неполадок, выявить скрытые ошибки, найти «узкие» места в работе подсистемы, получить необходимую статистику о наличии тех или иных данных в архивах и т.д.
- Документирование используемых программных и аппаратных средств
Хотя сама по себе информация об аппаратной и программной конфигурациях комплекса не позволяет детектировать или устранять ошибки в его работе, без нее практически невозможно качественно решить все вышеописанные задачи.