Loading
Пропустить Навигационные Ссылки.

Авторизоваться
Для зарегистрированных пользователей

Автоматическое детектирование сбоев в работе программно-аппаратного комплекса

В настоящее время на серверах программно-аппаратного комплекса ЦКП «ИКИ-Мониторинг» реализовано выполнение многих сотен процессов, выполняющих задачи по сбору, обработке и архивации данных, а также специальных процессов, отвечающих за контроль работы различных системных и аппаратных компонент. Естественно, что не все возникающие в их работе ошибки являются одинаково важными и требуют немедленного устранения. В то же время, даже отсутствие детектированных ошибок в работе тех или иных процессов в рамках такой сложно многокомпонентной системы еще не означает отсутствие существенных неполадок в ее работе. Поэтому возникает необходимость в автоматическом детектировании наиболее критичных для функционирования комплекса неполадок в его работе, о которых следует оперативно оповестить специалистов, занимающихся технической поддержкой работы комплекса.


Ниже приводятся основные типы проверок, предназначенных для их автоматического выявления:

  1. Контроль функционирования аппаратных компонент:
    • Проверка доступности всех серверов и хранилищ данных
    • Проверка состояния дисковых массивов (RAID)
  2. Контроль системных программных компонент:
    • Диагностика и прогнозирования переполнения дисковых разделов
    • Проверка работы основных служб на серверах
    • Проверка доступности по NFS всех томов архивов данных
    • Проверка синхронизации времени на серверах
  3. Контроль оперативного поступления в архивы всех типов информационных продуктов (много десятков)
    • Для каждого информационного продукта проверяется давность экземпляров данных и если она превышает заданную в конфигурации, то диагностируется сбой
  4. Контроль выполнения заданий обработки данных
    • Контроль процента успешных выполнений
    • на каждом из серверов обработки
    • Контроль допустимого времени простоя серверов обработки
    • Обнаружение «зависших» процессов
  5. Контроль целостности тематического программного обеспечения
    • На каждом из серверов для каждого программного пакета проверяется комплектность файлов и их контрольные суммы