Развитие нейросетевых подходов для автоматического построения масок облачности и теней на спутниковых изображениях приборов серии КМСС
В рамках проведенных в 2023 году работ получили развитие методы автоматического построения масок мешающих факторов на некалиброванных изображениях, полученных по данным приборов серии КМСС. В 2022 году было показано, что свёрточная нейросеть позволяет выявлять мешающие факторы на спутниковых изображениях различного уровня обработки за счёт использования текстурной информации. Дальнейшее развитие методов автоматического распознавания облачности и теней с учетом необходимости учёта различных условий наблюдения и освещения, а также при различных типах подстилающей поверхности требует использования пространственно-распределенной выборки, охватывающей большую неоднородную территорию. Кроме этого, для использования нейросети в потоковой обработке необходимо было провести анализ её эффективности при различных параметрах архитектуры и различных видах нормализации данных.
Для этих экспериментов, во-первых, был использован набор из около 5000 спутниковых изображений спутников Sentinel-2 (прибор MSI), полученных в 2021 году на территорию России, содержащий стандартные маски (scene classification map) для каждой сцены. Сцены были переведены в географическую проекцию (рабочую проекцию данных КМСС) и загрублены до различных разрешений, включая угловой аналог 60 метров (разрешение КМСС) и 480 метров (восьмикратное разрешение КМСС) на экваторе. Во-вторых, были использованы наборы данных КМСС, содержащие штатные маски облачности и теней, полученные без использования методов машинного обучения. Сцены были разбиты на блоки размером 512 на 512 пикселей, 70% которых использовалась для обучения, остальная часть – для валидации. Второй набор данных КМСС был расширенным и получен, в том числе, с использованием лучших результатов предыдущих версий нейросети с экспертным отбором результатов.
В работе использовались два варианта архитектуры сети U-Net – вариант с 650 тыс. весов, четырьмя этапами понижения размера изображения и использованием оператора свёртки Conv2D (вариант А), а также вариант с 300 тыс. весов, двумя этапами понижения размера изображения и использованием оператора свёртки SeparableConv2D (вариант Б). Во всех экспериментах, кроме одного, в качестве функции потерь использовалась функция bce jaccard loss, в оставшемся эксперименте использовалась функция sparse categorical cross entropy. Кроме этого, в двух экспериментах варианта архитектуры А для повышения устойчивости к переобучению дополнительно использовался слой dropout.
Во время предварительной нормализации данных значения переводились в диапазон от 0 до 1 (код R) и опциональное умножение на случайный коэффициент (код M). Внутри сети опционально использовалась батч-нормализация. Таким образом, была проведена серия экспериментов, некоторые из которых приведены в Таблице 1 с описанием ключевых условий эксперимента. Пример динамики метрики общей точности на обучении приведен на рисунке 1.
Таблица 3.2.3.1 – Сводная таблица экспериментов для оценки эффективности различных схем обучения нейросетевых моделей для выявления облачности и теней на изображениях КМСС
Номер
|
Arch
|
Предварительная нормализация данных
|
Batch norm
|
Слой Dropout
|
Set train
|
Set val
|
Разрешение
|
Epochs
|
Fin OA train, %
|
Best OA val, %
|
1
|
A
|
R+M
|
+
|
+
|
Набор 1
|
Набор 1
|
480 м.
|
37
|
83.95
|
70.38
|
2
|
A
|
R+M
|
+
|
–
|
Набор 1
|
Набор 1
|
480 м.
|
44
|
88.21
|
87.26
|
3
|
A
|
R+M
|
–
|
+
|
Набор 1
|
Набор 1
|
480 м.
|
48
|
86.38
|
85.73
|
4
|
A
|
R+M
|
–
|
–
|
Набор 1
|
Набор 1
|
480 м.
|
61
|
88.29
|
87.14
|
5
|
A
|
R
|
–
|
–
|
Набор 2
|
Набор 2
|
60 м.
|
53
|
74.9
|
92.17
|
6
|
A
|
R
|
–
|
–
|
Набор 2
|
Набор 2
|
60 м.
|
667
|
95
|
95.07
|
7
|
A
|
R
|
–
|
–
|
Набор 3
|
Набор 2
|
60 м.
|
363
|
93.69
|
94.12
|
8
|
A
|
R+M
|
–
|
–
|
Набор 2 + Набор 3
|
Набор 2 + Набор 3
|
60 м.
|
249
|
96.14
|
86.28
|
9
|
A*
|
R+M
|
–
|
–
|
Набор 2 + Набор 3
|
Набор 2 + Набор 3
|
60 м.
|
256
|
95.88
|
86.5
|
10
|
Б
|
R+M
|
+
|
–
|
Набор 1
|
Набор 1
|
480 м.
|
500
|
91.32
|
77.66
|
11
|
Б
|
R+M
|
–
|
–
|
Набор 1
|
Набор 1
|
480 м.
|
23
|
76.47
|
76.82
|
12
|
A
|
R+M
|
+
|
–
|
Набор 1
|
Набор 1
|
480 м.
|
177
|
82.89
|
77.33
|
13
|
A
|
R+M
|
–
|
–
|
Набор 1
|
Набор 1
|
480 м.
|
1563
|
95.52
|
81.17
|
14
|
A
|
R+M
|
–
|
–
|
Набор 1
|
Набор 1
|
60 м.
|
339
|
95.73
|
78.1
|
Примечание: A* – архитектура типа А, где в качестве функции потерь использовалась sparse categorical cross entropy; Arch – архитектура; R – решкалирование; M – умножение на случайное число; Batch norm – использование батч-нормализации; Set train – набор для обучения; Set val – набор для валидации; Набор 1 – набор подготовленных сцен Sentinel-2 (5000 сцен для обучения, 770 сцен для валидации); Набор 2 – набор вручную выбранных 60 сцен КМСС, которые нарезались блоками 512x512, 70% использовались для обучения, 30% – для валидации; Набор 3 – набор вручную выбранных 150 сцен КМСС, которые нарезались блоками 512x512, 70% использовались для обучения, 30% – для валидации; Epochs – число эпох к окончанию обучения, Fin OA train – финальная точность на обучении, Best OA val – лучшая точность на валидации.
Рисунок 1 – Динамика точности на обучении для нескольких экспериментов из Таблицы 1
Динамика показателей общей точности на обучении и на валидации демонстрирует устойчивость сети и возможности её адаптации к особенностям входных данных. В частности, в процессе обработки порций загружаемых и выгружаемых порций данных может наблюдаться резкое кратковременное падение метрик точности, как, например, для эксперимента 13. Для учёта некалиброванности входных изображений КМСС, на которых требуется выявлять участки облачности и теней, в дизайн некоторых экспериментов была добавлена предварительная нормализация данных, а также батч-нормализация внутри сети.
Для оценки эффективности сети и условий схемы обучения оценивалась метрика лучшей точности на валидации, которая оказалась максимальной для эксперимента 6 и составила 95.07% для архитектуры типа А с решкалированием входных данных по Набору 2. Общая схема архитектуры нейросети из эксперимента 6 показана на рис. 2.
Рисунок 2 – Общая схема наиболее оптимальной архитектуры нейросети U-Net типа A для распознавания облачности и теней на изображениях КМСС
Следует отметить, что более простая версия этой же архитектуры Б демонстрирует заметно более низкие показатели максимальной точности на валидации, что указывает на то, что упрощение нейросети с целью её ускорения в данном случае не является оправданным.