Развитие методов радарно-оптического синтезирования спутниковых данных для восстановления серий безоблачных дистанционных характеристик растительного покрова высокого пространственного и временного разрешения с использованием методов машинного обучения
В рамках работ за отчетный период был изучен потенциал радарных данных C-диапазона Sentinel-1 для восстановления временных рядов безоблачных значений вегетационного индекса NDVI с пространственным разрешением 20 м на территорию Калининградской области за 2021 год спутниковых наблюдений с использованием данных спутниковой системы Sentinel-2. Ранее была продемонстрирована возможность восстановления измерений оптического диапазона длин волн по радиолокационным данным путём объединения технологий дистанционного зондирования и методов машинного обучения. Одним из наиболее эффективных для решения этих задач является метод случайного леса, являясь одновременно производительным и устойчивым.
Калининградская область расположена в бассейне реки Преголя и окружена Балтийским морем и Балтийским заливом с запада и юго-запада. В рельефе преобладают низкие равнины, болота и пологие холмы, на 20 % территории растут смешанные леса. Под влиянием океана климат влажный с годовым количеством осадков 600-700 мм, среднегодовой уровень облачности превышает 65 %. Регион является преимущественно аграрным, поэтому задача построения временных серий безоблачных наблюдений является актуальной.
Для оценки результатов восстановления было выбрано три тестовых региона А1, А2 и А3 на севере и западе Калининграда (рисунок 1), в которых были реконструированы временные ряды NDVI для трёх различных типов растительного покрова — пахотные земли, луга и лесная растительность.
В качестве признаков были использованы цифровая карта высот SRTM с пространственным разрешением 30 м., а также карта растительного покрова ESRI за 2021 год, построенная на основе спутниковых данных Sentinel-2.
Рисунок 1 — Расположение региона исследования и тестовых участков А1-А3 для восстановления временных серий NDVI, карта рельефа SRTM (с разрешением 30 м) и карта растительного покрова (с разрешением 10 м) Калининградской области
В исследовании использовались 22 изображения Sentinel-1 уровня GRD и 75 изображений Sentinel-2 уровня L2A: всего 97 космических снимков Калининградской области, охватывающих временной диапазон с мая по октябрь 2021 г.
Чтобы устранить влияние спекл-шума и рельефа на радарные измерения S1 была проведена фильтрация, коррекция, и калибровка спутниковых данных с получением коэффициентов обратного рассеяния для поляризаций VV и VH. Предварительная обработка данных S2 заключалась в маскировании облачности и теней с использованием стандартных масок мешающих факторов для продукта L2A и расчете NDVI. Поскольку исходное пространственное разрешение данных S1 и S2 неодинаково, а геометрия пикселей S1 отличалась от геометрии S2, был выполнен ресемплинг исходных изображений в единую проекцию с пространственным разрешением 20 м.
При построении признакового пространства были выбраны 13 признаков, а именно: поляризации и комбинации VV, VH, VV/VH, VV+VH, индексы RVI, VDDPI, NDPI, DPSVIm, карты DEM и LULC, долгота, широта и дата.
Для минимизации влияния фенологии и погодных условий на точность модели в целях обеспечения минимальной разницы во времени между моментами съёмки S1 и S2, были выбраны 8 пар изображений, даты получения которых отличались не более чем на 1 день. Пространственный шаг выборки был задан 500 м, что позволило описать изменчивость территории исследования при разумном объеме обучающих данных (рисунок 2, слева). Всего было собрано 243 405 точек выборки в восьми парах изображений S1-S2.
Выборка была поделена на две части — 70 % в качестве обучающего набора и 30 % в качестве тестового набора. В целях снижения размерности пространства признаков был использован метод рекурсивного исключения признаков RFE (Recursive Feature Elimination), а также кросс-валидация, чтобы найти наилучшую комбинацию признаков, и в то же время использовали метод поиска по сетке и метод перекрестной проверки, чтобы найти наилучшую комбинацию параметров модели. Затем было проведено обучение на обучающем наборе по наилучшему сочетанию полученных признаков и параметров с получением оценочной модели для оценки тестового набора. На последнем этапе полный набор выборок был использован для обучения окончательной модели, которая была использована для реконструкции временных серий NDVI всей области исследования.
С помощью RFE было установлено наилучшее сочетание признаков ('VH', 'VH+VV', 'VH/VV', 'NDPI', 'DEM', 'time', 'LULC', 'lon', 'lat'), а настройка параметров дала оптимальные значения параметров (n_estimators = 1000, max_depth = None, min_samples_leaf = 4, min_samples_split = 10).
Рисунок 2 — Схема регулярного сэмплинга с шагом 500 м с изображением NDVI Sentinel-2 на заднем фоне (слева) и распределение информативности прошедших фильтрацию признаков (справа)
Диаграмма рассеяния в виде тепловой карты для исходных значений NDVI по тестовому набору и модельной оценкой NDVI приведена на рисуноке 3 вместе с основными характеристиками полученной модели, включая среднеквадратическое отклонение (0,16), коэффициент корреляции (0,78), среднюю абсолютную ошибку (0,08) и индекс Уиллмота (0,87).
Рисунок 3 — Результаты оценки полученной модели по тестовому набору в сравнении с модельными значениями NDVI
С помощью окончательной модели были реконструированы изображения NDVI для всех изображений S1 (рисунок 4).
Рисунок 4 — Пример результатов восстановления изображений NDVI на всю территорию Калининградской области: снизу — реконструированные изображения NDVI по данным S1, сверху — реальные изображения NDVI по данным S2
Рисунок 5 — Сравнение серий 15 пар S1-S2 исходных и восстановленных изображений NDVI для тестовых зон А1,А2,А3 с отличием дат съёмки не более четырёх дней
Выше (рисунок 5) приведена серии исходных и восстановленных изображений NDVI для трёх вышеупомянутых тестовых зон (А1, А2, А3) для 15 пар S1-S2 с отличием дат съёмки не более четырёх дней.
Внутри тестовых зон были выбраны несколько отдельных точек, соответствующих трём различным типам растительного покрова, для которых была восстановлена динамика значений NDVI по данным S1 в сравнении со значениями NDVI по данным S2 (см. рисунок 6).
Таким образом, в результате проведённых работ была создана регрессионная модель и разработан алгоритм её построения для восстановления значений NDVI по радарным данным спутниковой системы Sentinel-1 на территорию Калининградской области. Модель позволяет восстанавливать одномоментные измерения и серии NDVI с высоким пространственным и временным разрешением в условиях полного отсутствия измерений в оптическом диапазоне длин волн, добавляя новую информацию о состоянии растительного покрова, которая не может быть получена простой интерполяцией временных рядов спутниковых данных Sentinel-2.
Рисунок 6 — Сравнение исходной (Sentinel-2, светлые линии) и восстановленной (по данным Sentinel-1, тёмные линии) динамики значений NDVI на уровне отдельных пикселей для участка пахотных земель (вверху), лесной растительности (в середине) и луговой растительности (внизу); реальные и восстановленные значения за соседние даты соединены прямыми линиями