Сравнительный анализ методов машинного обучения при картографировании открытых песков и дефлированных пастбищ по спутниковым данным Sentinel-2
Открытые пески — это распространённый тип ландшафта в аридных регионах, которые характеризуются практически полным отсутствием растительности и высокой интенсивностью эоловых процессов. Картографирование открытых песков и дефлированных территорий имеет большое значение для оценки рисков стихийных бедствий, таких как песчаные бури, которые могут нанести серьёзный ущерб сельскому хозяйству, транспортной инфраструктуре и здоровью населения. Кроме того, картографирование открытых песков необходимо для оценки потенциала использования этих территорий для сельского хозяйства, планирования фитомелиоративных мероприятий для их закрепления, сохранения биоразнообразия, туризма и других видов деятельности. Картографирование открытых песков является сложной задачей из-за их межгодовой и сезонной динамичности, а также значительной изменчивости окружающей их растительности.
Достаточно широко при картографировании открытых песков и дефлированных территорий применяются различные вегетационные индексы, например, NDVI, а также альбедо поверхности. При этом используется экспертный порог вегетационного индекса, пиксели со значениями ниже которого относятся к площадям опустынивания, в том числе и открытым пескам. Применение экспертного порога позволяет обойтись без опорной выборки, но в то же время затруднена оценка точности получаемых результатов, поскольку отсутствует контрольный набор данных. Также пороговые значения могут существенно зависеть от особенностей территории и времени года, из-за чего зачастую требуют корректировки. Исследователями уделяется недостаточное внимание методам распознавания в контексте машинного обучения и классификации. Поэтому актуальной становится автоматизация картографирования открытых песков и дефлированных территорий, в том числе и получение опорных данных. Машинное обучение, и, в частности, ансамблевые методы, предлагают эффективное решение этой проблемы. Ансамблевые методы позволяют объединить несколько моделей машинного обучения для повышения точности классификации и уменьшения риска переобучения.
Целью исследования является определение наиболее эффективного ансамблевого метода для картографирования открытых песков и выявление основных параметров для выбора модели. Для достижения этой цели были использованы различные метрики точности и анализ временных затрат на выполнение промежуточных шагов для обучения моделей.
Для сравнения моделей машинного обучения в задаче бинарной классификации в качестве исходных данных использовались трехмесячные композитные спутниковые изображения Sentinel-2 за 2022 год (весна, лето, осень), полученные с помощью ЦКП «ИКИ-Мониторинг». Территория, на которой производилось исследование, включает в себя ландшафты, наиболее сильно подверженных деградации в настоящее время – район Терско-Кумской низменности на севере Республики Дагестан (Ногайская степь). Район исследования охватывается двумя тайлами Sentinel-2: 38TPQ и 38TNQ.
Основные этапы исследования:
- Создание методики получения опорной выборки.
- Формирование опорной выборки.
- Подбор наиболее подходящих гиперпараметров моделей машинного обучения.
- Обучение моделей, получение результатов, метрик оценок и времени, затраченного на выполнение модели и построение карт.
Методика получения универсальной опорной выборки включает в себя формирование растров масок минимальной и максимальной площади открытых песков за отдельные месяцы 2022 года на основе классификации по одному классу в системе «Вега-Science».
Маска минимальных площадей песков – растр, полученный в результате конъюнкции помесячных данных, взятых за март-ноябрь 2022 года. Маска максимальной площади, соответственно, получена в результате дизъюнкции этих же помесячных данных. Интерпретирование этих масок можно описать следующими выражениями:
- Маска минимальных площадей открытых песков позволяет понять, в каких пикселях отсутствовал растительный покров в каждом месяце на протяжении всего 2022 года (рисунок 1а).
- Маска максимальных площадей открытых песков отражает пиксели, в которых хотя бы в одном из месяцев 2022 года отсутствовала растительность (рисунок 1б).
- Участки, которые не попали в маску максимальной площади открытых песков, могут использоваться при обучении как класс, в котором не было зафиксировано отсутствия растительности ни в один из месяцев 2022 г.

а) б)
Рисунок 1 — Фрагменты масок минимальной (а) и максимальной площадей (б) участков без растительности в 2022 г.
В работе использовались наиболее распространённые ансамблевые методы классификации: Random Forest, Extra Trees, AdaBoosting, Gradient Boosting, Histogram Gradient Boosting, Bagging, XGBoost. Все алгоритмы показали общую точность, полноту на уровне 0,99. Время, затраченное на построение карты открытых песков по каждому тайлу на основе разных моделей машинного обучения, существенно различается. Дольше всего классифицировались спутниковые данные на основе модели Bagging, тогда как расчет по модели XGBoost даёт наилучший результат – меньше минуты (рисунок 2). Время, затраченное на подбор гиперпараметров модели также максимально у алгоритмов Bagging и градиентного бустинга. Оптимальным соотношением скорости подбора гиперпараметров и обучения модели характеризуются гистограммный градиентный бустинг и XGBoost, при том, что последний значительно быстрее при непосредственной классификации спутниковых данных.
На рисунке 3 показано сравнение площадей открытых песков и дефлированных территорий на основе использованных моделей машинного обучения, результатов классификации трёхмесячных композитных изображений Sentinel-2 с обучением по одному классу, на основе которых были рассчитаны маски минимальных и максимальных площадей открытых песков, а также значения, рассчитанные по трёхмесячным композитным изображениям, основанным на спектральном индексе NDVI, коэффициенте спектральной яркости и эмпирически подобранным порогам.
Рисунок 2 — Сравнение среднего затраченного времени на предсказания по одному тайлу Sentinel-2 (планками показано стандартное отклонение)

Рисунок 3 — Сезонная динамика площадей открытых песков в 2022 г. по данным разных методов классификации (RF – Random Forest, ET – Extra Trees, AB – AdaBoost, GB – Gradient Boosting, HGB – Histogram Gradient Boosting)
Оба представленных классических метода (классификация с обучением и метод экспертных порогов) идентифицировали площади меньше, чем были предсказаны моделями машинного обучения. Это говорит о том, что поиск пикселей методом машинного обучения имеет некоторое преимущество, так как модель способна обнаружить пиксели, которые могли быть не учтены другими методами. Незначительное отличие площадей между разными моделями машинного обучения, а также рассчитанные метрики, свидетельствуют о высокой точности итоговых результатов. Классификация с обучением требует создания опорной выборки, которая в данном случае была сформирована экспертом с помощью визуальной интерпретации спутниковых изображений Sentinel-2. Соответственно, некоторая часть участков открытых песков могла быть пропущена и не попала в опорную выборку, из-за чего полученные традиционной классификацией площади меньше. Применение экспертного порога также показало меньшие площади открытых песков и дефлированных территорий, что также может быть связано с недостаточной точностью подобранных пороговых значений.
Автоматизированное дешифрирование для задач обнаружения открытых песков и дефлированных территорий по спутниковым данным ансамблевыми методами машинного обучения имеет высокую точность, автономность выполнения, а также универсальность в использовании модели на протяжении года даже с учётом фенологических изменений. Границы полигонов, полученные в результате расчёта моделей, хорошо согласуются с уже имеющимися данными, однако по подсчётам площадей было выявлено, что модели машинного обучения способны идентифицировать те пиксели, которые классические методы были не способны найти. Выявлено, что при корректном подборе гиперпараметров, точность итоговой модели составляет около 99 %, а время, затраченное на работу, различается весьма заметно. Таким образом, наиболее быстрые результаты дали модели HistogramGradientBoosting и XGBoost.