Loading
Пропустить Навигационные Ссылки.

Авторизоваться
Для зарегистрированных пользователей

Моделирование ареалов потенциального распространения древесных пород на территории России с использованием методов машинного обучения

В условиях изменения климата и нарастающего антропогенного воздействия задачи оценки и моделирования характеристик древесных пород приобретают особую актуальность. В ИКИ РАН разработаны продукты, характеризующие состояние и структуру лесных экосистем, в том числе карта преобладающих пород (Барталев С.А., Егоров В.А., Жарко В.О., Лупян Е.А., Плотников Д.Е., Хвостиков С.А., Шабанов Н.В. Спутниковое картографирование растительного покрова России. М.: ИКИ РАН, 2016. 208 с.). Одним из компонентов данного продукта является карта вероятности присутствия породы, которую можно получить путем моделирования ареалов распространения видов, в том числе с использованием машинного обучения.

Моделирование распространения видов (Species Distribution Modelling, SDM) представляет собой эффективный инструмент экологического анализа, основанный на статистических методах (Elith J., Leathwick J.R. Species distribution models: ecological explanation and prediction across space and time // Annual review of ecology, evolution, and systematics. 2009. V. 40. No. 1. P. 677–697). Применение SDM с использованием алгоритмов машинного обучения позволит повысить точность пространственных оценок и определения характеристик древостоя, а также выявить закономерности в распределении древесных пород.

В ИКИ РАН в отчётный период были проведены экспериментальные исследования по созданию карт потенциальных ареалов распространения древесных пород на территории России с использованием методов SDM, машинного обучения (Machine Learning, ML) и нейронных сетей на основе данных реанализа. Полученные в ходе эксперимента результаты могут использоваться как самостоятельный аналитический продукт, так и для уточнения существующих продуктов ИКИ РАН.

В качестве обучающей выборки для моделирования использовались данные о преобладающей породе из актуализированной цифровой основы государственной инвентаризации лесов (АЦО ГИЛ), прошедшие фильтрацию на изменения за период с 2000 по 2024 г. Эта выборка аналогична той, на которой строится карта преобладающих пород ИКИ РАН. Особенностями такой выборки являются: разреженность разметки данных — нет сплошных площадей, покрытых данными, а также сильный дисбаланс классов (рисунок 1), что является как следствием видового состава страны, так и ограниченностью набора данных.

Рисунок 1 — Распределение классов пород в исходной выборке. Номер в скобках соотстветсвует номеру класса на карте преобладающих пород

Особенностью задачи SDM является моделирование распределения видов по данным только о присутствии вида, так как нет фактов явного отсутствия. Поскольку большая часть лесов страны являются смешанными, то преобладание одной породы не говорит о полном отсутствии другой.

В эксперименте было принято допущение, что из-за пространственной равномерности выборки по всей стране и равномерном случайном выборе тренировочной выборки влияние смешивания видов будет минимальным при условии, что для одной породы будут взяты за фон (отсутствие) значения других пород. Путем такого допущения мы минимизируем риск переобучения и недостаточной репрезентативности гарантированного отсутствия породы.
В качестве признаков для моделирования был выбран специализированный набор климатических данных — BIOCLIM (Booth T.H. et al. BIOCLIM: the first species distribution modelling package, its early applications and relevance to most current MAXENT studies // Diversity and Distributions. 2014. V. 20. No. 1. P. 1–9.), состоящий из 19 производных биоклиматических показателей, таких как среднегодовая температура, годовой диапазон осадков и температура самого холодного месяца и т.д., основанных на среднемесячных температурах и осадках, которые широко используются в экологическом моделировании. Исходное разрешение этого набора данных 0,5° (~55 км). Все показатели были осреднены на весь 20-летний период набора данных.

В качестве дополнительных признаков использованы данные о рельефе — абсолютные высоты и углы наклона, полученные с помощью данных проекта SRTM: (Rabus B. et al. The shuttle radar topography mission—a new class of digital elevation models acquired by spaceborne radar //ISPRS journal of photogrammetry and remote sensing. 2003.V. 57. No. 4. P. 241–262), а также карта почв масштаба 1:2 500 000 (Почвенная карта РСФСР / под ред. В.М. Фридланда. Масштаб 1:2 500 000. М., 1988 (скорректированная цифровая версия, 2007).

Все признаки приведены к разрешению продукта ИКИ (230 м) передискретизацией. А набор размеченных данных был разделён в соотношении 70/30 на обучающую и валидационную выборки.

В качестве классических ML методов были выбраны ансамблевые модели Random Forest (случайные леса), Gradient Boosting (метод градиентного бустинга) и MaxEnt (метод максимальное энтропии). Из-за особенностей ансамблевых моделей для каждой породы обучается независимый классификатор.

Получившийся ареал с помощью ML методов точнее описывает потенциальный ареал произрастания породы (рисунок 2).

а                                                                                   б
       
г                                                                             д
Рисунок 2 — Исходная выборка для сосны (а); результаты моделирования ареала распространения: б — Random Forest; в — Gradient Boosting; г — MaxEnt

Все классические ML методы работают попиксельно, без учёта контекста соседних пикселов. В случае пространственного моделирования это проявляет главный недостаток набора данных BIOCLIM — более грубую сетку признаков в результате. Данную проблему решают свёрточные нейронные сети, которые работают с контекстом.
В качестве нейронной сети была выбрана архитектура UNet исходя из ее способности эффективно работать с изображениями и сохранять пространственные характеристики данных (Huang H. et al. Unet 3+: A full-scale connected unet for medical image segmentation // ICASSP 2020–2020 IEEE intern. Conf. on Acoustics, Speech and Signal Processing (ICASSP). Ieee, 2020. P. 1055–1059.). Для моделирования ареалов распространения пород деревьев данная архитектура была адаптирована для решения задачи классификации с учётом некоторых особенностей используемых данных. Для каждого признака используется собственная маска для исключения значений с отсутствующими данными. Модель поддерживает глубокую многослойную структуру для извлечения признаков.

Структура модели состоит из пяти ключевых элементов:

  1. Входной слой, который принимает двумерный массив данных из признаков и такой же набор масок, которые задают положения валидных данных.
  2. Слой энкодера (считывания данных) — это слой, который последовательно уменьшает размерность данных, извлекая ключевые особенности. Это достигается за счёт последовательных свёрточных операций (которые выделяют ключевые черты) и слоев «сжатия» (пулинг), которые уменьшают размер изображения, делая его проще для обработки.
  3. Слой бутылочного горлышка — самое минимальное состояние передаваемых данных, где выделяется наиболее важная информация, извлечённая из исходного изображения.
  4. Слой декодера (восстановления данных), который постепенно восстанавливает данные до исходного размера. Для этого используются операции «расширения» (upsampling) и свёртки, которые добавляют детали, а также информация из слоя энкодера благодаря дополнительным соединениям между ними. Такой механизм позволяет наиболее точно восстанавливать поверхность, выделяя ключевые особенности.
  5. Выходной слой — специальный свёрточный слой с одним фильтром и линейной функцией активации. Он состоит из одного свёрточого фильтра, который преобразует восстановленные данные в итоговое изображение с предсказаниями.

Функция потерь, которая использовалась для обучения — бинарная кросс-энтропия (Binary Cross-Entropy). Для каждого из 24 классов рассчитывается отдельное значение потери, затем берётся среднее:


где   — сигмоида;   — вес положительного класса для балансировки; yi — целевое значение (0 или 1), xi — logits для класса i (выход модели до сигмоиды).
Нейросеть обучается методом стохастического градиентного спуска на основе входных изображений-признаков и соответствующих данных о породе. Каждый класс обрабатывается как независимая бинарная сегментация. Для всех пород мы получаем единый классификатор.

В рамках экспериментальной задачи данные были разбиты на блоки (патчи) размером 128×128 пикселtq. Данная величина является фиксированной в рамках одной модели. То есть обученная модель на блоках такого размера будет применима только к блокам указанного размера. Применение модели к растру произвольного размера потребует предварительного разбиения его на патчи размера, на которой обучалась модель.

В итоге с помощью UNet получился результат моделирования (рисунок 3), который не уступает ML-методам, при этом в нем в меньшей степени заметны недостатки в виде грубой сетки и резких границ, лучше прослеживается структура ареала.


 
а                                                                              б
Рисунок 3 — Исходная выборка для сосны (а); результат моделирования ареала распространения сосны с помощью UNet (б)

Одной из особенностей ML методов является сжатие гистограммы. На рисунке 4 видно, что все три ML модели дают разные результаты. Random Forest — самая классическая модель дает самый шумный результат, основные значения вероятности около 0,75 для сосны и 0,85 для кедрового стланика. Gradient Boosting даёт менее шумный результат с более высокими значениями (на 5–10 % выше). Результат MaxEnt наиболее гладкий результат, как визуально, так и на гистограмме. Модель U-Net даёт также достаточно гладкую гистограмму, но с более высокими значениями вероятностей.

    
а                                                                                            б
Рисунок 4 — Гистограмма результатов моделирования сосны (а) и кедрового стланика (б)

Качество моделей оценивалось с использованием метрик AUC, F1-score и кросс-валидации (рисунок 5.). Метрика точности пользователя (precision) не является релевантной для SDM моделирования, так как модель попадает в класс с избытком, что понижает точность. А метрика полноты (recall) наоборот высокая, так как мы с большей вероятностью покрываем значения присутствия. Метрика F1-score, являясь средним гармоническим, также не является релевантной. Доля всех правильно классифицированных пикселов (accuracy) достаточно высокая для всех классов. Одна из самых важных метрик — ROC-AUC (качество ранжирования) — вероятность, что случайному присутствию модель даст большую вероятность, чем случайному отсутствию — высока для всех моделей, что говорит о пригодности моделей к использованию.

Результат применения свёрточной нейросети даёт менее зашумлённые, более сглаженные и целостные карты ареалов. Нейронная сеть уверенно выделяет согласованные зоны высокой и низкой вероятности, лучше восстанавливает внутреннюю структуру ареалов и высоких вероятностей в местах с устойчивыми сочетаниями климата, рельефа и почв, более устойчива к сильной взаимосвязи признаков: избыточные климатические каналы не ухудшают результат благодаря иерархическим свёрточным признакам, что позволяет обучать и применять единый классификатор для нескольких пород и перекрывающихся ареалов, демонстрирует повышенную устойчивость к переобучению, что делает её менее подходящей для задач, где требуется максимальная чувствительность к редким или очень локализованным очагам присутствия.
Для задач, где важна структура ареала при условии разномасштабных признаков, лучше подходит модель UNet, для задач определения наличия породы достаточны результаты ML методов.

В результате создана экспериментальная база для применения методов SDM на основе машинного обучения к задачам определения потенциальных ареалов древесных пород. Построены карты вероятности распространения преобладающих пород на территорию Российской Федерации. Дальнейшее развитие исследования предполагает использование полученных ареалов для моделирования структуры леса и уточнения расчёта баланса углерода в лесных экосистемах России.


 Рисунок 5 — Метрики результатов моделирования по породам