Реализация на базе возможностей системы «Вега-Pro» технологии классификации сельскохозяйственных культур по разновременным композитным изображениям на основе данных различных спутниковых систем ДЗЗ
Данные спутниковых наблюдений являются важнейшим источником объективной информации о выращиваемых сельскохозяйственных культурах. Такие сведения востребованы среди большого количества организаций и ведомств: от Минсельхоза России и Росстата до страховых компаний и агропредприятий. На протяжении многих лет в ИКИ РАН ведутся работы по распознаванию культур, произрастающих на территории Российской Федерации, по данным спутникового прибора MODIS. Эксперименты по распознаванию культур проводятся также на основе данных высокого пространственного разрешения Landsat (OLI) и Sentinel-2 (MSI).
В 2024 г. на базе возможностей системы «Вега» реализована технология классификации сельскохозяйственных культур на полях по данным спутников Sentinel-2. Далее приводится описание разработанной технологии, в частности, охарактеризован процесс формирования задания на классификацию, используемые исходные данные и метод классификации, а также принцип работы с получаемыми результатами; демонстрируются некоторые результаты тестирования технологии.
Формирование задания на классификацию происходит в несколько этапов (рисунок 1). На первом этапе задаются параметры для поиска векторных объектов (полей) для обучающей и классифицируемой выборок. Выбирается год, пользователь и регион поиска данных. Для формирования обучающей выборки необходимо наличие полей с заданной культурой в выбранном сезоне. Дополнительно могут задаваться установленные ранее флаги поиска, которые отвечают за достоверность получаемых данных. Также задаются интервалы для выгрузки спутниковых данных.
Рисунок 1 — Блок-схема формирования задания на классификацию
После подтверждения пользователем параметров, установленных на первом этапе, происходит запрос на сервер в БД полей для поиска выбранных объектов. В результате формируется список найденных культур со статистикой по ним. На основании этих данных динамически формируется форма для второго этапа.
Второй этап позволяет составить список культур, подлежащих распознаванию. Найденные в полях культуры можно или убрать из классификации, или агрегировать в более широкий класс.
После подтверждения списка культур для классификации формируется форма третьего этапа для проверки сбалансированности выборки. В ней перечисляются выбранные на предыдущем этапе культуры и соответствующие им после переклассификации площади. Целевая площадь задаётся пользователем, после чего автоматически рассчитывается процент выборки от целевой площади. Ориентируясь на рассчитанные показатели, пользователь может установить флаг, сообщающий о необходимости балансировки выборки.
Следующий за подтверждением этой формы шаг – краткое описание задания.
После финального подтверждения задание формируется целиком и записывается в БД для постановки в очередь на обработку.
При поступлении задания в обработку формируется покрытие полями выборок с выбранными и перекодированными культурами в формате SHP. Затем выгружаются спутниковые данные в формате GeoTIFF, после чего задание считается готовым для классификации.
В качестве входной спутниковой информации для классификации используется временной ряд восстановленных ежедневных безоблачных изображений индекса NDVI по данным Sentinel-2, созданных на основе весовой интерполяции LOWESS. Исходные спутниковые данные Sentinel-2 представляют собой нарезанные на небольшие фрагменты по регулярной сетке изображения земной поверхности. Данные хранятся в архиве с использованием технологии UNISAT. По запросу формируется выборка этих фрагментов на заданные дату и территорию, файлы изображений в красном и инфракрасном канале калибруются в КСЯ, и по ним считается индекс NDVI. Далее полученные таким образом фрагменты интерполируются с созданием серии ежедневных изображений и склеиваются в единое изображение в формате GeoTIFF с выбором каждого 5-го дня. В общем случае получается два набора данных — для обучения и для распознавания.
Метод попиксельной классификации основан на использовании классификатора Random Forest. В качестве признаков используется вектор значений NDVI. Готовые результаты классификации представляют собой SHP файл с полученными классами культур. Осреднение статистики по полям основано на определения наиболее представленного класса (majority). Данные перемещаются в хранилище результатов и становятся доступными для визуализации.
Визуализация осуществляется напрямую из SHP файлов (при этом возможна интерактивная установка процента площади поля для аннотации по результатам классификации). Помимо визуализации векторного результата обеспечивается также просмотр растровой карты культур (непосредственно результата попиксельной классификации). При просмотре имеется возможность выбрать только нужные классы. Выбранные классы можно записать в БД полей к каждому полю. При записи в БД доступны несколько режимов: результаты могут быть записаны как для всех полей, так и выборочно в соответствии с заданными правилами (например, установить культуру только для тех полей, у которых она не была задана ранее). Это позволяет гибко занести или обновить данные только для нужных полей.
Разработанная технология протестирована на разных территориях с выделением разного количества классов. Ниже приведены результаты экспериментов, проведённых по территории Мамонтовского района Алтайского края по данным за 2023 г. (рисунок 2). Количество распознаваемых классов составило 10; среди них представлены как отдельные культуры (например, подсолнечник, соя), так и группы культур (так, в класс «ранние яровые культуры» включены ранние яровые зерновые и зернобобовые культуры, а также лён-кудряш). Размер обучающей выборки для каждого класса составил 18 % от их целевой площади. Для классификации использовался временной ряд изображений NDVI за период с начала мая по середину октября 2023 г.
Рисунок 2 — Пример результата классификации культур за 2023 г. на территорию Мамонтовского района Алтайского края в интерфейсе системы «Вега»
В результате сопоставления результата классификации с эталонными данными сформирована матрица ошибок и рассчитаны некоторые метрики качества полученного результата (таблица 1). В частности, общая достоверность классификации в рассмотренном случае составила 93 %.
Таблица 1 – Матрица ошибок, сформированная для результата классификации по территории Мамонтовского района Алтайского края за 2023 г.

По этой же территории сформировано несколько дополнительных заданий, отличающихся длиной временного ряда изображений NDVI, используемых для классификации (стартовая дата во всех заданиях была неизменной – начало мая 2023 г., отличались только финальные даты – середина июля, начало августа, середина августа и сентября 2023 г.). Общая достоверность классификации в результате проведённого эксперимента варьировала от 78 до 93 %, причём существенный рост достоверности наблюдался при увеличении длины временного ряда NDVI с середины июля по середину августа, после чего значительных изменений этой величины не наблюдалось (рисунок 3).
Рисунок 3 — График изменения общей достоверности классификации в зависимости от длины временного ряда используемых изображений NDVI (Алтайский край, Мамонтовский район, 2023 г.)
Опыт тестирования технологии показал целесообразность её доработки. В модифицированную версию инструмента добавлены следующие возможности:
- использование при классификации не только ежедневных композитов NDVI по данным прибора MSI, но и других данных, доступных в «Вега», в частности, ежедневных композитов NDVI по данным КМСС, MODIS и VIIRS, а также ежемесячных – по данным Landsat;
- классификация не только в пределах границ полей, и в случае их отсутствия – по территории заданных районов или субъектов Российской Федерации в целом;
- проведение не только попиксельной, но и объектной классификации и верификации культур на основе временных рядов значений NDVI, усреднённых в пределах границ полей.
Таким образом, на базе системы «Вега» создана работающая технология, позволяющая при наличии эталонной информации о выращиваемых культурах на части полей осуществлять распознавание культур в пределах всей области интереса с высокой достоверностью, а также проводить автоматизированную верификацию полученных результатов. Технология поддерживает возможность работы с данными различных спутников/приборов: Sentinel-2, Landsat, Метеор-М/КМСС, MODIS, VIIRS.