FLAME: одноступенчатое активное обучение для молниеносной специализации в дистанционном зондировании

Почему открытые детекторы не всегда справляются с задачами дистанционного зондирования

Открытые детекторы, такие как OWL ViT v2, обучены на огромных наборах изображений и текстов и хорошо работают на естественных сценах. В задачах дистанционного зондирования они сталкиваются с двумя проблемами: многие категории тонко различимы (например, труба versus резервуар), и геометрия съёмки отличается (надирные аэрофотоснимки, повёрнутые объекты, маленькие масштабы). В результате визуальные и текстовые эмбеддинги пересекаются для похожих классов, что снижает точность.

Концепция FLAME

FLAME сочетает широкий охват открытого детектора с точностью локального уточнителя, не требуя длительного дообучения на GPU или тысяч меток. Базовый детектор остаётся замороженным, а сверху ставится компактный классификатор, который за пару десятков меток обучается фильтровать ложные срабатывания и улавливать семантику, которую имел в виду пользователь.

Подробности пайплайна

FLAME работает по шагам:

Запускаем нулевый Shot open-vocabulary детектор и получаем множество кандидатов для текстового запроса, например 'chimney'.
Для каждого кандидата вычисляем визуальные признаки и схожесть с текстом.
Находим маргинальные образцы возле границы решения: понижаем размерность через PCA, оцениваем плотность и выделяем зону неопределённости.
Кластеризуем образцы из этой зоны и берём по одному примеру из каждого кластера для разнообразия.
Просим пользователя прометить примерно 30 вырезов как положительные или отрицательные.
При необходимости делаем ребалансировку с помощью SMOTE или SVM SMOTE.
Обучаем лёгкий уточнитель, например RBF SVM или двухслойный MLP, который принимает или отвергает исходные предложения.

Базовый детектор остаётся нетронутым, что сохраняет высокий recall и способность к обобщению, а уточнитель подстраивается под конкретную семантику задачи.

Наборы данных и экспериментальная настройка

Оценка проводилась на DOTA (ориентированные боксы, 15 категорий, высокоразрешённые аэрофотоснимки) и DIOR (23,463 изображений, 192,472 экземпляров, 20 категорий). Сравнение включает zero-shot OWL ViT v2, RS OWL ViT v2 (дообучение на RS WebLI) и несколько few-shot методов.

RS OWL ViT v2 повышает нулевой shot mean AP до 31.827% на DOTA и 29.387% на DIOR — это отправная точка для FLAME.

Результаты

С примерно 30 размеченными примерами на класс и без дообучения базовой модели FLAME на RS OWL ViT v2 достигает 53.96% AP на DOTA и 53.21% AP на DIOR, опережая перечисленные few-shot подходы. На DIOR класс 'chimney' показывает впечатляющий рост AP с 0.11 в zero-shot до 0.94 после FLAME, что иллюстрирует эффективную фильтрацию похожих ложных срабатываний.

Zero-shot OWL ViT v2 стартует с 13.774% AP на DOTA и 14.982% на DIOR; RS OWL ViT v2 значительно улучшает эти показатели, а FLAME добавляет значительный прирост точности поверх них.

Адаптация выполняется примерно за одну минуту на каждую метку на стандартном CPU, что позволяет интерактивную специализацию с участием пользователя.

Практическое значение

FLAME предлагает практичный путь для быстрой специализации открытых детекторов в задачах дистанционного зондирования, где категории тонкие или условия съёмки отличаются от веб-тренировочных данных. Отбирая маргинальные и разнообразные примеры, собирая лишь несколько десятков меток и обучая лёгкий уточнитель, можно получить состояние искусства в few-shot условиях без долгих тренировок и больших затрат на разметку.

Для детального ознакомления с экспериментами и таблицами результатов смотрите статью по ссылке и ресурсы проекта.