<НА ГЛАВНУЮ

FineVision: Hugging Face выпустил открытый датасет на 24 млн примеров для обучения VLM

Hugging Face открывает FineVision — большой мультимодальный датасет на 24,3 млн сэмплов, который повышает точность VLM и минимизирует утечку данных.

Кратко о FineVision

Hugging Face представил FineVision — полностью открытый мультимодальный датасет для обучения Vision-Language Models (VLM). Датасет объединяет более 200 источников в единый формат и прошел тщательную фильтрацию: 17,3 млн изображений, 24,3 млн сэмплов, 88,9 млн пар вопрос-ответ и около 9,5 млрд токенов ответов. По оценкам авторов, пересечение с тестовыми наборами бенчмарков составляет примерно 1%.

Масштаб, покрытие и новые навыки

FineVision занимает около 5 ТБ курированного контента и покрывает девять категорий: General VQA, OCR QA, Chart & Table reasoning, Science, Captioning, Grounding & Counting и GUI navigation. В датасет добавлены данные для задач нового класса, таких как навигация по GUI, указание (pointing) и счёт, что расширяет возможности моделей за пределы классического captioning и VQA.

Ключевые статистики:

  • Изображений: 17,3 млн
  • Сэмплов: 24,3 млн
  • Пар вопрос-ответ: 88,9 млн
  • Токенов ответов: ~9,5 млрд
  • Пересечение с бенчмарками: ~1%

Как строили FineVision

Пайплайн курирования состоял из трёх этапов:

Сбор и дополнение

  • Собрали более 200 публичных датасетов с текстом и изображениями.
  • Преобразовали отсутствующие модальности (например, только текст) в пары вопрос-ответ.
  • Целенаправленно собрали данные для недостаточно представленных доменов, таких как GUI.

Очистка

  • Удалили QA-пары больше 8192 токенов.
  • Изображения сжали до максимума 2048 px с сохранением соотношения сторон.
  • Отбросили повреждённые или некорректные сэмплы.

Оценка качества

Каждую QA-пару оценивали модели Qwen3-32B и Qwen2.5-VL-32B-Instruct по четырём осям:

  • Качество форматирования текста
  • Релевантность вопроса и ответа
  • Зависимость от визуального контента
  • Соответствие изображения и вопроса

Эти оценки позволяют собирать выборки для селективного обучения, но абляции показали, что сохранение полного набора данных, включая менее высоко оценённые сэмплы, обычно даёт лучшие результаты.

Производительность и сравнительные преимущества

FineVision сравнили с открытыми наборами вроде Cauldron, LLaVA-Vision и Cambrian. Основные выводы:

  • Модели, обученные на FineVision, значительно превосходят аналоги по ряду бенчмарков (AI2D, ChartQA, DocVQA, ScienceQA, OCRBench и др.), в отдельных случаях опережая LLaVA до 46.3%, Cauldron до 40.7% и Cambrian до 12.1%.
  • После дедупликации уровень утечки данных у FineVision ниже (~1.02%) по сравнению с 2–3% у других датасетов.

Инсайты по обучению

  • В экспериментах использовали nanoVLM (460M параметров) с SmolLM2-360M-Instruct как языковой частью и SigLIP2-Base-512 как визуальным энкодером.
  • На 32 NVIDIA H100 один полный эпоховый проход (12k шагов) занимает примерно 20 часов.
  • Модели, обученные на FineVision, стабильно улучшаются и обычно превосходят базовые модели после ~12k шагов.
  • Многоязычные поднаборы дают небольшие преимущества, даже если языковая база преимущественно монолингвальна, что говорит в пользу разнообразия данных.
  • Попытки многоступенчатого обучения (две или 2.5 стадии) не давали стабильных улучшений по сравнению с крупномасштабным одноэтапным обучением с разнообразными данными.

Значение для исследователей и разработчиков

FineVision снижает зависимость сообщества от проприетарных датасетов, предоставляя большую, прозрачную и воспроизводимую базу для обучения VLM. Это открывает путь к более честным сравнениям, экспериментам с различными смесями данных и ускоряет развитие задач, связанных с анализом документов, визуальным рассуждением и агентными мультимодальными приложениями.

Доступ и материалы

FineVision доступен на Hugging Face Hub и легко загружаем через библиотеку datasets. Проект сопровождается технической документацией, GitHub-репозиторием с примерами, кодом и ноутбуками, а также сообществом для обсуждений и обновлений.

🇬🇧

Switch Language

Read this article in English

Switch to English