FineVision: Hugging Face выпустил открытый датасет на 24 млн примеров для обучения VLM

Кратко о FineVision

Hugging Face представил FineVision — полностью открытый мультимодальный датасет для обучения Vision-Language Models (VLM). Датасет объединяет более 200 источников в единый формат и прошел тщательную фильтрацию: 17,3 млн изображений, 24,3 млн сэмплов, 88,9 млн пар вопрос-ответ и около 9,5 млрд токенов ответов. По оценкам авторов, пересечение с тестовыми наборами бенчмарков составляет примерно 1%.

Масштаб, покрытие и новые навыки

FineVision занимает около 5 ТБ курированного контента и покрывает девять категорий: General VQA, OCR QA, Chart & Table reasoning, Science, Captioning, Grounding & Counting и GUI navigation. В датасет добавлены данные для задач нового класса, таких как навигация по GUI, указание (pointing) и счёт, что расширяет возможности моделей за пределы классического captioning и VQA.

Ключевые статистики:

Изображений: 17,3 млн
Сэмплов: 24,3 млн
Пар вопрос-ответ: 88,9 млн
Токенов ответов: ~9,5 млрд
Пересечение с бенчмарками: ~1%

Как строили FineVision

Пайплайн курирования состоял из трёх этапов:

Сбор и дополнение

Собрали более 200 публичных датасетов с текстом и изображениями.
Преобразовали отсутствующие модальности (например, только текст) в пары вопрос-ответ.
Целенаправленно собрали данные для недостаточно представленных доменов, таких как GUI.

Очистка

Удалили QA-пары больше 8192 токенов.
Изображения сжали до максимума 2048 px с сохранением соотношения сторон.
Отбросили повреждённые или некорректные сэмплы.

Оценка качества

Каждую QA-пару оценивали модели Qwen3-32B и Qwen2.5-VL-32B-Instruct по четырём осям:

Качество форматирования текста
Релевантность вопроса и ответа
Зависимость от визуального контента
Соответствие изображения и вопроса

Эти оценки позволяют собирать выборки для селективного обучения, но абляции показали, что сохранение полного набора данных, включая менее высоко оценённые сэмплы, обычно даёт лучшие результаты.

Производительность и сравнительные преимущества

FineVision сравнили с открытыми наборами вроде Cauldron, LLaVA-Vision и Cambrian. Основные выводы:

Модели, обученные на FineVision, значительно превосходят аналоги по ряду бенчмарков (AI2D, ChartQA, DocVQA, ScienceQA, OCRBench и др.), в отдельных случаях опережая LLaVA до 46.3%, Cauldron до 40.7% и Cambrian до 12.1%.
После дедупликации уровень утечки данных у FineVision ниже (~1.02%) по сравнению с 2–3% у других датасетов.

Инсайты по обучению

В экспериментах использовали nanoVLM (460M параметров) с SmolLM2-360M-Instruct как языковой частью и SigLIP2-Base-512 как визуальным энкодером.
На 32 NVIDIA H100 один полный эпоховый проход (12k шагов) занимает примерно 20 часов.
Модели, обученные на FineVision, стабильно улучшаются и обычно превосходят базовые модели после ~12k шагов.
Многоязычные поднаборы дают небольшие преимущества, даже если языковая база преимущественно монолингвальна, что говорит в пользу разнообразия данных.
Попытки многоступенчатого обучения (две или 2.5 стадии) не давали стабильных улучшений по сравнению с крупномасштабным одноэтапным обучением с разнообразными данными.

Значение для исследователей и разработчиков

FineVision снижает зависимость сообщества от проприетарных датасетов, предоставляя большую, прозрачную и воспроизводимую базу для обучения VLM. Это открывает путь к более честным сравнениям, экспериментам с различными смесями данных и ускоряет развитие задач, связанных с анализом документов, визуальным рассуждением и агентными мультимодальными приложениями.

Доступ и материалы

FineVision доступен на Hugging Face Hub и легко загружаем через библиотеку datasets. Проект сопровождается технической документацией, GitHub-репозиторием с примерами, кодом и ноутбуками, а также сообществом для обсуждений и обновлений.