Baidu представила PaddleOCR-VL (0.9B): NaViT + ERNIE-4.5 для быстрого многоязычного парсинга документов

Задача и подход

Преобразование плотных многоязычных документов со сложной версткой, мелкими шрифтами, формулами, графиками и рукописным текстом в точные структурированные форматы остаётся сложной задачей. PaddleOCR-VL — это модель зрения и языка на 0.9 млрд параметров от команды PaddlePaddle, предназначенная для энд‑ту‑энд парсинга документов с выходом в Markdown и JSON при приемлемых задержках и расходе памяти.

Двухэтапная архитектура для стабильности и скорости

Система развёрнута в виде двух этапов. На первом этапе PP-DocLayoutV2 выполняет анализ макета страницы: детектор RT-DETR локализует и классифицирует регионы, а pointer network предсказывает порядок чтения. На втором этапе PaddleOCR-VL-0.9B выполняет распознавание элементов с учётом найденного макета. Результаты агрегируются в Markdown и JSON для дальнейшей обработки.

Такой раздельный подход снижает задержки при декодировании длинных последовательностей и уменьшает нестабильность, с которыми сталкиваются монолитные VLM на плотных много-колоночных страницах.

Внутренняя структура модели

PaddleOCR-VL-0.9B сочетает NaViT-стиль динамического высокоразрешающего энкодера с 2-слойным MLP проектором и языковой моделью ERNIE-4.5-0.3B в роли декодера. В качестве позиционного представления используется 3D-RoPE.

Идея NaViT — это патч‑и‑пак переменной разрешающей способности без насильственного ресайза, что сохраняет типографские признаки и визуальные детали. Технический отчёт указывает, что обработка в родном разрешении снижает галлюцинации и улучшает качество на текстоёмком материале по сравнению с фиксированным ресайзом или тайлингом.

Результаты и тесты

PaddleOCR-VL показывает SOTA-результаты на OmniDocBench v1.5 и конкурентные или лидирующие показатели на v1.0. Модель демонстрирует хорошие результаты как по общей метрике, так и по подзадачам: расстояния редактирования текста, Formula-CDM, Table-TEDS/TEDS-S и чтение порядка элементов. Дополнительные преимущества отмечены на olmOCR-Bench и внутренних тестах по рукописи, таблицам, формулам и графикам.

Практическая ценность

Сочетание NaViT-стиля энкодера и лёгкого декодера ERNIE-4.5-0.3B позволяет получить высокую точность при приемлемых вычислительных затратах. Двухэтапный PP-DocLayoutV2 -> PaddleOCR-VL-0.9B стабилизирует порядок чтения и сохраняет типографские сигналы, что важно для мелких шрифтов, формул и рукописи на 109 языках. Выход в структурированных Markdown/JSON и опционные ускорители вроде vLLM/SGLang делают систему удобной для промышленного использования.

Источники и ссылки

Технический отчёт и подробности модели доступны по ссылке: https://ernie.baidu.com/blog/publication/PaddleOCR-VL_Technical_Report.pdf Релиз также содержит указания на модель на Hugging Face, репозиторий GitHub с туториалами и сообщества для обсуждений.