HunyuanOCR: компактная сквозная OCR VLM

HunyuanOCR — это версия vision-language модели от Tencent Hunyuan с 1 миллиарда параметров, созданная специально для оптического распознавания текста и анализа документов. Модель построена на нативной мультимодальной архитектуре Hunyuan и выполняет поиск текста, парсинг, извлечение информации, визуальные вопросы и ответы, а также перевод текста на изображениях в едином сквозном пайплайне.

Нативный энкодер и легкая языковая модель

HunyuanOCR объединяет нативный визуальный энкодер Hunyuan ViT, адаптивный MLP-коннектор и легкую языковую модель. Энкодер расширяет SigLIP-v2-400M, поддерживая произвольные входные разрешения через адаптивную разбивку на патчи с сохранением соотношения сторон. Такая разбивка в сочетании с глобальным вниманием улучшает распознавание длинных текстовых строк, объёмных документов и низкокачественных сканов.

Adaptive MLP Connector выполняет обучаемое усреднение по пространственным токенам, сжимая плотные визуальные токены и сохраняя детали из областей, богатых текстом. Это снижает длину последовательности и вычисления для языковой модели, при этом сохраняя важную информацию для OCR.

Языковая модель основана на Hunyuan 0.5B и использует XD RoPE, который делит вращательные позиционные эмбеддинги на четыре подпространства для порядка токенов, высоты, ширины и времени. Такое выравнивание позволяет одной архитектуре работать с многоколоночными страницами, перекрестными потоками между страницами и последовательностями кадров видео.

Сквозное обучение и обработка через подсказки

Обучение и инференс реализованы сквозным образом: внешняя разметка макета или отдельные постобработчики не используются. Все задачи формулируются как естественноязыковые подсказки и обрабатываются за один проход, что устраняет накопление ошибок между стадиями пайплайна и упрощает развертывание.

Большой мультиязычный датасет и поэтапное предобучение

Датапайплайн формирует более 200 миллионов пар изображение-текст по девяти реальным сценариям: документы, уличные виды, реклама, рукопись, скриншоты, карты и счета, игровые интерфейсы, видеокадры и художественная типографика, покрывая свыше 130 языков. Синтетические данные поддерживают сценарии справа-налево, параграфную отрисовку, контроль шрифтов и цвета, а также имитацию искажений, размытия и локального освещения для моделирования мобильных съемок.

Предобучение проходит в четыре этапа: выравнивание vision и language, мультимодальное предобучение, предобучение с длинным контекстом до 32k и прикладная супервайзная дообучка. После этого применяется обучение с подкреплением с верифицируемыми наградами.

RL с верифицируемыми наградами

После супервайзинга HunyuanOCR оптимизируется с помощью Group Relative Policy Optimization и схемы Reinforcement Learning with Verifiable Rewards. Для споттинга награда комбинирует IoU для боксов и нормализованное расстояние редактирования для текста. Для парсинга документов используется нормализованное расстояние редактирования между сгенерированной структурой и эталоном. VQA получает бинарную награду за семантическое совпадение от LLM-судьи, а перевод оценивается COMET-подобной моделью с нормализацией до диапазона 0-1. Фреймворк жёстко соблюдает форматы выходов и обнуляет награду при нарушениях схемы, что стимулирует корректные структурированные ответы и валидный JSON при необходимости.

Результаты на бенчмарках

При размере 1 млрд параметров HunyuanOCR сопоставим или превосходит более крупные VLM на задачах, ориентированных на OCR. Внутренний споттинг-бенчмарк на 900 изображениях модель набрала 70.92, опередив традиционные пайплайны и общие VLM, включая Gemini 2.5 Pro и Qwen3 VL. На OmniDocBench модель достигает 94.10, на OCRBench — 860, показывая лидирующие результаты среди моделей меньше 3B параметров. Также отмечены высокие показатели на DocML, извлечении данных с карт и чеков, субтитрах видео и переводе документов.

Значение релиза

HunyuanOCR демонстрирует, что компактные и специализированные VLM для OCR становятся зрелой инфраструктурой, годной для продакшн. Сочетание нативного визуального энкодера, адаптера, поддержки длинного контекста и RL с верифицируемыми наградами позволило Tencent получить единый инструкционно управляемый модельный стек для споттинга, парсинга, извлечения информации, VQA и перевода более чем на 100 языках, сохраняя при этом эффективность для реального использования.

HunyuanOCR: 1-миллиардная OCR VLM от Tencent для сквозной обработки документов