HunyuanOCR: 1-миллиардная OCR VLM от Tencent для сквозной обработки документов
'Tencent представил HunyuanOCR, 1-миллиардную сквозную OCR VLM, которая объединяет споттинг, парсинг, извлечение информации, VQA и перевод в одном пайплайне и демонстрирует результаты, сопоставимые с более крупными моделями.'
HunyuanOCR: компактная сквозная OCR VLM
HunyuanOCR — это версия vision-language модели от Tencent Hunyuan с 1 миллиарда параметров, созданная специально для оптического распознавания текста и анализа документов. Модель построена на нативной мультимодальной архитектуре Hunyuan и выполняет поиск текста, парсинг, извлечение информации, визуальные вопросы и ответы, а также перевод текста на изображениях в едином сквозном пайплайне.
Нативный энкодер и легкая языковая модель
HunyuanOCR объединяет нативный визуальный энкодер Hunyuan ViT, адаптивный MLP-коннектор и легкую языковую модель. Энкодер расширяет SigLIP-v2-400M, поддерживая произвольные входные разрешения через адаптивную разбивку на патчи с сохранением соотношения сторон. Такая разбивка в сочетании с глобальным вниманием улучшает распознавание длинных текстовых строк, объёмных документов и низкокачественных сканов.
Adaptive MLP Connector выполняет обучаемое усреднение по пространственным токенам, сжимая плотные визуальные токены и сохраняя детали из областей, богатых текстом. Это снижает длину последовательности и вычисления для языковой модели, при этом сохраняя важную информацию для OCR.
Языковая модель основана на Hunyuan 0.5B и использует XD RoPE, который делит вращательные позиционные эмбеддинги на четыре подпространства для порядка токенов, высоты, ширины и времени. Такое выравнивание позволяет одной архитектуре работать с многоколоночными страницами, перекрестными потоками между страницами и последовательностями кадров видео.
Сквозное обучение и обработка через подсказки
Обучение и инференс реализованы сквозным образом: внешняя разметка макета или отдельные постобработчики не используются. Все задачи формулируются как естественноязыковые подсказки и обрабатываются за один проход, что устраняет накопление ошибок между стадиями пайплайна и упрощает развертывание.
Большой мультиязычный датасет и поэтапное предобучение
Датапайплайн формирует более 200 миллионов пар изображение-текст по девяти реальным сценариям: документы, уличные виды, реклама, рукопись, скриншоты, карты и счета, игровые интерфейсы, видеокадры и художественная типографика, покрывая свыше 130 языков. Синтетические данные поддерживают сценарии справа-налево, параграфную отрисовку, контроль шрифтов и цвета, а также имитацию искажений, размытия и локального освещения для моделирования мобильных съемок.
Предобучение проходит в четыре этапа: выравнивание vision и language, мультимодальное предобучение, предобучение с длинным контекстом до 32k и прикладная супервайзная дообучка. После этого применяется обучение с подкреплением с верифицируемыми наградами.
RL с верифицируемыми наградами
После супервайзинга HunyuanOCR оптимизируется с помощью Group Relative Policy Optimization и схемы Reinforcement Learning with Verifiable Rewards. Для споттинга награда комбинирует IoU для боксов и нормализованное расстояние редактирования для текста. Для парсинга документов используется нормализованное расстояние редактирования между сгенерированной структурой и эталоном. VQA получает бинарную награду за семантическое совпадение от LLM-судьи, а перевод оценивается COMET-подобной моделью с нормализацией до диапазона 0-1. Фреймворк жёстко соблюдает форматы выходов и обнуляет награду при нарушениях схемы, что стимулирует корректные структурированные ответы и валидный JSON при необходимости.
Результаты на бенчмарках
При размере 1 млрд параметров HunyuanOCR сопоставим или превосходит более крупные VLM на задачах, ориентированных на OCR. Внутренний споттинг-бенчмарк на 900 изображениях модель набрала 70.92, опередив традиционные пайплайны и общие VLM, включая Gemini 2.5 Pro и Qwen3 VL. На OmniDocBench модель достигает 94.10, на OCRBench — 860, показывая лидирующие результаты среди моделей меньше 3B параметров. Также отмечены высокие показатели на DocML, извлечении данных с карт и чеков, субтитрах видео и переводе документов.
Значение релиза
HunyuanOCR демонстрирует, что компактные и специализированные VLM для OCR становятся зрелой инфраструктурой, годной для продакшн. Сочетание нативного визуального энкодера, адаптера, поддержки длинного контекста и RL с верифицируемыми наградами позволило Tencent получить единый инструкционно управляемый модельный стек для споттинга, парсинга, извлечения информации, VQA и перевода более чем на 100 языках, сохраняя при этом эффективность для реального использования.
Switch Language
Read this article in English