MathCoder-VL и FigCodifier: Революция в мультимодальном математическом мышлении с точным переводом изображений в код

Объединение визуального и текстового понимания в математическом ИИ

Мультимодальное математическое мышление позволяет системам ИИ решать задачи, сочетающие текстовую информацию и визуальные элементы, такие как диаграммы и фигуры. Такое сочетание понимания языка и визуальной интерпретации важно для образования, автоматизированного обучения и анализа документов, где задачи часто представлены в виде текста с изображениями.

Проблемы с выравниванием визуального и текстового в математике

Основная проблема — недостаток наборов данных, точно связывающих математические изображения с их текстовыми или символическими представлениями. Существующие наборы данных обычно основаны на естественных подписях к изображению, которые не содержат деталей, необходимых для точного математического понимания. Это снижает надежность моделей при работе с геометрией, техническими диаграммами или фигурами, так как их эффективность зависит от правильного связывания визуальных деталей с математическими выражениями.

Ограничения предыдущих подходов

Ранее пытались улучшить визуальные энкодеры или использовать вручную созданные наборы данных. Однако такие методы часто приводили к низкому разнообразию изображений из-за зависимости от шаблонов и ручного кодирования. Проекты вроде Math-LLaVA и MAVIS создавали синтетические наборы, но их возможности по динамическому созданию разнообразных математических визуализаций были ограничены, что сужало возможности обучения моделей и их работу с комплексными задачами.

Введение MathCoder-VL и FigCodifier

Исследователи из Гонконгского университета и CPII под InnoHK предложили MathCoder-VL — новый подход, объединяющий модель vision-to-code FigCodifier и движок синтетических данных. Они создали набор ImgCode-8.6M с помощью итеративной стратегии model-in-the-loop, что позволило получить крупнейший на сегодняшний день набор изображений с кодом. Дополнительно разработан MM-MathInstruct-3M — мультимодальный набор инструкций с новыми синтезированными изображениями.

Обучение MathCoder-VL проходит в два этапа: сначала среднее обучение на ImgCode-8.6M для улучшения визуально-текстового выравнивания, затем тонкая настройка на MM-MathInstruct-3M для усиления способности рассуждать.

Принцип работы FigCodifier

FigCodifier переводит математические фигуры в код, который точно воспроизводит эти изображения, обеспечивая точное выравнивание и точность, недоступные наборам с подписями. Набор данных начинается с 119 тыс. пар изображений и кода из DaTikZ и расширяется через итеративное обучение с изображениями из учебников, K12 наборов и статей arXiv. Итоговый ImgCode-8.6M содержит 8,6 млн пар, охватывающих разные математические темы.

Поддержка рендеринга на Python добавляет разнообразие. Контроль качества включает проверку валидности кода и фильтрацию дублирующихся или низкокачественных изображений, что приводит к 4,3 млн высококачественных пар TikZ и 4,3 млн пар на Python.

Результаты работы

MathCoder-VL превосходит несколько открытых моделей. Версия с 8 млрд параметров достигла 73,6% точности на подмножестве задач MathVista Geometry, обогнав GPT-4o и Claude 3.5 Sonnet на 8,9% и 9,2%. Также получены результаты 26,1% на MATH-Vision и 46,5% на MathVerse.

В китайских тестах достигнуто 51,2% на GAOKAO-MM. На бенчмарке We-Math модель решила двухшаговые задачи с точностью 58,6%, превзойдя GPT-4o (58,1%), а трехшаговые — с 52,1%, значительно выше, чем 43,6% у GPT-4o. По сравнению с базовой моделью InternVL2-8B MathCoder-VL увеличил показатели на 6,1% на MATH-Vision и 11,6% на MathVista.

Значение исследования

Работа решает проблему недостаточного выравнивания визуального и текстового в мультимодальном математическом мышлении, вводя FigCodifier и масштабные синтетические наборы данных. Эти нововведения позволяют моделям учиться на точно сопоставленных визуальных образах и коде, значительно улучшая их способности к рассуждению. MathCoder-VL — важный шаг в развитии математического ИИ, демонстрирующий силу продуманного дизайна моделей и качественных данных.

Подробности доступны в статье и на GitHub. Все заслуги принадлежат исследователям проекта. Следите за новостями в Twitter, присоединяйтесь к ML SubReddit с 95 тыс. участников и подписывайтесь на рассылку.