AbstRaL: Повышение устойчивости LLM через абстрактное мышление и обучение с подкреплением
AbstRaL использует обучение с подкреплением для обучения LLM абстрактному мышлению, что значительно повышает их устойчивость и точность на изменённых задачах GSM8K по сравнению с традиционными методами.
Проблемы с устойчивостью рассуждений LLM
Недавние исследования показывают, что большие языковые модели (LLM), особенно небольшие, часто испытывают трудности с последовательным рассуждением при изменении условий задачи. Хотя они хорошо справляются с привычными вопросами, небольшие изменения, такие как замена имён, чисел или добавление нерелевантных деталей, значительно снижают их точность. Эта проблема называется плохой обобщаемостью вне распределения (OOD) и ограничивает надёжность LLM даже в простых математических задачах.
Абстрактное мышление как решение
Перспективный подход к улучшению устойчивости — обучение моделей фокусироваться на основной логике задачи, а не на поверхностных деталях. Создаются синтетические вариации задач, чтобы помочь моделям осваивать абстрактные паттерны рассуждений. Это важно для создания более универсальных и надёжных систем ИИ.
Метод AbstRaL
Исследователи из Apple и EPFL предложили AbstRaL — новый метод, использующий обучение с подкреплением для обучения LLM абстрактному мышлению. В отличие от традиционного увеличения данных, требующего больших вычислительных ресурсов, AbstRaL помогает моделям распознавать и применять символические паттерны рассуждений. Метод связывает абстрактные шаблоны с символическими инструментами, обеспечивая более последовательное и независимое от контекста решение задач.
Четыре ключевых шага AbstRaL
- Замена ключевых переменных на символы: Вопросы анализируются, и важные переменные заменяются на символические обозначения.
- Обучение на данных GranulAR: Модель учится пошаговому рассуждению с использованием специально подготовленных абстрактных символических данных GranulAR.
- Извлечение абстрактной структуры: Модель выделяет общую структуру рассуждений из символического ответа.
- Вычисление ответа: Абстракция комбинируется с исходными значениями для получения правильного ответа.
Обучение с подкреплением использует два типа вознаграждений: за правильность ответа и за символическое сходство, что улучшает способность модели генерировать точные и универсальные рассуждения.
Устойчивость на GSM-бенчмарках
AbstRaL проверили на задачах математического рассуждения GSM8K с использованием моделей Llama-3 и Qwen2. Обучение на GranulAR помогает моделям фокусироваться на структуре задачи, а не на поверхностных особенностях. Тесты с изменёнными задачами GSM8K — с другими числами, именами и формулировками — показали, что AbstRaL превосходит стандартные методы Chain-of-Thought, сохраняя высокую точность и последовательность, особенно для небольших моделей. Результаты подтверждают, что обучение абстрактному мышлению делает модели более адаптивными и менее зависимыми от запоминания шаблонов.
Значение для будущего ИИ
AbstRaL демонстрирует эффективность обучения с подкреплением в сочетании с символической абстракцией для повышения устойчивости рассуждений LLM. Этот подход превосходит традиционную донастройку и увеличение данных, помогая моделям игнорировать поверхностные отвлекающие факторы и сосредоточиться на основной логике. Метод открывает путь к созданию более надёжных и универсальных ИИ для решения разнообразных и изменяющихся задач.
Switch Language
Read this article in English