<НА ГЛАВНУЮ

Метакогнитивный риус: как Meta сжимает цепочки рассуждений в «пособие процедур», сокращая токены на 46%

'Meta превращает повторяющиеся шаги рассуждений в короткие именованные поведения, что сокращает токены вывода до 46% и иногда улучшает точность.'

Исследователи Meta предлагают метод, который сжимает повторяющиеся фрагменты цепочек рассуждений в короткие именованные процедуры — «поведения», а затем повторно использует или дистиллирует их, чтобы значительно повысить эффективность рассуждений больших моделей.

Почему это важно

Длинные цепочки рассуждений часто заново выводят одни и те же подшаги — принцип включения-исключения, преобразования систем счисления, стандартные геометрические трюки. Такая избыточность увеличивает длину вывода, задержки и стоимость, и расходует вычислительный бюджет, который можно было бы направить на новые подзадачи. Meta рассматривает решение как процедурную память для LLM: компактное, индексируемое пособие с инструкциями "как делать".

Как устроен пайплайн

Система использует три роли для создания и применения справочника поведений:

  • Метакогнитивный стратег (R1-Llama-70B): решает задачи, получает трассы, рефлексирует над ними, находит повторяющиеся шаги и выпускает поведения в виде пар имя→инструкция, которые пополняют справочник.
  • Учитель (LLM B): генерирует ответы с учётом поведений, формируя обучающие данные.
  • Ученик (LLM C): либо использует поведения в контексте на инференсе, либо дообучается на данных с поведениями, чтобы использование стало параметрическим.

На MATH поведение извлекают по темам, на AIME используются эмбеддинги (BGE-M3 + FAISS). Команды включают шаблоны для решения, рефлексии, извлечения поведений и поведенчески обусловленного инференса (BCI). В BCI модель просят явно ссылаться на поведения, что даёт короткие и структурированные рассуждения.

Режимы оценки и применения

  • Behavior-Conditioned Inference (BCI): извлечь K релевантных поведений и добавить их в начало запроса, чтобы ученик ссылался и использовал их.
  • Behavior-Guided Self-Improvement: извлекать поведения из собственных ранних попыток модели и подавать их как подсказки для доработки.
  • Behavior-Conditioned SFT (BC-SFT): дообучать учеников на ответах учителя, где уже применяются поведения, чтобы на тесте не требовался поиск по справочнику.

Главные результаты на MATH и AIME

  • Экономия токенов: на MATH-500 BCI сокращает токены рассуждений до 46% по сравнению с той же моделью без поведений при сопоставимой или лучшей точности. Это верно для R1-Llama-70B и Qwen3-32B и при диапазоне бюджетов токенов (2,048–16,384).
  • Улучшение при самообучении: на AIME-24 поведенчески управляемое самоулучшение превосходит базовый подход critique-and-revise на большинстве бюджетов, достигая до 10% прироста точности по мере увеличения бюджета.
  • Качество BC-SFT: дообученные модели (Llama-3.1-8B-Instruct, Qwen2.5-14B, Qwen2.5-32B, Qwen3-14B) последовательно превосходят стандартное SFT и исходные модели по точности, оставаясь при этом более экономичными по токенам.

Важно, что преимущество не объясняется более простым тренировочным корпусом: корректность ответов учителя в оригинальном и поведенчески обусловленном наборах близка, но BC-SFT модели лучше обобщают.

Что такое поведение

Поведения — это компактные пары имя→инструкция, от общих приёмов рассуждения до точных математических инструментов, например:

  • behavior_inclusion_exclusion_principle: avoid double counting by subtracting intersections
  • behavior_translate_verbal_to_equation: formalize word problems systematically
  • behavior_distance_from_point_to_line: apply |Ax+By+C|/√(A²+B²) for tangency checks

Во время BCI ученик явно ссылается на поведения при их использовании, что делает трассы аудируемыми и короткими.

Извлечение, стоимость и задержки

BCI добавляет входные токены (поведения), но эти токены можно заранее вычислить, и они не автогенерируются последовательным декодированием. На коммерческих API входные токены часто тарифицируются дешевле, чем выходные, поэтому сокращение вывода может снизить стоимость и задержки. BC-SFT устраняет необходимость извлечения на тесте, встроив поведения в веса модели.

Почему это работает и открытые вопросы

Хранение процедурных инструкций дополняет классическое RAG: поведения описывают как рассуждать, а не какие факты вспоминать. Замена многословных выводов на краткие переиспользуемые шаги экономит расчёт и позволяет моделям концентрироваться на новых подзадачах. Поведенческие подсказки направляют декодер к эффективным и корректным траекториям, а BC-SFT делает эти траектории неявной частью модели.

Открытые инженерные задачи включают масштабирование подхода за пределы математики, организацию растущего корпуса поведений и поддержание качества и релевантности с увеличением числа записей.

Подробности в статье: https://arxiv.org/pdf/2509.13237

🇬🇧

Switch Language

Read this article in English

Switch to English