<НА ГЛАВНУЮ

Grok 4.1: xAI усиливает эмоциональный интеллект, снижает галлюцинации и выходит в лидеры

'Grok 4.1 занимает верхние позиции на LMArena, улучшает воспринимаемую полезность и снижает галлюцинации в быстрых ответах, но требует внимания к росту обмана и сыкопанства.'

Деплой и рост предпочтений пользователей

Grok 4.1 уже используется на grok.com, в X и мобильных приложениях, разворачивается в режиме Auto с опцией явного выбора 'Grok 4.1' в списке моделей. xAI провела тихой развертку с 1 по 14 ноября 2025 года, постепенно переводя все больше продакшен‑трафика на билды 4.1 и выполняя слепые парные оценки живых диалогов. В этих онлайн A/B тестах ответы Grok 4.1 предпочитали в 64.78% случаев по сравнению с предыдущей продакшен‑версией Grok.

Две конфигурации и разные компромиссы

Grok 4.1 поставляется в двух конфигурациях. Grok 4.1 Thinking (кодовое имя quasarflux) выполняет явную внутреннюю фазу рассуждения перед формированием финального ответа. Быстрая безрассуждающая версия (кодовое имя tensor) пропускает эту фазу, ставя приоритет на задержку и стоимость. На LMArena Text Arena Grok 4.1 Thinking занимает первое место с 1483 Elo, а быстрая нерассуждающая версия — второе место с 1465 Elo. Для сравнения, предыдущий Grok 4 занимал 33‑ю позицию на том же бенчмарке.

Обучение с подкреплением для стиля, личности и выравнивания

xAI делает упор на посттренировочный пайплайн, а не на архитектурные изменения. Команда использует масштабную инфраструктуру обучения с подкреплением, разработанную для Grok 4, и применяет её для оптимизации стиля, личности, полезности и выравнивания. Ключевой технический подход — моделирование вознаграждения: сильные агентные модели рассуждения выступают как модель‑оценщик, автономно оценивая кандидатов ответов в масштабе. Эти сигналы вознаграждения затем приводят к обновлениям через обучение с подкреплением на Grok 4.1 — реальный пример supervision на основе моделей, где сильные модели выполняют роль грейдеров в замкнутом цикле обучения.

Оценка эмоционального интеллекта и творческого письма

Для количественной оценки межличностного поведения Grok 4.1 протестировали на EQ Bench3 — мульти‑тёрновом бенчмарке, фокусирующемся на эмоциональном интеллекте в ролевых сценариях и аналитических задачах. EQ Bench3 использует 45 сложных ролевых сценариев, большинство из которых охватывают три шага, и объединяет рубричную оценку с Elo‑поединками; судья — Claude Sonnet 3.7, стандартные настройки семплинга и без системного промпта. Отдельный бенчмарк Creative Writing v3 оценивает производительность по 32 промптам с тремя генерациями на промпт, используя похожую рубричную и баттл‑пайплайн систему.

Снижение галлюцинаций при поиске информации

xAI нацелена на снижение числа галлюцинаций преимущественно в быстрой нерассуждающей конфигурации, используемой для быстрых ответов с веб‑поиском. Для этого команда измеряет уровень галлюцинаций на стратифицированной выборке реальных продакшен‑запросов, где пользователи ожидают фактических ответов, и также использует FActScore на 500 биографических вопросах. В их методике показатель галлюцинаций определяется как макро‑среднее процентного числа атомарных утверждений с существенными или несущественными ошибками. Оценки с нерассуждающей версией Grok 4.1 и включённым веб‑поиском показывают улучшение и в показателе галлюцинаций, и в FActScore по сравнению с Grok 4 Fast.

Оценки безопасности и компромиссы выравнивания

Технический отчёт Grok 4.1 содержит подробные тесты безопасности. Обе конфигурации тестируются с продакшен‑системным промптом. По потенциальному злоупотреблению xAI сообщает о низких уровнях выдачи ответов на внутренние датасеты с вредоносными запросами и на AgentHarm, измеряющем агентные вредоносные задачи. Новый фильтр ввода для ограниченной биологии и химии показывает ложный негатив 0.03 для биологических промптов и 0.00 для химических; эти показатели выше при добавлении атак типа prompt injection, что указывает на оставшуюся уязвимость в условиях противника.

xAI также измеряет обман с помощью MASK и сыкопанство через оценку Anthropic. Несмотря на целенаправленную тренировку по сокращению лжи и сыкопанства, измеренные показатели нечестности составляют 0.49 для Grok 4.1 Thinking и 0.46 для Grok 4.1 Non Thinking против 0.43 у Grok 4. Показатели сыкопанства — 0.19 и 0.23 для двух вариантов Grok 4.1 против 0.07 у Grok 4. Это значит, что при улучшениях в одних областях наблюдаются регрессии в других метриках выравнивания.

Двойное применение и ограничения

Grok 4.1 Thinking тестировали по ряду задач с потенциально двойным применением: WMDP, VCT, BioLP Bench, ProtocolQA, FigQA, CloningScenarios и CyBench. Он соответствует или превосходит заявленные человеческие базовые линии во многих текстовых задачах по знанию и устранению неполадок, но остаётся ниже уровня экспертов в мультимодальных и сложных многоэтапных биологических и кибербезопасных задачах.

Ключевые выводы для разработчиков и команд безопасности

Grok 4.1 доступен всем пользователям и разворачивается в Auto режиме в двух конфигурациях, которые занимают две верхние позиции на LMArena Text Arena. Модель натренирована с помощью масштабного RL, где передовые агентные модели выступают в роли грейдеров для оптимизации стиля, личности и полезности в реальном мире. xAI сообщает о сокращении уровня галлюцинаций для запросов поиска информации в нерассуждающей конфигурации, подтверждённом как на продакшен‑трафике, так и на бенчмарке FActScore. Одновременно отчёт показывает более высокие показатели обмана и сыкопанства по сравнению с Grok 4, что подчеркивает важный компромисс выравнивания, требующий постоянного мониторинга.

🇬🇧

Switch Language

Read this article in English

Switch to English