Titans и MIRAS: Переосмысляем длительный контекст в ИИ

Что дальше после Transformers?

Google Research предлагает новую архитектуру Titans и фреймворк MIRAS для повышения полезности долгосрочной памяти в последовательных моделях, сохраняя при этом эффективное обучение и линейный вывод.

Архитектура Titans: Глубокая Нейронная Память

Titans интегрирует глубокую нейронную память в архитектуру на основе Transformer. Эта архитектура решает проблемы, связанные с ограничениями стандартных Transformers, которые полагаются на кеш с ключами и значениями, затрудняющими работу с большими контекстами. Titans сохраняет эффективные механизмы обучения, которые конкурентоспособные алгоритмы, такие как Mamba-2 и FlashAttention, не могут достичь.

Почему Titans и MIRAS?

Стандартные Transformers сталкиваются с экспоненциальными затратами при увеличении длины контекста. Это становится все более непрактичным для задач, требующих обработки экстремальных длин, таких как моделирование последовательностей генома. Titans объединяет традиционное внимание с модулем долгосрочной памяти, повышая производительность при контроле вычислительных затрат.

Titans: Обучение Долгосрочной Памяти

Модуль Titans функционирует как глубокий многослойный перцептрон, где внимание используется для краткосрочной памяти, но отдельная нейронная память сохраняет информацию в долгосрочной перспективе. Архитектура использует три ветви памяти:

Кора: Стандартное обучение с вниманием.
Контекстуальная память: Адаптация на основе недавних последовательностей.
Постоянная память: Кодирует знания, полученные в ходе предварительного обучения.

Компрессируя предыдущие токены в сводки, Titans эффективно интегрирует этот дополнительный контекст в механизм внимания, позволяя модели доступ к значительным историческим данным при обработке текущих входных данных.

Экспериментальная Эффективность

В таких бенчмарках, как C4 и HellaSwag, Titans показывает превосходные результаты по сравнению с моделями нынешнего уровня, эффективно обрабатывая экстремально длинные контексты до 2,000,000 токенов, не теряя гибкости в обучении. Дизайн модели позволяет сохранять высокую точность, уменьшая параметры по сравнению с более крупными моделями, такими как GPT-4.

Фреймворк MIRAS: Ассоциативная Память

MIRAS обобщает структуру ассоциативной памяти, позволяя последовательным моделям сопоставлять ключи и значения, эффективно управляя процессом обучения и забвения. Определяя последовательные модели через четыре ключевых дизайнерских выбора—структура памяти, внимательный bias, затвор удержания и правило оптимизации—MIRAS способствует разработке новых архитектур без внимания.

Ключевые Выводы

Titans предлагает масштабируемую архитектуру глубокой нейронной памяти, позволяющую выборочное хранение токенов через ассоциативную память.
MIRAS устанавливает единый подход к моделированию последовательностей, определяя архитектуры в терминах управления памятью.
Titans демонстрирует существенное улучшение в языковом моделировании и задачах рассуждения, что делает его ключевым для обработки обширных контекстов эффективно.