OpenAI выпустил инструменты Circuit-Sparsity для моделей

Обзор

Команда OpenAI выпустила свою модель openai/circuit-sparsity на Hugging Face и набор инструментов openai/circuit_sparsity на GitHub. Этот релиз включает модели и схемы из статьи ‘Разреженные трансформеры с интерпретируемыми схемами.

Что такое весовая разреженная трансформер?

Модели представляют собой трансформеры только декодера в стиле GPT-2, обученные на коде Python. Разреженность не добавляется после обучения; она обеспечивается во время оптимизации. На каждом шаге AdamW цикл обучения сохраняет только наибольшие по величине элементы в каждой матрице весов и смещения, включая токеновые эмбеддинги, и устанавливает остальные в ноль. Все матрицы сохраняют одинаковую долю ненулевых элементов.

Самые разреженные модели имеют примерно 1 из 1000 ненулевых весов. Также команда OpenAI внедрила легкую активационную разреженность, так что около 1 из 4 активаций узлов являются ненулевыми.

Определение разреженных схем

Центральным объектом является разреженная схема. Каждый узел определяется на мелком уровне: отдельный нейрон, канал внимания или канал остатка. Ребро представляет собой единственную ненулевую запись в матрице весов, соединяющую два узла.

Команда исследования построила 20 простых двоичных задач Python следующего токена для проверки моделей. Каждая задача заставляет модель выбирать между двумя завершениями, которые отличаются одним токеном. Примеры включают:

single_double_quote: предсказать, нужно ли закрывать одинарной или двойной кавычкой.
bracket_counting: решить, между ] и ]] на основе глубины вложенности списка.
set_or_string: отслеживать, была ли переменная инициализирована как набор или строка.

Связь разреженных и плотных моделей

Команда исследования представляет мосты, которые соединяют разреженную модель с уже обученной плотной моделью. Каждому мосту задается пара кодировщик-декодер, которая сопоставляет плотные активации с разреженными активациями и обратно за один проход по подслою. Это позволяет контролировать поведение плотной модели на основании интерпретируемых разреженных признаков.

Релизы OpenAI

Команда OpenAI выпустила модель openai/circuit-sparsity на Hugging Face. Это модель с 0.4 миллиарда параметров, лицензированная по Apache 2.0. Она включает контрольные точки модели, определения задач и интерфейс визуализации схем.

Ключевые выводы

Обучение с весовой разреженностью: Circuit sparsity обучает модели с экстремальной весовой разреженностью, обеспеченной во время оптимизации.
Небольшие, специфические для задач схемы: Определяются на уровне отдельных нейронов и каналов, восстанавливая схемы с десятками узлов для конкретных задач.
Конкретные инстанциации: Алгоритмы для задач, таких как определение кавычек и подсчет скобок, являются полностью инстанциированными схемами.
Механизм мостов: Мосты кодировщика-декодера позволяют сопоставлять разреженные и плотные активации, облегчая взаимодействия в продакшн- моделях.