Zhipu AI Запускает GLM-4.6V: Основные Особенности

Обзор GLM-4.6V

Zhipu AI опубликовал серий GLM-4.6V, состоящую из двух языковых моделей, способных обрабатывать изображения, видео и инструменты в качестве основных входных данных. Это меняет подход к обработке мультимодальной информации.

Ассортимент моделей и длина контекста

Серия включает две модели:

GLM-4.6V: Модель с 106B параметрами, оптимизированная для облачных вычислений и производительных кластеров.
GLM-4.6V-Flash: Вариант с 9B параметрами, настроенный для локального развертывания и низких задержек.

GLM-4.6V значительно увеличивает длину контекста до 128K токенов, позволяя обрабатывать сложные документы, слайды или видео за один проход.

Нативное использование мультимодальных инструментов

Ключевое усовершенствование в GLM-4.6V — это нативное мультимодальное вызов функций. В отличие от традиционных LLM, которые переводят визуальные входы в текст, GLM-4.6V позволяет напрямую вызывать инструменты с визуальными параметрами. Это минимизирует задержку и максимизирует использование данных.

Сценарии применения

Zhipu AI выделяет четыре основных области применения:

Понимание и создание текстов: Модель обрабатывает смешанный контент и усиливает выходные данные, добавляя визуальные элементы и внешние изображения.
Визуальный веб-поиск: Модель планирует поиски и объединяет полученные изображения с текстом для структурированных сравнений.
Репликация интерфейса: Превращает скриншоты в точный HTML/CSS, позволяя разработчикам вносить изменения через естественные команды.
Долговременное понимание документов: Обрабатывает сложные наборы документов и предлагает исчерпывающие выходные данные.

Архитектурные инновации

Модели базируются на лучших практиках предыдущих версий, включая три ключевых технологических усовершенствования:

Моделирование длинных последовательностей: Обучение на обширных наборах данных для обеспечения последовательности на больших контекстах.
Увеличение знаний о мире: Расширяет восприятие модели с помощью мультимодального набора данных.
Синтез данных проактивного типа: Поддержка мощной модели обучения с подкреплением.

Показатели производительности

Серия GLM-4.6V демонстрирует передовые показатели на мультимодальных тестах и доступна в открытом доступе по лицензии MIT через такие платформы, как Hugging Face и ModelScope.

Основные выводы

Конфигурация модели: Надежная модель с 106B параметрами и облегченный вариант на 9B.
Нативное использование инструментов: Увеличивает эффективность агента с помощью прямой обработки визуальных входов.
Гибкость в контексте: Способна читать длинные документы и генерировать структурированный контент.
Доступность с открытым исходным кодом: Выпуск под лицензией MIT для дальнейшего изучения и разработки в сообществе ИИ.