<НА ГЛАВНУЮ

Zhipu AI Запускает GLM-4.6V: Основные Особенности

GLM-4.6V от Zhipu AI предлагает продвинутое управление контекстом и нативное использование инструментов.

Обзор GLM-4.6V

Zhipu AI опубликовал серий GLM-4.6V, состоящую из двух языковых моделей, способных обрабатывать изображения, видео и инструменты в качестве основных входных данных. Это меняет подход к обработке мультимодальной информации.

Ассортимент моделей и длина контекста

Серия включает две модели:

  • GLM-4.6V: Модель с 106B параметрами, оптимизированная для облачных вычислений и производительных кластеров.
  • GLM-4.6V-Flash: Вариант с 9B параметрами, настроенный для локального развертывания и низких задержек.

GLM-4.6V значительно увеличивает длину контекста до 128K токенов, позволяя обрабатывать сложные документы, слайды или видео за один проход.

Нативное использование мультимодальных инструментов

Ключевое усовершенствование в GLM-4.6V — это нативное мультимодальное вызов функций. В отличие от традиционных LLM, которые переводят визуальные входы в текст, GLM-4.6V позволяет напрямую вызывать инструменты с визуальными параметрами. Это минимизирует задержку и максимизирует использование данных.

Сценарии применения

Zhipu AI выделяет четыре основных области применения:

  • Понимание и создание текстов: Модель обрабатывает смешанный контент и усиливает выходные данные, добавляя визуальные элементы и внешние изображения.
  • Визуальный веб-поиск: Модель планирует поиски и объединяет полученные изображения с текстом для структурированных сравнений.
  • Репликация интерфейса: Превращает скриншоты в точный HTML/CSS, позволяя разработчикам вносить изменения через естественные команды.
  • Долговременное понимание документов: Обрабатывает сложные наборы документов и предлагает исчерпывающие выходные данные.

Архитектурные инновации

Модели базируются на лучших практиках предыдущих версий, включая три ключевых технологических усовершенствования:

  1. Моделирование длинных последовательностей: Обучение на обширных наборах данных для обеспечения последовательности на больших контекстах.
  2. Увеличение знаний о мире: Расширяет восприятие модели с помощью мультимодального набора данных.
  3. Синтез данных проактивного типа: Поддержка мощной модели обучения с подкреплением.

Показатели производительности

Серия GLM-4.6V демонстрирует передовые показатели на мультимодальных тестах и доступна в открытом доступе по лицензии MIT через такие платформы, как Hugging Face и ModelScope.

Основные выводы

  1. Конфигурация модели: Надежная модель с 106B параметрами и облегченный вариант на 9B.
  2. Нативное использование инструментов: Увеличивает эффективность агента с помощью прямой обработки визуальных входов.
  3. Гибкость в контексте: Способна читать длинные документы и генерировать структурированный контент.
  4. Доступность с открытым исходным кодом: Выпуск под лицензией MIT для дальнейшего изучения и разработки в сообществе ИИ.
🇬🇧

Switch Language

Read this article in English

Switch to English