Google только что решила главную проблему мультимодального ИИ (Gemma 4 12B)

BBetter Stack
컴퓨터/소프트웨어가전제품/카메라

Transcript

00:00:00Google только что представила свою новейшую 12-миллиардную модель Gemma 4, и это настоящая революция.
00:00:06Нет, серьезно, это не кликбейт. Эта модель действительно меняет правила игры благодаря своему устройству.
00:00:13То, что отличает ее от всех других ИИ-моделей, — это тот факт, что она полностью
00:00:18лишена энкодера. Что это значит, как это работает и почему это так важно?
00:00:24Что ж, это отличные вопросы, на которые мы ответим в сегодняшнем видео. Будет
00:00:29интересно. Давайте приступим. Итак, модель Gemma 4 на 12 миллиардов параметров имеет новую архитектуру, которая
00:00:39полностью отходит от принципа работы любой другой мультимодальной модели. Мультимодальная модель. О боже,
00:00:46это такая скороговорка. Чтобы понять, почему это так важно, мы должны
00:00:51посмотреть, как работают другие мультимодальные модели сейчас. Языковые модели созданы для чтения
00:00:57токенов, по сути, фрагментов текста, превращенных в числа. Они от природы не знают, что такое пиксель или как
00:01:05выглядит звуковая волна. Поэтому обычно мы соединяем разные модели. Если вы даете ИИ изображение, массивный
00:01:11видео-энкодер перехватывает его первым. Он тратит массу вычислительной мощности на перевод этих необработанных пикселей в
00:01:19язык, который LLM действительно может понять. То же самое касается аудио. Отдельный речевой энкодер должен
00:01:25сначала перевести звуковые волны. К тому времени, как настоящий «мозг» ИИ получит данные, вы будете запускать три
00:01:32отдельные сети одновременно. На обычном ноутбуке это полностью забивает вашу видеопамять и замедляет
00:01:38работу системы. Но Google DeepMind посмотрели на эту проблему и подумали: «А что, если мы просто исключим
00:01:44посредника?» Итак, в модели Gemma 4 на 12 миллиардов параметров они полностью удалили тяжелый видео-энкодер. Вместо этого,
00:01:51когда вы подаете изображение, модель разбивает его на небольшие фрагменты 48 на 48 пикселей. И вместо того чтобы пропускать
00:01:58эти фрагменты через десятки слоев отдельной видео-сети, необработанные пиксели проходят через один
00:02:04тонкий математический шаг, называемый линейной проекцией. И эта линейная проекция — это просто массивная сетка чисел,
00:02:11которая берет 2304 значения пикселей (поскольку это соответствует квадрату 48 на 48), умножает их за
00:02:19один шаг и растягивает их в одну строку, которая идеально соответствует формату текстовых токенов LLM.
00:02:26То есть она еще не анализирует содержимое изображения, она просто переформатирует необработанные данные так, чтобы они могли пройти
00:02:32через модель. Если вы посмотрите на стандартные модели, их видео-энкодеры огромны. Например,
00:02:38здесь 550 миллионов параметров. Это потому, что традиционному энкодеру нужно много данных для изменения формы,
00:02:45отображения и понимания изображения. В нем десятки внутренних слоев внимания, вычисляющих связи
00:02:50между пикселями, пытающихся понять, где границы, каковы формы и какими могут быть объекты,
00:02:57прежде чем передать их текстовой модели. Но DeepMind уменьшили его, полностью удалив всю эту тяжелую
00:03:04вычислительную мощность. Они поняли, что основной языковой стержень уже невероятно умен и имеет достаточно
00:03:10слоев для выполнения реальных визуальных рассуждений. Поэтому, удалив все эти мыслительные слои, они оставили
00:03:17всего 35 миллионов параметров — это буквально просто физическое количество весов соединений, необходимых
00:03:24для отображения этих сеток пикселей в текстовый формат. Это статичная однослойная карта, которая работает для любого изображения.
00:03:30Поскольку она не выполняет никакой внутренней мыслительной работы, она практически не потребляет вычислительную мощность, освобождая видеопамять
00:03:37и позволяя основной LLM обрабатывать интеллект нативно. И чтобы понять, как работает этот единственный шаг,
00:03:44нужно посмотреть, что на самом деле происходит внутри языковой модели. Каждая языковая модель имеет
00:03:50внутреннее правило форматирования, называемое скрытой размерностью. Думайте об этом как о стандартном размере лотка. Будь то
00:03:56слово «яблоко», фрагмент кода или пунктуация — все, что подается в LLM, должно быть преобразовано
00:04:04в этот специфический огромный список чисел, потому что он должен соответствовать размерностям матриц. И этот необработанный
00:04:11фрагмент 48 на 48 пикселей — это просто сетка из 2304 отдельных чисел цвета. Если попытаться подать этот фрагмент
00:04:19напрямую в LLM, модель отвергнет его, потому что размерности не совпадают. И именно
00:04:26поэтому существует этот слой отображения на 35 миллионов параметров. Это буквально одна массивная сетка
00:04:33весов соединений, которая умножает эти 2304 значения пикселей и растягивает их в одну строку, которая
00:04:40идеально соответствует формату текстовых токенов LLM. Она не выполняет никакой аналитической работы, она просто выступает как конвертер формата,
00:04:48чтобы данные могли легко проникнуть в основной трансформер, где нативно происходит визуальное мышление.
00:04:54Модель делает что-то похожее и для аудио-рассуждений, но для аудио это даже проще.
00:05:01Способ, которым им удалось избавиться от аудио-энкодера, — это взятие необработанного аудиосигнала 16 кГц и
00:05:07нарезка его на непрерывные кадры по 40 миллисекунд. Каждый кадр содержит ровно 640 чисел с плавающей запятой,
00:05:15описывающих звуковую волну. Модель берет эти 640 чисел и пропускает их через похожий
00:05:21простой слой проекции, который отображает их прямо в пространство ввода языковой модели. Для трансформерного
00:05:28стержня 40-миллисекундный аудио-блок выглядит идентично непрерывному потоку текстовых токенов. Поскольку звук
00:05:35уже является хронологической последовательностью, прямо как предложение в последовательности слов, LLM обрабатывает аудио
00:05:42точно так же, как текст. Таким образом, эта глубокая нативная интеграция позволяет модели на 12 миллиардов параметров обрабатывать живую транскрипцию,
00:05:49перевод и форматирование текста за один проход, не заставляя вас загружать отдельные речевые
00:05:56сети в вашу память. Так что этот умный трюк — огромная победа для запуска моделей локально на вашем собственном
00:06:02оборудовании. Убрав все раздутые энкодеры, DeepMind удалось упаковать невероятную мощность мышления
00:06:08в крошечный объем. И если посмотреть на бенчмарки, она приближается к производительности их массивных моделей на 26
00:06:15миллиардов параметров, но при этом легко помещается на стандартном ноутбуке с 16 гигабайтами видеопамяти
00:06:21или больше. Плюс Google включила нативные предсказатели нескольких токенов прямо «из коробки», что означает, что она предсказывает
00:06:28несколько токенов одновременно для высокой скорости локального вывода, не заставляя вас сжимать модель.
00:06:34Все это звучит впечатляюще. Теперь давайте протестируем и посмотрим, как она работает на моем локальном MacBook Pro с M2.
00:06:41И некоторые люди в моем предыдущем видео об OMLX спрашивали, сколько видеопамяти на моем
00:06:48компьютере? Чтобы ответить на этот вопрос: у меня 24 гигабайта видеопамяти. Так что вот с чем мы
00:06:53работаем сегодня. Еще должен сказать, что это приложение Edge Gallery такое глючное. Например, если я пытаюсь добавить
00:07:01изображение и прошу: «Пожалуйста, проанализируй это изображение», оно мгновенно выдает ошибку. И это
00:07:13на последней версии. К сожалению, мы не смогли протестировать видео-энкодер с использованием официального приложения AI Edge
00:07:20Gallery, но есть другой способ, которым мы можем протестировать. Хорошо. Поскольку я не мог
00:07:26надежно протестировать обработку изображений с помощью модели Gemma 4 на 12 миллиардов в приложении Google AI Edge Gallery,
00:07:34я решил протестировать ее в OMLX. Я также делал видео про OMLX. Это невероятный
00:07:42фреймворк для локального запуска ИИ-моделей, особенно на Apple Silicon. И, как вы видите здесь, у меня
00:07:47скачана 8-битная квантованная версия этой модели. Теперь я перейду в раздел чата
00:07:54и посмотрим, как быстро она может выполнять рассуждения по изображениям в реальном времени. Здесь у меня есть тестовая папка
00:08:01с двумя изображениями. Одно из них — просто скриншот вылетов в аэропорту. Так что мы используем это изображение
00:08:09и спросим: «Что ты видишь на этом изображении?» И обратите внимание, что я не ускоряю это видео.
00:08:18Это все происходит в реальном времени. Обратите внимание, насколько быстро она способна выполнять рассуждения
00:08:24над таким изображением. Она начинает, загружает модель, генерирует, и бум, посмотрите на это.
00:08:33Посмотрите, как быстро она способна разобрать эту картинку и извлечь из нее ценную информацию.
00:08:41Когда я впервые увидел это в OMLX, я был искренне поражен скоростью. Это просто безумие.
00:08:50Я должен сказать, что это лучшая модель для локальных рассуждений по изображениям, которую я тестировал. И я также
00:08:57хочу обратить ваше внимание на то, что я запускаю эту модель офлайн. У меня даже Wi-Fi выключен.
00:09:03Давайте попробуем еще один пример. Это просто размытое изображение из телешоу «Викинги», где показаны некоторые
00:09:10персонажи. Итак, снова давайте откроем это изображение и спросим то же самое: «Что ты видишь на этом
00:09:21изображении?» Она генерирует.
00:09:27И бум, посмотрите на это.
00:09:30Я имею в виду, это просто безумие. Так быстро. Я был так удивлен.
00:09:37Так что да, я, честно говоря, очень и очень впечатлен производительностью обработки изображений этой новой модели.
00:09:43Вот и все, ребята. Это новая модель Gemma 4 на 12 миллиардов без энкодера в двух словах.
00:09:50Меня очень расстроило, что я не смог уверенно протестировать ее в их официальном приложении AI Edge
00:09:56Gallery. Но, как мы увидели, есть другие альтернативные и, возможно, даже лучшие способы запустить ее
00:10:01локально. Так что я думаю, что это очень хорошая модель, и она полностью меняет будущее запуска
00:10:07локальных ИИ-моделей. Google DeepMind только что доказали, что одного языкового стержня достаточно
00:10:13для нативной обработки зрения и звука. Эта новая технология, вероятно, откроет двери для разработки еще
00:10:19более эффективных мультимодальных моделей рассуждения, которые легко могут работать на периферийных устройствах. Итак, что вы думаете
00:10:26о новой модели Gemma? Вы ее пробовали? Будете ли вы ее использовать? Дайте знать в комментариях
00:10:32ниже. И ребята, если вам нравятся такие технические разборы, пожалуйста, дайте мне знать, нажав на кнопку лайка
00:10:37под видео. И также не забудьте подписаться на наш канал. С вами был Андрес
00:10:43из BetterStack, и увидимся в следующих видео.

Key Takeaway

Удаление тяжелых энкодеров и использование одного слоя линейной проекции позволяют модели Gemma 4 12B выполнять сложные мультимодальные рассуждения на обычном ноутбуке без потери вычислительной мощности основного языкового стержня.

Highlights

  • Модель Gemma 4 12B исключает использование традиционного видео-энкодера, передавая данные изображения напрямую в языковой стержень.

  • Вместо обработки через десятки слоев видео-сети, необработанные данные изображения проходят через один слой линейной проекции из 35 миллионов параметров.

  • Аудио обрабатывается путем нарезки сигнала на 40-миллисекундные кадры по 640 значений, которые подаются в модель аналогично текстовым токенам.

  • Архитектура Gemma 4 12B позволяет запускать мультимодальные рассуждения на локальном оборудовании с 16 ГБ видеопамяти.

  • Встроенная функция предсказания нескольких токенов одновременно увеличивает скорость генерации при локальном использовании.

  • Тестирование в OMLX подтверждает способность модели мгновенно анализировать изображения без активного интернет-соединения.

Timeline

Инновационная архитектура Gemma 4

  • Gemma 4 12B полностью отказывается от использования внешнего видео-энкодера.
  • Изображения разбиваются на фрагменты 48 на 48 пикселей для прямой обработки.
  • Линейная проекция преобразует 2304 значения пикселей в формат текстовых токенов за один математический шаг.

Традиционные мультимодальные модели перегружают систему, используя массивные энкодеры для перевода пикселей в понятный для ИИ формат. Google DeepMind устранила это посредничество, оставив лишь 35 миллионов параметров для простого отображения данных. Это позволяет освободить видеопамять и использовать интеллектуальный потенциал основной языковой модели для визуальных рассуждений.

Нативная интеграция аудио

  • Аудиосигнал частотой 16 кГц нарезается на непрерывные фрагменты длительностью 40 миллисекунд.
  • Языковая модель воспринимает аудио-блоки как последовательность текстовых токенов благодаря схожей структуре.
  • Отсутствие отдельных речевых сетей сокращает потребление ресурсов при обработке транскрипций.

Процесс обработки звука упрощен до подачи 640 чисел с плавающей запятой через простой слой проекции непосредственно в пространство ввода трансформера. Поскольку звук уже представляет собой хронологическую последовательность, он нативно обрабатывается языковым стержнем как предложение. Это дает возможность запускать перевод и форматирование текста в реальном времени локально.

Практическое тестирование и производительность

  • Модель демонстрирует высокую скорость анализа изображений на MacBook Pro с чипом M2.
  • Фреймворк OMLX обеспечивает стабильную работу модели при использовании 8-битной квантованной версии.
  • Локальный запуск модели возможен при полностью отключенном доступе к сети Wi-Fi.

Хотя официальное приложение Google AI Edge Gallery показало нестабильную работу, использование OMLX подтвердило эффективность архитектуры. Модель быстро извлекает данные из скриншотов и размытых кадров без задержек. Успешные результаты доказывают, что языковой стержень способен нативно обрабатывать визуальную и звуковую информацию на периферийных устройствах.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video