Google создали ЛУЧШУЮ Edge AI модель? (Gemma 4)

BBetter Stack
Computing/SoftwareLanguagesConsumer ElectronicsCell PhonesInternet Technology

Transcript

00:00:00На прошлой неделе Google сделал нечто неожиданное.
00:00:02Они выпустили по-настоящему открытую модель под лицензией Apache 2.0.
00:00:08Она называется Gemma 4 и включает специализированные версии для периферийных устройств,
00:00:14всего на 2,3 миллиарда параметров, предназначенные для работы полностью в офлайне
00:00:21на таких устройствах, как ваш iPhone, флагманы Android или даже Raspberry Pi.
00:00:23Похоже, гонка за создание идеальной малой модели действительно накаляется.
00:00:28Всего несколько недель назад я тестировал QWAN 3.5, чтобы увидеть, как она расширяет
00:00:33границы локального ИИ, но теперь Google обещает еще более высокую плотность интеллекта.
00:00:39Так что в этом видео мы проведем аналогичные тесты на Gemma 4, чтобы узнать,
00:00:44действительно ли это лучшая малая модель на сегодняшний день.
00:00:47Будет очень интересно, так что давайте приступим.
00:00:53Так что же такого уникального в этих новых моделях Gemma 4?
00:00:57Главный технический сдвиг здесь — это то, что Google называет «эмбеддингами на каждый слой».
00:01:03В традиционных трансформерах токен получает один эмбеддинг в самом начале,
00:01:08который должен нести весь его смысл через каждый слой.
00:01:11Но в Gemma 4 у каждого слоя есть свой набор эмбеддингов, что позволяет модели
00:01:16вводить новую информацию именно там, где она необходима.
00:01:19Вот почему вы видите букву «E» в названиях моделей E2B и E4B.
00:01:24Она означает «эффективные параметры».
00:01:27Хотя модель действует с глубиной рассуждений как у 5-миллиардной модели,
00:01:32во время вывода она использует всего около 2,3 миллиарда активных параметров.
00:01:36Это обеспечивает гораздо более высокую плотность интеллекта, позволяя справляться
00:01:42со сложной логикой, используя менее 1,5 гигабайт оперативной памяти.
00:01:46Помимо работы с текстом, Gemma 4 является нативно мультимодальной.
00:01:50Это означает, что зрение, текст и даже аудио обрабатываются в рамках единой архитектуры,
00:01:56а не прикручены как отдельные модули.
00:01:59Эта архитектура включает новый режим мышления, использующий внутреннюю цепочку
00:02:05рассуждений для проверки собственной логики перед выдачей ответа.
00:02:08Это специально разработано для предотвращения бесконечных циклов и логических ошибок,
00:02:13которые часто преследуют малые модели.
00:02:15Она также поставляется с контекстным окном в 128K и поддержкой более 140 языков,
00:02:22что должно сделать ее значительно эффективнее в задачах вроде сложного OCR.
00:02:29Чтобы продемонстрировать эти способности, Google опубликовала впечатляющие бенчмарки.
00:02:34В их внутренних тестах модель E4B набрала 42,5% в математическом тесте AIME 2026,
00:02:43что более чем в два раза превышает показатели гораздо более крупных моделей прошлого поколения.
00:02:49Они также показали агентный потенциал модели на T2 bench,
00:02:54где произошел огромный скачок в точности использования инструментов.
00:02:57Они также продемонстрировали возможности агентов через функцию «навыки агента».
00:03:02Вместо генерации статичного текста, модель использовала нативный вызов функций
00:03:07для управления многоэтапными процессами, такими как запрос в Википедию
00:03:13для получения данных в реальном времени или создание виджета звуков животных.
00:03:15Все это звучит впечатляюще, но давайте попробуем сами и посмотрим, как это работает.
00:03:20В прошлом видео про QWAN 3.5 я тестировал малые модели локально без интернета,
00:03:25используя LMStudio и CLINE.
00:03:28Я буду использовать ту же настройку для тестирования GEMMA 4.
00:03:32Сначала нам нужно скачать модели в LMStudio, затем увеличить доступное
00:03:37контекстное окно и запустить сервер.
00:03:39Затем переходим в CLINE, подключаем наш локальный сервер LMStudio,
00:03:45выбираем модель E2B, отключаем интернет и начинаем тесты.
00:03:49В прошлый раз мы видели, что QWAN 3.5 неплохо справилась с созданием сайта кафе,
00:03:55используя HTML, CSS и JS на двух своих самых маленьких моделях.
00:04:00Давайте используем тот же промпт и узнаем, так ли хороша GEMMA 4 в кодинге.
00:04:05Итак, модели E2B потребовалось примерно 1,5 минуты на выполнение этой задачи.
00:04:10И для модели с 2,3 млрд активных параметров результаты, честно говоря,
00:04:16были слабоваты в сравнении с QWAN, которая использовала всего 0,8 млрд параметров.
00:04:22Самым раздражающим было то, что GEMMA добавила список задач в конец HTML-файла,
00:04:28а также в конец CSS-файла, поэтому мне пришлось вручную удалять их из обоих файлов,
00:04:33прежде чем открывать страницу.
00:04:34Она также утверждала, что написала JavaScript-файл, хотя на самом деле никакого
00:04:40JS-файла создано не было, так что результаты теста E2B немного разочаровали.
00:04:45Но ситуация значительно улучшилась при переходе на версию модели E4B.
00:04:50Этой версии потребовалось около 3,5 минут, но конечный результат был заметно лучше.
00:04:56Возможно, не в плане дизайна — он все еще выглядит очень просто — но у этой версии
00:05:00была рабочая корзина, которую ни один из предыдущих тестов, ни QWAN, ни GEMMA,
00:05:06не смогли реализовать успешно.
00:05:08Так что версия E4B — это уже большой шаг вперед по сравнению с E2B, но очевидно,
00:05:15что никто всерьез не будет использовать такие малые модели для сложного кодинга.
00:05:20Я провел эти тесты просто из любопытства, чтобы увидеть, может ли такое
00:05:25малое количество параметров выдать осмысленный результат в задаче по программированию.
00:05:29Хорошо, теперь давайте посмотрим, как GEMMA 4 работает на мобильных устройствах, например iPhone.
00:05:34В видео про QWAN 3.5 я собрал кастомное iOS-приложение, способное запускать модель
00:05:40на нативном Metal GPU, используя Swift-фреймворк MLX.
00:05:44Хотя GEMMA 4 — это открытый исходный код, к сожалению, для этой модели
00:05:49пока нет MLX-биндингов, способных запускать ее на iOS с мультимодальными функциями.
00:05:56А сами Google запускают GEMMA 4 в своем приложении AI Edge Gallery,
00:06:01используя собственный фреймворк Lite RTLM, который, к сожалению, тоже
00:06:07пока не поддерживает привязки к iOS.
00:06:08Так что для теста на iPhone лучший вариант сейчас — использовать их приложение Edge Gallery.
00:06:13Мы проведем наши тесты в их собственном приложении и посмотрим на производительность.
00:06:18Итак, перейдем в раздел AI-чата.
00:06:20Здесь нам предложат скачать версию E2B модели GEMMA 4.
00:06:25Также есть возможность скачать версию E4B, но почему-то приложение говорит,
00:06:29что у меня недостаточно места, что явно неправда, так что, возможно,
00:06:34это баг в приложении.
00:06:36Но в любом случае, теперь, когда я скачал модель, мы можем наконец начать ее использовать.
00:06:41И начнем с простого «привет».
00:06:43Ого, вы видели, как быстро пришел ответ?
00:06:46Намного быстрее, чем у QWAN 3.5.
00:06:48Возможно, это магия фреймворка Lite RTLM, который они используют.
00:06:53А теперь давайте попробуем знаменитый тест с мойкой машины и посмотрим, справится ли GEMMA.
00:06:57Ого, она выдает мне очень длинный ответ.
00:07:00И в конце мы видим итоговую рекомендацию — ехать, что правильно,
00:07:06но я должен учитывать тот факт, что она ориентируется на удобство и комфорт,
00:07:10а не на сам логический факт.
00:07:13Так что не знаю, она вроде как прошла тест, но в то же время и нет.
00:07:18Ладно, теперь перейдем к разделу распознавания изображений и проверим,
00:07:24сможет ли GEMMA определить собаку на этом фото.
00:07:26Да, она определила, что это действительно собака, и дала еще несколько деталей о фото.
00:07:31Это довольно круто.
00:07:32Но если я спрошу: «какой породы эта собака?»
00:07:35Она отвечает, что это бордер-колли, что неправда.
00:07:39На самом деле это корги.
00:07:40Но должен сказать, что для модели всего на 2 с небольшим миллиарда активных параметров
00:07:45этот ответ все равно весьма неплох.
00:07:46Напоследок давайте попробуем тест OCR.
00:07:48Если вы смотрели мое прошлое видео с QWAN 3.5, то помните, что я тестировал ее
00:07:54на картинке с текстом на латышском языке — это мой родной язык.
00:07:59GEMMA заявляет о понимании до 140 языков.
00:08:05Поэтому я полагаю, что она должна легко пройти этот тест.
00:08:08И да, действительно, она определяет, что язык — латышский.
00:08:13И я удивлен, что большая часть текста передана практически идеально.
00:08:16За некоторыми исключениями: я вижу несуществующие слова,
00:08:22а некоторые грамматические структуры выглядят очень странно.
00:08:24Но это все равно впечатляет.
00:08:26Так что я ставлю зачет этому тесту.
00:08:28Теперь возникает вопрос: могу ли я пообщаться с этой моделью на латышском?
00:08:32Давайте попробуем.
00:08:33Вижу, что ответ действительно на латышском.
00:08:36Но опять же, грамматические конструкции очень причудливые.
00:08:39Так никто не разговаривает.
00:08:41Но все же латышский — очень редкий язык.
00:08:44Так что наличие таких знаний в такой маленькой модели уже впечатляет.
00:08:48И пока я этим занимаюсь, спрошу ее, кто сейчас президент США,
00:08:53чтобы узнать актуальность знаний GEMMA 4.
00:08:56Она отвечает, что это Джо Байден.
00:08:58И если я спрошу напрямую: «какова дата отсечки твоих знаний?»
00:09:02Она скажет, что это январь 2025 года, что вполне сходится.
00:09:06Ну вот и все.
00:09:07Это GEMMA 4, новейшая open-source модель от Google.
00:09:10И честно скажу, модель кажется довольно хорошей.
00:09:14Она делает то, что заявлено, хотя ей не хватает креативности в веб-дизайне.
00:09:19Но в остальном эти малые модели, как мы только что видели,
00:09:24вполне способны успешно выполнять все задачи, которые я ей давал.
00:09:27Жаль, что у нас до сих пор нет MLX-биндингов для этой модели, потому что я бы очень
00:09:32хотел использовать GEMMA 4 локально в кастомном приложении для iOS.
00:09:36Но я уверен, что Google не заставит долго ждать публичного релиза.
00:09:41А пока я внимательно слежу за проектами сообщества, такими как SwiftLM,
00:09:46которые уже работают над неофициальными нативными привязками для этих моделей.
00:09:50Это были мои мысли по поводу данной модели.
00:09:52А что вы думаете о GEMMA 4?
00:09:54Вы ее пробовали?
00:09:55Будете ли использовать?
00:09:56Дайте нам знать в комментариях ниже.
00:09:59И друзья, если вам нравятся такие технические разборы, пожалуйста, дайте мне знать,
00:10:03нажав кнопку «лайк» под видео.
00:10:05И также не забудьте подписаться на наш канал.
00:10:07С вами был Андрес из BetterStack, и увидимся в следующих видео.

Key Takeaway

Gemma 4 обеспечивает работу мультимодального ИИ с контекстным окном 128K полностью локально на мобильных устройствах, используя архитектуру эффективных параметров для достижения высокой плотности интеллекта при минимальном потреблении памяти.

Highlights

Gemma 4 работает полностью в офлайне на iPhone, Android и Raspberry Pi, используя всего 2,3 миллиарда активных параметров.

Архитектура «эмбеддингов на каждый слой» позволяет вводить новую информацию на любом этапе обработки вместо одного раза в начале.

Модель E4B набрала 42,5% в математическом тесте AIME 2026, что в два раза превышает показатели крупных моделей предыдущего поколения.

Gemma 4 функционирует в рамках единой мультимодальной архитектуры, где текст, зрение и аудио обрабатываются нативно без сторонних модулей.

Модель занимает менее 1,5 гигабайта оперативной памяти при сохранении плотности интеллекта уровня 5-миллиардных моделей.

Дата отсечки знаний Gemma 4 соответствует январю 2025 года.

Timeline

Архитектура и технические особенности Gemma 4

  • Открытая лицензия Apache 2.0 обеспечивает свободный доступ к весам модели.
  • Каждый слой трансформера имеет собственный набор эмбеддингов для точного управления информацией.
  • Режим внутреннего мышления предотвращает логические циклы через самопроверку перед выдачей ответа.
  • Поддержка более 140 языков сочетается с нативной мультимодальностью и контекстом 128K.

Переход к эмбеддингам на каждом слое объясняет наличие буквы «E» в названиях моделей, что означает эффективные параметры. Это позволяет модели E4B демонстрировать рассуждения уровня 5-миллиардных моделей, задействуя в два раза меньше ресурсов. Конструкция включает встроенную цепочку рассуждений (Chain of Thought) для минимизации галлюцинаций в малых масштабах.

Бенчмарки и возможности агентного взаимодействия

  • Точность использования внешних инструментов значительно возросла на тесте T2 bench.
  • Нативный вызов функций позволяет выполнять многоэтапные процессы без генерации лишнего текста.
  • Функция «навыки агента» обеспечивает доступ к внешним данным в реальном времени через API.

Внутренние тесты показывают значительный скачок в математических способностях на наборе AIME 2026. Модель способна не просто отвечать на вопросы, но и управлять инструментами, например, самостоятельно запрашивать данные в Википедии. Это подтверждает потенциал использования Gemma 4 в качестве автономного локального агента.

Локальное тестирование кодинга и веб-разработки

  • Модель E2B выполняет простую задачу по верстке сайта за 1,5 минуты, но допускает ошибки в структуре файлов.
  • Версия E4B тратит 3,5 минуты на генерацию, обеспечивая полностью рабочую логику корзины товаров.
  • Интеграция с LMStudio и Cline позволяет запускать модель локально без доступа к интернету.

При тестировании создания сайта на HTML/CSS/JS версия E2B показала избыточность, добавляя списки задач внутрь кода и имитируя создание JavaScript-файла. Переход на версию E4B исправляет логические ошибки, позволяя реализовать функциональные элементы интерфейса, которые недоступны конкурентам аналогичного размера. Однако для сложного программирования такие малые модели остаются экспериментальным инструментом.

Производительность на мобильных устройствах и визуальные тесты

  • Фреймворк Lite RTLM обеспечивает мгновенный отклик на iPhone в приложении AI Edge Gallery.
  • Модель успешно проходит логические тесты и корректно распознает объекты на изображениях.
  • OCR-способности позволяют точно считывать текст даже на редких языках, таких как латышский.

В мобильном приложении скорость генерации текста превышает показатели QWAN 3.5 благодаря оптимизации Google. Визуальный модуль верно идентифицирует присутствие собаки на фото, хотя может ошибаться в определении конкретной породы. Тестирование на латышском языке подтвердило высокое качество распознавания текста (OCR) и понимание грамматики, несмотря на наличие специфических архаичных конструкций в ответах.

Community Posts

View all posts