00:00:00На прошлой неделе Google сделал нечто неожиданное.
00:00:02Они выпустили по-настоящему открытую модель под лицензией Apache 2.0.
00:00:08Она называется Gemma 4 и включает специализированные версии для периферийных устройств,
00:00:14всего на 2,3 миллиарда параметров, предназначенные для работы полностью в офлайне
00:00:21на таких устройствах, как ваш iPhone, флагманы Android или даже Raspberry Pi.
00:00:23Похоже, гонка за создание идеальной малой модели действительно накаляется.
00:00:28Всего несколько недель назад я тестировал QWAN 3.5, чтобы увидеть, как она расширяет
00:00:33границы локального ИИ, но теперь Google обещает еще более высокую плотность интеллекта.
00:00:39Так что в этом видео мы проведем аналогичные тесты на Gemma 4, чтобы узнать,
00:00:44действительно ли это лучшая малая модель на сегодняшний день.
00:00:47Будет очень интересно, так что давайте приступим.
00:00:53Так что же такого уникального в этих новых моделях Gemma 4?
00:00:57Главный технический сдвиг здесь — это то, что Google называет «эмбеддингами на каждый слой».
00:01:03В традиционных трансформерах токен получает один эмбеддинг в самом начале,
00:01:08который должен нести весь его смысл через каждый слой.
00:01:11Но в Gemma 4 у каждого слоя есть свой набор эмбеддингов, что позволяет модели
00:01:16вводить новую информацию именно там, где она необходима.
00:01:19Вот почему вы видите букву «E» в названиях моделей E2B и E4B.
00:01:24Она означает «эффективные параметры».
00:01:27Хотя модель действует с глубиной рассуждений как у 5-миллиардной модели,
00:01:32во время вывода она использует всего около 2,3 миллиарда активных параметров.
00:01:36Это обеспечивает гораздо более высокую плотность интеллекта, позволяя справляться
00:01:42со сложной логикой, используя менее 1,5 гигабайт оперативной памяти.
00:01:46Помимо работы с текстом, Gemma 4 является нативно мультимодальной.
00:01:50Это означает, что зрение, текст и даже аудио обрабатываются в рамках единой архитектуры,
00:01:56а не прикручены как отдельные модули.
00:01:59Эта архитектура включает новый режим мышления, использующий внутреннюю цепочку
00:02:05рассуждений для проверки собственной логики перед выдачей ответа.
00:02:08Это специально разработано для предотвращения бесконечных циклов и логических ошибок,
00:02:13которые часто преследуют малые модели.
00:02:15Она также поставляется с контекстным окном в 128K и поддержкой более 140 языков,
00:02:22что должно сделать ее значительно эффективнее в задачах вроде сложного OCR.
00:02:29Чтобы продемонстрировать эти способности, Google опубликовала впечатляющие бенчмарки.
00:02:34В их внутренних тестах модель E4B набрала 42,5% в математическом тесте AIME 2026,
00:02:43что более чем в два раза превышает показатели гораздо более крупных моделей прошлого поколения.
00:02:49Они также показали агентный потенциал модели на T2 bench,
00:02:54где произошел огромный скачок в точности использования инструментов.
00:02:57Они также продемонстрировали возможности агентов через функцию «навыки агента».
00:03:02Вместо генерации статичного текста, модель использовала нативный вызов функций
00:03:07для управления многоэтапными процессами, такими как запрос в Википедию
00:03:13для получения данных в реальном времени или создание виджета звуков животных.
00:03:15Все это звучит впечатляюще, но давайте попробуем сами и посмотрим, как это работает.
00:03:20В прошлом видео про QWAN 3.5 я тестировал малые модели локально без интернета,
00:03:25используя LMStudio и CLINE.
00:03:28Я буду использовать ту же настройку для тестирования GEMMA 4.
00:03:32Сначала нам нужно скачать модели в LMStudio, затем увеличить доступное
00:03:37контекстное окно и запустить сервер.
00:03:39Затем переходим в CLINE, подключаем наш локальный сервер LMStudio,
00:03:45выбираем модель E2B, отключаем интернет и начинаем тесты.
00:03:49В прошлый раз мы видели, что QWAN 3.5 неплохо справилась с созданием сайта кафе,
00:03:55используя HTML, CSS и JS на двух своих самых маленьких моделях.
00:04:00Давайте используем тот же промпт и узнаем, так ли хороша GEMMA 4 в кодинге.
00:04:05Итак, модели E2B потребовалось примерно 1,5 минуты на выполнение этой задачи.
00:04:10И для модели с 2,3 млрд активных параметров результаты, честно говоря,
00:04:16были слабоваты в сравнении с QWAN, которая использовала всего 0,8 млрд параметров.
00:04:22Самым раздражающим было то, что GEMMA добавила список задач в конец HTML-файла,
00:04:28а также в конец CSS-файла, поэтому мне пришлось вручную удалять их из обоих файлов,
00:04:33прежде чем открывать страницу.
00:04:34Она также утверждала, что написала JavaScript-файл, хотя на самом деле никакого
00:04:40JS-файла создано не было, так что результаты теста E2B немного разочаровали.
00:04:45Но ситуация значительно улучшилась при переходе на версию модели E4B.
00:04:50Этой версии потребовалось около 3,5 минут, но конечный результат был заметно лучше.
00:04:56Возможно, не в плане дизайна — он все еще выглядит очень просто — но у этой версии
00:05:00была рабочая корзина, которую ни один из предыдущих тестов, ни QWAN, ни GEMMA,
00:05:06не смогли реализовать успешно.
00:05:08Так что версия E4B — это уже большой шаг вперед по сравнению с E2B, но очевидно,
00:05:15что никто всерьез не будет использовать такие малые модели для сложного кодинга.
00:05:20Я провел эти тесты просто из любопытства, чтобы увидеть, может ли такое
00:05:25малое количество параметров выдать осмысленный результат в задаче по программированию.
00:05:29Хорошо, теперь давайте посмотрим, как GEMMA 4 работает на мобильных устройствах, например iPhone.
00:05:34В видео про QWAN 3.5 я собрал кастомное iOS-приложение, способное запускать модель
00:05:40на нативном Metal GPU, используя Swift-фреймворк MLX.
00:05:44Хотя GEMMA 4 — это открытый исходный код, к сожалению, для этой модели
00:05:49пока нет MLX-биндингов, способных запускать ее на iOS с мультимодальными функциями.
00:05:56А сами Google запускают GEMMA 4 в своем приложении AI Edge Gallery,
00:06:01используя собственный фреймворк Lite RTLM, который, к сожалению, тоже
00:06:07пока не поддерживает привязки к iOS.
00:06:08Так что для теста на iPhone лучший вариант сейчас — использовать их приложение Edge Gallery.
00:06:13Мы проведем наши тесты в их собственном приложении и посмотрим на производительность.
00:06:18Итак, перейдем в раздел AI-чата.
00:06:20Здесь нам предложат скачать версию E2B модели GEMMA 4.
00:06:25Также есть возможность скачать версию E4B, но почему-то приложение говорит,
00:06:29что у меня недостаточно места, что явно неправда, так что, возможно,
00:06:34это баг в приложении.
00:06:36Но в любом случае, теперь, когда я скачал модель, мы можем наконец начать ее использовать.
00:06:41И начнем с простого «привет».
00:06:43Ого, вы видели, как быстро пришел ответ?
00:06:46Намного быстрее, чем у QWAN 3.5.
00:06:48Возможно, это магия фреймворка Lite RTLM, который они используют.
00:06:53А теперь давайте попробуем знаменитый тест с мойкой машины и посмотрим, справится ли GEMMA.
00:06:57Ого, она выдает мне очень длинный ответ.
00:07:00И в конце мы видим итоговую рекомендацию — ехать, что правильно,
00:07:06но я должен учитывать тот факт, что она ориентируется на удобство и комфорт,
00:07:10а не на сам логический факт.
00:07:13Так что не знаю, она вроде как прошла тест, но в то же время и нет.
00:07:18Ладно, теперь перейдем к разделу распознавания изображений и проверим,
00:07:24сможет ли GEMMA определить собаку на этом фото.
00:07:26Да, она определила, что это действительно собака, и дала еще несколько деталей о фото.
00:07:31Это довольно круто.
00:07:32Но если я спрошу: «какой породы эта собака?»
00:07:35Она отвечает, что это бордер-колли, что неправда.
00:07:39На самом деле это корги.
00:07:40Но должен сказать, что для модели всего на 2 с небольшим миллиарда активных параметров
00:07:45этот ответ все равно весьма неплох.
00:07:46Напоследок давайте попробуем тест OCR.
00:07:48Если вы смотрели мое прошлое видео с QWAN 3.5, то помните, что я тестировал ее
00:07:54на картинке с текстом на латышском языке — это мой родной язык.
00:07:59GEMMA заявляет о понимании до 140 языков.
00:08:05Поэтому я полагаю, что она должна легко пройти этот тест.
00:08:08И да, действительно, она определяет, что язык — латышский.
00:08:13И я удивлен, что большая часть текста передана практически идеально.
00:08:16За некоторыми исключениями: я вижу несуществующие слова,
00:08:22а некоторые грамматические структуры выглядят очень странно.
00:08:24Но это все равно впечатляет.
00:08:26Так что я ставлю зачет этому тесту.
00:08:28Теперь возникает вопрос: могу ли я пообщаться с этой моделью на латышском?
00:08:32Давайте попробуем.
00:08:33Вижу, что ответ действительно на латышском.
00:08:36Но опять же, грамматические конструкции очень причудливые.
00:08:39Так никто не разговаривает.
00:08:41Но все же латышский — очень редкий язык.
00:08:44Так что наличие таких знаний в такой маленькой модели уже впечатляет.
00:08:48И пока я этим занимаюсь, спрошу ее, кто сейчас президент США,
00:08:53чтобы узнать актуальность знаний GEMMA 4.
00:08:56Она отвечает, что это Джо Байден.
00:08:58И если я спрошу напрямую: «какова дата отсечки твоих знаний?»
00:09:02Она скажет, что это январь 2025 года, что вполне сходится.
00:09:06Ну вот и все.
00:09:07Это GEMMA 4, новейшая open-source модель от Google.
00:09:10И честно скажу, модель кажется довольно хорошей.
00:09:14Она делает то, что заявлено, хотя ей не хватает креативности в веб-дизайне.
00:09:19Но в остальном эти малые модели, как мы только что видели,
00:09:24вполне способны успешно выполнять все задачи, которые я ей давал.
00:09:27Жаль, что у нас до сих пор нет MLX-биндингов для этой модели, потому что я бы очень
00:09:32хотел использовать GEMMA 4 локально в кастомном приложении для iOS.
00:09:36Но я уверен, что Google не заставит долго ждать публичного релиза.
00:09:41А пока я внимательно слежу за проектами сообщества, такими как SwiftLM,
00:09:46которые уже работают над неофициальными нативными привязками для этих моделей.
00:09:50Это были мои мысли по поводу данной модели.
00:09:52А что вы думаете о GEMMA 4?
00:09:54Вы ее пробовали?
00:09:55Будете ли использовать?
00:09:56Дайте нам знать в комментариях ниже.
00:09:59И друзья, если вам нравятся такие технические разборы, пожалуйста, дайте мне знать,
00:10:03нажав кнопку «лайк» под видео.
00:10:05И также не забудьте подписаться на наш канал.
00:10:07С вами был Андрес из BetterStack, и увидимся в следующих видео.