00:00:00Интернет сейчас просто сходит с ума, и на этот раз виной тому Qwen 3.5,
00:00:05а именно серия их малых моделей. Alibaba только что выпустила нативные
00:00:10мультимодальные версии Qwen 3.5 размером всего в 2 миллиарда и даже 0,8 миллиарда параметров.
00:00:17Они превосходят некоторые модели в 4 раза больше их по размеру в логике и зрении.
00:00:22Они настолько крошечные, что теперь мы можем запускать их локально на ноутбуках 6-летней давности и смартфонах
00:00:28без подключения к интернету. В этом видео мы подробно разберем новые
00:00:34малые модели серии Qwen 3.5, такие как 0,8B и 2B. Мы также протестируем их на
00:00:40MacBook Pro с процессором M2, а также на iPhone 14 Pro и узнаем, насколько они мощные на самом деле.
00:00:48Будет очень интересно, так что давайте приступим.
00:00:55Так почему же все помешаны на этих новых моделях Qwen 3.5? В конце концов, малые модели существуют
00:01:01уже довольно давно. Я даже делал обзор на модели Granite 4.0 nano от IBM в предыдущем видео, и их модель
00:01:08имела всего 300 миллионов параметров. Так что же делает эти маленькие модели Qwen такими особенными?
00:01:14Все дело в так называемой плотности интеллекта. Видите ли, долгое время правилом было:
00:01:20если вам нужна модель, которая может видеть, рассуждать и кодить, она должна быть огромной. Но новые малые модели Qwen 3.5
00:01:27доказывают, что это не обязательно. Им как-то удалось сжать свои большие модели в
00:01:33крошечные версии, которые по-прежнему поддерживают единую мультимодальную архитектуру. Это означает, что
00:01:39их модель на 0,8 миллиарда не просто отвечает на текст, в нее также вшиты зрение и навыки программирования.
00:01:46Давайте быстро взглянем на их бенчмарки, потому что они довольно любопытны. В тесте MMLU,
00:01:51который измеряет общие знания и логику, модель 2B набирает 66,5 балла,
00:01:57в то время как модель 0,8B достигает 42,3. Что может звучать не слишком впечатляюще, но имейте в виду,
00:02:04что для контекста оригинальная Llama 2 с 7 миллиардами параметров, вышедшая в 2023 году,
00:02:11набрала 45,3 балла в том же тесте. Это наглядно показывает, насколько нам удалось уменьшить
00:02:17количество параметров, сохранив при этом достойный уровень понимания. Но посмотрите на это: их
00:02:23главный козырь — мультимодальная производительность. В специализированных тестах зрения, таких как OCRBench,
00:02:29модель 2B набирает 85,4, а 0,8B — 79,1. Это указывает на то, что они
00:02:37способны выполнять такие задачи, как чтение сложных документов и анализ изображений с текстом.
00:02:43О, и обе они поддерживают огромное контекстное окно в 262 тысячи токенов, так что вы можете скармливать им целые PDF
00:02:51или использовать их для анализа больших кодовых баз. Это впечатляет. Но теперь давайте посмотрим,
00:02:56как они работают на практике. Поскольку модели 0,8B и 2B могут работать локально почти на любом
00:03:02современном ноутбуке, я проведу эти тесты в режиме полета, без какого-либо подключения к интернету
00:03:08на моем локальном ноутбуке. Для первого теста мы запустим локальный сервер в LM Studio
00:03:14и подключим его к CLINE в VS Code, чтобы проверить, справятся ли эти крохи с реальной задачей по программированию.
00:03:21Сначала нужно зайти во вкладку моделей и скачать GGUF-версии моделей на 0,8 и 2 миллиарда параметров.
00:03:28И так как мы будем использовать их для задач кодинга, нам также нужно будет
00:03:33значительно увеличить доступную длину контекста. Как только мы это сделаем, можно
00:03:38запускать сервер. А теперь перейдем в CLINE. И прежде всего, как я уже упоминал, я выключу
00:03:43свой Wi-Fi, чтобы мы могли провести тесты полностью офлайн. Затем в CLINE в разделе конфигурации API
00:03:50я укажу URL нашего кастомного сервера LM Studio. И давайте убедимся,
00:03:56что мы выбрали модель 0,8B. В качестве промпта я попрошу модель создать простой
00:04:01веб-сайт компании для небольшого кафе. Я также заметил, что если не указывать конкретный фреймворк
00:04:07и позволить Qwen выбирать самой, она решит установить React, что не сработает для нашего демо
00:04:14в офлайн-режиме. Поэтому я немного изменил промпт, попросив использовать только HTML, CSS и JavaScript
00:04:20без каких-либо внешних библиотек. Запускаем тест. Итак, модели потребовалось около минуты,
00:04:25чтобы завершить задачу. И вот наш финальный результат. Как видите, сайт очень скучный, дизайн
00:04:32не особо эстетичный, а текст очень темный. Также я заметил, что в CSS
00:04:37модель попыталась жестко прописать ссылки на конкретные изображения из Unsplash, подходящие под нашу тему.
00:04:43Это интересное наблюдение. И если мы ненадолго включим Wi-Fi, то увидим, что
00:04:48одна из картинок действительно загружается. И это оказывается изображение врача с телефоном. Довольно
00:04:54странный выбор. Остальные изображения содержат неверные URL. Я также пробовал снова попросить модель
00:05:00исправить битый текст и улучшить другие области, но она не смогла сделать это надежно. В общем,
00:05:06я бы сказал, что хотя эта модель способна кодить и вызывать инструменты, я не думаю,
00:05:12что это хорошая идея — использовать ее в реальных сценариях, так как количество параметров слишком мало.
00:05:17Теперь давайте протестируем модель на 2 миллиарда параметров с тем же промптом и посмотрим на результат.
00:05:23Эта модель на самом деле доставила мне немало хлопот, потому что она часто зацикливалась,
00:05:28прописывая одну и ту же секцию снова и снова. Мне приходилось останавливать задачу и перезапускать ее.
00:05:34Не уверен, проблема ли это самой модели, того, как LM Studio держит сервер, или того, как Cline
00:05:40обрабатывает промпт. Но с этой конкретной конфигурацией это была постоянная борьба.
00:05:45И еще одна вещь, которую я заметил: в то время как модель 0,8B сразу перешла к коду,
00:05:51версия на 2 миллиарда предпочла сначала составить план и только потом приступить к написанию кода.
00:05:57В итоге модель 2B справилась с задачей примерно за три минуты, что значительно дольше.
00:06:02Давайте посмотрим на финальный результат. Как мы видим, это уже шаг вперед,
00:06:08потому что дизайн выглядит гораздо чище и используется коричневая тема, которая ближе к
00:06:14визуальному стилю кофейни. Также я заметил, что если включить Wi-Fi,
00:06:20загружаются внешние иконки, что делает сайт еще лучше.
00:06:24Эта версия действительно попыталась реализовать функционал корзины, о котором я просил вначале,
00:06:29потому что теперь у нас есть симпатичная боковая панель корзины, хотя кнопок «Добавить в корзину» на карточках товаров я не вижу.
00:06:35Когда я попытался попросить исправить эти ошибки, я снова столкнулся с той же технической проблемой,
00:06:41когда модель уходила в бесконечный цикл. Я решил, что это может быть баг LM Studio в связке
00:06:46с Cline или что-то в этом роде. Но будем честны, очевидно,
00:06:51никто не будет всерьез использовать такие малые модели для сложного и серьезного программирования.
00:06:56Я провел эти тесты просто из любопытства, чтобы увидеть, может ли такое малое количество параметров
00:07:02выдать осмысленный результат в задаче кодинга. А теперь давайте сделаем кое-что поинтереснее.
00:07:07Попробуем запустить эти модели на iPhone 14 Pro. Для этого я собрал нативное iOS-приложение,
00:07:14используя Swift и фреймворк MLX Swift. MLX — это библиотека Apple с открытым исходным кодом,
00:07:22которая позволяет запускать модели напрямую на архитектуре объединенной памяти Apple Silicon. Используя GPU Metal, мы
00:07:29можем запустить эти модели Qwen с аппаратным ускорением прямо на устройстве. Я также
00:07:34оставлю ссылку в описании на репозиторий этого проекта на Swift, чтобы вы могли скачать и скомпилировать его сами.
00:07:40Как только мы открываем приложение, оно сразу начинает загрузку модели на 0,8
00:07:46миллиарда параметров. Когда загрузка завершена, мы готовы к работе. Но прежде чем что-то писать,
00:07:52позвольте мне включить режим полета на моем iPhone. Начнем с простого «привет».
00:07:58По какой-то причине она отвечает, что ее зовут Алекс. Ладно, это странно, но допустим. Но вы заметили,
00:08:04как быстро шел стриминг ответа? Я честно поражен скоростью того, как быстро эта модель
00:08:10отвечает вам в реальном времени. Теперь попробуем знаменитый тест про автомойку, в котором большинство моделей ошибаются.
00:08:17И посмотрите-ка, Qwen 3.5 на самом деле отвечает правильно. Это уже впечатляет.
00:08:23Самое крутое в этих моделях то, что они обладают способностями зрения. Сейчас я
00:08:29покажу ей изображение банана. И посмотрим, поймет ли она, что это такое и в каком оно состоянии.
00:08:35Она правильно определяет, что это действительно банан, хотя говорит, что это «собачий банан» (dog banana).
00:08:40Я, честно говоря, никогда не слышал такого термина. Собачий банан? О чем вообще говорит Qwen?
00:08:47Ну да ладно, она считает, что он перезрел. И предупреждает меня, что его может быть
00:08:52небезопасно есть, что неправда. Я съел этот банан утром, и он был очень вкусным. Но в любом случае,
00:08:58я снова поражен тем, как быстро она обрабатывает мой промпт и выдает
00:09:04ответ. Теперь попробуем другую картинку. Посмотрим, сможет ли она определить породу собаки на
00:09:09этом фото. Здесь мы видим, что она не совсем точна, так как думает, что видит двух
00:09:15собак, что неверно. И она не называет породу. Давайте спросим конкретно, что это за
00:09:20собака. Она думает, что это золотистый ретривер, что, очевидно, очень далеко от истины.
00:09:27Так что, хотя некоторые ответы не совсем точны, а некоторые просто забавны,
00:09:34я все равно искренне впечатлен тем фактом, что такая маленькая модель может рассуждать о содержимом
00:09:39изображения и делать это так быстро. И последнее, что я хочу проверить, — это способности OCR,
00:09:45которые так хвалили в бенчмарках. Конкретно я хочу увидеть, сможет ли модель определить,
00:09:50на каком языке написан текст на этой картинке. Для контекста: язык
00:09:55на этом изображении — латышский, мой родной язык, так как я
00:10:00родом из Латвии. И, к сожалению, Qwen проваливает этот тест, потому что это не словенский,
00:10:05и наш язык даже не похож на словенский. Также забавно, насколько уверенно она
00:10:11переводит слово в то же самое слово, в реальности которого я даже не уверен. Очевидно, что
00:10:19в этом ответе присутствуют сильные галлюцинации. Хорошо, теперь перейдем к модели на 2 миллиарда
00:10:25параметров. Когда вы переключаете ее в списке, она сначала скачается. После этого
00:10:30мы сможем прогнать те же тесты на этой версии, чтобы увидеть, есть ли значимые улучшения. Итак,
00:10:36начнем снова с простого «привет». Окей, по крайней мере в этот раз отвечает не Алекс.
00:10:42Это уже прогресс. Снова проведем тест с автомойкой. И снова модель его проходит.
00:10:47Тут она молодец. Теперь перейдем к изображению банана. И в этот раз
00:10:53мы получаем более осмысленный ответ. Она определяет, что это действительно банан. А что касается
00:11:00состояния, она говорит, что он полностью созрел и готов к употреблению, что правда. Теперь снова фото собаки.
00:11:06На этот раз она говорит, что это померанский шпиц. По-моему, эти породы даже
00:11:11не особо похожи. Так что, к сожалению, даже модель 2B плохо определяет породы собак.
00:11:18И наконец, попробуем картинку с текстом еще раз, чтобы увидеть, узнает ли она язык.
00:11:22И смотрите-ка, модель на 2 миллиарда параметров правильно определила, что этот текст действительно
00:11:29на латышском. Это очень круто. Ну вот и все. Это была серия малых моделей Qwen 3.5.
00:11:36Честно говоря, я считаю, что несмотря на небольшие нестыковки, это действительно самые мощные крошечные модели,
00:11:42которые я когда-либо использовал. Тот факт, что теперь у нас есть открытая нативная мультимодальная LLM, работающая на
00:11:49iPhone 14 Pro офлайн и выдающая осмысленные результаты с довольно высокой скоростью генерации,
00:11:55вызывает огромное восхищение. Qwen действительно превзошли себя в этот раз. Отличная работа. Но есть
00:12:01и немного печальные новости. Когда я заканчивал работу над этим видео, появились сообщения, что Alibaba
00:12:07проводит масштабную реструктуризацию команды Qwen. Ключевые руководители и ведущие инженеры,
00:12:13стоявшие за этими моделями, по сообщениям, ушли, некоторые — для создания собственных ИИ-стартапов. Это
00:12:18заставило сообщество задуматься, не замедлится ли эра стремительных прорывов Qwen. Это делает
00:12:24текущие модели еще более значимыми, так как они могут стать последним крупным релизом от этой
00:12:30конкретной команды на ближайшее время. А что вы думаете об этих малых моделях? Пробовали ли вы их?
00:12:35Будете ли использовать? Дайте знать в комментариях ниже. И, друзья, если вам нравятся
00:12:39такие технические разборы, пожалуйста, поддержите меня лайком под этим видео.
00:12:45А также не забудьте подписаться на наш канал. С вами был Андрес из Better Stack, и увидимся
00:12:50в следующих видео.