Малые модели Qwen 3.5 НЕВЕРОЯТНЫ! (Тестируем 0.8B и 2B на мобильных устройствах)

BBetter Stack
컴퓨터/소프트웨어경제 뉴스가전제품/카메라스마트폰/모바일

Transcript

00:00:00Интернет сейчас просто сходит с ума, и на этот раз виной тому Qwen 3.5,
00:00:05а именно серия их малых моделей. Alibaba только что выпустила нативные
00:00:10мультимодальные версии Qwen 3.5 размером всего в 2 миллиарда и даже 0,8 миллиарда параметров.
00:00:17Они превосходят некоторые модели в 4 раза больше их по размеру в логике и зрении.
00:00:22Они настолько крошечные, что теперь мы можем запускать их локально на ноутбуках 6-летней давности и смартфонах
00:00:28без подключения к интернету. В этом видео мы подробно разберем новые
00:00:34малые модели серии Qwen 3.5, такие как 0,8B и 2B. Мы также протестируем их на
00:00:40MacBook Pro с процессором M2, а также на iPhone 14 Pro и узнаем, насколько они мощные на самом деле.
00:00:48Будет очень интересно, так что давайте приступим.
00:00:55Так почему же все помешаны на этих новых моделях Qwen 3.5? В конце концов, малые модели существуют
00:01:01уже довольно давно. Я даже делал обзор на модели Granite 4.0 nano от IBM в предыдущем видео, и их модель
00:01:08имела всего 300 миллионов параметров. Так что же делает эти маленькие модели Qwen такими особенными?
00:01:14Все дело в так называемой плотности интеллекта. Видите ли, долгое время правилом было:
00:01:20если вам нужна модель, которая может видеть, рассуждать и кодить, она должна быть огромной. Но новые малые модели Qwen 3.5
00:01:27доказывают, что это не обязательно. Им как-то удалось сжать свои большие модели в
00:01:33крошечные версии, которые по-прежнему поддерживают единую мультимодальную архитектуру. Это означает, что
00:01:39их модель на 0,8 миллиарда не просто отвечает на текст, в нее также вшиты зрение и навыки программирования.
00:01:46Давайте быстро взглянем на их бенчмарки, потому что они довольно любопытны. В тесте MMLU,
00:01:51который измеряет общие знания и логику, модель 2B набирает 66,5 балла,
00:01:57в то время как модель 0,8B достигает 42,3. Что может звучать не слишком впечатляюще, но имейте в виду,
00:02:04что для контекста оригинальная Llama 2 с 7 миллиардами параметров, вышедшая в 2023 году,
00:02:11набрала 45,3 балла в том же тесте. Это наглядно показывает, насколько нам удалось уменьшить
00:02:17количество параметров, сохранив при этом достойный уровень понимания. Но посмотрите на это: их
00:02:23главный козырь — мультимодальная производительность. В специализированных тестах зрения, таких как OCRBench,
00:02:29модель 2B набирает 85,4, а 0,8B — 79,1. Это указывает на то, что они
00:02:37способны выполнять такие задачи, как чтение сложных документов и анализ изображений с текстом.
00:02:43О, и обе они поддерживают огромное контекстное окно в 262 тысячи токенов, так что вы можете скармливать им целые PDF
00:02:51или использовать их для анализа больших кодовых баз. Это впечатляет. Но теперь давайте посмотрим,
00:02:56как они работают на практике. Поскольку модели 0,8B и 2B могут работать локально почти на любом
00:03:02современном ноутбуке, я проведу эти тесты в режиме полета, без какого-либо подключения к интернету
00:03:08на моем локальном ноутбуке. Для первого теста мы запустим локальный сервер в LM Studio
00:03:14и подключим его к CLINE в VS Code, чтобы проверить, справятся ли эти крохи с реальной задачей по программированию.
00:03:21Сначала нужно зайти во вкладку моделей и скачать GGUF-версии моделей на 0,8 и 2 миллиарда параметров.
00:03:28И так как мы будем использовать их для задач кодинга, нам также нужно будет
00:03:33значительно увеличить доступную длину контекста. Как только мы это сделаем, можно
00:03:38запускать сервер. А теперь перейдем в CLINE. И прежде всего, как я уже упоминал, я выключу
00:03:43свой Wi-Fi, чтобы мы могли провести тесты полностью офлайн. Затем в CLINE в разделе конфигурации API
00:03:50я укажу URL нашего кастомного сервера LM Studio. И давайте убедимся,
00:03:56что мы выбрали модель 0,8B. В качестве промпта я попрошу модель создать простой
00:04:01веб-сайт компании для небольшого кафе. Я также заметил, что если не указывать конкретный фреймворк
00:04:07и позволить Qwen выбирать самой, она решит установить React, что не сработает для нашего демо
00:04:14в офлайн-режиме. Поэтому я немного изменил промпт, попросив использовать только HTML, CSS и JavaScript
00:04:20без каких-либо внешних библиотек. Запускаем тест. Итак, модели потребовалось около минуты,
00:04:25чтобы завершить задачу. И вот наш финальный результат. Как видите, сайт очень скучный, дизайн
00:04:32не особо эстетичный, а текст очень темный. Также я заметил, что в CSS
00:04:37модель попыталась жестко прописать ссылки на конкретные изображения из Unsplash, подходящие под нашу тему.
00:04:43Это интересное наблюдение. И если мы ненадолго включим Wi-Fi, то увидим, что
00:04:48одна из картинок действительно загружается. И это оказывается изображение врача с телефоном. Довольно
00:04:54странный выбор. Остальные изображения содержат неверные URL. Я также пробовал снова попросить модель
00:05:00исправить битый текст и улучшить другие области, но она не смогла сделать это надежно. В общем,
00:05:06я бы сказал, что хотя эта модель способна кодить и вызывать инструменты, я не думаю,
00:05:12что это хорошая идея — использовать ее в реальных сценариях, так как количество параметров слишком мало.
00:05:17Теперь давайте протестируем модель на 2 миллиарда параметров с тем же промптом и посмотрим на результат.
00:05:23Эта модель на самом деле доставила мне немало хлопот, потому что она часто зацикливалась,
00:05:28прописывая одну и ту же секцию снова и снова. Мне приходилось останавливать задачу и перезапускать ее.
00:05:34Не уверен, проблема ли это самой модели, того, как LM Studio держит сервер, или того, как Cline
00:05:40обрабатывает промпт. Но с этой конкретной конфигурацией это была постоянная борьба.
00:05:45И еще одна вещь, которую я заметил: в то время как модель 0,8B сразу перешла к коду,
00:05:51версия на 2 миллиарда предпочла сначала составить план и только потом приступить к написанию кода.
00:05:57В итоге модель 2B справилась с задачей примерно за три минуты, что значительно дольше.
00:06:02Давайте посмотрим на финальный результат. Как мы видим, это уже шаг вперед,
00:06:08потому что дизайн выглядит гораздо чище и используется коричневая тема, которая ближе к
00:06:14визуальному стилю кофейни. Также я заметил, что если включить Wi-Fi,
00:06:20загружаются внешние иконки, что делает сайт еще лучше.
00:06:24Эта версия действительно попыталась реализовать функционал корзины, о котором я просил вначале,
00:06:29потому что теперь у нас есть симпатичная боковая панель корзины, хотя кнопок «Добавить в корзину» на карточках товаров я не вижу.
00:06:35Когда я попытался попросить исправить эти ошибки, я снова столкнулся с той же технической проблемой,
00:06:41когда модель уходила в бесконечный цикл. Я решил, что это может быть баг LM Studio в связке
00:06:46с Cline или что-то в этом роде. Но будем честны, очевидно,
00:06:51никто не будет всерьез использовать такие малые модели для сложного и серьезного программирования.
00:06:56Я провел эти тесты просто из любопытства, чтобы увидеть, может ли такое малое количество параметров
00:07:02выдать осмысленный результат в задаче кодинга. А теперь давайте сделаем кое-что поинтереснее.
00:07:07Попробуем запустить эти модели на iPhone 14 Pro. Для этого я собрал нативное iOS-приложение,
00:07:14используя Swift и фреймворк MLX Swift. MLX — это библиотека Apple с открытым исходным кодом,
00:07:22которая позволяет запускать модели напрямую на архитектуре объединенной памяти Apple Silicon. Используя GPU Metal, мы
00:07:29можем запустить эти модели Qwen с аппаратным ускорением прямо на устройстве. Я также
00:07:34оставлю ссылку в описании на репозиторий этого проекта на Swift, чтобы вы могли скачать и скомпилировать его сами.
00:07:40Как только мы открываем приложение, оно сразу начинает загрузку модели на 0,8
00:07:46миллиарда параметров. Когда загрузка завершена, мы готовы к работе. Но прежде чем что-то писать,
00:07:52позвольте мне включить режим полета на моем iPhone. Начнем с простого «привет».
00:07:58По какой-то причине она отвечает, что ее зовут Алекс. Ладно, это странно, но допустим. Но вы заметили,
00:08:04как быстро шел стриминг ответа? Я честно поражен скоростью того, как быстро эта модель
00:08:10отвечает вам в реальном времени. Теперь попробуем знаменитый тест про автомойку, в котором большинство моделей ошибаются.
00:08:17И посмотрите-ка, Qwen 3.5 на самом деле отвечает правильно. Это уже впечатляет.
00:08:23Самое крутое в этих моделях то, что они обладают способностями зрения. Сейчас я
00:08:29покажу ей изображение банана. И посмотрим, поймет ли она, что это такое и в каком оно состоянии.
00:08:35Она правильно определяет, что это действительно банан, хотя говорит, что это «собачий банан» (dog banana).
00:08:40Я, честно говоря, никогда не слышал такого термина. Собачий банан? О чем вообще говорит Qwen?
00:08:47Ну да ладно, она считает, что он перезрел. И предупреждает меня, что его может быть
00:08:52небезопасно есть, что неправда. Я съел этот банан утром, и он был очень вкусным. Но в любом случае,
00:08:58я снова поражен тем, как быстро она обрабатывает мой промпт и выдает
00:09:04ответ. Теперь попробуем другую картинку. Посмотрим, сможет ли она определить породу собаки на
00:09:09этом фото. Здесь мы видим, что она не совсем точна, так как думает, что видит двух
00:09:15собак, что неверно. И она не называет породу. Давайте спросим конкретно, что это за
00:09:20собака. Она думает, что это золотистый ретривер, что, очевидно, очень далеко от истины.
00:09:27Так что, хотя некоторые ответы не совсем точны, а некоторые просто забавны,
00:09:34я все равно искренне впечатлен тем фактом, что такая маленькая модель может рассуждать о содержимом
00:09:39изображения и делать это так быстро. И последнее, что я хочу проверить, — это способности OCR,
00:09:45которые так хвалили в бенчмарках. Конкретно я хочу увидеть, сможет ли модель определить,
00:09:50на каком языке написан текст на этой картинке. Для контекста: язык
00:09:55на этом изображении — латышский, мой родной язык, так как я
00:10:00родом из Латвии. И, к сожалению, Qwen проваливает этот тест, потому что это не словенский,
00:10:05и наш язык даже не похож на словенский. Также забавно, насколько уверенно она
00:10:11переводит слово в то же самое слово, в реальности которого я даже не уверен. Очевидно, что
00:10:19в этом ответе присутствуют сильные галлюцинации. Хорошо, теперь перейдем к модели на 2 миллиарда
00:10:25параметров. Когда вы переключаете ее в списке, она сначала скачается. После этого
00:10:30мы сможем прогнать те же тесты на этой версии, чтобы увидеть, есть ли значимые улучшения. Итак,
00:10:36начнем снова с простого «привет». Окей, по крайней мере в этот раз отвечает не Алекс.
00:10:42Это уже прогресс. Снова проведем тест с автомойкой. И снова модель его проходит.
00:10:47Тут она молодец. Теперь перейдем к изображению банана. И в этот раз
00:10:53мы получаем более осмысленный ответ. Она определяет, что это действительно банан. А что касается
00:11:00состояния, она говорит, что он полностью созрел и готов к употреблению, что правда. Теперь снова фото собаки.
00:11:06На этот раз она говорит, что это померанский шпиц. По-моему, эти породы даже
00:11:11не особо похожи. Так что, к сожалению, даже модель 2B плохо определяет породы собак.
00:11:18И наконец, попробуем картинку с текстом еще раз, чтобы увидеть, узнает ли она язык.
00:11:22И смотрите-ка, модель на 2 миллиарда параметров правильно определила, что этот текст действительно
00:11:29на латышском. Это очень круто. Ну вот и все. Это была серия малых моделей Qwen 3.5.
00:11:36Честно говоря, я считаю, что несмотря на небольшие нестыковки, это действительно самые мощные крошечные модели,
00:11:42которые я когда-либо использовал. Тот факт, что теперь у нас есть открытая нативная мультимодальная LLM, работающая на
00:11:49iPhone 14 Pro офлайн и выдающая осмысленные результаты с довольно высокой скоростью генерации,
00:11:55вызывает огромное восхищение. Qwen действительно превзошли себя в этот раз. Отличная работа. Но есть
00:12:01и немного печальные новости. Когда я заканчивал работу над этим видео, появились сообщения, что Alibaba
00:12:07проводит масштабную реструктуризацию команды Qwen. Ключевые руководители и ведущие инженеры,
00:12:13стоявшие за этими моделями, по сообщениям, ушли, некоторые — для создания собственных ИИ-стартапов. Это
00:12:18заставило сообщество задуматься, не замедлится ли эра стремительных прорывов Qwen. Это делает
00:12:24текущие модели еще более значимыми, так как они могут стать последним крупным релизом от этой
00:12:30конкретной команды на ближайшее время. А что вы думаете об этих малых моделях? Пробовали ли вы их?
00:12:35Будете ли использовать? Дайте знать в комментариях ниже. И, друзья, если вам нравятся
00:12:39такие технические разборы, пожалуйста, поддержите меня лайком под этим видео.
00:12:45А также не забудьте подписаться на наш канал. С вами был Андрес из Better Stack, и увидимся
00:12:50в следующих видео.

Key Takeaway

Малые модели Qwen 3.5 устанавливают новый стандарт производительности для локальных ИИ, предлагая впечатляющие мультимодальные возможности на мобильных устройствах при минимальном потреблении ресурсов.

Highlights

Выход новых мультимодальных моделей Qwen 3.5 размером 0.8B и 2B параметров

Высокая плотность интеллекта: модель 2B превосходит оригинальную Llama 2 7B в тесте MMLU

Поддержка огромного контекстного окна в 262 тысячи токенов для работы с большими данными

Возможность локального запуска на смартфонах и старых ноутбуках без интернета

Встроенные возможности компьютерного зрения и распознавания текста (OCR)

Успешное тестирование на iPhone 14 Pro с использованием фреймворка MLX от Apple

Слухи о реструктуризации команды разработчиков Qwen в Alibaba

Timeline

Введение и обзор серии Qwen 3.5

Автор представляет новые сверхмалые модели от Alibaba, которые вызвали ажиотаж в индустрии ИИ. Модели размером 0.8B и 2B параметров являются нативно мультимодальными, что позволяет им обрабатывать текст и изображения одновременно. Основное преимущество заключается в возможности запуска на потребительских устройствах шестилетней давности без подключения к сети. Это открывает новые горизонты для приватности и доступности технологий искусственного интеллекта. В видео планируется детальный тест производительности на MacBook Pro M2 и iPhone 14 Pro.

Плотность интеллекта и бенчмарки

Разбирается концепция плотности интеллекта, которая позволяет маленьким моделям эффективно конкурировать с гигантами. Модель 2B набрала 66.5 баллов в тесте MMLU, что значительно выше показателей Llama 2 7B прошлых лет. Особое внимание уделяется мультимодальности: версии 0.8B и 2B показывают отличные результаты в тестах зрения и OCR. Модели поддерживают контекстное окно объемом 262 000 токенов, что идеально подходит для анализа длинных PDF-файлов. Эти данные подтверждают, что размер параметров больше не является единственным мерилом качества.

Тестирование кодинга в офлайн-режиме

Автор проводит практический эксперимент, используя модели для написания кода через LM Studio и расширение Cline в VS Code. Тест проходит в режиме полета, чтобы доказать полную автономность работы системы. Модель 0.8B справилась с созданием простого сайта за минуту, но результат был визуально слабым и содержал ошибки в ссылках. Версия 2B показала более качественный дизайн и структуру, хотя процесс занял больше времени и сопровождался техническими сбоями. В итоге делается вывод, что для серьезного программирования эти модели пока слабоваты, но сам факт их работы впечатляет.

Запуск на iPhone 14 Pro и тесты зрения

Демонстрируется работа моделей на смартфоне с помощью нативного приложения, написанного на Swift с использованием библиотеки MLX. Автор отмечает невероятную скорость генерации текста и мгновенный отклик даже при отсутствии интернет-соединения. Проводятся тесты на логику и компьютерное зрение, где модель 0.8B совершает забавные ошибки, называя банан "собачьим". Инструменты распознавания текста (OCR) также тестируются на латышском языке, где модель допускает галлюцинации. Несмотря на неточности, подчеркивается важность наличия таких мощных инструментов прямо в кармане пользователя.

Сравнение моделей и будущее Qwen

Модель 2B показывает заметно лучшие результаты на iPhone, правильно определяя состояние спелости банана и распознавая латышский язык. Автор подводит итог, называя Qwen 3.5 самыми мощными крошечными моделями, которые он когда-либо тестировал. Однако радость омрачается новостями о реструктуризации команды Qwen в Alibaba и уходе ключевых инженеров. Существует вероятность, что этот релиз станет последним крупным достижением текущего состава разработчиков. Видео завершается призывом к обсуждению будущего малых моделей в комментариях.

Community Posts

View all posts