Qwen 3.5 35B против Sonnet 4.5: Разрыв СОКРАЩАЕТСЯ?

BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology

Transcript

00:00:00Ранее в этом месяце Alibaba выпустила Qwen 3.5 с моделью на 400 миллиардов параметров и
00:00:05версией Max Thinking, которая якобы обходит Opus 4.5 в бенчмарках, но требует
00:00:11серьезного железа для локального запуска.
00:00:12Но буквально на этой неделе они выпустили серию Medium Qwen 3.5 — модели, которые почти так же
00:00:17мощны, как и серия Max, но при этом способны работать локально на современном MacBook Pro. Заявляется,
00:00:22что они даже превосходят Sonnet 4.5, во что я не особо верю, так что подписывайтесь,
00:00:27и давайте испытаем обе модели в деле.
00:00:31Большинство разработчиков признают, что Sonnet 4.5 — отличная модель, которая прекрасно работает с Claude
00:00:35Code, Co-Work и всей экосистемой Anthropic, создавая ощущение премиального продукта.
00:00:40Однако для работы с этими моделями нужен интернет, да и стоят они недешево.
00:00:44Серия Medium от Qwen 3.5 стремится это изменить, предлагая локальную модель уровня
00:00:49Sonnet 4.5, и в Твиттере по этому поводу поднялся настоящий ажиотаж.
00:00:54Но я все же сомневаюсь, что она действительно так же хороша, как Sonnet 4.5.
00:00:58Поэтому я протестирую обе модели на легкой, средней и сложной задачах и посмотрю,
00:01:02какая из них справится лучше.
00:01:04Но прежде чем мы начнем, должен сделать небольшое признание.
00:01:07Я не буду запускать Qwen 3.5 локально, так как у моего скромного MacBook Pro на M1
00:01:12недостаточно объединенной памяти для полноценного инференса.
00:01:15Так что я буду использовать Qwen 3.5 35b через OpenRouter, подключенный к OpenCode,
00:01:21а Sonnet 4.5 запущу в Claude Code в чистом режиме, без использования моих
00:01:25навыков, плагинов или инструментов MCP.
00:01:27Начнем с простого: попросим модели создать список дел (to-do list) с нуля на React и Vite.
00:01:32Если взглянуть на результат Sonnet 4.5, мы увидим фирменный фиолетовый дизайн AI.
00:01:36Я могу добавить задачу, отметить ее как выполненную, есть возможность очистки,
00:01:40и после перезагрузки страницы всё сохраняется, так как используется local storage.
00:01:44Что касается Qwen 3.5, стилистика похожа, и модель не стала перезаписывать
00:01:48стандартные стили, которые идут в комплекте с Vite.
00:01:51Но здесь тоже можно добавить задачу.
00:01:53И тут у нас чуть больше опций.
00:01:54Мы можем выбрать категорию, указать, кажется, важность и
00:01:59дату выполнения или дедлайн.
00:02:02Например, я пишу "сходить за покупками", и отображается дата, важность и
00:02:06категория — это действительно круто.
00:02:08Давайте взглянем на код.
00:02:09Это вариант от Sonnet: здесь используется хук useEffect, я так понимаю,
00:02:13для работы с local storage чуть ниже.
00:02:15В принципе, нормально, но я бы реализовал это иначе.
00:02:17У нас есть функция add to-do и другие функции для управления действиями.
00:02:22Переключение статуса задачи, удаление —
00:02:25всё это выглядит достойно.
00:02:26Меня немного смутил фрагмент вверху, касающийся парсинга JSON.
00:02:32Похоже, данные сохраняются в local storage как JSON и затем парсятся.
00:02:35Было бы лучше вынести этот код в отдельную функцию, чтобы при добавлении
00:02:38нового функционала он не загромождал начало файла.
00:02:42Теперь посмотрим на Qwen: есть категории, и, кажется, useEffect не используется,
00:02:46что хорошо.
00:02:48Прокрутим ниже: есть handle submit — название, которое мне нравится больше.
00:02:51Также есть handle updates, handle delete и handle toggle completed.
00:02:55И что мне очень понравилось: элементы списка вынесены в отдельный компонент.
00:02:59Вместо того чтобы забивать основной компонент приложения, модель создала
00:03:03новый компонент, который используется в цикле для отрисовки
00:03:07каждой задачи.
00:03:08Так что здесь победа за Qwen, так как список дел получился гораздо функциональнее.
00:03:13Но после тестов я понял, что в OpenCode у Qwen была включена функция "superpower".
00:03:18Я запустил тест снова без этого навыка.
00:03:19И на этот раз результат был иным.
00:03:23Так что, пожалуй, победа всё же за Sonnet.
00:03:25Перейдем ко второму тесту: создать интерактивную солнечную систему с помощью
00:03:29React, Vite и Three.js.
00:03:31Claude справился намного лучше с первой же попытки.
00:03:33Да, не хватает пары планет, но я могу кликнуть на те, что есть.
00:03:37Нажимаю на Солнце и получаю информацию о нем.
00:03:39Нажимаю на Уран внизу — и тоже вижу справку.
00:03:44Управление на сайте безупречное: можно перемещаться, вращать камеру, зумить
00:03:48и так далее.
00:03:49А вот что выдала Qwen.
00:03:50Да, пустую страницу.
00:03:51Если заглянуть в консоль, видна ошибка. Я несколько раз отправлял её Qwen,
00:03:56но модель так и не смогла её исправить.
00:03:58На самом деле, весь процесс создания проекта был довольно хлопотным.
00:04:01Qwen несколько раз «засыпала», её приходилось «будить», и ей было сложно
00:04:05исправлять ошибки раз за разом.
00:04:06Не говоря уже о том, что в файлах, созданных Qwen, мы видим package.json,
00:04:10package-lock и папку node_modules, которые вообще не использовались, потому что
00:04:15основной проект лежит внутри папки solar-system со своим
00:04:20package.json и своей папкой node_modules.
00:04:21Так что во втором тесте Claude снова побеждает.
00:04:23В финальном тесте я попросил модели изменить существующий код, чтобы делать скриншот
00:04:28твита, когда пользователь вставляет URL в приложении.
00:04:32Начнем с Claude, которая создала вот такую страницу.
00:04:35Появилась возможность менять фон и отступы.
00:04:38При первом запуске возникла ошибка, которую я попросил Claude исправить.
00:04:42Копирую ссылку на твит, вставляю сюда и нажимаю «Capture».
00:04:47Спустя пару секунд внизу появляется изображение с кнопкой скачивания.
00:04:51А вот результат от Qwen с соответствующей страницей.
00:04:54Снова копирую твит, вставляю.
00:04:56На кнопке написано «Извлечь видео» вместо скриншота, но процесс пошел, что многообещающе.
00:05:01Однако через некоторое время мы ловим 60-секундный таймаут — та же ошибка,
00:05:06что была у Sonnet.
00:05:07Я попросил Qwen исправить её: модель увеличила время ожидания, но не устранила саму причину,
00:05:11вызывающую проблему.
00:05:13В итоге Sonnet 4.5 выигрывает во всех трех тестах.
00:05:17Так что, хотя на бумаге Qwen 3.5/35b должна обходить Sonnet 4.5, в реальных тестах
00:05:24всё выглядит иначе.
00:05:26Не поймите меня неправильно, это впечатляет — запускать модель на 35 или 27 миллиардов
00:05:31параметров локально на обычном MacBook.
00:05:34Но что бы ни говорили в Твиттере, она никак не может превзойти
00:05:38Sonnet 4.5 в задачах по кодингу, как показали мои тесты.
00:05:42Почему же в бенчмарках она выглядит так хорошо?
00:05:45Велик шанс того, что Qwen 3.5 дополнительно обучали на конкретных вопросах из бенчмарков,
00:05:51таких как Sweebench Verified, чтобы она показывала там высокие результаты.
00:05:55В то время как Sonnet 4.5 обучалась на гораздо более широком и надежном наборе данных,
00:06:01что позволяет ей лучше справляться с нестандартными задачами.
00:06:03К тому же, модель Qwen, которую я тестировал, имеет 35 млрд параметров, но использует лишь 3 млрд
00:06:08во время инференса.
00:06:09И хотя Anthropic не раскрывает цифры, по оценкам, Sonnet 3 могла быть
00:06:14обучена на 70 млрд параметров, а Sonnet 4.5, без сомнения, имеет
00:06:18намного больше.
00:06:19Поэтому не совсем справедливо сравнивать эти модели только по бенчмаркам.
00:06:23Всегда важно проводить собственные исследования и тесты.
00:06:26В конце концов, есть причина, по которой Qwen 3.5 не включили в список моделей для OpenCode Go.
00:06:31И раз уж мы заговорили о Qwen: недавно вышла их TTS-модель, и у Джосса
00:06:35есть отличное видео про клонирование голоса, передачу эмоций и многое другое,
00:06:39которое вы можете посмотреть здесь.

Key Takeaway

Несмотря на впечатляющие результаты в бенчмарках и возможность локальной работы, Qwen 3.5 35B все еще значительно уступает Claude 3.5 Sonnet в надежности, исправлении ошибок и качестве генерации сложного кода.

Highlights

Сравнение производительности Qwen 3.5 35B и Claude 3.5 Sonnet в реальных задачах программирования

Преимущество Qwen 3.5 в возможности локального запуска на современных ноутбуках (например

Timeline

Введение и обзор новых моделей Qwen 3.5

Автор представляет новую серию моделей Qwen 3.5 от компании Alibaba, включая мощную версию Max и более компактную Medium. Обсуждается ажиотаж вокруг версии на 35 миллиардов параметров, которая обещает производительность уровня флагманов при возможности запуска на локальном железе. Упоминаются преимущества Sonnet 4.5, такие как интеграция в экосистему Anthropic и общее ощущение премиального продукта. Ведущий выражает сомнение в превосходстве Qwen и анонсирует серию тестов на разных уровнях сложности. Также объясняется методология тестирования: использование OpenRouter для Qwen и чистого режима Claude Code для Sonnet.

Тест №1: Создание To-Do листа на React и Vite

Первое испытание заключается в разработке простого приложения для списка дел с использованием современных веб-технологий. Sonnet 4.5 создает эстетичное приложение с базовым функционалом и сохранением данных в local storage. Первоначальный результат Qwen 3.5 кажется более продвинутым благодаря категориям, дедлайнам и лучшей структуре компонентов. Однако выясняется, что успех Qwen был обусловлен включенной функцией "superpower" в OpenCode. При повторном тесте без сторонней помощи Sonnet оказывается более стабильным и качественным решением, что подтверждает важность чистоты эксперимента.

Тест №2: Интерактивная солнечная система на Three.js

Второй уровень сложности требует работы с 3D-графикой и библиотекой Three.js для создания интерактивной модели космоса. Claude справляется с задачей блестяще, предоставляя работающий интерфейс с навигацией и информационными окнами о планетах. В то же время Qwen 3.5 выдает пустую страницу с критическими ошибками в консоли, которые не удается исправить даже после нескольких попыток. Модель от Alibaba демонстрирует плохую организацию файлов, создавая лишние директории и путая зависимости в package.json. Этот этап наглядно показывает разрыв между моделями в понимании сложной архитектуры проекта.

Тест №3: Сервис скриншотов твитов и финальный анализ

Финальное задание требует модификации существующего кода для реализации функции захвата скриншотов по ссылке. Sonnet 4.5 успешно создает интерфейс с настройками кастомизации и исправляет возникшую ошибку таймаута при первом запуске. Qwen 3.5 путает назначение кнопок и не может справиться с технической проблемой ожидания ответа сервера, предлагая лишь поверхностные правки. В итоге Sonnet побеждает во всех трех раундах, подтверждая свой статус лидера в области кодинга. Автор подчеркивает, что реальная практика сильно отличается от теоретических показателей в таблицах сравнения.

Почему бенчмарки врут и итоги сравнения

В заключительной части автор анализирует причины несоответствия высоких баллов Qwen в тестах Sweebench и её реальной работы. Выдвигается гипотеза о переобучении китайской модели на конкретных данных из бенчмарков для искусственного завышения рейтинга. Рассматривается разница в масштабах моделей: Sonnet обладает значительно большим количеством параметров по сравнению с 35-миллиардной Qwen. Несмотря на поражение, отмечается важность развития локальных моделей, способных работать на потребительских ноутбуках. Видео завершается рекомендацией изучить другие продукты Qwen, такие как новые модели для синтеза речи и клонирования голоса.

Community Posts

View all posts