Qwen 3.5 35B vs Sonnet 4.5: A diferença está DIMINUINDO?

BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology

Transcript

00:00:00No início deste mês, a Alibaba lançou o Qwen 3.5 com um modelo de 400 bilhões de parâmetros e
00:00:05uma versão "Max Thinking" que afirma ter benchmarks superiores ao Opus 4.5, com requisitos pesados
00:00:11para rodar localmente.
00:00:12Mas, justamente nesta semana, eles lançaram os modelos da série Medium do Qwen 3.5, que são quase tão
00:00:17poderosos quanto os modelos Max e têm a capacidade de rodar localmente em um MacBook Pro moderno,
00:00:22alegando também ter benchmarks melhores que o Sonnet 4.5 — o que eu duvido. Então, inscreva-se
00:00:27e vamos colocar esses dois modelos à prova.
00:00:31A maioria dos desenvolvedores admite que o Sonnet 4.5 é um excelente modelo, funcionando bem com o Claude
00:00:35Code, Co-Work e toda a suíte da Anthropic, proporcionando uma experiência premium.
00:00:40Mas você precisa estar online para que esses modelos funcionem, e eles não são tão baratos.
00:00:44A série Medium do Qwen 3.5 visa mudar tudo isso, tornando possível rodar um
00:00:49modelo tão bom quanto o Sonnet 4.5 localmente, e o pessoal no Twitter está ficando louco.
00:00:54Mas não estou convencido de que ele seja realmente tão bom quanto o Sonnet 4.5.
00:00:58Por isso, vou testar ambos os modelos em tarefas fácil, média e difícil para ver qual
00:01:02deles se sai melhor.
00:01:04Mas antes de começarmos os testes, tenho uma pequena confissão a fazer.
00:01:07Eu não vou rodar o Qwen 3.5 localmente, porque meu humilde MacBook Pro M1 não
00:01:12tem memória unificada suficiente para realizar a inferência adequadamente.
00:01:15Portanto, usarei o Qwen 3.5 35b no OpenRouter conectado ao OpenCode, e vou
00:01:21rodar o Sonnet 4.5 no Claude Code em modo limpo, sem usar nenhuma das minhas
00:01:25skills, plugins ou ferramentas MCP.
00:01:27Começaremos de forma simples, pedindo aos modelos para criarem uma lista de tarefas do zero usando React e Vite.
00:01:32Ao olhar para o que o Sonnet 4.5 produziu, vemos que ele tem esse tom roxo de IA.
00:01:36Posso adicionar um item, marcá-lo como concluído, tenho a opção de limpar tudo e,
00:01:40se eu atualizar a página, tudo permanece lá porque ele utilizou o local storage.
00:01:44No caso do Qwen 3.5, ambos têm um estilo similar e não sobrescreveram o
00:01:48estilo padrão que vem com o Vite.
00:01:51Mas, novamente, consigo adicionar uma tarefa.
00:01:53E aqui temos mais algumas opções.
00:01:54Podemos escolher a categoria, definir o que eu acho que seria a severidade e
00:01:59talvez uma data para a tarefa ou um prazo de entrega.
00:02:02Posso digitar algo como "fazer compras" e ele mostra a data, a severidade e
00:02:06a categoria em que está inserido, o que é muito legal.
00:02:08Vamos dar uma olhada no código.
00:02:09Este aqui é do Sonnet, e por aqui ele está usando um useEffect, que acredito ser para
00:02:13o local storage logo abaixo.
00:02:15Tudo bem, mas eu preferiria fazer de uma forma diferente.
00:02:17Temos uma função "add to-do" aqui e algumas outras funções para realizar ações.
00:02:22Alternar a tarefa, e aqui temos a exclusão da tarefa.
00:02:25Tudo isso parece bom.
00:02:26E algo que me surpreendeu um pouco é a parte ali de cima que menciona o parsing do JSON.
00:02:32Parece que ele está salvando no local storage como JSON e depois convertendo.
00:02:35Teria sido melhor ter esse código em uma função separada para que, se você quiser
00:02:38adicionar mais coisas, não polua tanto o topo do código aqui.
00:02:42Agora, olhando para o Qwen, temos algumas categorias e não parece estar usando useEffect,
00:02:46o que é bom.
00:02:48Descendo um pouco, temos o "handleSubmit", que é um nome que eu prefiro usar.
00:02:51E também temos "handleUpdate", "handleDelete" e "handleToggleCompleted".
00:02:55Uma coisa que eu realmente gostei foi que ele colocou os itens da lista em um componente separado.
00:02:59Assim, em vez de poluir o componente principal do app, ele criou
00:03:03um novo componente, que é utilizado aqui na seção principal já que existem múltiplos
00:03:07itens na lista.
00:03:08Portanto, a vitória vai para o Qwen por produzir uma lista de tarefas com muito mais recursos.
00:03:13Mas, depois de rodar os testes, percebi que o Qwen estava com a habilidade "superpower" ativada no
00:03:18OpenCode.
00:03:19Então rodei novamente sem a habilidade e este foi o resultado.
00:03:23Então, acho que a vitória fica com o Sonnet.
00:03:25Vamos para o segundo teste: construir um sistema solar interativo usando
00:03:29React, Vite e Three.js.
00:03:31O Claude fez um trabalho muito melhor de primeira.
00:03:33Tudo bem, faltam alguns planetas, mas posso clicar nos que existem.
00:03:37Clico no Sol e recebo informações sobre ele.
00:03:39Clico em Urano aqui embaixo e também recebo informações.
00:03:44A movimentação no site também está impecável; posso mover a câmera, rotacionar, dar zoom e tudo mais.
00:03:48e assim por diante.
00:03:49E aqui está o que o Qwen produziu.
00:03:50Sim, uma página em branco.
00:03:51Se olharmos o console, há um erro aqui que eu passei para o Qwen
00:03:56várias vezes, mas ele não conseguiu resolver.
00:03:58Na verdade, todo o processo de criação disso foi bem complicado.
00:04:01O Qwen parou de responder algumas vezes e tive que reiniciá-lo, além de ele ter tido dificuldade para corrigir
00:04:05erros repetidamente.
00:04:06Sem falar que, ao olhar os arquivos gerados pelo Qwen, temos um package.json aqui,
00:04:10um package-lock e um diretório node_modules que nem sequer foram usados, pois o
00:04:15projeto principal está dentro da pasta "solar-system", com seu próprio package.json e
00:04:20diretório node_modules adequado.
00:04:21Então, para o segundo teste, o Claude também vence.
00:04:23Para o teste final, pedi aos modelos para modificarem um código existente para tirar um print
00:04:28de um tweet quando o usuário colar a URL no aplicativo.
00:04:32Começaremos com o Claude, que produziu esta página aqui.
00:04:35Ele me deu a opção de mudar o fundo e o preenchimento (padding).
00:04:38Na primeira vez que rodei, deu um erro, que pedi para o Claude corrigir.
00:04:42Vou copiar a URL deste tweet por JSON, colar aqui e clicar em capturar.
00:04:47Após alguns segundos, temos a imagem aqui embaixo com a opção de download.
00:04:51E aqui está o resultado do Qwen com esta página.
00:04:54Novamente, vou copiar este tweet e colar aqui.
00:04:56Diz "extrair vídeo" em vez de "extrair print", mas começa a captura, o que parece promissor.
00:05:01Mas, depois de um tempo, atingimos um timeout de 60 segundos, similar ao erro que tivemos
00:05:06com o Sonnet.
00:05:07Pedi para o Qwen corrigir; ele aumentou o tempo limite, mas não resolveu a causa
00:05:11raiz do problema.
00:05:13Parece que o Sonnet 4.5 venceu os três testes.
00:05:17Então, embora no papel o Qwen 3.5 35b devesse superar o Sonnet 4.5, em testes reais
00:05:24isso não parece acontecer.
00:05:26E não me entenda mal, é impressionante que você possa rodar um modelo de 35 ou 27 bilhões
00:05:31de parâmetros localmente em um MacBook moderno.
00:05:34Mas, independentemente do que dizem no Twitter, não há como ele superar o
00:05:38Sonnet 4.5 em tarefas de programação, como vimos nos testes anteriores.
00:05:42Então, por que os benchmarks o fazem parecer tão bom?
00:05:45Bem, há uma grande chance de o Qwen 3.5 ter sido treinado especificamente em questões de benchmark,
00:05:51como o SWE-bench verificado, para ter um bom desempenho nessas perguntas.
00:05:55Já um modelo como o Sonnet 4.5 teria passado por um treinamento pós-venda em um conjunto de dados muito mais amplo e robusto,
00:06:01tornando-o capaz de lidar com tarefas mais complexas.
00:06:03Além disso, o modelo Qwen que testei tinha 35 bilhões de parâmetros, mas usava apenas 3 bilhões
00:06:08durante a inferência.
00:06:09Enquanto isso, embora a Anthropic não publique seus números, estimativas indicam que o Sonnet
00:06:143 pode ter sido treinado com 70 bilhões de parâmetros, e sem dúvida o Sonnet 4.5 teria
00:06:18muito mais.
00:06:19Portanto, não é justo comparar esses modelos apenas por benchmarks.
00:06:23É sempre importante fazer sua própria pesquisa e rodar suas próprias avaliações.
00:06:26Afinal, existe um motivo para o Qwen 3.5 não estar na lista de modelos do OpenCode Go.
00:06:31Aproveitando o assunto Qwen, o modelo TTS deles foi lançado recentemente e o Joss
00:06:35tem um ótimo vídeo cobrindo clonagem de voz, emoções na fala e muito mais, que você
00:06:39pode conferir aqui.

Key Takeaway

Embora o Qwen 3.5 35B apresente benchmarks impressionantes para um modelo local, o Sonnet 4.5 continua sendo superior em tarefas reais de programação e resolução de problemas complexos.

Highlights

O Qwen 3.5 35B é um modelo de IA da Alibaba que promete desempenho de nível 'Max' rodando localmente.

O Sonnet 4.5 da Anthropic superou o Qwen em todos os testes práticos de codificação realizados.

A facilidade de rodar o Qwen 3.5 localmente em MacBooks modernos é um grande atrativo, apesar das limitações de hardware do narrador.

O Sonnet 4.5 demonstrou maior capacidade de resolução de erros e criação de interfaces funcionais complexas.

Benchmarks sintéticos como o SWE-bench podem não refletir a eficácia real do modelo em tarefas do dia a dia.

A disparidade de parâmetros entre os modelos e o treinamento focado em benchmarks explicam a diferença de performance.

O ecossistema da Anthropic (Claude Code e MCP) oferece uma experiência mais premium e integrada para desenvolvedores.

Timeline

Introdução e Contexto dos Modelos

O vídeo começa apresentando o lançamento do Qwen 3.5 pela Alibaba, destacando as versões Max e Medium. O narrador explica que a série Medium visa competir com o Sonnet 4.5 da Anthropic, oferecendo a vantagem de execução local em hardware como o MacBook Pro. Existe um ceticismo inicial sobre as alegações de que o Qwen superaria o Sonnet em benchmarks. O autor confessa que usará o OpenRouter para testar o Qwen devido às limitações de seu MacBook M1. Esta seção estabelece as bases para o confronto entre modelos proprietários online e modelos abertos locais.

Teste 1: Criação de Lista de Tarefas (To-Do List)

Neste primeiro desafio, ambos os modelos devem criar um aplicativo de lista de tarefas usando React e Vite. Inicialmente, o Qwen 3.5 impressiona ao incluir recursos extras como categorias, severidade e prazos, além de organizar o código em componentes separados. O Sonnet 4.5 entrega uma solução funcional com persistência em local storage, mas com um design mais simples. No entanto, o narrador percebe que o Qwen utilizou uma habilidade especial do OpenCode chamada 'superpower' para alcançar esse resultado. Ao refazer o teste sem auxílio, o Qwen falha em manter o nível, dando a vitória ao Sonnet 4.5.

Teste 2: Sistema Solar Interativo com Three.js

O segundo teste eleva o nível de dificuldade ao exigir o uso da biblioteca Three.js para renderização 3D. O Sonnet 4.5 cria uma interface funcional onde é possível interagir com planetas, rotacionar a câmera e obter informações detalhadas. Em contraste, o Qwen 3.5 entrega uma página em branco e apresenta erros de console persistentes que não consegue corrigir. O narrador relata que o processo com o Qwen foi frustrante, envolvendo travamentos e geração de pastas redundantes de 'node_modules'. Fica evidente aqui a superioridade do modelo da Anthropic em lidar com bibliotecas externas complexas.

Teste 3: Captura de Tela de Tweets

O desafio final consiste em modificar um código existente para capturar imagens de tweets a partir de URLs. O Sonnet 4.5 consegue implementar a lógica, permitindo ajustar o fundo e o preenchimento da imagem final, apesar de um erro inicial corrigido rapidamente. O Qwen 3.5 confunde os termos, referindo-se a 'extrair vídeo' em vez de imagem, e acaba travando em um timeout de 60 segundos. Mesmo após tentar aumentar o tempo limite, o modelo chinês não consegue resolver a causa raiz do problema. Com isso, o Sonnet 4.5 consolida sua vitória invicta em todos os três cenários de teste propostos.

Análise de Benchmarks e Conclusão

Na conclusão, o narrador discute por que os benchmarks favorecem o Qwen enquanto a prática diz o contrário. Ele sugere que o Qwen 3.5 pode ter sido treinado especificamente para performar bem em conjuntos de dados de avaliação como o SWE-bench. Além disso, aponta a diferença massiva na escala de parâmetros entre os modelos, onde o Sonnet provavelmente possui uma base muito maior e robusta. O vídeo encerra reforçando a importância de realizar testes próprios em vez de confiar cegamente em tabelas de marketing. Por fim, há uma menção ao novo modelo TTS da Alibaba para clonagem de voz e emoções.

Community Posts

View all posts