Os Modelos Qwen 3.5 Small são INCRÍVEIS! (Testando 0.8B e 2B em Dispositivos Edge)

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

Computing/SoftwareBusiness NewsConsumer ElectronicsCell Phones

Transcript

00:00:00A internet está ficando louca agora, e desta vez é por causa do Qwen 3.5,

00:00:05especificamente a série de modelos pequenos. A Alibaba acaba de lançar versões

00:00:10multimodais nativas do Qwen 3.5 com apenas 2 bilhões e até 800 milhões de parâmetros.

00:00:17Eles superam modelos quatro vezes maiores em raciocínio e visão.

00:00:22E são tão minúsculos que agora podemos executá-los localmente em laptops de 6 anos e smartphones,

00:00:28sem conexão com a internet. Neste vídeo, vamos analisar especificamente os novos

00:00:34modelos da série pequena do Qwen 3.5, como o de 0,8 bilhão e 2 bilhões. Também vamos testá-los em um

00:00:40MacBook Pro M2 e em um iPhone 14 Pro para descobrir o quão poderosos eles realmente são.

00:00:48Vai ser muito divertido, então vamos lá.

00:00:55Então, por que todos estão obcecados por esses novos modelos Qwen 3.5? Afinal, já temos modelos pequenos

00:01:01há algum tempo. Eu até cobri os modelos Granite 4.0 nano da IBM em um vídeo anterior, e o modelo deles

00:01:08tinha apenas 300 milhões de parâmetros. Então, o que torna esses modelos Qwen pequenos tão diferentes?

00:01:14Bem, é tudo sobre algo chamado densidade de inteligência. Veja bem, por muito tempo a regra era: se

00:01:20você quer um modelo que possa ver, raciocinar e programar, ele precisa ser enorme. Mas esses novos modelos Qwen 3.5 pequenos

00:01:27provam que não precisa ser assim. Eles conseguiram de alguma forma comprimir seus modelos grandes em

00:01:33versões menores que ainda suportam uma arquitetura multimodal unificada. Isso significa que o

00:01:39modelo de 0,8 bilhão não apenas responde a textos, mas também tem habilidades de visão e codificação integradas.

00:01:46Vamos dar uma olhada rápida nos benchmarks, porque são bem interessantes. No benchmark MMLU,

00:01:51que mede conhecimento geral e raciocínio, o modelo de 2 bilhões alcança uma pontuação de 66,5,

00:01:57enquanto o modelo de 0,8 bilhão atinge 42,3. O que pode não parecer tão impressionante, mas lembre-se

00:02:04que, para contexto, o Llama 2 original com 7 bilhões de parâmetros, lançado em 2023,

00:02:11marcou 45,3 no mesmo benchmark. Isso mostra o quanto conseguimos reduzir

00:02:17o número de parâmetros e ainda manter uma pontuação de compreensão decente. Mas veja só, o

00:02:23destaque real é o desempenho multimodal. Em testes de visão especializados, como o OCRBench,

00:02:29o modelo de 2 bilhões marca 85,4 e o de 0,8 bilhão atinge 79,1. Indicando que eles são

00:02:37altamente capazes em tarefas como ler documentos complexos e analisar imagens com texto.

00:02:43Ah, e ambos suportam uma janela de contexto massiva de 262K, então você pode carregar PDFs inteiros ou usá-los

00:02:51para analisar grandes bases de código. Isso é bem impressionante. Mas agora, vamos ver como eles

00:02:56realmente se comportam. Como ambos os modelos de 0,8 e 2 bilhões podem rodar localmente em quase qualquer

00:03:02laptop moderno, vou realizar estes testes em modo avião total, sem nenhuma conexão com a internet

00:03:08no meu laptop local. Para o primeiro teste, vamos rodar um servidor local no LM Studio

00:03:14e conectá-lo ao CLINE no VS Code para ver se esses modelos minúsculos conseguem lidar com uma tarefa de codificação real.

00:03:21Primeiro, você deve ir na aba de modelos e baixar as versões GGUF dos modelos de 0,8 bilhão e

00:03:282 bilhões de parâmetros. E como usaremos esses modelos para tarefas de codificação, também

00:03:33precisaremos aumentar consideravelmente o comprimento de contexto disponível. Feito isso, podemos

00:03:38iniciar o servidor. E agora vamos para o CLINE. Primeiro, como mencionei, vou desligar

00:03:43meu Wi-Fi para realizarmos estes testes completamente offline. Então, no CLINE, na seção de configuração da API,

00:03:50vou garantir que aponte para a nossa URL personalizada do servidor LM Studio. E vamos também garantir que

00:03:56escolhemos o modelo de 0,8 bilhão. No prompt, pedirei ao modelo para criar um site

00:04:01institucional simples para uma pequena cafeteria. Notei que, se não especificarmos nenhum framework

00:04:07e deixarmos o Qwen escolher sozinho, ele escolherá instalar o React, o que não funcionará para nossa demo

00:04:14em modo offline. Então, modifiquei o prompt para pedir especificamente o uso de HTML, CSS e JavaScript,

00:04:20sem bibliotecas externas. Vamos rodar o teste. O modelo levou cerca de um minuto para

00:04:25concluir a tarefa. E aqui está o resultado final. Como podem ver, o site é bem básico, o design não é

00:04:32muito atraente e o texto está muito escuro. Também notei que no CSS, o

00:04:37modelo tentou fixar imagens específicas do Unsplash que combinassem com o tema. Essa é uma

00:04:43observação interessante. Se ligarmos o Wi-Fi por um momento, podemos ver que uma dessas

00:04:48imagens realmente carrega. E parece ser a imagem de um médico segurando um telefone. Bem

00:04:54aleatório. As outras imagens contêm URLs inválidas. Também tentei pedir ao modelo para

00:05:00corrigir o texto quebrado e melhorar outras áreas, mas ele não conseguiu fazer isso de forma confiável. No geral,

00:05:06diria que, embora este modelo seja capaz de codificar e chamar ferramentas, não acho que seja uma

00:05:12boa ideia usá-lo em cenários reais, pois a contagem de parâmetros é muito baixa. Mas

00:05:17agora vamos testar o modelo de 2 bilhões de parâmetros com o mesmo prompt e ver o desempenho. Esse

00:05:23modelo me deu muita dor de cabeça porque frequentemente ficava preso em um loop,

00:05:28escrevendo a mesma seção repetidamente. Tive que interromper a tarefa e reiniciá-la. Não tenho certeza

00:05:34se o problema é o modelo, como o LM Studio gerencia o servidor ou como o Cline

00:05:40processa o prompt. Mas, com essa configuração específica, foi uma luta constante.

00:05:45Outra coisa que notei é que, enquanto o modelo de 0,8 bilhão foi direto para o

00:05:51código, a versão de 2 bilhões preferiu estruturar um plano primeiro antes de prosseguir com

00:05:57a codificação propriamente dita. O modelo de 2 bilhões terminou a tarefa em cerca de três minutos,

00:06:02consideravelmente mais tempo. Vamos ver o resultado final. Como vemos, já é

00:06:08um avanço, pois o design parece bem mais limpo e usa um tema marrom, que se aproxima mais

00:06:14da identidade visual de uma cafeteria. Outro detalhe é que, ao ligar o Wi-Fi,

00:06:20ele carrega alguns ícones externos, o que deixa o site com uma aparência ainda melhor.

00:06:24Esta versão tentou implementar a funcionalidade de carrinho que pedi inicialmente,

00:06:29pois agora temos essa barra lateral de carrinho, embora eu não veja um botão de adicionar ao carrinho nos

00:06:35cards dos itens. Quando tentei pedir para corrigir esses problemas, novamente caí no mesmo erro

00:06:41técnico em que o modelo entrava em um loop infinito. Imaginei que fosse um problema do

00:06:46LM Studio em conjunto com o Cline ou algo do tipo. Mas, sejamos honestos, obviamente

00:06:51ninguém consideraria seriamente usar modelos tão pequenos para codificação complexa e séria.

00:06:56Fiz esses testes por curiosidade, para ver se uma contagem de parâmetros tão baixa ainda

00:07:02poderia produzir um resultado útil em uma tarefa de programação. Agora, vamos para algo mais empolgante.

00:07:07Vamos tentar rodar esses modelos em um iPhone 14 Pro. Para isso, criei um app nativo para iOS usando

00:07:14Swift e o framework MLX Swift. O MLX é uma biblioteca de código aberto da Apple que permite rodar

00:07:22modelos diretamente na arquitetura de memória unificada do Apple Silicon. Aproveitando a GPU Metal,

00:07:29conseguimos rodar esses modelos Qwen com aceleração de hardware direto no dispositivo. Também

00:07:34deixarei um link na descrição para o repositório deste projeto Swift para que você possa baixar e compilar no seu

00:07:40próprio dispositivo. Assim que abrimos o app, ele começa imediatamente a baixar o modelo de 0,8

00:07:46bilhão. Quando terminar, estaremos prontos para usar. Mas antes de qualquer prompt,

00:07:52deixe-me ativar o modo avião no meu iPhone. Vamos começar com um simples “olá”. Por algum

00:07:58motivo, ele responde que seu nome é Alex. Ok, bem aleatório, mas tudo bem. Mas você notou

00:08:04a velocidade com que a resposta foi transmitida? Estou impressionado com a rapidez com que este modelo

00:08:10responde em tempo real. Agora vamos tentar o famoso teste do lava-jato, que a maioria dos modelos erra.

00:08:17E vejam só, o Qwen 3.5 realmente responde corretamente. Isso já é impressionante.

00:08:23O mais legal desses modelos é que eles também têm capacidades de visão. Vou mostrar a ele

00:08:29uma imagem de uma banana. Vamos ver se ele entende o que é e em qual condição

00:08:35ela se encontra. Ele identifica corretamente que é uma banana, embora diga que é uma “banana cachorro”.

00:08:40Eu nunca ouvi esse termo. Banana cachorro? O que é isso? Do que o Qwen está

00:08:47falando? Bem, de qualquer forma, ele acha que está madura demais. E me avisa que pode não

00:08:52ser seguro comer, o que não é verdade. Comi essa banana hoje de manhã e estava deliciosa. Mas, enfim,

00:08:58novamente, estou impressionado com a velocidade com que ele processa meu prompt e me dá

00:09:04a resposta. Agora vamos tentar outra foto. Vamos ver se ele consegue identificar a raça do cachorro

00:09:09nesta imagem. Aqui vemos que ele não é muito preciso, pois acha que vê dois

00:09:15cachorros, o que não é verdade. E ele não menciona a raça. Vamos perguntar especificamente que tipo

00:09:20de cachorro é. Ele acha que é um Golden Retriever, o que está bem longe da verdade. Então,

00:09:27embora algumas respostas não sejam totalmente precisas e outras sejam bem engraçadas,

00:09:34ainda estou genuinamente impressionado pelo fato de um modelo tão pequeno conseguir raciocinar sobre o conteúdo de uma

00:09:39imagem de forma tão rápida. Por último, quero testar as habilidades de OCR deste modelo,

00:09:45como foi destacado nos benchmarks. Especificamente, quero ver se ele identifica qual é o

00:09:50idioma do texto presente nesta imagem. Para contextualizar, o idioma

00:09:55exibido nesta imagem é o letão, que é minha língua nativa, já que sou

00:10:00originalmente da Letônia. Infelizmente, o Qwen falha neste teste porque isto não é esloveno,

00:10:05nem nosso idioma é sequer parecido com o esloveno. E acho engraçado como ele traduz com tanta

00:10:11confiança uma palavra para a mesma palavra, que nem tenho certeza se existe. Claramente há algumas

00:10:19alucinações pesadas acontecendo nesta resposta. Certo, vamos agora para o modelo de 2 bilhões

00:10:25de parâmetros. Ao mudar no menu suspenso, ele primeiro fará o download. Assim que

00:10:30concluir, poderemos rodar os mesmos testes nesta versão para ver se há melhorias significativas. Então,

00:10:36vamos começar com um simples “olá” de novo. Ok, pelo menos desta vez não é o Alex respondendo. Isso

00:10:42já é uma melhora. Agora vamos ao teste do lava-jato novamente. E, mais uma vez, o modelo passa

00:10:47no teste. Muito bem. Vamos prosseguir com a imagem da banana. Desta vez,

00:10:53obtemos uma resposta mais coerente. Ele detecta que é realmente uma banana. Quanto à

00:11:00condição, diz que está totalmente madura e pronta para comer, o que é verdade. Vamos tentar a foto do cachorro

00:11:06de novo. Este diz que é um Pomerânia. Eu não acho que essas raças sejam nem

00:11:11relativamente parecidas. Infelizmente, até o modelo de 2 bilhões é ruim em identificar raças de cães.

00:11:18E, por fim, vamos tentar a imagem com o texto novamente para ver se ele identifica o idioma.

00:11:22E vejam só, o modelo de 2 bilhões de parâmetros identificou corretamente que este texto é realmente

00:11:29letão. Isso é muito legal. Então, aí estão eles. Estes são os modelos da série pequena do Qwen 3.5.

00:11:36Eu honestamente acho que, apesar das pequenas inconsistências, estes são os modelos minúsculos mais poderosos

00:11:42que já usei. O fato de podermos ter agora um LLM multimodal nativo de código aberto rodando em um

00:11:49iPhone 14 Pro offline e produzindo resultados úteis com uma velocidade de inferência relativamente rápida

00:11:55é super impressionante. O Qwen realmente se superou desta vez. Parabéns. Mas há uma

00:12:01atualização um pouco triste para compartilhar. Enquanto eu terminava este vídeo, surgiram relatos de que a Alibaba está

00:12:07passando por uma grande reestruturação na equipe do Qwen. Figuras importantes da liderança e engenheiros seniores por trás

00:12:13desses modelos supostamente saíram, alguns para criar suas próprias startups de IA. Isso deixou a

00:12:18comunidade se perguntando se a era Qwen de avanços rápidos pode estar desacelerando. Isso torna

00:12:24esses modelos atuais ainda mais significativos, pois podem ser o último grande lançamento desta

00:12:30equipe específica por um tempo. Mas o que você acha desses modelos da série pequena? Você já os

00:12:35testou? Vai usá-los? Deixe seu comentário logo abaixo. E pessoal, se vocês gostam desse tipo

00:12:39de análise técnica, por favor, me avisem clicando no botão de curtir abaixo do vídeo.

00:12:45E também não se esqueçam de se inscrever no canal. Aqui é o Andres, da Better Stack, e eu

00:12:50vejo vocês nos próximos vídeos.

Key Takeaway

Os novos modelos Qwen 3.5 Small redefinem a inteligência em dispositivos de borda, oferecendo capacidades multimodais e de raciocínio surpreendentes para seu tamanho reduzido.

Highlights

A Alibaba lançou a série Qwen 3.5 Small com modelos de 0,8B e 2B parâmetros, focando em alta densidade de inteligência.

Os modelos são multimodais nativos, suportando visão, codificação e uma janela de contexto massiva de 262K.

O modelo de 2B parâmetros superou o Llama 2 7B original em benchmarks de raciocínio como o MMLU.

Testes de codificação offline mostraram que, embora funcionais, modelos tão pequenos ainda sofrem com alucinações e loops.

A execução local em dispositivos móveis como o iPhone 14 Pro é extremamente veloz graças ao framework MLX da Apple.

Relatos sugerem uma reestruturação na equipe da Alibaba, o que pode impactar o ritmo de lançamentos futuros da linha Qwen.

Timeline

Introdução e Visão Geral do Qwen 3.5 Small

O apresentador introduz os novos modelos compactos da Alibaba, com variantes de 0,8 e 2 bilhões de parâmetros. Ele destaca que esses modelos são multimodais nativos e podem ser executados localmente em hardwares antigos ou smartphones sem internet. O conceito central explorado é a "densidade de inteligência", que permite alta performance em um tamanho reduzido. O vídeo promete testes práticos em um MacBook Pro M2 e em um iPhone 14 Pro. Este segmento estabelece a expectativa de que o tamanho reduzido não compromete habilidades de visão e raciocínio.

Benchmarks e Capacidades Técnicas

Nesta seção, são analisados os resultados de benchmarks como MMLU e OCRBench para medir o conhecimento geral e a visão. O modelo de 2B atinge 66,5 no MMLU, superando o Llama 2 de 7B, o que demonstra uma compressão de inteligência excepcional. O apresentador ressalta o desempenho em OCR, com pontuações acima de 79 para ambos os modelos, indicando forte capacidade de leitura de documentos. Além disso, é mencionada a janela de contexto de 262K, ideal para processar PDFs extensos ou bases de código. Esses dados técnicos justificam por que esses modelos são considerados um marco para a IA local.

Testes de Codificação Local (LM Studio e Cline)

O autor realiza um experimento de codificação completamente offline usando o LM Studio conectado ao Cline no VS Code. Ao solicitar a criação de um site para uma cafeteria, o modelo de 0,8B gerou um código básico, mas com erros de design e URLs de imagem aleatórias. Já o modelo de 2B mostrou-se mais estruturado, criando um plano antes de codificar e entregando um visual mais alinhado ao tema. No entanto, ambos apresentaram problemas técnicos, como loops infinitos e dificuldades em corrigir erros solicitados. O teste conclui que, embora impressionantes pela execução local, esses modelos pequenos ainda não substituem ferramentas de codificação mais robustas.

Execução em iPhone e Testes de Visão

A análise se desloca para um iPhone 14 Pro utilizando um aplicativo nativo desenvolvido com o framework MLX Swift da Apple. O modelo de 0,8B demonstrou uma velocidade de resposta impressionante no modo avião, acertando inclusive o teste de lógica do "lava-jato". Nos testes de visão, o modelo identificou uma banana, mas falhou ao tentar determinar a raça de um cachorro e o idioma letão em uma imagem. Essas interações mostram a agilidade da arquitetura de memória unificada do Apple Silicon. É um exemplo prático de como a IA multimodal está se tornando acessível em dispositivos móveis do dia a dia.

Comparação com o Modelo 2B e Conclusão

O modelo de 2B é testado no iPhone, apresentando melhorias significativas na precisão das respostas e na identificação de imagens. Diferente da versão menor, ele reconheceu corretamente o estado de maturação da banana e identificou o idioma letão, mostrando maior maturidade cognitiva. O vídeo encerra com uma nota sobre a possível saída de líderes da equipe Qwen na Alibaba, o que gera incerteza sobre o futuro. O apresentador parabeniza a equipe pelos avanços e incentiva a comunidade a testar os modelos localmente. O encerramento reforça que, apesar de inconsistências pontuais, o Qwen 3.5 Small é atualmente a referência em LLMs minúsculos.

Community Posts

Implantação On-device do Qwen 3.5: Um Guia Prático para Resolver Loops Infinitos e Gargalos de Hardware

makedream11 de mar. de 202610590

Write about this video