Os Modelos Qwen 3.5 Small são INCRÍVEIS! (Testando 0.8B e 2B em Dispositivos Edge)

BBetter Stack
Computing/SoftwareBusiness NewsConsumer ElectronicsCell Phones

Transcript

00:00:00A internet está ficando louca agora, e desta vez é por causa do Qwen 3.5,
00:00:05especificamente a série de modelos pequenos. A Alibaba acaba de lançar versões
00:00:10multimodais nativas do Qwen 3.5 com apenas 2 bilhões e até 800 milhões de parâmetros.
00:00:17Eles superam modelos quatro vezes maiores em raciocínio e visão.
00:00:22E são tão minúsculos que agora podemos executá-los localmente em laptops de 6 anos e smartphones,
00:00:28sem conexão com a internet. Neste vídeo, vamos analisar especificamente os novos
00:00:34modelos da série pequena do Qwen 3.5, como o de 0,8 bilhão e 2 bilhões. Também vamos testá-los em um
00:00:40MacBook Pro M2 e em um iPhone 14 Pro para descobrir o quão poderosos eles realmente são.
00:00:48Vai ser muito divertido, então vamos lá.
00:00:55Então, por que todos estão obcecados por esses novos modelos Qwen 3.5? Afinal, já temos modelos pequenos
00:01:01há algum tempo. Eu até cobri os modelos Granite 4.0 nano da IBM em um vídeo anterior, e o modelo deles
00:01:08tinha apenas 300 milhões de parâmetros. Então, o que torna esses modelos Qwen pequenos tão diferentes?
00:01:14Bem, é tudo sobre algo chamado densidade de inteligência. Veja bem, por muito tempo a regra era: se
00:01:20você quer um modelo que possa ver, raciocinar e programar, ele precisa ser enorme. Mas esses novos modelos Qwen 3.5 pequenos
00:01:27provam que não precisa ser assim. Eles conseguiram de alguma forma comprimir seus modelos grandes em
00:01:33versões menores que ainda suportam uma arquitetura multimodal unificada. Isso significa que o
00:01:39modelo de 0,8 bilhão não apenas responde a textos, mas também tem habilidades de visão e codificação integradas.
00:01:46Vamos dar uma olhada rápida nos benchmarks, porque são bem interessantes. No benchmark MMLU,
00:01:51que mede conhecimento geral e raciocínio, o modelo de 2 bilhões alcança uma pontuação de 66,5,
00:01:57enquanto o modelo de 0,8 bilhão atinge 42,3. O que pode não parecer tão impressionante, mas lembre-se
00:02:04que, para contexto, o Llama 2 original com 7 bilhões de parâmetros, lançado em 2023,
00:02:11marcou 45,3 no mesmo benchmark. Isso mostra o quanto conseguimos reduzir
00:02:17o número de parâmetros e ainda manter uma pontuação de compreensão decente. Mas veja só, o
00:02:23destaque real é o desempenho multimodal. Em testes de visão especializados, como o OCRBench,
00:02:29o modelo de 2 bilhões marca 85,4 e o de 0,8 bilhão atinge 79,1. Indicando que eles são
00:02:37altamente capazes em tarefas como ler documentos complexos e analisar imagens com texto.
00:02:43Ah, e ambos suportam uma janela de contexto massiva de 262K, então você pode carregar PDFs inteiros ou usá-los
00:02:51para analisar grandes bases de código. Isso é bem impressionante. Mas agora, vamos ver como eles
00:02:56realmente se comportam. Como ambos os modelos de 0,8 e 2 bilhões podem rodar localmente em quase qualquer
00:03:02laptop moderno, vou realizar estes testes em modo avião total, sem nenhuma conexão com a internet
00:03:08no meu laptop local. Para o primeiro teste, vamos rodar um servidor local no LM Studio
00:03:14e conectá-lo ao CLINE no VS Code para ver se esses modelos minúsculos conseguem lidar com uma tarefa de codificação real.
00:03:21Primeiro, você deve ir na aba de modelos e baixar as versões GGUF dos modelos de 0,8 bilhão e
00:03:282 bilhões de parâmetros. E como usaremos esses modelos para tarefas de codificação, também
00:03:33precisaremos aumentar consideravelmente o comprimento de contexto disponível. Feito isso, podemos
00:03:38iniciar o servidor. E agora vamos para o CLINE. Primeiro, como mencionei, vou desligar
00:03:43meu Wi-Fi para realizarmos estes testes completamente offline. Então, no CLINE, na seção de configuração da API,
00:03:50vou garantir que aponte para a nossa URL personalizada do servidor LM Studio. E vamos também garantir que
00:03:56escolhemos o modelo de 0,8 bilhão. No prompt, pedirei ao modelo para criar um site
00:04:01institucional simples para uma pequena cafeteria. Notei que, se não especificarmos nenhum framework
00:04:07e deixarmos o Qwen escolher sozinho, ele escolherá instalar o React, o que não funcionará para nossa demo
00:04:14em modo offline. Então, modifiquei o prompt para pedir especificamente o uso de HTML, CSS e JavaScript,
00:04:20sem bibliotecas externas. Vamos rodar o teste. O modelo levou cerca de um minuto para
00:04:25concluir a tarefa. E aqui está o resultado final. Como podem ver, o site é bem básico, o design não é
00:04:32muito atraente e o texto está muito escuro. Também notei que no CSS, o
00:04:37modelo tentou fixar imagens específicas do Unsplash que combinassem com o tema. Essa é uma
00:04:43observação interessante. Se ligarmos o Wi-Fi por um momento, podemos ver que uma dessas
00:04:48imagens realmente carrega. E parece ser a imagem de um médico segurando um telefone. Bem
00:04:54aleatório. As outras imagens contêm URLs inválidas. Também tentei pedir ao modelo para
00:05:00corrigir o texto quebrado e melhorar outras áreas, mas ele não conseguiu fazer isso de forma confiável. No geral,
00:05:06diria que, embora este modelo seja capaz de codificar e chamar ferramentas, não acho que seja uma
00:05:12boa ideia usá-lo em cenários reais, pois a contagem de parâmetros é muito baixa. Mas
00:05:17agora vamos testar o modelo de 2 bilhões de parâmetros com o mesmo prompt e ver o desempenho. Esse
00:05:23modelo me deu muita dor de cabeça porque frequentemente ficava preso em um loop,
00:05:28escrevendo a mesma seção repetidamente. Tive que interromper a tarefa e reiniciá-la. Não tenho certeza
00:05:34se o problema é o modelo, como o LM Studio gerencia o servidor ou como o Cline
00:05:40processa o prompt. Mas, com essa configuração específica, foi uma luta constante.
00:05:45Outra coisa que notei é que, enquanto o modelo de 0,8 bilhão foi direto para o
00:05:51código, a versão de 2 bilhões preferiu estruturar um plano primeiro antes de prosseguir com
00:05:57a codificação propriamente dita. O modelo de 2 bilhões terminou a tarefa em cerca de três minutos,
00:06:02consideravelmente mais tempo. Vamos ver o resultado final. Como vemos, já é
00:06:08um avanço, pois o design parece bem mais limpo e usa um tema marrom, que se aproxima mais
00:06:14da identidade visual de uma cafeteria. Outro detalhe é que, ao ligar o Wi-Fi,
00:06:20ele carrega alguns ícones externos, o que deixa o site com uma aparência ainda melhor.
00:06:24Esta versão tentou implementar a funcionalidade de carrinho que pedi inicialmente,
00:06:29pois agora temos essa barra lateral de carrinho, embora eu não veja um botão de adicionar ao carrinho nos
00:06:35cards dos itens. Quando tentei pedir para corrigir esses problemas, novamente caí no mesmo erro
00:06:41técnico em que o modelo entrava em um loop infinito. Imaginei que fosse um problema do
00:06:46LM Studio em conjunto com o Cline ou algo do tipo. Mas, sejamos honestos, obviamente
00:06:51ninguém consideraria seriamente usar modelos tão pequenos para codificação complexa e séria.
00:06:56Fiz esses testes por curiosidade, para ver se uma contagem de parâmetros tão baixa ainda
00:07:02poderia produzir um resultado útil em uma tarefa de programação. Agora, vamos para algo mais empolgante.
00:07:07Vamos tentar rodar esses modelos em um iPhone 14 Pro. Para isso, criei um app nativo para iOS usando
00:07:14Swift e o framework MLX Swift. O MLX é uma biblioteca de código aberto da Apple que permite rodar
00:07:22modelos diretamente na arquitetura de memória unificada do Apple Silicon. Aproveitando a GPU Metal,
00:07:29conseguimos rodar esses modelos Qwen com aceleração de hardware direto no dispositivo. Também
00:07:34deixarei um link na descrição para o repositório deste projeto Swift para que você possa baixar e compilar no seu
00:07:40próprio dispositivo. Assim que abrimos o app, ele começa imediatamente a baixar o modelo de 0,8
00:07:46bilhão. Quando terminar, estaremos prontos para usar. Mas antes de qualquer prompt,
00:07:52deixe-me ativar o modo avião no meu iPhone. Vamos começar com um simples “olá”. Por algum
00:07:58motivo, ele responde que seu nome é Alex. Ok, bem aleatório, mas tudo bem. Mas você notou
00:08:04a velocidade com que a resposta foi transmitida? Estou impressionado com a rapidez com que este modelo
00:08:10responde em tempo real. Agora vamos tentar o famoso teste do lava-jato, que a maioria dos modelos erra.
00:08:17E vejam só, o Qwen 3.5 realmente responde corretamente. Isso já é impressionante.
00:08:23O mais legal desses modelos é que eles também têm capacidades de visão. Vou mostrar a ele
00:08:29uma imagem de uma banana. Vamos ver se ele entende o que é e em qual condição
00:08:35ela se encontra. Ele identifica corretamente que é uma banana, embora diga que é uma “banana cachorro”.
00:08:40Eu nunca ouvi esse termo. Banana cachorro? O que é isso? Do que o Qwen está
00:08:47falando? Bem, de qualquer forma, ele acha que está madura demais. E me avisa que pode não
00:08:52ser seguro comer, o que não é verdade. Comi essa banana hoje de manhã e estava deliciosa. Mas, enfim,
00:08:58novamente, estou impressionado com a velocidade com que ele processa meu prompt e me dá
00:09:04a resposta. Agora vamos tentar outra foto. Vamos ver se ele consegue identificar a raça do cachorro
00:09:09nesta imagem. Aqui vemos que ele não é muito preciso, pois acha que vê dois
00:09:15cachorros, o que não é verdade. E ele não menciona a raça. Vamos perguntar especificamente que tipo
00:09:20de cachorro é. Ele acha que é um Golden Retriever, o que está bem longe da verdade. Então,
00:09:27embora algumas respostas não sejam totalmente precisas e outras sejam bem engraçadas,
00:09:34ainda estou genuinamente impressionado pelo fato de um modelo tão pequeno conseguir raciocinar sobre o conteúdo de uma
00:09:39imagem de forma tão rápida. Por último, quero testar as habilidades de OCR deste modelo,
00:09:45como foi destacado nos benchmarks. Especificamente, quero ver se ele identifica qual é o
00:09:50idioma do texto presente nesta imagem. Para contextualizar, o idioma
00:09:55exibido nesta imagem é o letão, que é minha língua nativa, já que sou
00:10:00originalmente da Letônia. Infelizmente, o Qwen falha neste teste porque isto não é esloveno,
00:10:05nem nosso idioma é sequer parecido com o esloveno. E acho engraçado como ele traduz com tanta
00:10:11confiança uma palavra para a mesma palavra, que nem tenho certeza se existe. Claramente há algumas
00:10:19alucinações pesadas acontecendo nesta resposta. Certo, vamos agora para o modelo de 2 bilhões
00:10:25de parâmetros. Ao mudar no menu suspenso, ele primeiro fará o download. Assim que
00:10:30concluir, poderemos rodar os mesmos testes nesta versão para ver se há melhorias significativas. Então,
00:10:36vamos começar com um simples “olá” de novo. Ok, pelo menos desta vez não é o Alex respondendo. Isso
00:10:42já é uma melhora. Agora vamos ao teste do lava-jato novamente. E, mais uma vez, o modelo passa
00:10:47no teste. Muito bem. Vamos prosseguir com a imagem da banana. Desta vez,
00:10:53obtemos uma resposta mais coerente. Ele detecta que é realmente uma banana. Quanto à
00:11:00condição, diz que está totalmente madura e pronta para comer, o que é verdade. Vamos tentar a foto do cachorro
00:11:06de novo. Este diz que é um Pomerânia. Eu não acho que essas raças sejam nem
00:11:11relativamente parecidas. Infelizmente, até o modelo de 2 bilhões é ruim em identificar raças de cães.
00:11:18E, por fim, vamos tentar a imagem com o texto novamente para ver se ele identifica o idioma.
00:11:22E vejam só, o modelo de 2 bilhões de parâmetros identificou corretamente que este texto é realmente
00:11:29letão. Isso é muito legal. Então, aí estão eles. Estes são os modelos da série pequena do Qwen 3.5.
00:11:36Eu honestamente acho que, apesar das pequenas inconsistências, estes são os modelos minúsculos mais poderosos
00:11:42que já usei. O fato de podermos ter agora um LLM multimodal nativo de código aberto rodando em um
00:11:49iPhone 14 Pro offline e produzindo resultados úteis com uma velocidade de inferência relativamente rápida
00:11:55é super impressionante. O Qwen realmente se superou desta vez. Parabéns. Mas há uma
00:12:01atualização um pouco triste para compartilhar. Enquanto eu terminava este vídeo, surgiram relatos de que a Alibaba está
00:12:07passando por uma grande reestruturação na equipe do Qwen. Figuras importantes da liderança e engenheiros seniores por trás
00:12:13desses modelos supostamente saíram, alguns para criar suas próprias startups de IA. Isso deixou a
00:12:18comunidade se perguntando se a era Qwen de avanços rápidos pode estar desacelerando. Isso torna
00:12:24esses modelos atuais ainda mais significativos, pois podem ser o último grande lançamento desta
00:12:30equipe específica por um tempo. Mas o que você acha desses modelos da série pequena? Você já os
00:12:35testou? Vai usá-los? Deixe seu comentário logo abaixo. E pessoal, se vocês gostam desse tipo
00:12:39de análise técnica, por favor, me avisem clicando no botão de curtir abaixo do vídeo.
00:12:45E também não se esqueçam de se inscrever no canal. Aqui é o Andres, da Better Stack, e eu
00:12:50vejo vocês nos próximos vídeos.

Key Takeaway

Os novos modelos Qwen 3.5 Small redefinem a inteligência em dispositivos de borda, oferecendo capacidades multimodais e de raciocínio surpreendentes para seu tamanho reduzido.

Highlights

A Alibaba lançou a série Qwen 3.5 Small com modelos de 0,8B e 2B parâmetros, focando em alta densidade de inteligência.

Os modelos são multimodais nativos, suportando visão, codificação e uma janela de contexto massiva de 262K.

O modelo de 2B parâmetros superou o Llama 2 7B original em benchmarks de raciocínio como o MMLU.

Testes de codificação offline mostraram que, embora funcionais, modelos tão pequenos ainda sofrem com alucinações e loops.

A execução local em dispositivos móveis como o iPhone 14 Pro é extremamente veloz graças ao framework MLX da Apple.

Relatos sugerem uma reestruturação na equipe da Alibaba, o que pode impactar o ritmo de lançamentos futuros da linha Qwen.

Timeline

Introdução e Visão Geral do Qwen 3.5 Small

O apresentador introduz os novos modelos compactos da Alibaba, com variantes de 0,8 e 2 bilhões de parâmetros. Ele destaca que esses modelos são multimodais nativos e podem ser executados localmente em hardwares antigos ou smartphones sem internet. O conceito central explorado é a "densidade de inteligência", que permite alta performance em um tamanho reduzido. O vídeo promete testes práticos em um MacBook Pro M2 e em um iPhone 14 Pro. Este segmento estabelece a expectativa de que o tamanho reduzido não compromete habilidades de visão e raciocínio.

Benchmarks e Capacidades Técnicas

Nesta seção, são analisados os resultados de benchmarks como MMLU e OCRBench para medir o conhecimento geral e a visão. O modelo de 2B atinge 66,5 no MMLU, superando o Llama 2 de 7B, o que demonstra uma compressão de inteligência excepcional. O apresentador ressalta o desempenho em OCR, com pontuações acima de 79 para ambos os modelos, indicando forte capacidade de leitura de documentos. Além disso, é mencionada a janela de contexto de 262K, ideal para processar PDFs extensos ou bases de código. Esses dados técnicos justificam por que esses modelos são considerados um marco para a IA local.

Testes de Codificação Local (LM Studio e Cline)

O autor realiza um experimento de codificação completamente offline usando o LM Studio conectado ao Cline no VS Code. Ao solicitar a criação de um site para uma cafeteria, o modelo de 0,8B gerou um código básico, mas com erros de design e URLs de imagem aleatórias. Já o modelo de 2B mostrou-se mais estruturado, criando um plano antes de codificar e entregando um visual mais alinhado ao tema. No entanto, ambos apresentaram problemas técnicos, como loops infinitos e dificuldades em corrigir erros solicitados. O teste conclui que, embora impressionantes pela execução local, esses modelos pequenos ainda não substituem ferramentas de codificação mais robustas.

Execução em iPhone e Testes de Visão

A análise se desloca para um iPhone 14 Pro utilizando um aplicativo nativo desenvolvido com o framework MLX Swift da Apple. O modelo de 0,8B demonstrou uma velocidade de resposta impressionante no modo avião, acertando inclusive o teste de lógica do "lava-jato". Nos testes de visão, o modelo identificou uma banana, mas falhou ao tentar determinar a raça de um cachorro e o idioma letão em uma imagem. Essas interações mostram a agilidade da arquitetura de memória unificada do Apple Silicon. É um exemplo prático de como a IA multimodal está se tornando acessível em dispositivos móveis do dia a dia.

Comparação com o Modelo 2B e Conclusão

O modelo de 2B é testado no iPhone, apresentando melhorias significativas na precisão das respostas e na identificação de imagens. Diferente da versão menor, ele reconheceu corretamente o estado de maturação da banana e identificou o idioma letão, mostrando maior maturidade cognitiva. O vídeo encerra com uma nota sobre a possível saída de líderes da equipe Qwen na Alibaba, o que gera incerteza sobre o futuro. O apresentador parabeniza a equipe pelos avanços e incentiva a comunidade a testar os modelos localmente. O encerramento reforça que, apesar de inconsistências pontuais, o Qwen 3.5 Small é atualmente a referência em LLMs minúsculos.

Community Posts

View all posts