O Gemini 3.5 Flash é apenas... ok

BBetter Stack
컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00O Google acabou de lançar o Gemini 3.5 Flash e eles estão fazendo algumas afirmações bem ousadas.
00:00:04Desempenho de ponta a quatro vezes a velocidade, muitas vezes pela metade do custo. O que parece
00:00:09incrível, mas a realidade é muito pior do que o Google está anunciando.
00:00:12E isso foi apenas metade do que eles lançaram. Eles também lançaram o Anti-Gravity 2, que é
00:00:16o novo aplicativo de agente independente, basicamente a resposta deles ao Codex, assim como o Anti-Gravity
00:00:20CLI, que na verdade substitui o Gemini CLI, então esse é mais um para o Killed by Google.
00:00:30Vamos começar com as estatísticas principais. Ele tem uma janela de contexto de um milhão de tokens, 64.000
00:00:34tokens de saída e aceita texto, imagens, vídeo, áudio e PDFs como entrada. O Google tem
00:00:39sempre sido muito bom nesses modelos multimodais.
00:00:42Quanto ao desempenho real, os benchmarks do próprio Google colocam este modelo em linha com o GPT 5.5
00:00:46quando se trata de codificação, ficando apenas alguns pontos percentuais atrás no SWBench Pro e Terminal
00:00:50Bench e, na verdade, está superando o Opus 4.7 no Terminal Bench em cerca de 10%, mas o Claude
00:00:56Opus dá o troco no SWBench Pro, superando o Gemini em cerca de 10% também.
00:01:01Para fluxos de trabalho agenticos, este modelo está vencendo tanto no MCP quanto nos benchmarks Toolathon
00:01:06e, no geral, esses benchmarks não são resultados ruins, mas tudo isso é de acordo com o Google.
00:01:11Se, em vez disso, dermos uma olhada nos benchmarks de terceiros, como o Artificial Analysis, ele não está
00:01:15indo muito bem. Esse índice de codificação tem o Gemini 3.5 Flash pontuando 45, o que é, na verdade, inferior a modelos
00:01:21como o Kimi K2.6, e nem está superando o Gemini 3.1 Pro, embora em todos os seus próprios benchmarks
00:01:27ele estivesse à frente em tudo. Na verdade, está apenas alguns pontos à frente do Gemini 3 Flash também.
00:01:31também.
00:01:32A história melhora um pouco quando você olha para o desempenho agentico. Ele deu
00:01:35um bom salto em relação ao Gemini 3.1 Pro e, sim, tecnicamente ele está lá competindo com os modelos
00:01:41de ponta.
00:01:42Olhando para nossos benchmarks, parece que 75% de vocês que estão assistindo não são inscritos,
00:01:45então vou pedir gentilmente que façam isso. Por favor, inscrevam-se.
00:01:48O grande destaque deste modelo é definitivamente sua velocidade. Eles conseguiram 278 tokens por
00:01:53segundo neste modelo, o que supera massivamente o Opus 4.7 e o GPT 5.5, e até mesmo modelos
00:01:59como o Haiku e os de código aberto da OpenAI. Então, quando se trata de inteligência vs velocidade,
00:02:04este modelo é definitivamente o melhor.
00:02:06No geral, é apenas uma mistura de resultados. Não é o melhor modelo e não é o pior,
00:02:10mas é muito, muito rápido, e eu não me importaria com esses resultados se fosse realmente metade
00:02:14do custo dos outros modelos, mas é aqui que as coisas começam a desmoronar.
00:02:18O preço deste modelo é de US$ 1,50 por um milhão de tokens de entrada e US$ 9 por um milhão de tokens de saída,
00:02:23o que é, na verdade, três vezes mais do que o Gemini 3 Flash custava, mas ainda é muito mais barato do que
00:02:27modelos como o Opus 4.7 e o GPT 5.5, pelo menos no papel.
00:02:32Ao executar seus benchmarks, no entanto, o Artificial Analysis descobriu que o Gemini 3.5 Flash
00:02:36custou US$ 1.552 para executar o índice de inteligência, que é 5,5 vezes mais caro
00:02:42do que o Gemini 3 Flash e 75% mais caro do que o Gemini 3.1 Pro. O que é ainda pior,
00:02:48é que isso é mais caro do que o GPT 5.5 em alto raciocínio, que supera massivamente o Flash
00:02:54quando se trata de desempenho de codificação, e, na verdade, vou destacar todos os modelos neste
00:02:57gráfico que são mais baratos e superam o Flash quando se trata de codificação. Simplesmente não parece
00:03:02nada bom e certamente não está pela metade do custo como o marketing deles alegou.
00:03:06Investigando um pouco mais, parece que o problema com este modelo é que, embora seja rápido,
00:03:10ele é faminto por tokens. Em avaliações agenticas, ele obteve uma média de 49 turnos por tarefa, o que é um
00:03:15dos mais altos de todos os modelos que eles testaram. Ele simplesmente gosta muito de queimar seus
00:03:19tokens de entrada. Então, no geral, não tenho certeza de onde isso nos deixa. Este modelo
00:03:23apenas parece mais ou menos. A velocidade é muito legal, então se você valoriza isso acima de tudo,
00:03:28talvez este seja o modelo para usar. O mesmo se você quiser ótimos recursos multimodais, mas o
00:03:33desempenho de codificação simplesmente não é suficiente para que eu considere testar isso por um período
00:03:37mais longo do que fiz neste vídeo. Então vamos seguir em frente para falar sobre o outro
00:03:41grande anúncio, que foi o Anti-Gravity 2 e o novo CLI.
00:03:44Este é o Anti-Gravity 2? Espere, não, desculpe, isso é o T3 Code. Talvez este? Espere, não, isso são
00:03:50codecs. E este aqui? Não, isso é o Cursor. Este aqui é, na verdade, o Anti-Gravity 2 e acho que
00:03:55você entende o meu ponto. Basicamente, todos esses aplicativos começaram a parecer iguais. Uma parte engraçada
00:03:59de uma de nossas demonstrações é quando o desenvolvedor tenta criar um novo projeto e você pode
00:04:03ver a pasta de codecs bem ali. Então, para ser honesto, não vou gastar muito tempo analisando
00:04:07este aplicativo. É exatamente o mesmo que todos os outros. Temos nossas conversas à
00:04:11esquerda, temos nossos projetos, temos tarefas agendadas e aqui você pode clicar em qualquer
00:04:15um desses arquivos se quiser ver a visualização de diff. A única coisa a notar é que este não é
00:04:18mais o Anti-Gravity IDE. Este é apenas um aplicativo completamente independente. O que você está vendo
00:04:22é o que você recebe. Agora, eu realmente testei alguns prompts aqui. Um deles
00:04:26foi criar um painel de finanças pessoais full stack e o outro foi muito mais simples,
00:04:30apenas testando a interface de como ele construiria um site de cafeteria em um único index.html.
00:04:35Este é o resultado do prompt da cafeteria muito simples e devo dizer que realmente gosto
00:04:39do site que ele construiu aqui, então parece que o 3.5 Flash é muito bom em design de interface.
00:04:44Eu diria que este é, no geral, um site muito bom. Ele ainda tem um pouco daquela sensação
00:04:48de IA. Acho que é principalmente aquele estilo de cartão e gradiente que a IA parece gostar no momento, mas
00:04:53o site é bastante funcional e parece como eu esperaria que fosse. Para contexto, isso
00:04:58é o que o Opus 4.7 me deu quando dei a ele o mesmo prompt exato e acho que o Gemini 3.5
00:05:03Flash ganha nesta, mas obviamente este é apenas um teste único. Quanto ao
00:05:07prompt mais complicado do painel de finanças, que é um aplicativo full stack, ele se saiu bem ao realmente fazer
00:05:11o aplicativo funcionar, mas definitivamente não gosto do design da interface. Não é ruim, mas apenas
00:05:16tem aquele visual de que foi projetado por IA e, além disso, pontos negativos por chamar isso de
00:05:20Aura Wealth. Quando você compara isso ao que o Opus 4.7 me deu, é um mundo de diferença.
00:05:25O Opus 4.7 aqui parece muito legal e, para ser honesto, não tenho tantas anotações sobre como
00:05:29eu mudaria essa interface. O Opus realmente gastou 20 minutos naquele prompt, enquanto o Gemini levou
00:05:33cinco minutos, então sim, é definitivamente mais rápido, mas também poderia ter usado os 15 extras para
00:05:38fazê-lo parecer melhor. Seguindo em frente, também recebemos o Anti-Gravity CLI e este provavelmente vai
00:05:42irritar algumas pessoas porque eles estão realmente desligando o Gemini CLI, você não será capaz de
00:05:46usá-lo após 18 de junho deste ano e o novo CLI é basicamente o mesmo no momento,
00:05:51exceto que foi reescrito em Go e também é de código fechado agora, o que é péssimo
00:05:56e eu não instalei este, pois, novamente, é apenas o Claude Code, mas para o Gemini
00:06:00não há nada de novo para mostrar. Para resumir todos os meus pensamentos sobre isso, no momento o 3.5
00:06:05Flash é bom para agentes, mas é caro e muito fraco em codificação para ser o pacote completo,
00:06:10então espero ver um pouco mais do Gemini 3.5 Pro, que aparentemente virá no próximo mês,
00:06:15mas, por enquanto, parece que o Google não será o líder em codificação e, para ser
00:06:19honesto com você, não acho realmente que eles precisam ser. Parece que o mercado do Google é mais
00:06:23a pessoa comum, incorporando isso em todas as suas experiências, como Gmail, busca, Workspace,
00:06:28Android e tudo mais, então talvez os desenvolvedores não sejam o foco. Deixe-me
00:06:33saber o que você pensa nos comentários abaixo, enquanto estiver lá, inscreva-se e, como sempre,
00:06:36vejo você no próximo.

Key Takeaway

O Gemini 3.5 Flash oferece uma velocidade excepcional de 278 tokens por segundo, mas seu desempenho em codificação e custo operacional superam as expectativas de eficiência prometidas pelo Google.

Highlights

  • O Gemini 3.5 Flash atinge uma velocidade de processamento de 278 tokens por segundo.

  • Benchmarks de terceiros mostram o Gemini 3.5 Flash com nota 45 no índice de codificação, inferior ao Kimi K2.6.

  • O custo real de execução do índice de inteligência no Gemini 3.5 Flash é 5,5 vezes superior ao do Gemini 3 Flash.

  • O modelo apresenta um consumo elevado, registrando média de 49 turnos por tarefa em fluxos agenticos.

  • O Gemini CLI original será descontinuado em 18 de junho de 2026, sendo substituído por uma nova versão de código fechado escrita em Go.

Timeline

Desempenho e benchmarks do Gemini 3.5 Flash

  • O modelo possui janela de contexto de um milhão de tokens e aceita múltiplos tipos de entrada.
  • Benchmarks de terceiros indicam desempenho inferior a modelos anteriores em tarefas de programação.
  • O modelo demonstra competência competitiva apenas em fluxos de trabalho agenticos.

Apesar de o Google posicionar o modelo como uma solução de alta performance, análises da Artificial Analysis mostram resultados divergentes dos benchmarks internos. O modelo supera o Opus 4.7 em velocidade, mas fica atrás em testes de codificação como o SWBench Pro. A versatilidade multimodal permanece como um ponto positivo da arquitetura.

Velocidade, custo e eficiência operacional

  • A velocidade de 278 tokens por segundo supera concorrentes como GPT 5.5 e Claude Opus 4.7.
  • O custo real de execução por tarefa é significativamente maior do que o anunciado no marketing.
  • O alto consumo de tokens em tarefas agenticas reduz a vantagem econômica do modelo.

A vantagem principal do Gemini 3.5 Flash é a velocidade, que supera massivamente os modelos da OpenAI e da Anthropic. No entanto, o custo operacional é 75% maior que o do Gemini 3.1 Pro quando submetido a fluxos reais. A propensão do modelo a realizar muitos turnos para concluir uma tarefa consome tokens de entrada rapidamente, elevando o preço final.

Aplicações agenticas e novas ferramentas

  • O Anti-Gravity 2 opera como um aplicativo independente, similar a outros editores existentes no mercado.
  • O modelo apresenta bons resultados em design de interface simples, mas falha em complexidade full stack.
  • O novo Anti-Gravity CLI substitui o antigo Gemini CLI, tornando-se de código fechado.

O Anti-Gravity 2 segue o padrão visual e funcional de outros editores como o Cursor e o Codec. Em testes, o Gemini 3.5 Flash construiu sites funcionais de design simples, mas teve dificuldades com arquiteturas de painéis de finanças complexas. A mudança do CLI para um formato de código fechado e a data limite de encerramento do serviço anterior impõem uma transição obrigatória aos usuários.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video