Testei DeepSeek V4 vs Claude Code vs Codex

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

컴퓨터/소프트웨어AI/미래기술

Transcript

00:00:00Nas últimas 24 horas, tivemos grandes atualizações

00:00:02em dois dos maiores modelos de IA do planeta.

00:00:04Primeiro, tivemos o lançamento do GPT 5.5,

00:00:07que ostenta certos resultados de benchmark

00:00:10que superam o Mythos do Claude.

00:00:12Em segundo lugar, tivemos o lançamento do DeepSeek V4,

00:00:15que é um modelo de código aberto e pesos abertos

00:00:18que possui benchmarks que rivalizam com esses grandes players de fronteira.

00:00:22Então, com todos esses novos modelos para escolher,

00:00:24o que você, o usuário comum, deve fazer?

00:00:27Bem, hoje vou ajudar você a responder a essa pergunta

00:00:29enquanto coloco o Opus 4.7, o GPT 5.5

00:00:33e o DeepSeek V4 uns contra os outros,

00:00:36para que você possa ver qual realmente faz sentido para você.

00:00:39Agora, antes de começarmos este teste frente a frente

00:00:41entre o GPT 5.5 dentro do codecs,

00:00:45o DeepSeek V4 dentro do open code,

00:00:47e o Opus 4.7 dentro do Claude code,

00:00:51vamos primeiro dar uma olhada rápida nos benchmarks,

00:00:53especialmente nesses dois modelos mais recentes

00:00:54que foram lançados nas últimas 24 horas.

00:00:56Agora vamos falar primeiro sobre o custo.

00:00:58Bem, o DeepSeek V4, como você sabe,

00:01:00é um modelo de código aberto e pesos abertos,

00:01:01mas isso não significa que você pode rodar isso no seu computador

00:01:04porque essa coisa é enorme.

00:01:05Estou falando de 1,6 trilhão de parâmetros.

00:01:08Você precisa de um hardware muito potente para rodar isso.

00:01:10Então, ainda temos que pagar por isso.

00:01:11Ainda teremos que usar a API,

00:01:13mas é infinitamente mais barato que a concorrência,

00:01:15cerca de oito vezes mais barato.

00:01:18E dos três modelos,

00:01:19o novíssimo GPT 5.5 é na verdade o mais caro,

00:01:22o que é surpreendente, porque no geral,

00:01:24a OpenAI tem sido mais barata que sua concorrência da Anthropic.

00:01:28Em termos do que vai custar para você

00:01:30por 1 milhão de tokens de saída.

00:01:32Para o GPT 5.5, será US$ 30.

00:01:35Para a Anthropic, será US$ 25.

00:01:38E para o DeepSeek, será US$ 3,48.

00:01:41Agora, se falarmos de tokens de entrada,

00:01:44que é uma parte menor do todo,

00:01:46o GPT 5.5 e o Opus 5.7 são iguais.

00:01:49Será US$ 5 por 1 milhão de entrada.

00:01:53E para o DeepSeek, é cerca de US$ 1,70.

00:01:57Então, muito mais barato na entrada e muito mais barato na saída.

00:02:01Dito isto, quando se trata do 5.5,

00:02:03é cerca de duas vezes mais caro que o 5.4.

00:02:06No entanto, a OpenAI afirma que ele realmente usa muito menos tokens

00:02:10devido ao seu poder.

00:02:11Então, embora seja o dobro do preço do 5.4,

00:02:14eles dizem que em termos de gasto real de tokens e custo real,

00:02:17para a mesma tarefa, acaba sendo apenas uns 20%

00:02:20mais caro quando tudo é concluído.

00:02:21Então, apenas tenha isso em mente.

00:02:24Então, falamos sobre o custo.

00:02:25Agora vamos falar sobre os benchmarks.

00:02:26Quão bons são esses modelos no papel?

00:02:27Sei que estamos todos meio entorpecidos com benchmarks em geral.

00:02:31Precisamos vê-los com cautela,

00:02:32mas ainda vale a pena dar uma olhada,

00:02:33especialmente quando olhamos para os números

00:02:36que são relatados por cada jogador no mesmo benchmark.

00:02:39Então, houve três na categoria de programação

00:02:42que todos os três relataram números.

00:02:43Isso foi o SWE bench verified, SWE bench pro

00:02:46e o terminal bench 2.0.

00:02:48Agora, para o SWE bench verified e SWE bench pro,

00:02:50o Opus foi o vencedor.

00:02:52No terminal bench 2.0, o GPT foi o vencedor de longe com 87,2,

00:02:56que, aliás, é um número maior

00:02:59do que o que a Anthropic relatou para o Mythos.

00:03:02Oh, Mythos, desculpe.

00:03:03O que é meio louco.

00:03:05Você sabe, o modelo super secreto que eles não podem liberar,

00:03:07aparentemente se sai pior no terminal bench 2 do que o GPT 5.5.

00:03:10Agora, o terminal bench 2.0 é o maior ponto fora da curva aqui.

00:03:13O Opus 4.7 e o V4 Pro estão muito atrás,

00:03:16mas dê uma olhada no Opus 4.7 versus V4 Pro.

00:03:20É menos de dois pontos sendo oito vezes mais barato.

00:03:23E você vê o mesmo tipo de história aqui

00:03:24com o SWE bench verified e o SWE bench pro.

00:03:26Sim, o Opus vence.

00:03:28Mas quando comparamos o segundo lugar com o terceiro lugar

00:03:31e o V4 está sempre em terceiro lugar,

00:03:33não existe o enorme abismo que você esperaria.

00:03:36Quero dizer, cinco pontos não é nada, você sabe,

00:03:38no SWE bench verified, 85 para 86.

00:03:41Mas, novamente, oito vezes mais barato, código aberto.

00:03:45Você sabe, há algumas compensações reais aqui

00:03:46que podemos fazer se não precisarmos de tanto poder.

00:03:49Outra coisa interessante de se falar

00:03:51é o contexto longo, onde estranhamente o Opus 4.7 é muito ruim

00:03:55pelos números, tipo significativamente pior que o 4.6,

00:03:58o que meio que explode minha mente.

00:04:00E quando estamos falando sobre contexto longo

00:04:01onde estamos tentando recuperar coisas

00:04:03entre 500.000 tokens e 1 milhão de tokens,

00:04:06o 4.7 é na verdade terrível.

00:04:08E faz muito pior que o DeepSeek e o GPT 5.5.

00:04:12Agora você pode ter toda uma discussão sobre

00:04:14por que você está operando na faixa de 500.000 a 1 milhão de tokens?

00:04:17Para começar, quantas pessoas estão operando lá,

00:04:20porque estamos atingindo a degradação de contexto não importa o que

00:04:22nesse nível, não importa qual modelo você esteja usando.

00:04:24Mas é interessante que, por qualquer motivo,

00:04:26vimos alguma regressão

00:04:27quando se trata dos modelos da Anthropic.

00:04:29Mas, no geral, acho que a conclusão é

00:04:32o 5.5 é muito forte.

00:04:33Ele supera o Opus 4.7 em certas métricas,

00:04:36perde em certas métricas,

00:04:37mas é um modelo extremamente robusto.

00:04:39E além disso, bem, o V4 Pro está meio que, você sabe,

00:04:42ficando para trás, no geral.

00:04:45Está a uma distância considerável enquanto é infinitamente mais barato,

00:04:48o que novamente é uma ótima opção para o seu cliente médio.

00:04:52Porque agora parece que você não tem muitas

00:04:54opções no lado de código aberto que realmente podem competir.

00:04:56Agora vamos pular para o teste real frente a frente

00:04:59com todos os três desses modelos.

00:05:00E estamos usando um harness para cada um desses modelos.

00:05:02Com o 5.5, será o codecs.

00:05:04Com o Opus 4.7, será o Claude code.

00:05:07E com o DeepSeek V4 Pro, estou usando o open code.

00:05:10E para o primeiro teste, o que vamos fazer é

00:05:11vamos fazer com que criem um simulador de voo

00:05:14para nós em 3JS que roda no navegador.

00:05:17Você pode ver o prompt bem aqui.

00:05:18Estou dizendo, quero que seja bom de pilotar.

00:05:20Quero que tenha algum peso.

00:05:21Quero alguns visuais fortes e quero que use qualquer

00:05:25estrutura e ferramentas que ache correta.

00:05:27Então é direto o suficiente para eles saberem o que fazer,

00:05:30mas há margem suficiente para vermos alguma divergência

00:05:33entre os modelos.

00:05:34E enquanto vamos olhar para o que eles são capazes

00:05:36de fazer em uma tentativa, vamos passar por várias iterações

00:05:38disso e ter prompts de acompanhamento.

00:05:40Porque, tão legal quanto é ver o quão bem ele se sai em uma tentativa,

00:05:44não é assim que realmente trabalhamos na vida real, é?

00:05:46Quero ver como ele se sai quando dou prompts de acompanhamento

00:05:49e com que rapidez ele leva para chegar a algo que eu goste.

00:05:52E quando comparamos esses três modelos,

00:05:54há realmente quatro coisas que vou observar.

00:05:55Vai ser o tempo.

00:05:57Quanto tempo leva para construir isso?

00:05:58Custo, quantos tokens estamos usando?

00:06:01Qualidade, quão bom é?

00:06:02E então quatro é meio que a "vibe".

00:06:04E isso meio que se relaciona com a qualidade.

00:06:06É muito subjetivo.

00:06:06De qual eu gosto mais, na verdade?

00:06:09E também, todos os três modelos, todos os três harnesses

00:06:11também estão usando exatamente as mesmas habilidades.

00:06:13Então vamos começar com o DeepSeek e as perguntas que ele está nos fazendo.

00:06:16Ele está perguntando que tipo de modelo de voo queremos.

00:06:18Vamos de simulador completo.

00:06:20Ele está recomendando oceanos e ilhas para o terreno.

00:06:22Vamos ficar com isso.

00:06:23Vamos ver como, e então ele está perguntando a preferência da câmera.

00:06:25Vamos fazer ambos.

00:06:26Vamos ver se ele consegue nos dar uma alternância

00:06:27para ambos, primeira pessoa e terceira pessoa.

00:06:29Vamos com sua preferência de ferramentas recomendada.

00:06:32E vamos apenas com um modelo low poly

00:06:33para a aeronave e os visuais em si.

00:06:35Agora, passando para o codecs, o mesmo tipo de perguntas.

00:06:38Embora esteja nos perguntando apenas três.

00:06:40Dizendo que tipo de voo este plano deve otimizar?

00:06:42Vamos com uma simulação difícil.

00:06:44Que experiência jogável é mais importante para o navegador?

00:06:48Vamos fazer o loop de decolagem na ilha.

00:06:50É meio interessante como todos têm a mesma.

00:06:52E qual câmera e apresentação da aeronave?

00:06:54Vou fazer a alternância para isso também.

00:06:56E para o Claude code, faremos o aprendizado de simulação de estudo

00:06:58para o input de sensação de oceano e ilhas.

00:07:02Faremos teclado e mouse.

00:07:04Não vai deixar o trabalho começar.

00:07:05Então, modo de plano, no geral, muito semelhante nos três.

00:07:09Praticamente as mesmas perguntas como:

00:07:11Como você quer que seja a física?

00:07:12Como você quer que seja o terreno?

00:07:13Qual ângulo de câmera você quer?

00:07:15Então não há grande diferença aí.

00:07:17E vamos ver com o que eles voltam em termos de plano.

00:07:19Certo, todos os três planos estão completos.

00:07:20Então, vamos passar por cada um deles rapidamente

00:07:22e ver algumas das diferenças.

00:07:24O primeiro que estamos olhando aqui é o DeepSeek.

00:07:26E é bem básico em termos do plano que ele apresenta.

00:07:29Então ele nos dá a estrutura do projeto

00:07:31e então fala muito rapidamente sobre física de voo,

00:07:33ambiente, câmera e HUD overlay,

00:07:35e realmente apenas alguns bullet points.

00:07:37Por outro lado, quando estamos olhando para o 5.5 dentro do codecs,

00:07:40porque é um resumo, principais mudanças,

00:07:43entra nos detalhes de implementação, o plano de teste,

00:07:46assim como as suposições

00:07:47que explica tudo isso para nós.

00:07:49E então temos o plano do Claude Code, que demorou mais.

00:07:50Levou cerca de cinco minutos, mas é de longe o mais completo

00:07:53porque é o contexto, a pilha.

00:07:55O layout fala sobre o modelo de voo.

00:07:57Ele entra em detalhes sobre os diferentes momentos,

00:08:00falando sobre estóis, como a buzina de estol.

00:08:02Ele vai muito, muito no detalhe.

00:08:03Entra nos controles, o mundo, o mod,

00:08:06a aeronave real que vamos usar, o desempenho,

00:08:08e só continua cada vez mais.

00:08:10Então, muito detalhado.

00:08:11Então agora vamos fazer com que os três implementem o plano,

00:08:14e veremos como fica o resultado final.

00:08:15Então, o GPT 5.5 dentro do Codecs foi o primeiro a terminar.

00:08:19Vamos ver como ficou.

00:08:20Então aqui está o simulador de voo que ele nos deu.

00:08:22Temos algumas nuvens no céu.

00:08:26Temos o que parece ser um indicador de AOA lá em cima.

00:08:31Temos nossa velocidade lá embaixo,

00:08:34e vamos ver se conseguimos tirar

00:08:35essa coisa do chão.

00:08:36Vou notar que não há nada como uma pista.

00:08:38É só grama reta.

00:08:39E, em vez disso, deveria ser como uma ilha.

00:08:42Embora, quando a câmera meio que buga,

00:08:45você consegue ver a pista lá embaixo por um segundo.

00:08:48Certo, estamos estolando e simplesmente,

00:08:50não conseguimos nem sair do chão, né?

00:08:51Então esse aqui está na verdade um pouco,

00:08:54está na verdade meio difícil.

00:08:55Então o que vou fazer é dar a ele

00:09:00um segundo prompt pedindo para facilitar um pouco

00:09:03o voo, porque tem muita coisa acontecendo aqui,

00:09:05mas isso é difícil.

00:09:06Então escrevi: é muito difícil de voar.

00:09:08Podemos facilitar o uso?

00:09:10Tipo, um pouco mais arcade.

00:09:12E os gráficos também poderiam melhorar.

00:09:15Vamos ver como ele se sai.

00:09:16Vale notar que o 5.5 levou cerca de sete minutos

00:09:21para criar aquela primeira versão para nós.

00:09:23E consumiu 63.000 tokens.

00:09:26Certo, ele disse que tornou um pouco mais fácil

00:09:28de voar e atualizou os gráficos.

00:09:29Então vamos ver como ficou a segunda versão.

00:09:32Então é isso que conseguimos.

00:09:32Os gráficos definitivamente parecem melhores,

00:09:34mas vamos ver se conseguimos sair da pista

00:09:36desta vez.

00:09:37Então, certo, potência em cem por cento,

00:09:4150, 60, sete.

00:09:43Qual é a velocidade de rotação de um Cessna?

00:09:46Certo, 70, 80, 90.

00:09:49Temos que conseguir sair do chão agora.

00:09:51Ok, caminho errado.

00:09:53Vamos lá, saia do chão, saia do chão.

00:09:56Não, isso provavelmente vai me fazer estolar, né?

00:09:58É, estol.

00:09:59Ok, isso ainda precisa de algum trabalho.

00:10:02Então vamos dar mais uma chance ao Codex.

00:10:05Vamos dar ao 5.5 mais uma chance

00:10:07para tornar isso realmente jogável.

00:10:08Então eu disse a ele que nem consigo tirar a aeronave

00:10:10do chão e iniciar o voo.

00:10:11Definitivamente precisamos facilitar a decolagem

00:10:12e o voo da coisa.

00:10:14Ok, então ele diz que consertou o problema da decolagem.

00:10:16Aparentemente os freios estavam travados antes.

00:10:19Não sei se foi por isso que não conseguimos fazer.

00:10:21Ah, ele não configurou automaticamente para decolar.

00:10:24Flaps, é, isso foi,

00:10:25nós estávamos em um modo super simulador.

00:10:29Mas aqui está a tentativa número três do nosso simulador de voo.

00:10:32Vamos ver como nos saímos.

00:10:34Então, conseguimos sair do chão?

00:10:36Oh, estamos quicando na pista

00:10:37desta vez.

00:10:38Certo, legal, estamos fora do chão.

00:10:41Estamos realmente nos movendo.

00:10:44Vamos ver se conseguimos entrar em um desses anéis.

00:10:45Quero dizer, os gráficos não são tão ruins, sabe,

00:10:49para algo gerado em menos de 10 minutos.

00:10:52Parece ser bem preciso em termos de, você sabe,

00:10:56ele está me dando minha vertical, sabe,

00:10:59pés por minuto lá embaixo,

00:11:00minha altitude real, nós, proa, AGL.

00:11:04Então é relativamente sofisticado

00:11:06em termos de rastrear tudo.

00:11:08Digo, esse pequeno indicador na frente,

00:11:10parece ser um indicador de ângulo de ataque, sabe,

00:11:13o que é bem legal.

00:11:14Então ele tem algumas coisas boas acontecendo.

00:11:18Os controles reais estão um pouco estranhos.

00:11:21Como você pode ver, eu não consigo controlar isso de jeito nenhum,

00:11:23mas no geral, não está ruim.

00:11:25Sabe, podemos meio que fazer um kamikaze com isso

00:11:27e ver o que acontece a, você sabe, 18.000 pés por minuto.

00:11:31Mas sim, você sabe, por 66.000 tokens,

00:11:36cerca de 10 minutos, 15 minutos mais ou menos,

00:11:40sabe, com o vai e vem,

00:11:41eu não acho nada ruim.

00:11:42Então agora vamos dar uma olhada no DeepSeek.

00:11:44Levou cerca de 10 minutos para fazer isso.

00:11:46E em termos de tokens, 63.000 e 44 centavos.

00:11:51Então 44 centavos, 10 minutos.

00:11:53E aqui está o que o DeepSeek inventou para nós.

00:11:56Não faço ideia.

00:12:00O que estou olhando.

00:12:03Isso deveria ser em terceira pessoa.

00:12:06Isso deveria ser a cabine.

00:12:07E obviamente nossa primeira versão com o DeepSeek

00:12:11foi outro desastre.

00:12:13Então estou dizendo ao DeepSeek que o simulador é uma bagunça completa.

00:12:16Os gráficos estão totalmente bugados

00:12:17e eu não consigo voar nada.

00:12:20Por favor, conserte.

00:12:21E aqui está como ficou nossa segunda versão.

00:12:24Eu ainda não faço ideia.

00:12:26Absolutamente nenhuma pista.

00:12:28O que raios é o DeepSeek.

00:12:30Ah, ei, tem um avião.

00:12:32Ah, tem alguma coisa.

00:12:33Eu, é, isso é, isso é brutal.

00:12:38E para ser honesto, sinto que mesmo dando outro prompt

00:12:42para fazer isso, eu precisaria começar a ser muito, muito específico

00:12:44sobre o que estamos tentando fazer, o que, novamente,

00:12:47fica bem aquém do que fizemos com o Codex.

00:12:49Tipo, foram prompts bem, você sabe, meio sem graça.

00:12:51Eu consegui pelo menos algo próximo,

00:12:53mesmo na primeira versão.

00:12:54Claramente está sofrendo completamente

00:12:57com os gráficos.

00:12:58Nós estamos apenas, eu nem sei como descrever isso,

00:13:01mas ei, foi super barato.

00:13:03Então agora vamos dar uma olhada no que o Claude Code

00:13:07foi capaz de nos dar como referência.

00:13:09Levou 13 minutos para realmente executar o plano.

00:13:12O plano em si levou cinco minutos.

00:13:13Então vamos chamar de 20 minutos para chegar à primeira versão.

00:13:17E então, para o total de tokens,

00:13:19esta execução levou cerca de 15% mais os 5% antes do plano.

00:13:22Então estamos olhando para, bem, desculpe,

00:13:24estamos olhando para 11% de contexto mais 5% antes.

00:13:28Então considere 20 minutos, 150.000 tokens para o Claude Code,

00:13:33que é definitivamente o mais caro

00:13:34e mais lento de todos eles.

00:13:36E aqui está a tentativa do Claude Code nisso.

00:13:39Por qualquer motivo, estamos instantaneamente no ar.

00:13:43Estamos estolando.

00:13:44Estamos em IFR.

00:13:45Não sei o que está acontecendo.

00:13:48Estamos prestes a bater em alguma coisa.

00:13:50Podemos salvar isso?

00:13:51Podemos tirar isso de um mergulho?

00:13:53Não, estamos estolando, não, estamos mortos.

00:13:54Ok, isso é interessante.

00:13:56Novamente, ele instantaneamente nos lança para o ar.

00:14:00Estamos nas nuvens.

00:14:02Estamos estolando.

00:14:03Não sei o que está acontecendo.

00:14:05Precisamos, precisamos de uma segunda versão.

00:14:08Então eu escrevi: ao carregar, sou instantaneamente lançado para o ar.

00:14:11É difícil de controlar.

00:14:12Quero começar na pista e quero que seja mais fácil de voar.

00:14:15Ah, e a propósito, melhore esses gráficos também.

00:14:17Então levou cerca de quatro minutos, mas fez algumas mudanças.

00:14:20Vamos spawnar na pista.

00:14:22Mudou o trem de pouso.

00:14:23Então agora é trem de pouso triciclo e algumas outras coisas.

00:14:24Então vamos ver como ficou.

00:14:26Certo, então aqui está.

00:14:27Novamente, somos jogados imediatamente em uma camada de neblina.

00:14:29Estou tentando controlar essa coisa.

00:14:31E eu simplesmente, é, não há como controlar isso de jeito nenhum.

00:14:33Certo, vamos dar,

00:14:34vamos dar ao Claude Code mais uma chance aqui.

00:14:37Então eu disse a ele que ele ainda está me lançando instantaneamente

00:14:39para o céu.

00:14:40Eu disse, vamos com uma sensação muito mais do tipo arcade

00:14:42com os controles.

00:14:43Acho que provavelmente deveríamos ter feito isso

00:14:44com os prompts iniciais para todos os três.

00:14:46Acho que optar por algo mais tipo simulador realista,

00:14:50realmente luta para,

00:14:53acho que fazer isso de uma maneira que ainda seja amigável ao usuário.

00:14:57Acho que provavelmente está fazendo um bom trabalho por baixo dos panos

00:14:59em termos de, tipo, ok, tipo, ângulo de ataque.

00:15:01Certo, você está estolando nisso, sabe,

00:15:02ângulo versus a velocidade e tudo mais.

00:15:04Mas na verdade manipular isso do computador

00:15:07é basicamente impossível.

00:15:09Embora eu ache que as coisas da neblina sejam muito estranhas.

00:15:12Então vamos ver se depois da segunda rodada de prompts

00:15:15ele consegue se sair um pouco melhor

00:15:16porque agora o GPT 5.5 se saiu muito, muito melhor.

00:15:20Então o Claude Code fez mais algumas mudanças,

00:15:22tornou mais amigável ao usuário.

00:15:23E vamos ver se ainda estou indo

00:15:24desta vez para a minha licença de instrumento.

00:15:26Então, sim, ainda estamos a ir.

00:15:28Ainda vamos para a licença de instrumento.

00:15:30Estamos no "men's" aqui, mas, sabe, eu consigo ver isso.

00:15:33Sabe, posso verificar o meu painel de instrumentos.

00:15:35Tudo bem, estamos a sair da pista.

00:15:37Sim, okay.

00:15:42Posso... porque é que há uma árvore na pista?

00:15:44Estou a tentar subir.

00:15:46Posso subir?

00:15:47Posso inclinar?

00:15:49Clique no "canvas" para bloquear o rato, quê?

00:15:53Oh, estamos no ar.

00:15:54Não, não, morremos.

00:15:57Portanto, sim, acho que esta é bastante clara.

00:16:02GPT 5.5, facilmente o vencedor, creio eu.

00:16:06O Claude Code ficou em segundo lugar.

00:16:08Eu dar-lhe-ia o segundo lugar.

00:16:10Sabe, definitivamente teve dificuldades

00:16:13mesmo com as instruções que lhe demos.

00:16:14Não lhe demos boas instruções, vamos ser totalmente honestos.

00:16:16Acho que com mais tempo, melhores instruções,

00:16:19algumas trocas de mensagens adicionais,

00:16:20poderíamos tê-lo levado para onde queríamos.

00:16:21Tipo, pelo menos tinha uma aeronave, tinha uma pista.

00:16:25Tinha árvores na pista,

00:16:26mas tinha as coisas reais de que precisávamos

00:16:29em comparação com o DeepSeek com o OpenCODE.

00:16:32Não fazia ideia do que se estava a passar ali.

00:16:34Aquilo foi uma confusão total.

00:16:35Sinto que teria de começar de novo

00:16:36desde o início, tipo, dar-lhe uma instrução muito específica.

00:16:38Tipo, nem sequer chegou perto de ser utilizável,

00:16:39mas o GPT 5.5 logo à partida, sabe,

00:16:42foram instruções bastante vagas.

00:16:44Achei que se saiu muito bem.

00:16:45O 5.5 também usou um total de 66 mil tokens.

00:16:48Estamos a olhar para isto aqui com o Opus no total,

00:16:52cerca de 200.000 tokens.

00:16:53Portanto, um quarto dos tokens, essencialmente um quarto do custo.

00:16:56E foi um pouco mais rápido.

00:16:58Quero dizer, a esta altura, nem me importa

00:16:59como o OpenCODE na verdade demorou mais tempo do que o GPT 5.5 também.

00:17:03E simplesmente foi uma porcaria, vamos ser honestos, foi uma porcaria.

00:17:07Agora vamos passar para o teste número dois.

00:17:10Desta vez vamos pedir-lhes

00:17:12para criar uma página inicial que mostre o trabalho de shaders WebGPU

00:17:16usando 3JS.

00:17:18Ora, o trabalho de shaders WebGPU é o tipo de coisas que vê

00:17:21em sites de prémios.

00:17:23Estou a falar de sites como o Igloo, este tipo de coisas,

00:17:26gráficos de alta qualidade.

00:17:28Parece um videojogo.

00:17:29É essencialmente usar a placa gráfica do seu computador

00:17:32para renderizar todas estas coisas.

00:17:34Agora, não espero que nenhum deles chegue a algo que se aproxime

00:17:37do que vemos aqui, mas quero ver o que conseguem fazer

00:17:40usando essencialmente a tecnologia de shaders.

00:17:42Isto é definitivamente um passo acima da sua página inicial

00:17:45básica de modelos SaaS.

00:17:46Quero ver o que conseguem fazer e levá-los

00:17:48aos limites no mundo do web design.

00:17:50Agora, dei a todos eles uma competência que decompõe

00:17:53como fazer este tipo de coisas.

00:17:55Portanto, não é como se estivessem completamente às escuras

00:17:57e nenhum deles tem uma vantagem sobre o outro.

00:18:00A única coisa que lhes disse é que quero que pareça moderno

00:18:02e visualmente marcante, algo que veria em prémios

00:18:05e que faça uso inteligente da computação GPU.

00:18:08Assim, podem escolher a pilha e a estrutura de projeto

00:18:10que quiserem e usar bom senso no conceito principal,

00:18:13UI e interações.

00:18:15E tal como no primeiro teste, estão todos em modo de planeamento.

00:18:17Vamos começar.

00:18:18Okay, então todos terminaram o seu plano e, curiosamente,

00:18:21nenhum deles me fez perguntas,

00:18:22mesmo tendo-os colocado em modo de planeamento.

00:18:24Vamos dar uma vista de olhos primeiro ao GPT 5.5.

00:18:28Portanto, está a dizer-nos que vai fazer um hero

00:18:30interativo impulsionado por GPU, de ecrã total.

00:18:32O conceito será um campo de sinais vivo

00:18:34com qualquer coisa como partículas densas que vai fazer.

00:18:36Veremos como isso acaba por ficar.

00:18:38E, no geral, é uma cópia de página inicial de estilo minimalista para prémios.

00:18:41Cena WebGPU totalmente interativa

00:18:43com simulação computacional reativa ao ponteiro.

00:18:46Tudo bem, para o DeepSeek é um plano bastante curto e direto,

00:18:50tal como vimos com o simulador de voo.

00:18:53Espero que consigamos um melhor resultado desta vez,

00:18:54mas uma secção principal com 75.000 partículas de computação GPU.

00:18:58Estou a adivinhar que todos eles vão optar

00:19:01por algum tipo de tema de partículas no hero.

00:19:04Portanto, terá interação com o rato, integração.

00:19:08Terá uma inicialização única.

00:19:10E depois deveríamos ver coisas como "bloom",

00:19:13aberração cromática, uma vinheta personalizada e algum grão de filme.

00:19:16Portanto, veremos como isso acaba por parecer.

00:19:19E depois temos o plano do Opus 4.7 novamente,

00:19:21optando por esta coisa de partículas com "bloom"

00:19:23e vai ser interativo com o rato.

00:19:25Vamos ver se algum deles parece realmente diferente

00:19:27porque, à superfície, todos os seus planos parecem muito semelhantes.

00:19:29Portanto, o primeiro a terminar foi o 5.5.

00:19:32Demorou cerca de seis minutos.

00:19:34E em termos de tokens, usámos 107 mil.

00:19:37Vamos ver o que construiu para nós.

00:19:40E aqui está o que criou para nós.

00:19:42Agora, isto é muito brilhante.

00:19:45Portanto, é difícil até ver as partículas reais,

00:19:47mas sabe, à medida que subimos e descemos,

00:19:50tem uma animação a acontecer no fundo

00:19:52bem como, sabe, algumas mudanças de cor subtis.

00:19:56Parece que agora o nosso rato é suposto

00:20:00atrair as partículas.

00:20:01E temos, vou mover isto para aqui.

00:20:03Deu algumas opções como repelir versus "drift".

00:20:08Mas, novamente, é difícil ver devido a quão brilhante é.

00:20:11Portanto, disse-lhe que é difícil ver realmente as partículas

00:20:12devido à luminosidade.

00:20:14Também assume muito da tecnologia do hero.

00:20:14Portanto, podemos diminuir um pouco a luminosidade

00:20:16e também empurrá-la um pouco mais para a direita?

00:20:18Porque agora é um pouco avassalador.

00:20:20Nem se consegue ler realmente o texto aqui à esquerda

00:20:23devido a quão incrivelmente brilhantes estas partículas são.

00:20:25E aqui está a atualização após a segunda execução.

00:20:27Está um pouco melhor.

00:20:30Não é tão avassalador e deixa algum espaço para o texto.

00:20:31Embora eu diga que é quase como se estivesse desfocado,

00:20:35mas sabe, não é mau.

00:20:39Tipo, propôs-se a fazer o que lhe dissemos para fazer

00:20:41dado o problema um pouco vago.

00:20:44Portanto, não estou deslumbrado com o design que criou,

00:20:46mas não estou chateado com isso.

00:20:49Agora vamos dar uma vista de olhos ao Claude Code

00:20:51porque enquanto temos estado a fazer tudo isto,

00:20:52o DeepSeek continua aqui nas trincheiras

00:20:55a tentar descobrir isto.

00:20:57E aqui está o que o Claude Code nos deu.

00:20:58Portanto, meio que nada.

00:21:01Não tenho a certeza se está a dizer que o fundo,

00:21:06suponho que todo o fundo é suposto ser

00:21:10o WebGL, assumo eu.

00:21:14É muito discreto,

00:21:19o que suponho que é algo que se pode fazer totalmente.

00:21:21Quero dizer, tipo no ecrã não parece,

00:21:24tipo, parece um pouco fixe, mas serei honesto,

00:21:25estava à procura de algo um pouco mais chamativo.

00:21:28Portanto, na segunda passagem,

00:21:31quando lhe disse para torná-lo um pouco mais chamativo,

00:21:31não houve uma grande diferença.

00:21:34Embora, tipo, seja realmente subtil.

00:21:35Existe meio que este grão de filme,

00:21:38quase como este desfoque que vai de baixo para cima.

00:21:40Portanto, é uma coisa bastante subtil.

00:21:43E pode ver aqui na parte inferior,

00:21:45rastreia tipo os fotogramas por segundo.

00:21:47Está a usar 250.000 partículas.

00:21:49Portanto, quero dizer, honestamente parece fixe.

00:21:51Simplesmente não é super chamativo.

00:21:54Portanto, é definitivamente uma questão de gosto.

00:21:56O total de tokens do lado do Claude Code foi cerca de 175.000,

00:21:58e demorou apenas um pouco mais do que o 5.5 dentro do Codex.

00:22:01Agora vamos dar uma vista de olhos ao DeepSeek,

00:22:05que já levou 116.000 tokens até agora.

00:22:07Também foi o que demorou mais tempo,

00:22:10mas custos totais, estamos a falar novamente, abaixo de um dólar.

00:22:12E aqui está o que nos deu.

00:22:15Portanto, é meio que esta coisa de campo de partículas

00:22:17que segue um pouco o meu rato.

00:22:21Interessante.

00:22:25Acho que pode dar um ataque epilético.

00:22:27Honestamente, para além disso, é bastante insípido.

00:22:29O fluxo, sabe, o raio-x aqui muda um pouco as cores,

00:22:35mas sim, praticamente apenas criou esta coisa.

00:22:39Depois de dizer ao DeepSeek para fazer outra passagem,

00:22:43voltou então com isto,

00:22:45onde agora tem meio que alguma coisa estranha de paralaxe.

00:22:46Tem umas coisas azuis a acontecer no fundo.

00:22:49E agora esta coisa que é como um OVNI,

00:22:53que meio que responde ao seu rato,

00:22:55mas sim, é alguma coisa.

00:22:58E no geral, a contagem de tokens do DeepSeek foi de 130 mil tokens

00:23:02chegando a 1,43 dólares.

00:23:05Portanto, após todos esses testes, onde é que isso nos deixa?

00:23:08Então agora vamos falar sobre os resultados finais.

00:23:13Quando se trata do teste número um,

00:23:15que foi o simulador de voo, vencedor claro.

00:23:16Esse foi o GPT 5.5 dentro do Codex.

00:23:18Foi mais rápido do que o Opus 4.7 dentro do Claude Code.

00:23:21Foi também mais rápido e o resultado final foi de longe o melhor.

00:23:25O DeepSeek portou-se terrivelmente no simulador de voo.

00:23:29Nem sequer chegou perto do que estávamos a tentar fazer.

00:23:32Teria de continuar a dar instruções,

00:23:34instruções, instruções para sequer chegar perto

00:23:35da primeira passagem do 5.5 e do Opus 4.7, e o Claude Code

00:23:38foi tipo, eh, não foi horrível.

00:23:43Tipo, realmente não funcionou no início,

00:23:46mas após algumas instruções, dava para perceber,

00:23:48que podíamos chegar a um ponto em que era equivalente

00:23:50conseguiríamos chegar a um ponto onde era equivalente

00:23:52ao que o GPT 5.5 estava fazendo.

00:23:54Isso teria exigido mais prompts.

00:23:55Teria levado mais tempo

00:23:57e, no fim das contas, seria mais caro.

00:23:59Portanto, vitória clara para o 5.5.

00:24:01Em termos da página de destino WebGPU,

00:24:03novamente, o DeepSeek teve dificuldades aqui.

00:24:04Eu não fui fã disso.

00:24:06Eu realmente não sei o que isso deveria ser.

00:24:08Claro, eu não dei um prompt super bom,

00:24:10mas tipo, é isso que vamos obter

00:24:13como resultado médio de referência?

00:24:16Se eu não tomar as rédeas do DeepSeek

00:24:19e realmente forçá-lo a fazer algo, acho que sim.

00:24:22Agora, quando comparamos o Opus e o 5.5,

00:24:24eu teria escolhido o Opus 4.7 e o Claude Code

00:24:27pela forma como lidou com a questão da WebGPU.

00:24:29Acho que isso tem a ver com uma questão de gosto.

00:24:31Sim, você poderia argumentar que o 5.5 era mais chamativo,

00:24:35mas eu achei que ficou meio feio.

00:24:37Mais uma vez, em todos esses testes, mantivemos os prompts bastante vagos

00:24:41para ver que tipo de caminho ele seguiria.

00:24:43Então, eu definitivamente daria a liderança ao Opus aqui,

00:24:46embora fosse mais caro

00:24:48e também levasse um pouco mais de tempo.

00:24:50Então, se eles recebessem um prompt mais prático

00:24:55que fosse bem específico sobre o que você queria fazer,

00:24:57o 5.5 fez o que queríamos que ele fizesse.

00:24:59Ele criou uma página de destino WebGPU.

00:25:02Eu só achei que ficou feia.

00:25:04Então, ele ainda concluiu a tarefa.

00:25:06Só não concluiu tão bem, eu acho, quanto o Opus.

00:25:08Agora, no panorama geral, o que isso significa

00:25:09se juntarmos tudo isso?

00:25:11Bem, acho que é uma ótima notícia

00:25:13para qualquer pessoa que esteja usando decodificadores de agentes.

00:25:16Temos opções, certo?

00:25:18Você pode usar Opus e Claude Code,

00:25:20ou pode usar GPT 5.5 e Codecs.

00:25:23Você não estará errado com nenhum dos dois.

00:25:25Acho que é totalmente uma preferência pessoal neste momento.

00:25:28E a melhor parte é que, se você seguir o caminho do Claude Code,

00:25:31tudo se aplica praticamente aos Codecs.

00:25:33Se você seguir o caminho dos Codecs,

00:25:34tudo se aplica praticamente ao Claude Code.

00:25:37Portanto, não acho que exista um bloqueio do fornecedor no sentido de,

00:25:40ah, eu só aprendi sobre o Claude Code.

00:25:42Eu não consigo ir para os Codecs ou vice-versa.

00:25:44Não é o caso de jeito nenhum.

00:25:45Se você está fazendo isso da maneira certa,

00:25:46o que você está realmente aprendendo são fundamentos de IA

00:25:48e como construir coisas.

00:25:49E isso se aplica a ambos.

00:25:51E quanto mais concorrência,

00:25:53melhor para nós, consumidores.

00:25:54Agora, quanto ao DeepSeek, é, não sei.

00:25:59Não fiquei muito impressionado.

00:26:00Talvez seja uma situação em que, ok,

00:26:02o DeepSeek faz sentido se estivermos realizando tarefas mais simples

00:26:04onde não precisamos do poder de algo como o Opus,

00:26:06ou simplesmente não precisamos do poder de algo como o GPT 5.5.

00:26:10Porque lembre-se, estamos falando de algo

00:26:11que é oito vezes mais barato.

00:26:13Claro, eu não gostei do que as páginas de destino WebGPU

00:26:16que ele criou ofereceram, mas será que foi oito vezes pior?

00:26:19Talvez, talvez não.

00:26:21É meio difícil articular e

00:26:23quantificar isso.

00:26:24Mas obviamente isso é algo que precisamos levar em conta.

00:26:27Então, sabe, eu não acho que seja realmente uma competição

00:26:30para ser franco, com o 4.7 ou 5.5.

00:26:33Acho que, no entanto, se você estiver fazendo tarefas mais simples

00:26:35e estiver muito consciente dos tokens, muito consciente do dinheiro,

00:26:38então ei, talvez o DeepSeek faça sentido para você.

00:26:41Então, é tudo o que tenho para vocês hoje.

00:26:42Espero que isso esclareça um pouco sobre esses três modelos

00:26:45e como eles se comparam uns aos outros.

00:26:47Acho que é um ótimo momento para estar neste espaço.

00:26:49Mais concorrência é melhor para todos.

00:26:51Então, como sempre, se você quiser colocar as mãos

00:26:53na Masterclass do Claude Code,

00:26:55certifique-se de conferir o Chase AI Plus.

00:26:56Há um link para isso na descrição.

00:26:58E nos vemos por aí.

Key Takeaway

Embora o DeepSeek V4 ofereça uma redução de custos de quase 8 vezes em relação aos modelos de fronteira, o GPT 5.5 dentro do ambiente Codecs entrega o equilíbrio superior entre velocidade, qualidade técnica e usabilidade para tarefas complexas de desenvolvimento.

Highlights

O GPT 5.5 custa US$ 30 por 1 milhão de tokens de saída, enquanto o DeepSeek V4 custa US$ 3,48 pelo mesmo volume.
No benchmark Terminal Bench 2.0, o GPT 5.5 atingiu 87,2 pontos, superando o desempenho do modelo Mythos da Anthropic.
O Opus 4.7 apresenta degradação significativa em contextos longos, com desempenho inferior ao DeepSeek e GPT 5.5 na faixa de 500 mil a 1 milhão de tokens.
Durante a criação de um simulador de voo, o GPT 5.5 dentro do Codecs completou a tarefa com maior sucesso operacional, enquanto o DeepSeek V4 falhou em produzir resultados utilizáveis.
O uso de agentes de IA para desenvolvimento de software não gera bloqueio de fornecedor (vendor lock-in), pois os fundamentos de construção de código são transferíveis entre Claude Code e Codecs.

Timeline

Comparativo de custos e benchmarks

A OpenAI precifica o GPT 5.5 em US$ 30 por milhão de tokens de saída, superando os US$ 25 da Anthropic e os US$ 3,48 do DeepSeek V4.
O DeepSeek V4 possui 1,6 trilhão de parâmetros, exigindo infraestrutura potente apesar do custo reduzido da API.
O Opus 4.7 domina os benchmarks SWE bench verified e pro, mas é superado pelo GPT 5.5 no Terminal Bench 2.0.

A análise inicial estabelece que, embora modelos de pesos abertos como o DeepSeek V4 rivalizem com modelos proprietários, o custo de hardware e a eficiência de tokens ainda favorecem as APIs de grande escala. Observou-se uma regressão inesperada nos modelos da Anthropic ao lidar com contextos extremos de 500 mil a 1 milhão de tokens, onde o GPT 5.5 e o DeepSeek V4 demonstraram maior robustez.

Teste prático: Simulador de voo 3JS

O GPT 5.5 (via Codecs) gerou um simulador funcional em 10 minutos com 66 mil tokens.
O DeepSeek V4 (via Open Code) apresentou falhas gráficas severas e não produziu um ambiente navegável.
O Claude Code (Opus 4.7) demorou 20 minutos e consumiu 150 mil tokens para atingir um resultado funcional.

O teste de um simulador de voo em 3JS revelou disparidades claras na capacidade de seguir instruções. O GPT 5.5 demonstrou a melhor capacidade de iteração após prompts de correção, enquanto o DeepSeek falhou em interpretar a necessidade de elementos básicos como pista e física de decolagem, tornando-se ineficaz para o usuário médio sem intervenções constantes.

Teste prático: Página de shaders WebGPU

O GPT 5.5 gerou uma cena funcional, porém com luminosidade excessiva que prejudicou a legibilidade do texto.
O Opus 4.7 produziu um design visualmente mais contido e refinado, sendo preferido pelo aspecto estético.
O DeepSeek V4 falhou em capturar a estética moderna pretendida, gerando artefatos visuais de baixa qualidade.

No segundo teste de design moderno para WebGPU, a disputa concentrou-se entre o GPT 5.5 e o Opus 4.7. Enquanto o GPT 5.5 entregou a funcionalidade técnica de forma rápida, o Opus demonstrou maior sensibilidade estética para elementos de design visualmente marcantes. O DeepSeek V4 permaneceu significativamente atrás, exigindo esforço contínuo para atingir um resultado aceitável.

Conclusões sobre o ecossistema de agentes

O GPT 5.5 consolidou-se como a ferramenta mais eficiente para tarefas complexas de codificação.
O DeepSeek V4 justifica seu uso apenas em tarefas simples onde a economia de tokens é a prioridade absoluta.
O domínio do Claude Code ou Codecs traduz-se em habilidades de IA fundamentais, eliminando riscos de dependência tecnológica.

A síntese final aponta que a concorrência entre Opus e GPT 5.5 beneficia o desenvolvedor final. As ferramentas são intercambiáveis do ponto de vista de fluxo de trabalho. O DeepSeek V4 atua como uma alternativa econômica viável para processos menos exigentes, mas não compete com a eficácia de raciocínio dos modelos de elite em cenários de alta complexidade.

Community Posts

Write about this video