Testei DeepSeek V4 vs Claude Code vs Codex

CChase AI
컴퓨터/소프트웨어AI/미래기술

Transcript

00:00:00Nas últimas 24 horas, tivemos grandes atualizações
00:00:02em dois dos maiores modelos de IA do planeta.
00:00:04Primeiro, tivemos o lançamento do GPT 5.5,
00:00:07que ostenta certos resultados de benchmark
00:00:10que superam o Mythos do Claude.
00:00:12Em segundo lugar, tivemos o lançamento do DeepSeek V4,
00:00:15que é um modelo de código aberto e pesos abertos
00:00:18que possui benchmarks que rivalizam com esses grandes players de fronteira.
00:00:22Então, com todos esses novos modelos para escolher,
00:00:24o que você, o usuário comum, deve fazer?
00:00:27Bem, hoje vou ajudar você a responder a essa pergunta
00:00:29enquanto coloco o Opus 4.7, o GPT 5.5
00:00:33e o DeepSeek V4 uns contra os outros,
00:00:36para que você possa ver qual realmente faz sentido para você.
00:00:39Agora, antes de começarmos este teste frente a frente
00:00:41entre o GPT 5.5 dentro do codecs,
00:00:45o DeepSeek V4 dentro do open code,
00:00:47e o Opus 4.7 dentro do Claude code,
00:00:51vamos primeiro dar uma olhada rápida nos benchmarks,
00:00:53especialmente nesses dois modelos mais recentes
00:00:54que foram lançados nas últimas 24 horas.
00:00:56Agora vamos falar primeiro sobre o custo.
00:00:58Bem, o DeepSeek V4, como você sabe,
00:01:00é um modelo de código aberto e pesos abertos,
00:01:01mas isso não significa que você pode rodar isso no seu computador
00:01:04porque essa coisa é enorme.
00:01:05Estou falando de 1,6 trilhão de parâmetros.
00:01:08Você precisa de um hardware muito potente para rodar isso.
00:01:10Então, ainda temos que pagar por isso.
00:01:11Ainda teremos que usar a API,
00:01:13mas é infinitamente mais barato que a concorrência,
00:01:15cerca de oito vezes mais barato.
00:01:18E dos três modelos,
00:01:19o novíssimo GPT 5.5 é na verdade o mais caro,
00:01:22o que é surpreendente, porque no geral,
00:01:24a OpenAI tem sido mais barata que sua concorrência da Anthropic.
00:01:28Em termos do que vai custar para você
00:01:30por 1 milhão de tokens de saída.
00:01:32Para o GPT 5.5, será US$ 30.
00:01:35Para a Anthropic, será US$ 25.
00:01:38E para o DeepSeek, será US$ 3,48.
00:01:41Agora, se falarmos de tokens de entrada,
00:01:44que é uma parte menor do todo,
00:01:46o GPT 5.5 e o Opus 5.7 são iguais.
00:01:49Será US$ 5 por 1 milhão de entrada.
00:01:53E para o DeepSeek, é cerca de US$ 1,70.
00:01:57Então, muito mais barato na entrada e muito mais barato na saída.
00:02:01Dito isto, quando se trata do 5.5,
00:02:03é cerca de duas vezes mais caro que o 5.4.
00:02:06No entanto, a OpenAI afirma que ele realmente usa muito menos tokens
00:02:10devido ao seu poder.
00:02:11Então, embora seja o dobro do preço do 5.4,
00:02:14eles dizem que em termos de gasto real de tokens e custo real,
00:02:17para a mesma tarefa, acaba sendo apenas uns 20%
00:02:20mais caro quando tudo é concluído.
00:02:21Então, apenas tenha isso em mente.
00:02:24Então, falamos sobre o custo.
00:02:25Agora vamos falar sobre os benchmarks.
00:02:26Quão bons são esses modelos no papel?
00:02:27Sei que estamos todos meio entorpecidos com benchmarks em geral.
00:02:31Precisamos vê-los com cautela,
00:02:32mas ainda vale a pena dar uma olhada,
00:02:33especialmente quando olhamos para os números
00:02:36que são relatados por cada jogador no mesmo benchmark.
00:02:39Então, houve três na categoria de programação
00:02:42que todos os três relataram números.
00:02:43Isso foi o SWE bench verified, SWE bench pro
00:02:46e o terminal bench 2.0.
00:02:48Agora, para o SWE bench verified e SWE bench pro,
00:02:50o Opus foi o vencedor.
00:02:52No terminal bench 2.0, o GPT foi o vencedor de longe com 87,2,
00:02:56que, aliás, é um número maior
00:02:59do que o que a Anthropic relatou para o Mythos.
00:03:02Oh, Mythos, desculpe.
00:03:03O que é meio louco.
00:03:05Você sabe, o modelo super secreto que eles não podem liberar,
00:03:07aparentemente se sai pior no terminal bench 2 do que o GPT 5.5.
00:03:10Agora, o terminal bench 2.0 é o maior ponto fora da curva aqui.
00:03:13O Opus 4.7 e o V4 Pro estão muito atrás,
00:03:16mas dê uma olhada no Opus 4.7 versus V4 Pro.
00:03:20É menos de dois pontos sendo oito vezes mais barato.
00:03:23E você vê o mesmo tipo de história aqui
00:03:24com o SWE bench verified e o SWE bench pro.
00:03:26Sim, o Opus vence.
00:03:28Mas quando comparamos o segundo lugar com o terceiro lugar
00:03:31e o V4 está sempre em terceiro lugar,
00:03:33não existe o enorme abismo que você esperaria.
00:03:36Quero dizer, cinco pontos não é nada, você sabe,
00:03:38no SWE bench verified, 85 para 86.
00:03:41Mas, novamente, oito vezes mais barato, código aberto.
00:03:45Você sabe, há algumas compensações reais aqui
00:03:46que podemos fazer se não precisarmos de tanto poder.
00:03:49Outra coisa interessante de se falar
00:03:51é o contexto longo, onde estranhamente o Opus 4.7 é muito ruim
00:03:55pelos números, tipo significativamente pior que o 4.6,
00:03:58o que meio que explode minha mente.
00:04:00E quando estamos falando sobre contexto longo
00:04:01onde estamos tentando recuperar coisas
00:04:03entre 500.000 tokens e 1 milhão de tokens,
00:04:06o 4.7 é na verdade terrível.
00:04:08E faz muito pior que o DeepSeek e o GPT 5.5.
00:04:12Agora você pode ter toda uma discussão sobre
00:04:14por que você está operando na faixa de 500.000 a 1 milhão de tokens?
00:04:17Para começar, quantas pessoas estão operando lá,
00:04:20porque estamos atingindo a degradação de contexto não importa o que
00:04:22nesse nível, não importa qual modelo você esteja usando.
00:04:24Mas é interessante que, por qualquer motivo,
00:04:26vimos alguma regressão
00:04:27quando se trata dos modelos da Anthropic.
00:04:29Mas, no geral, acho que a conclusão é
00:04:32o 5.5 é muito forte.
00:04:33Ele supera o Opus 4.7 em certas métricas,
00:04:36perde em certas métricas,
00:04:37mas é um modelo extremamente robusto.
00:04:39E além disso, bem, o V4 Pro está meio que, você sabe,
00:04:42ficando para trás, no geral.
00:04:45Está a uma distância considerável enquanto é infinitamente mais barato,
00:04:48o que novamente é uma ótima opção para o seu cliente médio.
00:04:52Porque agora parece que você não tem muitas
00:04:54opções no lado de código aberto que realmente podem competir.
00:04:56Agora vamos pular para o teste real frente a frente
00:04:59com todos os três desses modelos.
00:05:00E estamos usando um harness para cada um desses modelos.
00:05:02Com o 5.5, será o codecs.
00:05:04Com o Opus 4.7, será o Claude code.
00:05:07E com o DeepSeek V4 Pro, estou usando o open code.
00:05:10E para o primeiro teste, o que vamos fazer é
00:05:11vamos fazer com que criem um simulador de voo
00:05:14para nós em 3JS que roda no navegador.
00:05:17Você pode ver o prompt bem aqui.
00:05:18Estou dizendo, quero que seja bom de pilotar.
00:05:20Quero que tenha algum peso.
00:05:21Quero alguns visuais fortes e quero que use qualquer
00:05:25estrutura e ferramentas que ache correta.
00:05:27Então é direto o suficiente para eles saberem o que fazer,
00:05:30mas há margem suficiente para vermos alguma divergência
00:05:33entre os modelos.
00:05:34E enquanto vamos olhar para o que eles são capazes
00:05:36de fazer em uma tentativa, vamos passar por várias iterações
00:05:38disso e ter prompts de acompanhamento.
00:05:40Porque, tão legal quanto é ver o quão bem ele se sai em uma tentativa,
00:05:44não é assim que realmente trabalhamos na vida real, é?
00:05:46Quero ver como ele se sai quando dou prompts de acompanhamento
00:05:49e com que rapidez ele leva para chegar a algo que eu goste.
00:05:52E quando comparamos esses três modelos,
00:05:54há realmente quatro coisas que vou observar.
00:05:55Vai ser o tempo.
00:05:57Quanto tempo leva para construir isso?
00:05:58Custo, quantos tokens estamos usando?
00:06:01Qualidade, quão bom é?
00:06:02E então quatro é meio que a "vibe".
00:06:04E isso meio que se relaciona com a qualidade.
00:06:06É muito subjetivo.
00:06:06De qual eu gosto mais, na verdade?
00:06:09E também, todos os três modelos, todos os três harnesses
00:06:11também estão usando exatamente as mesmas habilidades.
00:06:13Então vamos começar com o DeepSeek e as perguntas que ele está nos fazendo.
00:06:16Ele está perguntando que tipo de modelo de voo queremos.
00:06:18Vamos de simulador completo.
00:06:20Ele está recomendando oceanos e ilhas para o terreno.
00:06:22Vamos ficar com isso.
00:06:23Vamos ver como, e então ele está perguntando a preferência da câmera.
00:06:25Vamos fazer ambos.
00:06:26Vamos ver se ele consegue nos dar uma alternância
00:06:27para ambos, primeira pessoa e terceira pessoa.
00:06:29Vamos com sua preferência de ferramentas recomendada.
00:06:32E vamos apenas com um modelo low poly
00:06:33para a aeronave e os visuais em si.
00:06:35Agora, passando para o codecs, o mesmo tipo de perguntas.
00:06:38Embora esteja nos perguntando apenas três.
00:06:40Dizendo que tipo de voo este plano deve otimizar?
00:06:42Vamos com uma simulação difícil.
00:06:44Que experiência jogável é mais importante para o navegador?
00:06:48Vamos fazer o loop de decolagem na ilha.
00:06:50É meio interessante como todos têm a mesma.
00:06:52E qual câmera e apresentação da aeronave?
00:06:54Vou fazer a alternância para isso também.
00:06:56E para o Claude code, faremos o aprendizado de simulação de estudo
00:06:58para o input de sensação de oceano e ilhas.
00:07:02Faremos teclado e mouse.
00:07:04Não vai deixar o trabalho começar.
00:07:05Então, modo de plano, no geral, muito semelhante nos três.
00:07:09Praticamente as mesmas perguntas como:
00:07:11Como você quer que seja a física?
00:07:12Como você quer que seja o terreno?
00:07:13Qual ângulo de câmera você quer?
00:07:15Então não há grande diferença aí.
00:07:17E vamos ver com o que eles voltam em termos de plano.
00:07:19Certo, todos os três planos estão completos.
00:07:20Então, vamos passar por cada um deles rapidamente
00:07:22e ver algumas das diferenças.
00:07:24O primeiro que estamos olhando aqui é o DeepSeek.
00:07:26E é bem básico em termos do plano que ele apresenta.
00:07:29Então ele nos dá a estrutura do projeto
00:07:31e então fala muito rapidamente sobre física de voo,
00:07:33ambiente, câmera e HUD overlay,
00:07:35e realmente apenas alguns bullet points.
00:07:37Por outro lado, quando estamos olhando para o 5.5 dentro do codecs,
00:07:40porque é um resumo, principais mudanças,
00:07:43entra nos detalhes de implementação, o plano de teste,
00:07:46assim como as suposições
00:07:47que explica tudo isso para nós.
00:07:49E então temos o plano do Claude Code, que demorou mais.
00:07:50Levou cerca de cinco minutos, mas é de longe o mais completo
00:07:53porque é o contexto, a pilha.
00:07:55O layout fala sobre o modelo de voo.
00:07:57Ele entra em detalhes sobre os diferentes momentos,
00:08:00falando sobre estóis, como a buzina de estol.
00:08:02Ele vai muito, muito no detalhe.
00:08:03Entra nos controles, o mundo, o mod,
00:08:06a aeronave real que vamos usar, o desempenho,
00:08:08e só continua cada vez mais.
00:08:10Então, muito detalhado.
00:08:11Então agora vamos fazer com que os três implementem o plano,
00:08:14e veremos como fica o resultado final.
00:08:15Então, o GPT 5.5 dentro do Codecs foi o primeiro a terminar.
00:08:19Vamos ver como ficou.
00:08:20Então aqui está o simulador de voo que ele nos deu.
00:08:22Temos algumas nuvens no céu.
00:08:26Temos o que parece ser um indicador de AOA lá em cima.
00:08:31Temos nossa velocidade lá embaixo,
00:08:34e vamos ver se conseguimos tirar
00:08:35essa coisa do chão.
00:08:36Vou notar que não há nada como uma pista.
00:08:38É só grama reta.
00:08:39E, em vez disso, deveria ser como uma ilha.
00:08:42Embora, quando a câmera meio que buga,
00:08:45você consegue ver a pista lá embaixo por um segundo.
00:08:48Certo, estamos estolando e simplesmente,
00:08:50não conseguimos nem sair do chão, né?
00:08:51Então esse aqui está na verdade um pouco,
00:08:54está na verdade meio difícil.
00:08:55Então o que vou fazer é dar a ele
00:09:00um segundo prompt pedindo para facilitar um pouco
00:09:03o voo, porque tem muita coisa acontecendo aqui,
00:09:05mas isso é difícil.
00:09:06Então escrevi: é muito difícil de voar.
00:09:08Podemos facilitar o uso?
00:09:10Tipo, um pouco mais arcade.
00:09:12E os gráficos também poderiam melhorar.
00:09:15Vamos ver como ele se sai.
00:09:16Vale notar que o 5.5 levou cerca de sete minutos
00:09:21para criar aquela primeira versão para nós.
00:09:23E consumiu 63.000 tokens.
00:09:26Certo, ele disse que tornou um pouco mais fácil
00:09:28de voar e atualizou os gráficos.
00:09:29Então vamos ver como ficou a segunda versão.
00:09:32Então é isso que conseguimos.
00:09:32Os gráficos definitivamente parecem melhores,
00:09:34mas vamos ver se conseguimos sair da pista
00:09:36desta vez.
00:09:37Então, certo, potência em cem por cento,
00:09:4150, 60, sete.
00:09:43Qual é a velocidade de rotação de um Cessna?
00:09:46Certo, 70, 80, 90.
00:09:49Temos que conseguir sair do chão agora.
00:09:51Ok, caminho errado.
00:09:53Vamos lá, saia do chão, saia do chão.
00:09:56Não, isso provavelmente vai me fazer estolar, né?
00:09:58É, estol.
00:09:59Ok, isso ainda precisa de algum trabalho.
00:10:02Então vamos dar mais uma chance ao Codex.
00:10:05Vamos dar ao 5.5 mais uma chance
00:10:07para tornar isso realmente jogável.
00:10:08Então eu disse a ele que nem consigo tirar a aeronave
00:10:10do chão e iniciar o voo.
00:10:11Definitivamente precisamos facilitar a decolagem
00:10:12e o voo da coisa.
00:10:14Ok, então ele diz que consertou o problema da decolagem.
00:10:16Aparentemente os freios estavam travados antes.
00:10:19Não sei se foi por isso que não conseguimos fazer.
00:10:21Ah, ele não configurou automaticamente para decolar.
00:10:24Flaps, é, isso foi,
00:10:25nós estávamos em um modo super simulador.
00:10:29Mas aqui está a tentativa número três do nosso simulador de voo.
00:10:32Vamos ver como nos saímos.
00:10:34Então, conseguimos sair do chão?
00:10:36Oh, estamos quicando na pista
00:10:37desta vez.
00:10:38Certo, legal, estamos fora do chão.
00:10:41Estamos realmente nos movendo.
00:10:44Vamos ver se conseguimos entrar em um desses anéis.
00:10:45Quero dizer, os gráficos não são tão ruins, sabe,
00:10:49para algo gerado em menos de 10 minutos.
00:10:52Parece ser bem preciso em termos de, você sabe,
00:10:56ele está me dando minha vertical, sabe,
00:10:59pés por minuto lá embaixo,
00:11:00minha altitude real, nós, proa, AGL.
00:11:04Então é relativamente sofisticado
00:11:06em termos de rastrear tudo.
00:11:08Digo, esse pequeno indicador na frente,
00:11:10parece ser um indicador de ângulo de ataque, sabe,
00:11:13o que é bem legal.
00:11:14Então ele tem algumas coisas boas acontecendo.
00:11:18Os controles reais estão um pouco estranhos.
00:11:21Como você pode ver, eu não consigo controlar isso de jeito nenhum,
00:11:23mas no geral, não está ruim.
00:11:25Sabe, podemos meio que fazer um kamikaze com isso
00:11:27e ver o que acontece a, você sabe, 18.000 pés por minuto.
00:11:31Mas sim, você sabe, por 66.000 tokens,
00:11:36cerca de 10 minutos, 15 minutos mais ou menos,
00:11:40sabe, com o vai e vem,
00:11:41eu não acho nada ruim.
00:11:42Então agora vamos dar uma olhada no DeepSeek.
00:11:44Levou cerca de 10 minutos para fazer isso.
00:11:46E em termos de tokens, 63.000 e 44 centavos.
00:11:51Então 44 centavos, 10 minutos.
00:11:53E aqui está o que o DeepSeek inventou para nós.
00:11:56Não faço ideia.
00:12:00O que estou olhando.
00:12:03Isso deveria ser em terceira pessoa.
00:12:06Isso deveria ser a cabine.
00:12:07E obviamente nossa primeira versão com o DeepSeek
00:12:11foi outro desastre.
00:12:13Então estou dizendo ao DeepSeek que o simulador é uma bagunça completa.
00:12:16Os gráficos estão totalmente bugados
00:12:17e eu não consigo voar nada.
00:12:20Por favor, conserte.
00:12:21E aqui está como ficou nossa segunda versão.
00:12:24Eu ainda não faço ideia.
00:12:26Absolutamente nenhuma pista.
00:12:28O que raios é o DeepSeek.
00:12:30Ah, ei, tem um avião.
00:12:32Ah, tem alguma coisa.
00:12:33Eu, é, isso é, isso é brutal.
00:12:38E para ser honesto, sinto que mesmo dando outro prompt
00:12:42para fazer isso, eu precisaria começar a ser muito, muito específico
00:12:44sobre o que estamos tentando fazer, o que, novamente,
00:12:47fica bem aquém do que fizemos com o Codex.
00:12:49Tipo, foram prompts bem, você sabe, meio sem graça.
00:12:51Eu consegui pelo menos algo próximo,
00:12:53mesmo na primeira versão.
00:12:54Claramente está sofrendo completamente
00:12:57com os gráficos.
00:12:58Nós estamos apenas, eu nem sei como descrever isso,
00:13:01mas ei, foi super barato.
00:13:03Então agora vamos dar uma olhada no que o Claude Code
00:13:07foi capaz de nos dar como referência.
00:13:09Levou 13 minutos para realmente executar o plano.
00:13:12O plano em si levou cinco minutos.
00:13:13Então vamos chamar de 20 minutos para chegar à primeira versão.
00:13:17E então, para o total de tokens,
00:13:19esta execução levou cerca de 15% mais os 5% antes do plano.
00:13:22Então estamos olhando para, bem, desculpe,
00:13:24estamos olhando para 11% de contexto mais 5% antes.
00:13:28Então considere 20 minutos, 150.000 tokens para o Claude Code,
00:13:33que é definitivamente o mais caro
00:13:34e mais lento de todos eles.
00:13:36E aqui está a tentativa do Claude Code nisso.
00:13:39Por qualquer motivo, estamos instantaneamente no ar.
00:13:43Estamos estolando.
00:13:44Estamos em IFR.
00:13:45Não sei o que está acontecendo.
00:13:48Estamos prestes a bater em alguma coisa.
00:13:50Podemos salvar isso?
00:13:51Podemos tirar isso de um mergulho?
00:13:53Não, estamos estolando, não, estamos mortos.
00:13:54Ok, isso é interessante.
00:13:56Novamente, ele instantaneamente nos lança para o ar.
00:14:00Estamos nas nuvens.
00:14:02Estamos estolando.
00:14:03Não sei o que está acontecendo.
00:14:05Precisamos, precisamos de uma segunda versão.
00:14:08Então eu escrevi: ao carregar, sou instantaneamente lançado para o ar.
00:14:11É difícil de controlar.
00:14:12Quero começar na pista e quero que seja mais fácil de voar.
00:14:15Ah, e a propósito, melhore esses gráficos também.
00:14:17Então levou cerca de quatro minutos, mas fez algumas mudanças.
00:14:20Vamos spawnar na pista.
00:14:22Mudou o trem de pouso.
00:14:23Então agora é trem de pouso triciclo e algumas outras coisas.
00:14:24Então vamos ver como ficou.
00:14:26Certo, então aqui está.
00:14:27Novamente, somos jogados imediatamente em uma camada de neblina.
00:14:29Estou tentando controlar essa coisa.
00:14:31E eu simplesmente, é, não há como controlar isso de jeito nenhum.
00:14:33Certo, vamos dar,
00:14:34vamos dar ao Claude Code mais uma chance aqui.
00:14:37Então eu disse a ele que ele ainda está me lançando instantaneamente
00:14:39para o céu.
00:14:40Eu disse, vamos com uma sensação muito mais do tipo arcade
00:14:42com os controles.
00:14:43Acho que provavelmente deveríamos ter feito isso
00:14:44com os prompts iniciais para todos os três.
00:14:46Acho que optar por algo mais tipo simulador realista,
00:14:50realmente luta para,
00:14:53acho que fazer isso de uma maneira que ainda seja amigável ao usuário.
00:14:57Acho que provavelmente está fazendo um bom trabalho por baixo dos panos
00:14:59em termos de, tipo, ok, tipo, ângulo de ataque.
00:15:01Certo, você está estolando nisso, sabe,
00:15:02ângulo versus a velocidade e tudo mais.
00:15:04Mas na verdade manipular isso do computador
00:15:07é basicamente impossível.
00:15:09Embora eu ache que as coisas da neblina sejam muito estranhas.
00:15:12Então vamos ver se depois da segunda rodada de prompts
00:15:15ele consegue se sair um pouco melhor
00:15:16porque agora o GPT 5.5 se saiu muito, muito melhor.
00:15:20Então o Claude Code fez mais algumas mudanças,
00:15:22tornou mais amigável ao usuário.
00:15:23E vamos ver se ainda estou indo
00:15:24desta vez para a minha licença de instrumento.
00:15:26Então, sim, ainda estamos a ir.
00:15:28Ainda vamos para a licença de instrumento.
00:15:30Estamos no "men's" aqui, mas, sabe, eu consigo ver isso.
00:15:33Sabe, posso verificar o meu painel de instrumentos.
00:15:35Tudo bem, estamos a sair da pista.
00:15:37Sim, okay.
00:15:42Posso... porque é que há uma árvore na pista?
00:15:44Estou a tentar subir.
00:15:46Posso subir?
00:15:47Posso inclinar?
00:15:49Clique no "canvas" para bloquear o rato, quê?
00:15:53Oh, estamos no ar.
00:15:54Não, não, morremos.
00:15:57Portanto, sim, acho que esta é bastante clara.
00:16:02GPT 5.5, facilmente o vencedor, creio eu.
00:16:06O Claude Code ficou em segundo lugar.
00:16:08Eu dar-lhe-ia o segundo lugar.
00:16:10Sabe, definitivamente teve dificuldades
00:16:13mesmo com as instruções que lhe demos.
00:16:14Não lhe demos boas instruções, vamos ser totalmente honestos.
00:16:16Acho que com mais tempo, melhores instruções,
00:16:19algumas trocas de mensagens adicionais,
00:16:20poderíamos tê-lo levado para onde queríamos.
00:16:21Tipo, pelo menos tinha uma aeronave, tinha uma pista.
00:16:25Tinha árvores na pista,
00:16:26mas tinha as coisas reais de que precisávamos
00:16:29em comparação com o DeepSeek com o OpenCODE.
00:16:32Não fazia ideia do que se estava a passar ali.
00:16:34Aquilo foi uma confusão total.
00:16:35Sinto que teria de começar de novo
00:16:36desde o início, tipo, dar-lhe uma instrução muito específica.
00:16:38Tipo, nem sequer chegou perto de ser utilizável,
00:16:39mas o GPT 5.5 logo à partida, sabe,
00:16:42foram instruções bastante vagas.
00:16:44Achei que se saiu muito bem.
00:16:45O 5.5 também usou um total de 66 mil tokens.
00:16:48Estamos a olhar para isto aqui com o Opus no total,
00:16:52cerca de 200.000 tokens.
00:16:53Portanto, um quarto dos tokens, essencialmente um quarto do custo.
00:16:56E foi um pouco mais rápido.
00:16:58Quero dizer, a esta altura, nem me importa
00:16:59como o OpenCODE na verdade demorou mais tempo do que o GPT 5.5 também.
00:17:03E simplesmente foi uma porcaria, vamos ser honestos, foi uma porcaria.
00:17:07Agora vamos passar para o teste número dois.
00:17:10Desta vez vamos pedir-lhes
00:17:12para criar uma página inicial que mostre o trabalho de shaders WebGPU
00:17:16usando 3JS.
00:17:18Ora, o trabalho de shaders WebGPU é o tipo de coisas que vê
00:17:21em sites de prémios.
00:17:23Estou a falar de sites como o Igloo, este tipo de coisas,
00:17:26gráficos de alta qualidade.
00:17:28Parece um videojogo.
00:17:29É essencialmente usar a placa gráfica do seu computador
00:17:32para renderizar todas estas coisas.
00:17:34Agora, não espero que nenhum deles chegue a algo que se aproxime
00:17:37do que vemos aqui, mas quero ver o que conseguem fazer
00:17:40usando essencialmente a tecnologia de shaders.
00:17:42Isto é definitivamente um passo acima da sua página inicial
00:17:45básica de modelos SaaS.
00:17:46Quero ver o que conseguem fazer e levá-los
00:17:48aos limites no mundo do web design.
00:17:50Agora, dei a todos eles uma competência que decompõe
00:17:53como fazer este tipo de coisas.
00:17:55Portanto, não é como se estivessem completamente às escuras
00:17:57e nenhum deles tem uma vantagem sobre o outro.
00:18:00A única coisa que lhes disse é que quero que pareça moderno
00:18:02e visualmente marcante, algo que veria em prémios
00:18:05e que faça uso inteligente da computação GPU.
00:18:08Assim, podem escolher a pilha e a estrutura de projeto
00:18:10que quiserem e usar bom senso no conceito principal,
00:18:13UI e interações.
00:18:15E tal como no primeiro teste, estão todos em modo de planeamento.
00:18:17Vamos começar.
00:18:18Okay, então todos terminaram o seu plano e, curiosamente,
00:18:21nenhum deles me fez perguntas,
00:18:22mesmo tendo-os colocado em modo de planeamento.
00:18:24Vamos dar uma vista de olhos primeiro ao GPT 5.5.
00:18:28Portanto, está a dizer-nos que vai fazer um hero
00:18:30interativo impulsionado por GPU, de ecrã total.
00:18:32O conceito será um campo de sinais vivo
00:18:34com qualquer coisa como partículas densas que vai fazer.
00:18:36Veremos como isso acaba por ficar.
00:18:38E, no geral, é uma cópia de página inicial de estilo minimalista para prémios.
00:18:41Cena WebGPU totalmente interativa
00:18:43com simulação computacional reativa ao ponteiro.
00:18:46Tudo bem, para o DeepSeek é um plano bastante curto e direto,
00:18:50tal como vimos com o simulador de voo.
00:18:53Espero que consigamos um melhor resultado desta vez,
00:18:54mas uma secção principal com 75.000 partículas de computação GPU.
00:18:58Estou a adivinhar que todos eles vão optar
00:19:01por algum tipo de tema de partículas no hero.
00:19:04Portanto, terá interação com o rato, integração.
00:19:08Terá uma inicialização única.
00:19:10E depois deveríamos ver coisas como "bloom",
00:19:13aberração cromática, uma vinheta personalizada e algum grão de filme.
00:19:16Portanto, veremos como isso acaba por parecer.
00:19:19E depois temos o plano do Opus 4.7 novamente,
00:19:21optando por esta coisa de partículas com "bloom"
00:19:23e vai ser interativo com o rato.
00:19:25Vamos ver se algum deles parece realmente diferente
00:19:27porque, à superfície, todos os seus planos parecem muito semelhantes.
00:19:29Portanto, o primeiro a terminar foi o 5.5.
00:19:32Demorou cerca de seis minutos.
00:19:34E em termos de tokens, usámos 107 mil.
00:19:37Vamos ver o que construiu para nós.
00:19:40E aqui está o que criou para nós.
00:19:42Agora, isto é muito brilhante.
00:19:45Portanto, é difícil até ver as partículas reais,
00:19:47mas sabe, à medida que subimos e descemos,
00:19:50tem uma animação a acontecer no fundo
00:19:52bem como, sabe, algumas mudanças de cor subtis.
00:19:56Parece que agora o nosso rato é suposto
00:20:00atrair as partículas.
00:20:01E temos, vou mover isto para aqui.
00:20:03Deu algumas opções como repelir versus "drift".
00:20:08Mas, novamente, é difícil ver devido a quão brilhante é.
00:20:11Portanto, disse-lhe que é difícil ver realmente as partículas
00:20:12devido à luminosidade.
00:20:14Também assume muito da tecnologia do hero.
00:20:14Portanto, podemos diminuir um pouco a luminosidade
00:20:16e também empurrá-la um pouco mais para a direita?
00:20:18Porque agora é um pouco avassalador.
00:20:20Nem se consegue ler realmente o texto aqui à esquerda
00:20:23devido a quão incrivelmente brilhantes estas partículas são.
00:20:25E aqui está a atualização após a segunda execução.
00:20:27Está um pouco melhor.
00:20:30Não é tão avassalador e deixa algum espaço para o texto.
00:20:31Embora eu diga que é quase como se estivesse desfocado,
00:20:35mas sabe, não é mau.
00:20:39Tipo, propôs-se a fazer o que lhe dissemos para fazer
00:20:41dado o problema um pouco vago.
00:20:44Portanto, não estou deslumbrado com o design que criou,
00:20:46mas não estou chateado com isso.
00:20:49Agora vamos dar uma vista de olhos ao Claude Code
00:20:51porque enquanto temos estado a fazer tudo isto,
00:20:52o DeepSeek continua aqui nas trincheiras
00:20:55a tentar descobrir isto.
00:20:57E aqui está o que o Claude Code nos deu.
00:20:58Portanto, meio que nada.
00:21:01Não tenho a certeza se está a dizer que o fundo,
00:21:06suponho que todo o fundo é suposto ser
00:21:10o WebGL, assumo eu.
00:21:14É muito discreto,
00:21:19o que suponho que é algo que se pode fazer totalmente.
00:21:21Quero dizer, tipo no ecrã não parece,
00:21:24tipo, parece um pouco fixe, mas serei honesto,
00:21:25estava à procura de algo um pouco mais chamativo.
00:21:28Portanto, na segunda passagem,
00:21:31quando lhe disse para torná-lo um pouco mais chamativo,
00:21:31não houve uma grande diferença.
00:21:34Embora, tipo, seja realmente subtil.
00:21:35Existe meio que este grão de filme,
00:21:38quase como este desfoque que vai de baixo para cima.
00:21:40Portanto, é uma coisa bastante subtil.
00:21:43E pode ver aqui na parte inferior,
00:21:45rastreia tipo os fotogramas por segundo.
00:21:47Está a usar 250.000 partículas.
00:21:49Portanto, quero dizer, honestamente parece fixe.
00:21:51Simplesmente não é super chamativo.
00:21:54Portanto, é definitivamente uma questão de gosto.
00:21:56O total de tokens do lado do Claude Code foi cerca de 175.000,
00:21:58e demorou apenas um pouco mais do que o 5.5 dentro do Codex.
00:22:01Agora vamos dar uma vista de olhos ao DeepSeek,
00:22:05que já levou 116.000 tokens até agora.
00:22:07Também foi o que demorou mais tempo,
00:22:10mas custos totais, estamos a falar novamente, abaixo de um dólar.
00:22:12E aqui está o que nos deu.
00:22:15Portanto, é meio que esta coisa de campo de partículas
00:22:17que segue um pouco o meu rato.
00:22:21Interessante.
00:22:25Acho que pode dar um ataque epilético.
00:22:27Honestamente, para além disso, é bastante insípido.
00:22:29O fluxo, sabe, o raio-x aqui muda um pouco as cores,
00:22:35mas sim, praticamente apenas criou esta coisa.
00:22:39Depois de dizer ao DeepSeek para fazer outra passagem,
00:22:43voltou então com isto,
00:22:45onde agora tem meio que alguma coisa estranha de paralaxe.
00:22:46Tem umas coisas azuis a acontecer no fundo.
00:22:49E agora esta coisa que é como um OVNI,
00:22:53que meio que responde ao seu rato,
00:22:55mas sim, é alguma coisa.
00:22:58E no geral, a contagem de tokens do DeepSeek foi de 130 mil tokens
00:23:02chegando a 1,43 dólares.
00:23:05Portanto, após todos esses testes, onde é que isso nos deixa?
00:23:08Então agora vamos falar sobre os resultados finais.
00:23:13Quando se trata do teste número um,
00:23:15que foi o simulador de voo, vencedor claro.
00:23:16Esse foi o GPT 5.5 dentro do Codex.
00:23:18Foi mais rápido do que o Opus 4.7 dentro do Claude Code.
00:23:21Foi também mais rápido e o resultado final foi de longe o melhor.
00:23:25O DeepSeek portou-se terrivelmente no simulador de voo.
00:23:29Nem sequer chegou perto do que estávamos a tentar fazer.
00:23:32Teria de continuar a dar instruções,
00:23:34instruções, instruções para sequer chegar perto
00:23:35da primeira passagem do 5.5 e do Opus 4.7, e o Claude Code
00:23:38foi tipo, eh, não foi horrível.
00:23:43Tipo, realmente não funcionou no início,
00:23:46mas após algumas instruções, dava para perceber,
00:23:48que podíamos chegar a um ponto em que era equivalente
00:23:50conseguiríamos chegar a um ponto onde era equivalente
00:23:52ao que o GPT 5.5 estava fazendo.
00:23:54Isso teria exigido mais prompts.
00:23:55Teria levado mais tempo
00:23:57e, no fim das contas, seria mais caro.
00:23:59Portanto, vitória clara para o 5.5.
00:24:01Em termos da página de destino WebGPU,
00:24:03novamente, o DeepSeek teve dificuldades aqui.
00:24:04Eu não fui fã disso.
00:24:06Eu realmente não sei o que isso deveria ser.
00:24:08Claro, eu não dei um prompt super bom,
00:24:10mas tipo, é isso que vamos obter
00:24:13como resultado médio de referência?
00:24:16Se eu não tomar as rédeas do DeepSeek
00:24:19e realmente forçá-lo a fazer algo, acho que sim.
00:24:22Agora, quando comparamos o Opus e o 5.5,
00:24:24eu teria escolhido o Opus 4.7 e o Claude Code
00:24:27pela forma como lidou com a questão da WebGPU.
00:24:29Acho que isso tem a ver com uma questão de gosto.
00:24:31Sim, você poderia argumentar que o 5.5 era mais chamativo,
00:24:35mas eu achei que ficou meio feio.
00:24:37Mais uma vez, em todos esses testes, mantivemos os prompts bastante vagos
00:24:41para ver que tipo de caminho ele seguiria.
00:24:43Então, eu definitivamente daria a liderança ao Opus aqui,
00:24:46embora fosse mais caro
00:24:48e também levasse um pouco mais de tempo.
00:24:50Então, se eles recebessem um prompt mais prático
00:24:55que fosse bem específico sobre o que você queria fazer,
00:24:57o 5.5 fez o que queríamos que ele fizesse.
00:24:59Ele criou uma página de destino WebGPU.
00:25:02Eu só achei que ficou feia.
00:25:04Então, ele ainda concluiu a tarefa.
00:25:06Só não concluiu tão bem, eu acho, quanto o Opus.
00:25:08Agora, no panorama geral, o que isso significa
00:25:09se juntarmos tudo isso?
00:25:11Bem, acho que é uma ótima notícia
00:25:13para qualquer pessoa que esteja usando decodificadores de agentes.
00:25:16Temos opções, certo?
00:25:18Você pode usar Opus e Claude Code,
00:25:20ou pode usar GPT 5.5 e Codecs.
00:25:23Você não estará errado com nenhum dos dois.
00:25:25Acho que é totalmente uma preferência pessoal neste momento.
00:25:28E a melhor parte é que, se você seguir o caminho do Claude Code,
00:25:31tudo se aplica praticamente aos Codecs.
00:25:33Se você seguir o caminho dos Codecs,
00:25:34tudo se aplica praticamente ao Claude Code.
00:25:37Portanto, não acho que exista um bloqueio do fornecedor no sentido de,
00:25:40ah, eu só aprendi sobre o Claude Code.
00:25:42Eu não consigo ir para os Codecs ou vice-versa.
00:25:44Não é o caso de jeito nenhum.
00:25:45Se você está fazendo isso da maneira certa,
00:25:46o que você está realmente aprendendo são fundamentos de IA
00:25:48e como construir coisas.
00:25:49E isso se aplica a ambos.
00:25:51E quanto mais concorrência,
00:25:53melhor para nós, consumidores.
00:25:54Agora, quanto ao DeepSeek, é, não sei.
00:25:59Não fiquei muito impressionado.
00:26:00Talvez seja uma situação em que, ok,
00:26:02o DeepSeek faz sentido se estivermos realizando tarefas mais simples
00:26:04onde não precisamos do poder de algo como o Opus,
00:26:06ou simplesmente não precisamos do poder de algo como o GPT 5.5.
00:26:10Porque lembre-se, estamos falando de algo
00:26:11que é oito vezes mais barato.
00:26:13Claro, eu não gostei do que as páginas de destino WebGPU
00:26:16que ele criou ofereceram, mas será que foi oito vezes pior?
00:26:19Talvez, talvez não.
00:26:21É meio difícil articular e
00:26:23quantificar isso.
00:26:24Mas obviamente isso é algo que precisamos levar em conta.
00:26:27Então, sabe, eu não acho que seja realmente uma competição
00:26:30para ser franco, com o 4.7 ou 5.5.
00:26:33Acho que, no entanto, se você estiver fazendo tarefas mais simples
00:26:35e estiver muito consciente dos tokens, muito consciente do dinheiro,
00:26:38então ei, talvez o DeepSeek faça sentido para você.
00:26:41Então, é tudo o que tenho para vocês hoje.
00:26:42Espero que isso esclareça um pouco sobre esses três modelos
00:26:45e como eles se comparam uns aos outros.
00:26:47Acho que é um ótimo momento para estar neste espaço.
00:26:49Mais concorrência é melhor para todos.
00:26:51Então, como sempre, se você quiser colocar as mãos
00:26:53na Masterclass do Claude Code,
00:26:55certifique-se de conferir o Chase AI Plus.
00:26:56Há um link para isso na descrição.
00:26:58E nos vemos por aí.

Key Takeaway

Embora o DeepSeek V4 ofereça uma redução de custos de quase 8 vezes em relação aos modelos de fronteira, o GPT 5.5 dentro do ambiente Codecs entrega o equilíbrio superior entre velocidade, qualidade técnica e usabilidade para tarefas complexas de desenvolvimento.

Highlights

  • O GPT 5.5 custa US$ 30 por 1 milhão de tokens de saída, enquanto o DeepSeek V4 custa US$ 3,48 pelo mesmo volume.

  • No benchmark Terminal Bench 2.0, o GPT 5.5 atingiu 87,2 pontos, superando o desempenho do modelo Mythos da Anthropic.

  • O Opus 4.7 apresenta degradação significativa em contextos longos, com desempenho inferior ao DeepSeek e GPT 5.5 na faixa de 500 mil a 1 milhão de tokens.

  • Durante a criação de um simulador de voo, o GPT 5.5 dentro do Codecs completou a tarefa com maior sucesso operacional, enquanto o DeepSeek V4 falhou em produzir resultados utilizáveis.

  • O uso de agentes de IA para desenvolvimento de software não gera bloqueio de fornecedor (vendor lock-in), pois os fundamentos de construção de código são transferíveis entre Claude Code e Codecs.

Timeline

Comparativo de custos e benchmarks

  • A OpenAI precifica o GPT 5.5 em US$ 30 por milhão de tokens de saída, superando os US$ 25 da Anthropic e os US$ 3,48 do DeepSeek V4.
  • O DeepSeek V4 possui 1,6 trilhão de parâmetros, exigindo infraestrutura potente apesar do custo reduzido da API.
  • O Opus 4.7 domina os benchmarks SWE bench verified e pro, mas é superado pelo GPT 5.5 no Terminal Bench 2.0.

A análise inicial estabelece que, embora modelos de pesos abertos como o DeepSeek V4 rivalizem com modelos proprietários, o custo de hardware e a eficiência de tokens ainda favorecem as APIs de grande escala. Observou-se uma regressão inesperada nos modelos da Anthropic ao lidar com contextos extremos de 500 mil a 1 milhão de tokens, onde o GPT 5.5 e o DeepSeek V4 demonstraram maior robustez.

Teste prático: Simulador de voo 3JS

  • O GPT 5.5 (via Codecs) gerou um simulador funcional em 10 minutos com 66 mil tokens.
  • O DeepSeek V4 (via Open Code) apresentou falhas gráficas severas e não produziu um ambiente navegável.
  • O Claude Code (Opus 4.7) demorou 20 minutos e consumiu 150 mil tokens para atingir um resultado funcional.

O teste de um simulador de voo em 3JS revelou disparidades claras na capacidade de seguir instruções. O GPT 5.5 demonstrou a melhor capacidade de iteração após prompts de correção, enquanto o DeepSeek falhou em interpretar a necessidade de elementos básicos como pista e física de decolagem, tornando-se ineficaz para o usuário médio sem intervenções constantes.

Teste prático: Página de shaders WebGPU

  • O GPT 5.5 gerou uma cena funcional, porém com luminosidade excessiva que prejudicou a legibilidade do texto.
  • O Opus 4.7 produziu um design visualmente mais contido e refinado, sendo preferido pelo aspecto estético.
  • O DeepSeek V4 falhou em capturar a estética moderna pretendida, gerando artefatos visuais de baixa qualidade.

No segundo teste de design moderno para WebGPU, a disputa concentrou-se entre o GPT 5.5 e o Opus 4.7. Enquanto o GPT 5.5 entregou a funcionalidade técnica de forma rápida, o Opus demonstrou maior sensibilidade estética para elementos de design visualmente marcantes. O DeepSeek V4 permaneceu significativamente atrás, exigindo esforço contínuo para atingir um resultado aceitável.

Conclusões sobre o ecossistema de agentes

  • O GPT 5.5 consolidou-se como a ferramenta mais eficiente para tarefas complexas de codificação.
  • O DeepSeek V4 justifica seu uso apenas em tarefas simples onde a economia de tokens é a prioridade absoluta.
  • O domínio do Claude Code ou Codecs traduz-se em habilidades de IA fundamentais, eliminando riscos de dependência tecnológica.

A síntese final aponta que a concorrência entre Opus e GPT 5.5 beneficia o desenvolvedor final. As ferramentas são intercambiáveis do ponto de vista de fluxo de trabalho. O DeepSeek V4 atua como uma alternativa econômica viável para processos menos exigentes, mas não compete com a eficácia de raciocínio dos modelos de elite em cenários de alta complexidade.

Community Posts

View all posts