A OpenAI está Vencendo... (Opus 4.6 + Codex 5.3)

BBetter Stack
Computing/SoftwareBusiness NewsVideo & Computer GamesInternet Technology

Transcript

00:00:00A Anthropic acaba de lançar o Claude Opus 4.6, que alcançou a maior pontuação no Terminal Bench 2.0 entre todos os modelos.
00:00:06Desculpe interromper a sua programação por aqui,
00:00:10mas acontece que o GPT 5.3 codecs acaba de sair e ele supera o Opus 4.6 no Terminal Bench em mais de 10%.
00:00:16Parece que o reinado da Anthropic durou apenas alguns minutos. A disputa entre os dois está realmente esquentando.
00:00:23Estou muito curioso para ver as novidades desses modelos e descobrir qual deles parece melhor de usar, já que, ultimamente,
00:00:29tenho achado o GPT 5.2 superior.
00:00:31Quero ver se o Claude consegue recuperar a vantagem ou se a OpenAI já estava pronta com o GPT 5.3 codecs.
00:00:37Primeiro, um resumo rápido das novidades, já que todos sabemos que eles serão melhores que as versões anteriores nos benchmarks.
00:00:48Vou mostrar os resultados no final, mas o que realmente mudou nos modelos além disso?
00:00:52Bem, quanto ao Opus,
00:00:53eles afirmam que ele consegue planejar com mais cautela, manter tarefas de agentes por mais tempo e operar com mais confiabilidade em bases de código maiores,
00:01:00com melhores habilidades de revisão e depuração para detectar seus próprios erros.
00:01:02Esses eram justamente alguns dos pontos fracos do Opus em comparação ao GPT 5.2. Na minha experiência,
00:01:08ele costumava começar a programar mais rápido, mas acabava cometendo um pouco mais de erros.
00:01:12Já o GPT 5.2 demorava um pouco mais para começar, mas entendia melhor o contexto do repositório.
00:01:17Espero que essas mudanças melhorem o Opus, que também deve ser beneficiado por sua nova janela de contexto total de
00:01:231 milhão de tokens.
00:01:24Embora mencionem que isso está em beta e, assim como em outros provedores,
00:01:27haverá um custo extra: prompts acima de 200 mil tokens custarão US$ 10 por milhão de tokens de entrada e
00:01:33US$ 37,50 por milhão de tokens de saída. Passando para o codecs 5.3,
00:01:38a OpenAI afirma que este modelo avança a fronteira de codificação do GPT 5.2 codecs e as capacidades de raciocínio
00:01:45e conhecimento profissional do GPT 5.2 em um só modelo, que também é 25% mais rápido.
00:01:51Isso deve permitir que ele realize tarefas de longa duração que envolvam pesquisa, uso de ferramentas e execuções complexas.
00:01:57Parece que focaram em torná-lo um modelo versátil, com o conhecimento do GPT 5.2 e codificação aprimorada.
00:02:03Mas tudo isso é papo de marketing.
00:02:05Então, vamos colocar esses modelos em testes reais. O primeiro que tentei foi atualizar um pacote de agente do Convex para suportar o AI
00:02:11SDK v6. Tenho gostado muito do Convex como banco de dados ultimamente e esse pacote basicamente ajuda a ligar o AI SDK ao banco,
00:02:19proporcionando um ótimo desempenho, mas o problema é que ele não estava atualizado para a versão mais recente.
00:02:23Como vocês podem ver na documentação, a migração da v5 para a v6 não é nada simples.
00:02:28Eles fizeram muitas mudanças drásticas e alteraram diversos tipos.
00:02:32O que eu fiz foi criar um app de chat básico no Convex que funcionava usando o pacote do agente.
00:02:36Aí, atualizei os pacotes para a v6 e me deparei com um monte de erros de compilação e de tipagem.
00:02:40Simplesmente pedi aos modelos para corrigi-los. Aqui está o prompt que usei no codecs.
00:02:44Eu disse: "Estou criando um app de chat com o Convex e tinha uma versão funcional,
00:02:46mas atualizei para a v6 e preciso corrigir os erros de tipo e compilação".
00:02:50Passei o guia de migração para servir de contexto e disse que queria todos os testes
00:02:55passando, evitando gambiarras de TypeScript como "as any" sempre que possível, pois vejo muito os modelos fazendo isso.
00:02:59Especifiquei isso porque o AI SDK agora tem tipos bem complexos.
00:03:03Já que estamos no codecs, vejamos como o 5.3 se saiu. Ele começou
00:03:09entendendo o repositório; notou que era um monorepo com aquela pasta de agentes, identificou as
00:03:15causas raiz e os pacotes que precisavam de atualização, e listou exatamente como iria trabalhar na tarefa. Depois disso,
00:03:22começou a codar, fazendo alterações, rodando a build de vez em quando e focando em
00:03:27corrigir todos os erros de tipagem. No total, ele rodou por cerca de 40 minutos sem interrupções,
00:03:32o que me impressionou muito. Ele adicionou
00:03:35545 linhas de código e removeu 111. No Claude Code,
00:03:39dei o mesmo projeto e usei o exato mesmo prompt. Ele também trabalhou na tarefa por cerca de 40
00:03:44minutos, mas apresentou alguns erros de build quando tentei iniciá-lo.
00:03:48Tive que enviar mais um prompt para o Opus finalmente me entregar uma versão funcional do código.
00:03:53Mas, novamente, foi uma experiência bem parecida com a que vimos no codecs.
00:03:56Uma coisa que preciso dizer: eu gosto muito da interface do codecs. Prefiro ela a uma interface de terminal, sinto muito.
00:04:02De qualquer forma, confirmo que, após um comando no codecs 5.3 e dois no Opus 4.6,
00:04:06ambos conseguiram atualizar o pacote do agente para a nova versão do AI SDK, sem erros de tipo,
00:04:11sem erros de build e com todos os testes passando. Mas eles lidaram com isso de formas diferentes.
00:04:16Aqui tenho o codecs à esquerda e as mudanças que o Opus fez à direita.
00:04:19Dá para ver que o Opus fez um pouco mais de alterações no projeto do que o codecs.
00:04:23Eles abordaram algumas funcionalidades de formas distintas.
00:04:25Algo que o codecs fez muito bem foi incluir esta lógica de solicitação de aprovação de ferramenta.
00:04:30Isso era uma novidade no AI SDK v6. Não consegui achar menção a isso no Opus.
00:04:35Parece que ele simplesmente ignorou e não adicionou ao código.
00:04:40Mas algo que achei que o codecs fez mal foi, nas mensagens da interface, ele criou
00:04:46uma função própria para converter uma mensagem de interface em uma mensagem de modelo.
00:04:50Para quem não sabe, o AI SDK já tem uma função pronta para isso, e ele com certeza deveria tê-la usado.
00:04:57Dá para ver na comparação que o Opus fez isso corretamente.
00:05:00Ele usou a função "convert to model messages" que já vem no AI SDK.
00:05:04Isso significa que, se atualizarem esse pacote no futuro,
00:05:07não precisarei me preocupar em alterar minha própria versão, pois estarei usando a oficial
00:05:13do pacote.
00:05:14Isso foi um pouco irritante e um sinal de alerta para mim ao revisar o código.
00:05:19Para ter uma segunda opinião na minha revisão,
00:05:20coloquei o código de volta no codecs 5.3 e pedi para ele revisar comigo. Ele listou
00:05:26as vantagens e desvantagens de cada abordagem.
00:05:29No final, ele deu uma conclusão: o próprio codecs 5.3 preferiu a versão de chat do Opus, citando uma melhor arquitetura
00:05:36de migração. Se tivesse que escolher uma base para lançar com segurança,
00:05:39ele escolheria o chat do Opus e depois traria o tratamento de aprovação e negação do codecs.
00:05:43Ou seja, aquela função extra de aprovação de ferramenta.
00:05:46Ele sugeriu pegar isso da versão do codecs e adicionar à do Opus para ter uma migração melhor.
00:05:51É bom ver que o codecs 5.3 não é enviesado e não escolheu a si mesmo.
00:05:55Mas admito que o modo como ambos lidaram com a migração foi bem similar, e eu poderia guiá-los na direção certa
00:06:01com prompts, mas um teste só não basta.
00:06:03Para o próximo teste, algo menos sério: pedi para ambos criarem um clone do Club Penguin
00:06:08usando Three.js. Não vou dizer qual é qual, mas este foi o primeiro jogo que recebemos.
00:06:13Aqui temos a criação do pinguim e vemos o avatar mudando lá em cima.
00:06:17Posso colocar chapéus: de festa, de hélice, uma coroa...
00:06:21Vou escolher o de hélice e clicar em jogar. Se você conhece o Club Penguin,
00:06:26diria que ele fez um trabalho razoável imitando o centro da cidade, embora a pizzaria não esteja aqui.
00:06:32Geralmente tem uma discoteca por aqui, e você não consegue entrar em nenhum prédio.
00:06:35Dá para ver que nada disso é sólido ainda.
00:06:37Mas o que ele fez bem foi o mapa: podemos ir para diferentes zonas.
00:06:41Aqui é a vila de esqui. Se eu clicar e me mover,
00:06:44acho que meu pinguim ficou legal para algo feito em Three.js sem nenhum recurso pronto.
00:06:49Ele fez tudo com base no treinamento. Podemos até entrar e jogar a corrida de trenó,
00:06:54que era minha favorita no Club Penguin. Faltam algumas coisas,
00:06:59admito, mas foi um ótimo primeiro passo em um único prompt.
00:07:04Posso confirmar que esta versão até tentou fazer o jogo de surfe no carrinho,
00:07:07outra favorita minha, mas parece um pouco quebrado.
00:07:11Você só vai de um lado para o outro e agora acho que caí do mapa. Ficou tudo escuro.
00:07:15Este foi o resultado do outro modelo. Quero que vocês coloquem nos comentários
00:07:18qual modelo acham que fez um trabalho melhor e se conseguem adivinhar qual fez cada versão.
00:07:22Vou contar no final deste teste. Vejam que nesta versão
00:07:25temos os mesmos seletores de cores que estavam no prompt.
00:07:27Também temos chapéus e acessórios. Vou escolher a coroa e clicar em começar a explorar.
00:07:31O pinguim está um pouco mais gordinho nesta versão. É mais engraçado, mas, de novo, não dei nenhum arquivo pronto.
00:07:36Tudo do zero em Three.js.
00:07:38Tem o mesmo problema de atravessar os prédios,
00:07:41mas temos o mapa e todas as diferentes zonas.
00:07:44Se eu for para a vila de esqui,
00:07:46devo conseguir jogar. Posso correr de trenó aqui e, para ser sincero,
00:07:50é bem parecido com a outra versão da corrida de trenó que vimos.
00:07:53Vemos algumas árvores surgindo ao longe.
00:07:56Temos três vidas e o contador realmente funciona.
00:07:58Mas parece que não dá para pular nesta versão.
00:08:01Este modelo também entregou uma versão do surfe no carrinho,
00:08:04mas, novamente, está um pouco estranha.
00:08:06Embora eu ache que esteja mais funcional, pois dá para ver as coisas e pular, mas...
00:08:11não sei onde estou surfando. Não tem trilho e, no geral, não é o jogo que eu lembro
00:08:17do Club Penguin. No entanto,
00:08:19sempre me impressiono com o que esses modelos fazem em um único prompt, especialmente com Three.js. Se estão curiosos,
00:08:25o primeiro era o Opus 4.6 e o segundo o codecs 5.3, e eu pessoalmente prefiro o primeiro.
00:08:30Então, o Opus 4.6 vence no teste do Club Penguin. O teste final
00:08:34foi para ver o quão bons eles são em design de interface, algo em que os modelos estão melhorando muito.
00:08:38Pedi para ambos criarem uma landing page para uma rede social exclusiva para IAs.
00:08:42Algo estilo "Molt Book", com um tom sarcástico, enfatizando o futuro e o uso exclusivo por IAs, tudo em um único
00:08:49arquivo HTML. Este foi o resultado e, confesso, o codecs me impressionou muito aqui.
00:08:55Temos o codecs 5.3 à esquerda e o Opus 4.6 à direita. Gostei muito da estética que o codecs
00:09:005.3 escolheu.
00:09:01Ele seguiu um estilo neobrutalista, o que é mais divertido do que outros sites com aquele visual padrão.
00:09:06O Opus 4.6, embora tenha um bom design, parece um app genérico com visual moderno. Está bem feito,
00:09:13eu admito, mas
00:09:14esses gradientes roxos gritam que foram gerados automaticamente, enquanto o codecs
00:09:205.3 parece ter tido um toque mais manual, talvez por ter sido instigado a seguir essa direção,
00:09:25mesmo eu tendo usado o mesmo prompt.
00:09:27A única coisa que o Opus 4.6 fez melhor foi deixar a página um pouco mais funcional.
00:09:32Vemos uma aba de tendências aqui, regras, modelos de destaque da semana,
00:09:36subreddits populares e um feed. Já o do codecs 5.3 está mais vazio,
00:09:41temos apenas essa aba de tendências e só.
00:09:44Estou curioso para ver como eles pontuam na Design Arena, pois acabaram de sair
00:09:47e ainda não foram ranqueados. No momento, o GLM 4.7 é o líder.
00:09:51Quero ver se o codecs 5.3 ou o Opus 4.6 conseguem esse título. No geral,
00:09:55ambos são muito capazes e é difícil dizer qual será o melhor.
00:09:59Pessoalmente, tendo a preferir o codecs 5.3,
00:10:03pelo app e pela experiência geral que tive com modelos da OpenAI. Comparando
00:10:09os benchmarks, o codecs tem uma vantagem enorme no Terminal Bench 2.0,
00:10:15o que é um salto incrível. Basicamente, é o único benchmark comparável no momento, pois não acho que
00:10:21a Anthropic esperava o lançamento desse modelo da OpenAI agora, e eles não usam os mesmos benchmarks nos blogs.
00:10:28Verifiquei no Artificial Analysis e, até agora, só avaliaram o Opus 4.6 para código, e apenas a versão sem raciocínio.
00:10:35Mas é impressionante que a versão sem raciocínio do 4.6 tenha o mesmo desempenho que a versão com raciocínio do 4.5
00:10:42Opus. Minha sensação atual é que a evolução do Opus 4.5 para o 4.6 é mais tímida que a do codecs 5.2 para o 5.3.
00:10:49Mas vou precisar usar ambos no mundo real para ver como se comportam.
00:10:53Há alguns extras finais nesses lançamentos.
00:10:55Um dos mais legais é que ambos parecem ter melhorado em cibersegurança, com a OpenAI dizendo que o GPT
00:11:015.3 codecs é o primeiro modelo classificado como de alta capacidade para tarefas de segurança e o primeiro treinado para identificar
00:11:09vulnerabilidades de software. A Anthropic diz basicamente o mesmo. Um recurso do codecs que espero gostar muito
00:11:16é a possibilidade de guiá-lo enquanto ele trabalha. Eles dizem que, em vez de esperar o resultado final,
00:11:21você pode interagir em tempo real, fazendo perguntas e discutindo abordagens para direcionar a solução.
00:11:27Acho essa abordagem melhor, pois sempre fico na dúvida se deixo o modelo terminar ou
00:11:32se interrompo o que ele está fazendo quando quero propor mudanças.
00:11:35Com tarefas que agora podem durar bastante tempo,
00:11:40isso vai melhorar muito a experiência do usuário. Poderemos conversar com ele durante o processo.
00:11:44Por fim, temos novidades para o Claude também. A primeira é o Claude Code.
00:11:48Agora é possível usar times de agentes para trabalhar juntos, os chamados subagentes. O Richard fez um vídeo sobre isso esta semana,
00:11:55vale conferir. Também há recursos novos na API, como uma função de compactação
00:12:01nativa para resumir o contexto e realizar tarefas mais longas.
00:12:06E há também um novo modo de pensamento adaptativo.
00:12:08Basicamente, o modelo usa pistas contextuais para decidir o quanto deve usar seu raciocínio estendido.
00:12:13E pronto! Os modelos de programação avançaram demais.
00:12:16Para quem não sabe, não faz nem um ano que o Claude Code foi lançado.
00:12:20Me digam o que acham desses modelos nos comentários, aproveitem para se inscrever e, como sempre, até a próxima!
00:12:31(música animada)

Key Takeaway

A OpenAI retomou a liderança em benchmarks de codificação com o GPT 5.3 Codecs, mas o Claude Opus 4.6 continua oferecendo uma qualidade de código superior em termos de arquitetura e criatividade visual.

Highlights

Lançamento simultâneo do Claude Opus 4.6 (Anthropic) e do GPT 5.3 Codecs (OpenAI).

GPT 5.3 Codecs superou o Opus 4.6 no benchmark Terminal Bench 2.0 por uma margem de 10%.

Opus 4.6 agora oferece uma janela de contexto de 1 milhão de tokens e melhorias em tarefas de longa duração.

O GPT 5.3 Codecs é 25% mais rápido e integra raciocínio avançado com capacidades profissionais em um único modelo.

Testes práticos mostraram que ambos os modelos conseguem realizar migrações complexas de código (AI SDK v6) com sucesso.

O Opus 4.6 demonstrou superioridade na criação de jogos 3D (Club Penguin) e arquitetura de código mais limpa.

Novos recursos de cibersegurança foram implementados para identificar vulnerabilidades de software de forma proativa.

Timeline

A Batalha dos Benchmarks: Opus 4.6 vs GPT 5.3 Codecs

O vídeo começa destacando o lançamento quase simultâneo dos novos modelos da Anthropic e da OpenAI. Inicialmente, o Claude Opus 4.6 assumiu a liderança no Terminal Bench 2.0, mas foi rapidamente superado pelo GPT 5.3 Codecs em mais de 10%. O narrador expressa sua curiosidade em testar as melhorias, já que considerava a versão anterior da OpenAI, o GPT 5.2, superior em uso prático. Esta introdução estabelece o clima de competição acirrada entre as duas gigantes da inteligência artificial. O foco aqui é mostrar como o reinado de um modelo pode durar apenas alguns minutos no cenário tecnológico atual.

Novidades Técnicas: Contexto e Planejamento

Nesta seção, o analista detalha as mudanças técnicas anunciadas pelas empresas para além dos números de benchmark. O Claude Opus 4.6 foca em planejamento cauteloso, maior confiabilidade em agentes e uma janela de contexto massiva de 1 milhão de tokens. Já o GPT 5.3 Codecs destaca-se pela velocidade 25% superior e pela fusão de conhecimento profissional com habilidades de codificação avançadas. O narrador menciona os custos associados aos prompts longos no Claude, que podem chegar a US$ 37,50 por milhão de tokens de saída. O objetivo destas atualizações é permitir tarefas de longa duração que envolvem pesquisa e uso complexo de ferramentas.

Teste de Codificação Real: Migração para AI SDK v6

O primeiro teste prático envolve a migração de um pacote de agente do Convex para a versão 6 do AI SDK, um desafio repleto de erros de tipagem. O GPT 5.3 Codecs impressionou ao rodar por 40 minutos ininterruptos, identificando a estrutura do monorepo e corrigindo centenas de linhas de código. O Claude Opus 4.6 exigiu um prompt adicional para entregar uma versão funcional, mas ambos conseguiram resolver o problema sem recorrer a "gambiarras" de TypeScript. Curiosamente, ao pedir uma revisão, o próprio modelo da OpenAI preferiu a arquitetura de código gerada pelo Claude. Este segmento demonstra que a interface e a autonomia dos modelos estão evoluindo para níveis de engenharia real.

Criatividade e Interface: Club Penguin e Landing Pages

O vídeo passa para testes menos formais, solicitando a criação de um clone do jogo Club Penguin em Three.js e uma landing page neobrutalista. No teste do jogo, o Opus 4.6 venceu por criar um avatar de pinguim visualmente mais agradável e uma mecânica de corrida de trenó superior. No design de interface, o GPT 5.3 Codecs brilhou com uma estética inovadora que fugiu do visual genérico de gradientes gerados por IA. Embora o Claude tenha entregue uma página mais funcional com feeds e abas, a OpenAI mostrou mais personalidade no estilo visual. O narrador destaca que ambos os modelos estão elevando o nível do que é possível fazer com um único comando textual.

Cibersegurança e Conclusões Finais

Na conclusão, o analista compara os dados do Artificial Analysis e menciona os avanços significativos em cibersegurança, onde o GPT 5.3 Codecs é pioneiro na detecção de vulnerabilidades. Um recurso promissor da OpenAI é a capacidade de interagir com o modelo e guiá-lo em tempo real durante tarefas longas, sem precisar interromper o processo. A Anthropic responde com o Claude Code, que agora utiliza subagentes e compactação nativa de contexto para otimizar a API. O vídeo encerra reforçando que, em menos de um ano de progresso, as IAs de programação atingiram um patamar extraordinário. O narrador convida o público a compartilhar suas preferências entre as duas ferramentas líderes de mercado.

Community Posts

View all posts