00:00:00Podem zerar o contador de “dias sem novidades”, porque temos um novo melhor modelo.
00:00:03Desta vez é o GPT 5.4 e eu estive testando ele, então aqui está o que você precisa saber,
00:00:07além dos prós e contras, em 5 minutos e 40 segundos.
00:00:11Aqui estão os pontos principais.
00:00:17O GPT 5.4 é melhor em trabalho intelectual e buscas na web, e possui capacidades nativas de uso do computador.
00:00:22Há um novo recurso de busca de ferramentas que explicarei logo, e ele pode ser guiado durante a resposta.
00:00:26Existe um novo modo rápido e ele também possui uma janela de contexto de 1 milhão de tokens.
00:00:30Pelo visto, o objetivo com o 5.4 era combinar as capacidades de codificação do Codex 5.3 com o conhecimento,
00:00:34busca na web e habilidades profissionais do GPT 5.2 para tornar o 5.4 o modelo completo e multifuncional.
00:00:40E, de acordo com os benchmarks de terceiros da Artificial Analysis, eles realmente alcançaram
00:00:41esse objetivo.
00:00:45Ele é classificado como o melhor modelo de codificação, o melhor modelo de agentes e também empata com
00:00:46o Gemini como o melhor modelo de inteligência.
00:00:49Se focarmos no que achei ser o ponto mais interessante, foi o uso nativo do computador.
00:00:51A OpenAI aparentemente o projetou como seu primeiro modelo de uso geral com capacidades integradas
00:00:55de uso do computador, então ele deve ser excelente em escrever código para operar máquinas via bibliotecas como
00:00:56o Playwright, além de emitir comandos de mouse e teclado em resposta a capturas de tela.
00:01:00Eles lançaram uma habilidade experimental de Playwright, então eu fiz um teste.
00:01:04No Codex, usando o 5.4 e raciocínio avançado, dei um comando para criar uma experiência 3D interativa
00:01:08da Tower Bridge em Londres.
00:01:12Também usei a nova habilidade, além de uma habilidade de geração de imagens para que ele pudesse gerar seus próprios
00:01:16recursos para usar como texturas.
00:01:18A experiência em si foi bem parecida com o Codex 5.3, que até agora era meu modelo
00:01:22favorito.
00:01:24Após cerca de 20 minutos trabalhando na tarefa, foi quando ele começou a usar a
00:01:29nova habilidade de Playwright, e a experiência foi muito boa.
00:01:30Ele abria o navegador, clicava, navegava pela cena, identificava problemas visuais
00:01:33que precisava corrigir, como este fundo que não se misturava à cena, e então voltava
00:01:37para o código, corrigia e repetia o processo, e tudo parecia muito fluido e natural.
00:01:41A primeira iteração deste projeto levou cerca de 30 minutos para ser concluída, tudo a partir
00:01:45daquele único comando, e depois enviei alguns acompanhamentos pedindo mais detalhes e
00:01:50alguns ajustes, como barcos que estavam de lado e a estrada atravessando outras texturas, e ele
00:01:54simplesmente partiu para o trabalho por uns 30 minutos em cada comando, abrindo
00:01:58o Chrome, verificando e fazendo mudanças, entregando esta versão final em cerca de uma hora
00:02:03e meia de trabalho e 3 comandos. Não está perfeito, de forma alguma, mas para um
00:02:07desenvolvimento totalmente automatizado, não acho que esteja nada mal, e para mim este modelo é uma
00:02:11atualização óbvia para quem já gosta do Codex 5.3.
00:02:16Achei engraçado que, após umas 2 horas de uso, ele me avisou
00:02:20que eu poderia ter economizado uma hora do meu tempo se tivesse mudado para o novo modo rápido.
00:02:24Este é exatamente o mesmo modelo, com a mesma inteligência e experiência, ele apenas entrega
00:02:27uma velocidade de tokens até 1.5x maior porque é cobrado o dobro do uso, então é essencialmente
00:02:31apenas uma camada de prioridade e não um modelo diferente.
00:02:35Outro ponto que achei particularmente interessante neste lançamento foi a busca de ferramentas.
00:02:41Isso resolve o problema de ter todas as definições de ferramentas carregadas no prompt do sistema
00:02:44antecipadamente; se você tem muitas ferramentas e muitos servidores MCP, acaba desperdiçando tokens
00:02:48e causando um inchaço no contexto que pode impactar a qualidade da resposta.
00:02:52Agora, com o GPT 5.4, o prompt tem uma lista leve de ferramentas disponíveis e o modelo possui
00:02:56uma capacidade de busca; quando o modelo precisa de uma ferramenta, ele pode simplesmente procurar
00:03:00a definição dela e anexá-la à conversa no momento exato em que for necessária.
00:03:05A OpenAI afirma que isso reduz o uso de tokens em até 47% e demonstrou isso em um benchmark
00:03:09com 36 servidores MCP, onde manteve a mesma precisão.
00:03:13Além desses novos recursos, este modelo é focado em melhorar as ferramentas,
00:03:18tanto em como o modelo as utiliza quanto em quando ele escolhe usá-las, e
00:03:22isso rendeu frutos nos benchmarks. Mas, para ser sincero, não há muito mais a
00:03:26relatar além de que, sim, o novo modelo é melhor que o anterior.
00:03:30Acho que dá para resumir os prós como: ele é mais inteligente, roda por mais tempo e
00:03:34usa melhor as ferramentas, o que significa que pode concluir tarefas mais difíceis que o modelo passado.
00:03:38Sim, novidade para todos: este modelo é melhor que a versão anterior, mas agora vamos falar sobre
00:03:42alguns dos contras.
00:03:47O mais perceptível para mim foi a velocidade.
00:03:51Embora eu goste que meus modelos pensem um pouco mais, às vezes parece que o GPT 5.4
00:03:52exagera nisso, ou talvez ele seja apenas lento no processo de raciocínio, e eu definitivamente
00:03:54não sou o único a notar isso.
00:03:59Os resultados da Artificial Analysis mostraram que o GPT 5.4 leva mais tempo para retornar um
00:04:04token por uma margem bem grande, e o mesmo vale para o tempo até retornar os primeiros 500 tokens.
00:04:05Não tenho certeza se é um problema do modelo ou do provedor no momento, então talvez
00:04:09isso melhore com o tempo, mas uma visão mais pessimista é que ele é mais lento para que você use
00:04:14o novo modo rápido.
00:04:15Outro contra é o aumento de preço para quem utiliza a API.
00:04:19O modelo base custa US$ 2,50 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída,
00:04:24mas o modelo Pro é bem caro.
00:04:26Ele custa US$ 30 por milhão de tokens de entrada e US$ 180 por milhão de tokens de saída e, o que é
00:04:29pior, se você quiser aproveitar a nova janela de contexto de 1 milhão de tokens, qualquer entrada
00:04:34além de 272.000 tokens será cobrada pelo dobro da taxa normal.
00:04:37Então, eu talvez considerasse compactar seu contexto por enquanto.
00:04:43O último contra é o design da interface e, embora este seja um pouco subjetivo, eu pedi ao
00:04:47Opus 4.6 e ao GPT 5.4 um site para um café e acho que prefiro o Opus aqui, embora nenhum
00:04:52dos dois tenha me impressionado de verdade.
00:04:55Acho que o principal problema que tenho com o GPT 5.4 e outros modelos GPT
00:04:59é que todos parecem ter uma interface muito parecida.
00:05:05Parece que ele adora esse tipo de interface com cartões translúcidos e, claro, adora um degradê.
00:05:07E obviamente este foi apenas um teste que fiz, mas no Design Arena este modelo não está
00:05:11muito bem ranqueado, então é algo em que a OpenAI não está tão forte no momento.
00:05:14No geral, porém, devo dizer que usarei este modelo no dia a dia, pois sou fã do Codex, mas estou curioso
00:05:19para saber o que vocês acham.
00:05:23Qual é o seu modelo de preferência?
00:05:27Deixe seu comentário aqui embaixo, aproveite para se inscrever e, como sempre, a gente se vê
00:05:32no próximo vídeo.
00:05:33Qual é o seu modelo de preferência?
00:05:34Conte para mim nos comentários abaixo, aproveite para se inscrever e, como sempre, nos vemos
00:05:37no próximo vídeo.