O novo melhor modelo chegou (GPT-5.4)

BBetter Stack
Computing/SoftwareSmall Business/StartupsBusiness NewsInternet Technology

Transcript

00:00:00Podem zerar o contador de “dias sem novidades”, porque temos um novo melhor modelo.
00:00:03Desta vez é o GPT 5.4 e eu estive testando ele, então aqui está o que você precisa saber,
00:00:07além dos prós e contras, em 5 minutos e 40 segundos.
00:00:11Aqui estão os pontos principais.
00:00:17O GPT 5.4 é melhor em trabalho intelectual e buscas na web, e possui capacidades nativas de uso do computador.
00:00:22Há um novo recurso de busca de ferramentas que explicarei logo, e ele pode ser guiado durante a resposta.
00:00:26Existe um novo modo rápido e ele também possui uma janela de contexto de 1 milhão de tokens.
00:00:30Pelo visto, o objetivo com o 5.4 era combinar as capacidades de codificação do Codex 5.3 com o conhecimento,
00:00:34busca na web e habilidades profissionais do GPT 5.2 para tornar o 5.4 o modelo completo e multifuncional.
00:00:40E, de acordo com os benchmarks de terceiros da Artificial Analysis, eles realmente alcançaram
00:00:41esse objetivo.
00:00:45Ele é classificado como o melhor modelo de codificação, o melhor modelo de agentes e também empata com
00:00:46o Gemini como o melhor modelo de inteligência.
00:00:49Se focarmos no que achei ser o ponto mais interessante, foi o uso nativo do computador.
00:00:51A OpenAI aparentemente o projetou como seu primeiro modelo de uso geral com capacidades integradas
00:00:55de uso do computador, então ele deve ser excelente em escrever código para operar máquinas via bibliotecas como
00:00:56o Playwright, além de emitir comandos de mouse e teclado em resposta a capturas de tela.
00:01:00Eles lançaram uma habilidade experimental de Playwright, então eu fiz um teste.
00:01:04No Codex, usando o 5.4 e raciocínio avançado, dei um comando para criar uma experiência 3D interativa
00:01:08da Tower Bridge em Londres.
00:01:12Também usei a nova habilidade, além de uma habilidade de geração de imagens para que ele pudesse gerar seus próprios
00:01:16recursos para usar como texturas.
00:01:18A experiência em si foi bem parecida com o Codex 5.3, que até agora era meu modelo
00:01:22favorito.
00:01:24Após cerca de 20 minutos trabalhando na tarefa, foi quando ele começou a usar a
00:01:29nova habilidade de Playwright, e a experiência foi muito boa.
00:01:30Ele abria o navegador, clicava, navegava pela cena, identificava problemas visuais
00:01:33que precisava corrigir, como este fundo que não se misturava à cena, e então voltava
00:01:37para o código, corrigia e repetia o processo, e tudo parecia muito fluido e natural.
00:01:41A primeira iteração deste projeto levou cerca de 30 minutos para ser concluída, tudo a partir
00:01:45daquele único comando, e depois enviei alguns acompanhamentos pedindo mais detalhes e
00:01:50alguns ajustes, como barcos que estavam de lado e a estrada atravessando outras texturas, e ele
00:01:54simplesmente partiu para o trabalho por uns 30 minutos em cada comando, abrindo
00:01:58o Chrome, verificando e fazendo mudanças, entregando esta versão final em cerca de uma hora
00:02:03e meia de trabalho e 3 comandos. Não está perfeito, de forma alguma, mas para um
00:02:07desenvolvimento totalmente automatizado, não acho que esteja nada mal, e para mim este modelo é uma
00:02:11atualização óbvia para quem já gosta do Codex 5.3.
00:02:16Achei engraçado que, após umas 2 horas de uso, ele me avisou
00:02:20que eu poderia ter economizado uma hora do meu tempo se tivesse mudado para o novo modo rápido.
00:02:24Este é exatamente o mesmo modelo, com a mesma inteligência e experiência, ele apenas entrega
00:02:27uma velocidade de tokens até 1.5x maior porque é cobrado o dobro do uso, então é essencialmente
00:02:31apenas uma camada de prioridade e não um modelo diferente.
00:02:35Outro ponto que achei particularmente interessante neste lançamento foi a busca de ferramentas.
00:02:41Isso resolve o problema de ter todas as definições de ferramentas carregadas no prompt do sistema
00:02:44antecipadamente; se você tem muitas ferramentas e muitos servidores MCP, acaba desperdiçando tokens
00:02:48e causando um inchaço no contexto que pode impactar a qualidade da resposta.
00:02:52Agora, com o GPT 5.4, o prompt tem uma lista leve de ferramentas disponíveis e o modelo possui
00:02:56uma capacidade de busca; quando o modelo precisa de uma ferramenta, ele pode simplesmente procurar
00:03:00a definição dela e anexá-la à conversa no momento exato em que for necessária.
00:03:05A OpenAI afirma que isso reduz o uso de tokens em até 47% e demonstrou isso em um benchmark
00:03:09com 36 servidores MCP, onde manteve a mesma precisão.
00:03:13Além desses novos recursos, este modelo é focado em melhorar as ferramentas,
00:03:18tanto em como o modelo as utiliza quanto em quando ele escolhe usá-las, e
00:03:22isso rendeu frutos nos benchmarks. Mas, para ser sincero, não há muito mais a
00:03:26relatar além de que, sim, o novo modelo é melhor que o anterior.
00:03:30Acho que dá para resumir os prós como: ele é mais inteligente, roda por mais tempo e
00:03:34usa melhor as ferramentas, o que significa que pode concluir tarefas mais difíceis que o modelo passado.
00:03:38Sim, novidade para todos: este modelo é melhor que a versão anterior, mas agora vamos falar sobre
00:03:42alguns dos contras.
00:03:47O mais perceptível para mim foi a velocidade.
00:03:51Embora eu goste que meus modelos pensem um pouco mais, às vezes parece que o GPT 5.4
00:03:52exagera nisso, ou talvez ele seja apenas lento no processo de raciocínio, e eu definitivamente
00:03:54não sou o único a notar isso.
00:03:59Os resultados da Artificial Analysis mostraram que o GPT 5.4 leva mais tempo para retornar um
00:04:04token por uma margem bem grande, e o mesmo vale para o tempo até retornar os primeiros 500 tokens.
00:04:05Não tenho certeza se é um problema do modelo ou do provedor no momento, então talvez
00:04:09isso melhore com o tempo, mas uma visão mais pessimista é que ele é mais lento para que você use
00:04:14o novo modo rápido.
00:04:15Outro contra é o aumento de preço para quem utiliza a API.
00:04:19O modelo base custa US$ 2,50 por milhão de tokens de entrada e US$ 15 por milhão de tokens de saída,
00:04:24mas o modelo Pro é bem caro.
00:04:26Ele custa US$ 30 por milhão de tokens de entrada e US$ 180 por milhão de tokens de saída e, o que é
00:04:29pior, se você quiser aproveitar a nova janela de contexto de 1 milhão de tokens, qualquer entrada
00:04:34além de 272.000 tokens será cobrada pelo dobro da taxa normal.
00:04:37Então, eu talvez considerasse compactar seu contexto por enquanto.
00:04:43O último contra é o design da interface e, embora este seja um pouco subjetivo, eu pedi ao
00:04:47Opus 4.6 e ao GPT 5.4 um site para um café e acho que prefiro o Opus aqui, embora nenhum
00:04:52dos dois tenha me impressionado de verdade.
00:04:55Acho que o principal problema que tenho com o GPT 5.4 e outros modelos GPT
00:04:59é que todos parecem ter uma interface muito parecida.
00:05:05Parece que ele adora esse tipo de interface com cartões translúcidos e, claro, adora um degradê.
00:05:07E obviamente este foi apenas um teste que fiz, mas no Design Arena este modelo não está
00:05:11muito bem ranqueado, então é algo em que a OpenAI não está tão forte no momento.
00:05:14No geral, porém, devo dizer que usarei este modelo no dia a dia, pois sou fã do Codex, mas estou curioso
00:05:19para saber o que vocês acham.
00:05:23Qual é o seu modelo de preferência?
00:05:27Deixe seu comentário aqui embaixo, aproveite para se inscrever e, como sempre, a gente se vê
00:05:32no próximo vídeo.
00:05:33Qual é o seu modelo de preferência?
00:05:34Conte para mim nos comentários abaixo, aproveite para se inscrever e, como sempre, nos vemos
00:05:37no próximo vídeo.

Key Takeaway

O GPT 5.4 consolida-se como um modelo multifuncional superior em codificação e automação, introduzindo o uso nativo do computador, apesar de enfrentar desafios em velocidade e custos de API.

Highlights

Lançamento do GPT 5.4 com foco em trabalho intelectual, buscas na web e capacidades nativas de uso do computador.

Introdução da busca de ferramentas sob demanda, reduzindo o uso de tokens em até 47% ao evitar o inchaço do contexto.

Inclusão de um novo 'Modo Rápido' que oferece velocidade 1.5x maior, embora com custo dobrado.

Janela de contexto expandida para 1 milhão de tokens, com taxas de precificação variadas para uso intensivo.

Desempenho de ponta em benchmarks de codificação e agentes, empatando com o Gemini em inteligência geral.

Críticas focadas na lentidão do raciocínio e no design de interface excessivamente padronizado com degradês e transparências.

Timeline

Introdução e Visão Geral do GPT 5.4

O vídeo começa anunciando a chegada do GPT 5.4 como o novo líder em modelos de inteligência artificial. O narrador destaca que o objetivo desta versão foi unir o poder de codificação do Codex 5.3 com a versatilidade profissional do GPT 5.2. Benchmarks da Artificial Analysis confirmam que o modelo atingiu o topo em categorias como codificação e agencialidade. Além disso, são mencionados recursos como a janela de contexto de 1 milhão de tokens e o novo modo de raciocínio avançado. Esta introdução estabelece o GPT 5.4 como uma ferramenta completa e multifuncional para profissionais.

Capacidades Nativas de Uso do Computador

Nesta seção, o foco recai sobre a habilidade do modelo de operar máquinas diretamente via comandos de mouse, teclado e bibliotecas como o Playwright. O autor demonstra um teste prático criando uma experiência 3D da Tower Bridge, onde o modelo gerou texturas e corrigiu falhas visuais de forma autônoma. O GPT 5.4 demonstrou ser capaz de abrir o navegador Chrome, identificar erros em capturas de tela e ajustar o código em ciclos iterativos. O processo levou cerca de uma hora e meia e exigiu apenas três comandos humanos para chegar ao resultado final. Isso demonstra um avanço significativo na automação de desenvolvimento ponta a ponta.

Modo Rápido e Eficiência de Ferramentas

O narrador explica o funcionamento do novo 'Modo Rápido', que prioriza o processamento para entregar tokens 1.5x mais rápido mediante um custo adicional. Um dos avanços técnicos mais importantes discutidos é a nova funcionalidade de busca de ferramentas, que resolve o problema de prompts saturados. Em vez de carregar todas as definições de ferramentas no início, o modelo busca e anexa apenas o que precisa no momento exato. Dados da OpenAI indicam que essa abordagem reduz o consumo de tokens em quase metade, mantendo a precisão em servidores MCP. Esta otimização é crucial para manter a qualidade da resposta em fluxos de trabalho complexos.

Análise de Pontos Negativos e Desempenho

Apesar das melhorias, o vídeo aborda contras significativos, começando pela lentidão perceptível no tempo de resposta do primeiro token. O autor levanta a hipótese de que a lentidão pode ser uma estratégia para incentivar o uso do modo pago mais caro. A estrutura de preços da API também é criticada, especialmente o custo de US$ 180 por milhão de tokens de saída no modelo Pro. Há um aviso importante sobre a janela de contexto: exceder 272.000 tokens resulta em cobrança dobrada, o que exige cautela dos desenvolvedores. Essas barreiras financeiras e de latência podem limitar a adoção em larga escala por usuários casuais.

Interface, Comparação e Conclusão

A parte final do vídeo discute a estética do modelo, comparando-o com o Opus 4.6 na criação de um site para café. O narrador critica a preferência da OpenAI por interfaces com cartões translúcidos e degradês, que podem parecer repetitivas e menos inspiradas. O GPT 5.4 não performou tão bem no Design Arena, indicando que a parte visual ainda não é seu ponto forte. No encerramento, o autor reafirma sua intenção de usar o modelo diariamente por ser fã da linha Codex. Ele termina interagindo com o público, perguntando qual é o modelo de preferência dos espectadores e incentivando a inscrição no canal.

Community Posts

View all posts