Atualizei o /grill-me e resolvi o Claude Code

CChase AI
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00O modo de planejamento não é suficiente. Habilidades como o "Grill Me" do Matt Pocock ou até mesmo
00:00:06camadas de orquestração maiores, como o GSD ou "superpoderes", tentam resolver o mesmo problema.
00:00:11Pegar aquela ideia vaga na sua cabeça e transformá-la em algo que o Claude Code
00:00:16possa realmente construir. Mas, não importa o caminho que você siga ou a habilidade que escolha,
00:00:21todos eles esbarram no mesmo problema. Você depende de um único modelo para planejar e construir,
00:00:26e também depende desse mesmo modelo para avaliar o seu próprio trabalho. Então, quando você pergunta
00:00:31ela vai dizer que foi ótimo, não importa o que você tenha feito. E isso é um problema, porque se você
00:00:35ele vai dizer que foi ótimo, não importa o que você tenha feito. E isso é um problema, porque se você
00:00:41Mas, neste vídeo, vou mostrar como corrigir isso. Vamos usar a skill
00:00:45Mas, neste vídeo, vou mostrar como corrigir isso. Vamos usar a habilidade "Grill Me" do Matt Pocock
00:00:51e adicionar uma revisão de código adversarial do Codex. Mas é uma revisão de código que vai
00:00:55muito além do plugin do Codex que você já viu antes. Essa revisão de código é iterativa.
00:01:00O Claude Code e o Codex vão conversar entre si em várias rodadas para chegar a um ponto em que
00:01:07ambas as ferramentas de IA líderes aprovem o seu plano. Assim, você pode se sentir confiante
00:01:12de que o que o Claude Code criou realmente faz sentido. Com essa habilidade, você poderá começar
00:01:18cada projeto com duas coisas: uma, um plano que você realmente entende, e duas, um plano que
00:01:23várias ferramentas de IA aprovaram. O que você vai receber hoje são duas habilidades minhas.
00:01:28E ambas são baseadas no que o Matt Pocock disponibiliza no repositório do GitHub dele.
00:01:35Ele tem duas habilidades: "Grill Me" e "Grill with Docs". As que vou te dar são "Grill Me Codex"
00:01:41e "Grill with Docs Codex". Então, o que está acontecendo? Bem, "Grill Me" e "Grill with Docs" são essencialmente
00:01:48um modo de planejamento turbinado. Assim como o GSD e os "superpoderes", eles dão um passo adiante.
00:01:53As perguntas feitas são mais profundas. Eles te darão um melhor entendimento do que você
00:01:57realmente está tentando construir, porque, quer você queira admitir ou não,
00:02:01você provavelmente tem dificuldade em articular o que deseja. E se não conseguir articular o que quer
00:02:07para o Claude Code no início, você terá muitas suposições da parte da IA, o que resultará em
00:02:12um produto medíocre. Então, "Grill Me" e "Grill with Docs" oferecem resultados melhores ao se aprofundar
00:02:19na fase de planejamento. O que minhas habilidades oferecem é uma segunda fase, onde, depois que você
00:02:24e o Claude Codex estiverem alinhados, o Codex chega e diz: "Ei, isso faz sentido, mas corrija aquilo".
00:02:28E então o Claude Code e o Codex dialogam. Acho isso importante porque recursos como "Grill Me",
00:02:34GSD e "superpoderes" identificaram essa lacuna entre você e o Claude Code,
00:02:38onde temos uma ideia, articulamos, discutimos e nos alinhamos. O "Grill Me" é perfeito para isso.
00:02:44O problema é: mesmo que você e o Claude Codex estejam alinhados, isso significa que estamos automaticamente
00:02:51no caminho para um código ideal, o que realmente deveria ser construído? Talvez sim, talvez não.
00:02:57Quem pode dizer? Provavelmente não você. Você é um engenheiro de software especialista? Talvez seja,
00:03:03mas eu chutaria que a maioria que está assistindo a isto não se enquadra nisso.
00:03:08Coisas como as do Matt Pocock são ótimas, são habilidades para engenheiros de verdade.
00:03:13Você é um engenheiro de verdade? Provavelmente não. Se não for, cairá no problema de
00:03:19nem conseguir avaliar o que o Claude Codex escreveu? Mesmo que estejam alinhados,
00:03:23pode ser um lixo ou algo incrível, quem sabe? E o outro problema é que você não pode julgar,
00:03:28e nem o Claude Codex, porque o Claude Codex, e isso é algo que a própria Anthropic disse,
00:03:34é muito gentil e fala muito bem do código que escreveu. Você pede ao Claude Codex para julgar
00:03:40o que ele escreveu e ele responde: "Ah, sim, excelente, nota 10". Então, ele é um narrador
00:03:46e um avaliador confiável nesse caso? Não, não é. Então, se você não sabe o que está acontecendo
00:03:50e não podemos confiar no Claude Codex, onde isso nos deixa? Temos essa lacuna,
00:03:56essa lacuna entre o Claude Code e o "código ideal". Então a solução óbvia é:
00:04:02vamos trazer uma terceira parte, uma parte neutra para dar uma olhada no nosso plano. Entra o Codex.
00:04:09E essa revisão do Codex é o que adicionei às habilidades do Pocock, o que vou te dar hoje.
00:04:16A primeira metade é exatamente igual ao "Grill Me". Perguntas e respostas, montamos esse plano
00:04:21juntos, tudo organizado. E assim que temos o plano definitivo, bem, o Codex entra em cena,
00:04:27vê o que o Claude Codex criou e diz: "Isso parece bom, isso parece ruim, o que você acha?"
00:04:32O Claude Code analisa e responde: "Ah, faz sentido, vamos consertar isso, aqui está o que fiz, dê uma olhada
00:04:36de novo, Codex". Eles passam por um ciclo de - bom, o máximo são cinco rodadas,
00:04:41mas você pode editar isso facilmente - e é mais iterativo. A ideia é que, se eles conversarem
00:04:48o suficiente, eventualmente chegaremos a um ponto, quem sabe antes de cinco rodadas, onde ambos dirão:
00:04:52"Ei, aprovado, pode seguir". Então, o que estou te dando hoje
00:04:57serve para preencher essa lacuna entre o Claude Code e o código ideal,
00:05:01que você e eu teríamos dificuldade em identificar, já que não somos engenheiros de software especialistas
00:05:09e o Claude Code não é totalmente confiável para isso. Então, é isso que estamos cobrindo. Todos alinhados.
00:05:16Mas, antes de irmos para a demonstração, uma palavra rápida do patrocinador de hoje: eu mesmo.
00:05:21Como você sabe, o Chase AI Plus é a casa da minha masterclass sobre o Claude Code.
00:05:28É a melhor maneira de ir do zero ao desenvolvedor de IA, especialmente se você não vem
00:05:33de uma formação técnica. Focamos em casos de uso reais.
00:05:37Recentemente, adicionei a masterclass de Claude OS também. Então, se você quer
00:05:42aprender a integrar ferramentas como o Obsidian e criar um centro de comando completo, este é o seu lugar.
00:05:49Você pode encontrar um link no comentário fixado. Para a demonstração de hoje,
00:05:54vamos adicionar uma nova página ao nosso site. Este é o site da minha agência de IA.
00:05:59A nova página dará acesso a algumas habilidades exclusivas. Para ter acesso,
00:06:05ao clicar, os usuários terão que adicionar o e-mail. Então, é um acesso limitado; nós capturamos o e-mail
00:06:11e então eles têm acesso ao que podem baixar. Esse e-mail precisa ser tratado pelo nosso banco de dados,
00:06:16que já existe. Então, não estamos criando uma funcionalidade do zero; ele precisa analisar o código
00:06:22que já existe e torná-lo coerente. Então, este é o comando que dou ao Claude Code: "Execute o Grill Me Codex".
00:06:27Quero adicionar uma barreira de captura de e-mail ao site que desbloqueia a habilidade de Claude Code do Grill Me Codex.
00:06:32Se o visitante cair em uma página onde o download da habilidade está desfocado atrás de uma sobreposição,
00:06:38ele digita o e-mail para desbloquear e o e-mail é armazenado. E então, dei a ele contexto adicional.
00:06:42A primeira parte será a habilidade "Grill Me". É a mesma do Matt Pocock, aquela em que estamos nos baseando.
00:06:49Então essa parte é igual. E, depois de passar por todas as perguntas, o Codex entrará em ação.
00:06:56Depois de analisar a base de código, ele me faz a primeira pergunta:
00:07:00quão real é essa trava em relação ao desfoque?
00:07:03É cosmético ou será realmente imposto?
00:07:07E, assim como no "Grill Me", sempre que ele faz uma pergunta e dá opções,
00:07:11ele também dá sua recomendação e o motivo. Para esta, será apenas cosmético.
00:07:16É uma habilidade gratuita. O objetivo aqui é apenas capturar o e-mail. Então vamos dizer que cosmético é bom.
00:07:21O arquivo já é gratuito mesmo. A seguir, ele pergunta sobre onde os ativos ficarão
00:07:25e qual o formato. Novamente, para esta demo, vou apenas com a opção recomendada.
00:07:30E não vou mostrar o restante das perguntas, porque este não é um vídeo sobre o "Grill Me".
00:07:36Saiba apenas que, se você nunca viu antes, essa é a cadência geral.
00:07:40Ele faz uma série de perguntas, dá possíveis respostas e uma recomendação.
00:07:44Muito parecido com o modo de planejamento, só que turbinado.
00:07:48Como pode ver aqui, passamos por 10 perguntas no "Grill Me",
00:07:51e então transicionamos para a parte do Codex. A parte do Codex cria dois arquivos markdown para nós.
00:07:56Temos o "plan.md" e o "plan review log.md". O "plan.md" é a fonte da verdade
00:08:02para o que vamos criar. Este é o nosso resultado final. O "plan review log.md" é onde
00:08:10o Claude Code e o Codex vão debater. O Codex analisa o "plan.md" original
00:08:16e olha para tudo o que o Claude Code criou. É no "plan review log" que o Codex dirá:
00:08:21"Ei, isso está ruim, isso não está...", etc. Isso também nos dá um registro de todo o debate.
00:08:28No final desse vai-e-vem, teremos um "plan.md" atualizado.
00:08:33O "plan.md" é o resultado final, tudo será construído a partir dele. O "plan review log"
00:08:38é onde o debate acontece e a mágica é feita. Outra nota durante essa revisão adversarial é que,
00:08:46embora seja headless, ainda damos ao Codex o ID da sessão. Então ele não começa do zero.
00:08:52Ele tem memória de todo o diálogo com o Claude Code. Podemos ver aqui que, na rodada 1,
00:08:59o Codex encontrou 11 problemas. Também podemos ver que o Claude Code atualizou o "plan.md"
00:09:05com base nas descobertas que ele aceitou como válidas. Na rodada 2, ele encontrou mais quatro problemas.
00:09:12Passamos de 11 para quatro. E, novamente, o plano foi atualizado. Aqui na rodada 3,
00:09:18vemos que o veredito é "aprovado". É neste ponto que o Codex e o Claude Code
00:09:25estão na mesma página. O Codex ainda apontou algumas coisas, mas são detalhes de baixo nível.
00:09:31Então não são bloqueadores. Isso é reiterado no final,
00:09:35onde diz que está aprovado na rodada 3 de 5, nos mostra como é o plano final,
00:09:40e o que os dois atos nos proporcionaram. Especificamente no segundo ato,
00:09:45pegamos falhas reais de segurança e correção. Havia problemas de limite de habilidade do cliente,
00:09:50bypass de desduplicação sensível a maiúsculas, links de e-mail relativos,
00:09:56vetor de bombardeio de listas brutas e limite de taxa de varredura de tabela.
00:10:01E na segunda rodada, ele pegou as falsas correções.
00:10:06Na rodada 1, o Codex disse: "Ei, aqui estão os problemas". O Claude Code tentou consertar,
00:10:12e na segunda iteração, o Codex disse: "Essas não são correções reais".
00:10:18Ele notou que o double opt-in não estava conectado, o índice de expressão de desduplicação
00:10:24que o Supabase JS não pode atingir, e o "await" antes da resposta que ainda bloqueava o desbloqueio
00:10:30foi movido para depois. Foram apenas três rodadas, mas isso economiza muito tempo
00:10:38em comparação com a execução do primeiro plano que o Claude Code criou e todo o processo de solução de problemas.
00:10:44No final, ele também levanta alguns itens em aberto, principalmente como a migração SQL e tudo mais.
00:10:49Mas isso também é o Claude Code sendo preguiçoso, pois ele pode fazer isso sozinho.
00:10:54De volta ao site, no topo, temos a habilidade gratuita. Eu clico nela. Agora ele está
00:10:58pedindo meu e-mail. E pronto. Agora tenho a habilidade aqui que posso baixar em um arquivo .zip.
00:11:08Obviamente, na realidade, o que eu realmente gostaria de fazer? Bem, provavelmente gostaria que o texto e
00:11:12tudo o mais combinassem com o resto do site, mas você pode ver que ele criou o que nos propusemos a fazer.
00:11:18O objetivo deste vídeo não era a demonstração específica, mas apenas mostrar essa habilidade em ação.
00:11:23Sobre como obter essas habilidades você mesmo, vou colocá-las no comentário fixado para facilitar para você.
00:11:27Mas, além disso, é basicamente tudo que tenho. Coisas que você precisa saber:
00:11:31estamos usando o Codex. Então, você precisará de uma conta da OpenAI.
00:11:35Você precisará do Codex baixado, o que é relativamente simples de fazer.
00:11:39E não há motivo para precisar de algo além do plano de $20 por mês da OpenAI para tirar muito proveito disso.
00:11:45Este sistema que criamos também é algo que você poderia facilmente trocar por algum modelo local.
00:11:50Então, se você pensar: "Ei, não quero pagar $20 por mês para a OpenAI. Prefiro usar algo como o DeepSeek
00:11:55ou qualquer modelo local ou mais barato", é muito fácil de fazer. A estrutura está lá.
00:12:00Eu apenas pegaria a habilidade que criei, traria para dentro do Claude Code e diria: "Ei, podemos trocar o Codex por [insira o modelo que você está tentando usar]?"
00:12:07É realmente muito, muito flexível. Então há muito que você pode fazer com isso.
00:12:12Acho que a base disso faz muito sentido para aqueles de nós que não nos consideramos
00:12:16codificadores especialistas que podem olhar rápida e eficientemente para o que o Claude Code fez e dizer:
00:12:22"Isso faz sentido, isso não". Simplesmente não está ao alcance de muitas pessoas,
00:12:26nem precisa estar. Francamente, temos ferramentas que podem fazer isso por nós. Então, como sempre,
00:12:32deixe-me saber o que você achou. Certifique-se de conferir o Chase AI Plus se quiser colocar as mãos
00:12:35na Masterclass de Claude Code,
00:12:37e nos vemos por aí.

Key Takeaway

A implementação de um fluxo de revisão adversarial entre o Claude Code e o Codex, através das novas habilidades 'Grill Me Codex' e 'Grill with Docs Codex', corrige a tendência do Claude Code de aprovar excessivamente o próprio código, resultando em planos de desenvolvimento mais seguros e validados.

Highlights

  • A automação do processo de revisão de código, integrando o Claude Code com o Codex da OpenAI, reduz a dependência da avaliação do próprio modelo.

  • O fluxo iterativo do 'Grill Me Codex' permite até cinco rodadas de diálogo automático entre IA e Codex para validar planos de desenvolvimento antes da escrita do código.

  • A revisão adversarial do Codex identifica falhas críticas de segurança e lógica, como bypass de desduplicação e problemas de limite de taxa, que o Claude Code ignora ao atuar sozinho.

  • O sistema utiliza dois arquivos principais: 'plan.md' como fonte da verdade e 'plan review log.md' para o histórico detalhado dos debates técnicos entre as IAs.

  • A estrutura da ferramenta permite a substituição do Codex por modelos locais ou alternativos, como o DeepSeek, mantendo a mesma lógica de orquestração.

Timeline

O problema da autoavaliação em modelos de IA

  • Ferramentas de planejamento como 'Grill Me' e 'superpoderes' falham ao depender do mesmo modelo para criar e avaliar o código.
  • O Claude Code tende a ser excessivamente gentil e otimista ao avaliar o próprio trabalho, atribuindo notas altas mesmo a implementações medíocres.
  • A lacuna entre o código produzido pelo Claude Code e o 'código ideal' exige uma terceira parte neutra para auditoria técnica.

O planejamento inicial é necessário, mas insuficiente sem uma camada de validação independente. Como a maioria dos usuários não possui expertise técnica para auditar o que a IA gera, a introdução de uma revisão externa é fundamental para garantir a qualidade. O Codex atua como essa autoridade neutra que audita o plano original em busca de falhas.

Fluxo iterativo e revisão adversarial

  • O processo utiliza um ciclo iterativo de até cinco rodadas de comunicação entre o Claude Code e o Codex.
  • O Codex mantém o contexto do ID da sessão, permitindo que a IA aprenda e corrija erros apontados nas rodadas anteriores.
  • O sistema gera automaticamente um registro de revisão (plan review log.md) que detalha as falhas identificadas e as correções propostas pelo modelo.

Após a fase de planejamento inicial, o Codex analisa o 'plan.md' em busca de inconsistências. Se o plano não é aprovado imediatamente, o Claude Code ajusta as recomendações e devolve para reavaliação. Esse diálogo adversarial permite filtrar erros técnicos, como problemas de segurança em banco de dados ou falhas em chamadas de API, antes mesmo do início da implementação real.

Implementação técnica e flexibilidade

  • A revisão revelou erros reais, como problemas de limite de habilidade do cliente e bypass de desduplicação, que foram corrigidos antes do código ser gerado.
  • O uso desta solução requer uma conta da OpenAI para acessar o Codex, mas a arquitetura é agnóstica em relação ao modelo.
  • Qualquer modelo local ou mais barato, como o DeepSeek, pode substituir o Codex na estrutura de orquestração definida.

A demonstração prática ilustrou a criação de uma barreira de captura de e-mail em um site, onde o sistema identificou e corrigiu falhas lógicas em tempo real. A flexibilidade do sistema permite que o usuário altere a configuração para reduzir custos ou integrar modelos de código aberto, mantendo a eficácia da verificação independente.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video