00:00:00Se você gosta de economizar dinheiro ou simplesmente odeia o modo como os LLMs falam, esta dica é para você.
00:00:03É uma nova habilidade em alta chamada "Caveman" e ela promete cortar até 75% dos tokens
00:00:07de saída, mantendo total precisão técnica.
00:00:10Tudo graças às sábias palavras de Kevin.
00:00:12Por que perder tempo?
00:00:13Falar muita palavra quando pouca palavra resolve.
00:00:16Isso funciona no Claude, Codex e em qualquer lugar, transformando suas saídas de respostas cheias de enrolação
00:00:20e longas demais para ler em um resumo prático com a mesma precisão técnica, e ainda é
00:00:24customizável e tem extras como modo Wenyan, commits concisos, revisões de código de uma linha e uma
00:00:29ferramenta de compressão de entrada.
00:00:30Pode parecer um pouco louco no início, mas existe até ciência por trás disso, então vamos direto
00:00:34ao ponto e dar uma olhada.
00:00:40Eu estava testando isso no Claude Code mais cedo com um app demo em Next.js que na verdade
00:00:44tem um sistema de autenticação falso e eu apenas perguntei: "pode explicar como o auth está implementado
00:00:48neste app?".
00:00:49Aqui está o Claude Code normal sem a habilidade instalada; veja que ele logo começa
00:00:53com palavras de preenchimento dizendo que este é um sistema de autenticação simulado.
00:00:56Temos o travessão que diz: sem backend, sem senhas, sem segurança real, existe apenas para demonstrar
00:01:00o rastreamento de usuários do Better Stack RUM.
00:01:03Depois disso, ele continua explicando os arquivos principais e como funciona, e tudo está
00:01:06em um inglês perfeitamente legível.
00:01:08Se fizermos a mesma pergunta, mas desta vez usando a habilidade Caveman, veja que ele vai
00:01:11direto ao ponto e é muito mais conciso.
00:01:13A primeira frase é: apenas demo, auth no lado do cliente, sem segurança real, feito para
00:01:17demos de rastreamento RUM do Better Stack.
00:01:18Não tem nenhuma daquelas palavras de preenchimento, travessões ou algo do tipo.
00:01:21Ele não precisa formar uma frase gramaticalmente correta, ele apenas informa os dados técnicos
00:01:25imediatamente.
00:01:26O mesmo vale para a seção de como funciona, o fluxo e os pontos de integração.
00:01:29Você pode ver aqui que em vez de dizer como isso funciona em uma frase comum,
00:01:33apenas diz: carga do app, e então tem uma seta para verificar o local storage pelo usuário salvo.
00:01:36Então é muito mais conciso e, honestamente, é o que me importa.
00:01:39Eu não ligo se está em linguagem natural, eu só queria a informação técnica.
00:01:43...
00:01:44Essa concisão é o motivo principal de eu gostar da habilidade, mas o outro ponto de venda
00:01:47é que isso reduz os tokens de saída e, teoricamente, você pode
00:01:51aproveitar mais sua assinatura do Claude Code ou economizar em tokens de API.
00:01:55Mas acho que tem um pequeno detalhe aqui.
00:01:57Este é o resultado de um teste comparativo que fiz mais cedo, comparando a resposta padrão
00:02:00do Claude Code contra uma resposta curta, onde eu literalmente peço para ser conciso,
00:02:04versus o uso da habilidade Caveman.
00:02:07Isso foi feito com 10 prompts simples, como "qual a diferença entre git rebase e git merge".
00:02:11Como podem ver, os resultados são bem positivos.
00:02:14Ao usar a habilidade Caveman contra o padrão, temos uma redução de 45% nos tokens
00:02:18de saída e de 39% comparado a apenas pedir para ser conciso ao Claude Code.
00:02:22Isso obviamente se reflete no custo, haverá uma economia de 45%
00:02:26nos tokens de saída; o padrão custa cerca de 8 centavos e o Caveman cerca de
00:02:314 centavos.
00:02:32Então tudo parece muito bom inicialmente.
00:02:34Onde as coisas ficam mais interessantes, porém, é quando fatoramos o custo dos tokens
00:02:37de entrada.
00:02:38Obviamente, agora que usamos o Caveman, estamos carregando um arquivo markdown que
00:02:41tem muito mais texto do que nossos prompts de uma única frase. No padrão, onde apenas
00:02:45enviamos aquela frase, custa frações de centavo, mas com a nossa habilidade, veja que
00:02:49sobe para cerca de 4 centavos.
00:02:50Se combinarmos os custos de entrada e saída, verá que, em média, o Caveman
00:02:54é 10% mais caro que o padrão, porque a economia que fizemos nos tokens
00:02:58de saída foi perdida nos tokens de entrada.
00:03:01Mas isso não significa que o Caveman seja prejuízo, e isso porque isso só é verdade em
00:03:04cenários muito específicos.
00:03:05Só é verdade se enviarmos um único prompt pequeno e não fizermos perguntas de acompanhamento.
00:03:10Se você começar a fazer mais perguntas, você entra no preço de cache de prompt e, quando
00:03:14fazemos isso, a situação vira a favor do Caveman e passamos a ter uma economia
00:03:19de custo de 39%.
00:03:20Entramos em um detalhe técnico aqui, mas isso prova que há lógica em usar
00:03:23o Caveman, e isso antes de considerarmos outra possível vantagem, que é o fato de
00:03:27um estudo deste ano mostrar que restringir modelos grandes a respostas breves melhorou a precisão
00:03:31em 26% em certos benchmarks.
00:03:34Então talvez o Kevin fosse o esperto afinal, e você seria esperto em se inscrever.
00:03:38Você pode testar essa habilidade usando o pacote de skills da Vercel e rodando um
00:03:41comando como este, e aqui podemos ver o que ele está pedindo para o agente fazer.
00:03:45Temos regras como: remover artigos como o, a, um; remover palavras de preenchimento, remover gentilezas,
00:03:49remover hesitações.
00:03:50Também temos: use sinônimos curtos; use "grande" em vez de "extenso" e diga "corrigir"
00:03:54em vez de "implementar uma solução para", e também temos o que manter: termos técnicos,
00:03:58blocos de código e erros.
00:04:00Depois disso, temos o padrão de como deve ser estruturado: devemos ter
00:04:03o objeto, a ação, o motivo e o próximo passo.
00:04:05Tudo bem conciso.
00:04:07Existem até modos de intensidade para mudar o quão "homem das cavernas" ele fica.
00:04:10Você pode ver que varia do nível leve até o ultra.
00:04:12Eu estava usando o "full", que é o padrão, mas no ultra ele abrevia tudo,
00:04:17remove conjunções, usa setas para causalidade e usa uma palavra quando uma palavra
00:04:21basta.
00:04:22Há também o modo Wenyan, que usa caracteres chineses clássicos porque são
00:04:26os mais eficientes em termos de tokens.
00:04:27Infelizmente, eu não consigo lê-los, então não me serve de muita coisa.
00:04:30Isso não é tudo o que o Caveman oferece, há na verdade mais algumas habilidades para
00:04:33cenários específicos.
00:04:34Temos o "caveman commit" para escrever mensagens curtas e exatas no formato conventional commits.
00:04:38Temos o "caveman review" para comentários de revisão de código de uma linha concisa por achado
00:04:42e também temos a habilidade "compress" para pegar seus arquivos em linguagem natural e simplificá-los
00:04:46para que você possa reutilizá-los com um pouco menos de tokens de entrada.
00:04:49Me conte nos comentários se gostou de alguma dessas e, enquanto estiver lá,
00:04:52inscreva-se e, como sempre, nos vemos no próximo vídeo.