Esta Skill do Claude Reduz seus Custos de Tokens pela METADE

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Se você gosta de economizar dinheiro ou simplesmente odeia o modo como os LLMs falam, esta dica é para você.

00:00:03É uma nova habilidade em alta chamada "Caveman" e ela promete cortar até 75% dos tokens

00:00:07de saída, mantendo total precisão técnica.

00:00:10Tudo graças às sábias palavras de Kevin.

00:00:12Por que perder tempo?

00:00:13Falar muita palavra quando pouca palavra resolve.

00:00:16Isso funciona no Claude, Codex e em qualquer lugar, transformando suas saídas de respostas cheias de enrolação

00:00:20e longas demais para ler em um resumo prático com a mesma precisão técnica, e ainda é

00:00:24customizável e tem extras como modo Wenyan, commits concisos, revisões de código de uma linha e uma

00:00:29ferramenta de compressão de entrada.

00:00:30Pode parecer um pouco louco no início, mas existe até ciência por trás disso, então vamos direto

00:00:34ao ponto e dar uma olhada.

00:00:40Eu estava testando isso no Claude Code mais cedo com um app demo em Next.js que na verdade

00:00:44tem um sistema de autenticação falso e eu apenas perguntei: "pode explicar como o auth está implementado

00:00:48neste app?".

00:00:49Aqui está o Claude Code normal sem a habilidade instalada; veja que ele logo começa

00:00:53com palavras de preenchimento dizendo que este é um sistema de autenticação simulado.

00:00:56Temos o travessão que diz: sem backend, sem senhas, sem segurança real, existe apenas para demonstrar

00:01:00o rastreamento de usuários do Better Stack RUM.

00:01:03Depois disso, ele continua explicando os arquivos principais e como funciona, e tudo está

00:01:06em um inglês perfeitamente legível.

00:01:08Se fizermos a mesma pergunta, mas desta vez usando a habilidade Caveman, veja que ele vai

00:01:11direto ao ponto e é muito mais conciso.

00:01:13A primeira frase é: apenas demo, auth no lado do cliente, sem segurança real, feito para

00:01:17demos de rastreamento RUM do Better Stack.

00:01:18Não tem nenhuma daquelas palavras de preenchimento, travessões ou algo do tipo.

00:01:21Ele não precisa formar uma frase gramaticalmente correta, ele apenas informa os dados técnicos

00:01:25imediatamente.

00:01:26O mesmo vale para a seção de como funciona, o fluxo e os pontos de integração.

00:01:29Você pode ver aqui que em vez de dizer como isso funciona em uma frase comum,

00:01:33apenas diz: carga do app, e então tem uma seta para verificar o local storage pelo usuário salvo.

00:01:36Então é muito mais conciso e, honestamente, é o que me importa.

00:01:39Eu não ligo se está em linguagem natural, eu só queria a informação técnica.

00:01:43...

00:01:44Essa concisão é o motivo principal de eu gostar da habilidade, mas o outro ponto de venda

00:01:47é que isso reduz os tokens de saída e, teoricamente, você pode

00:01:51aproveitar mais sua assinatura do Claude Code ou economizar em tokens de API.

00:01:55Mas acho que tem um pequeno detalhe aqui.

00:01:57Este é o resultado de um teste comparativo que fiz mais cedo, comparando a resposta padrão

00:02:00do Claude Code contra uma resposta curta, onde eu literalmente peço para ser conciso,

00:02:04versus o uso da habilidade Caveman.

00:02:07Isso foi feito com 10 prompts simples, como "qual a diferença entre git rebase e git merge".

00:02:11Como podem ver, os resultados são bem positivos.

00:02:14Ao usar a habilidade Caveman contra o padrão, temos uma redução de 45% nos tokens

00:02:18de saída e de 39% comparado a apenas pedir para ser conciso ao Claude Code.

00:02:22Isso obviamente se reflete no custo, haverá uma economia de 45%

00:02:26nos tokens de saída; o padrão custa cerca de 8 centavos e o Caveman cerca de

00:02:314 centavos.

00:02:32Então tudo parece muito bom inicialmente.

00:02:34Onde as coisas ficam mais interessantes, porém, é quando fatoramos o custo dos tokens

00:02:37de entrada.

00:02:38Obviamente, agora que usamos o Caveman, estamos carregando um arquivo markdown que

00:02:41tem muito mais texto do que nossos prompts de uma única frase. No padrão, onde apenas

00:02:45enviamos aquela frase, custa frações de centavo, mas com a nossa habilidade, veja que

00:02:49sobe para cerca de 4 centavos.

00:02:50Se combinarmos os custos de entrada e saída, verá que, em média, o Caveman

00:02:54é 10% mais caro que o padrão, porque a economia que fizemos nos tokens

00:02:58de saída foi perdida nos tokens de entrada.

00:03:01Mas isso não significa que o Caveman seja prejuízo, e isso porque isso só é verdade em

00:03:04cenários muito específicos.

00:03:05Só é verdade se enviarmos um único prompt pequeno e não fizermos perguntas de acompanhamento.

00:03:10Se você começar a fazer mais perguntas, você entra no preço de cache de prompt e, quando

00:03:14fazemos isso, a situação vira a favor do Caveman e passamos a ter uma economia

00:03:19de custo de 39%.

00:03:20Entramos em um detalhe técnico aqui, mas isso prova que há lógica em usar

00:03:23o Caveman, e isso antes de considerarmos outra possível vantagem, que é o fato de

00:03:27um estudo deste ano mostrar que restringir modelos grandes a respostas breves melhorou a precisão

00:03:31em 26% em certos benchmarks.

00:03:34Então talvez o Kevin fosse o esperto afinal, e você seria esperto em se inscrever.

00:03:38Você pode testar essa habilidade usando o pacote de skills da Vercel e rodando um

00:03:41comando como este, e aqui podemos ver o que ele está pedindo para o agente fazer.

00:03:45Temos regras como: remover artigos como o, a, um; remover palavras de preenchimento, remover gentilezas,

00:03:49remover hesitações.

00:03:50Também temos: use sinônimos curtos; use "grande" em vez de "extenso" e diga "corrigir"

00:03:54em vez de "implementar uma solução para", e também temos o que manter: termos técnicos,

00:03:58blocos de código e erros.

00:04:00Depois disso, temos o padrão de como deve ser estruturado: devemos ter

00:04:03o objeto, a ação, o motivo e o próximo passo.

00:04:05Tudo bem conciso.

00:04:07Existem até modos de intensidade para mudar o quão "homem das cavernas" ele fica.

00:04:10Você pode ver que varia do nível leve até o ultra.

00:04:12Eu estava usando o "full", que é o padrão, mas no ultra ele abrevia tudo,

00:04:17remove conjunções, usa setas para causalidade e usa uma palavra quando uma palavra

00:04:21basta.

00:04:22Há também o modo Wenyan, que usa caracteres chineses clássicos porque são

00:04:26os mais eficientes em termos de tokens.

00:04:27Infelizmente, eu não consigo lê-los, então não me serve de muita coisa.

00:04:30Isso não é tudo o que o Caveman oferece, há na verdade mais algumas habilidades para

00:04:33cenários específicos.

00:04:34Temos o "caveman commit" para escrever mensagens curtas e exatas no formato conventional commits.

00:04:38Temos o "caveman review" para comentários de revisão de código de uma linha concisa por achado

00:04:42e também temos a habilidade "compress" para pegar seus arquivos em linguagem natural e simplificá-los

00:04:46para que você possa reutilizá-los com um pouco menos de tokens de entrada.

00:04:49Me conte nos comentários se gostou de alguma dessas e, enquanto estiver lá,

00:04:52inscreva-se e, como sempre, nos vemos no próximo vídeo.

Key Takeaway

A habilidade Caveman corta os custos de tokens de saída pela metade e aumenta a precisão técnica em 26% ao forçar LLMs a eliminarem redundâncias gramaticais em favor de dados técnicos diretos.

Highlights

A habilidade Caveman reduz o uso de tokens de saída em até 45% em comparação ao padrão do Claude Code.

A precisão técnica aumenta em 26% em certos benchmarks quando modelos grandes são restritos a respostas breves.

O uso de cache de prompt torna o Caveman 39% mais barato que o modo padrão em conversas com múltiplas perguntas.

Regras de compressão incluem a remoção de artigos, palavras de preenchimento, gentilezas e hesitações gramaticais.

O modo Ultra abrevia termos, remove conjunções e utiliza setas para indicar causalidade.

O modo Wenyan utiliza caracteres chineses clássicos por serem estatisticamente os mais eficientes em consumo de tokens.

Timeline

A metodologia Caveman e eficiência de tokens

A técnica elimina o preenchimento linguístico para focar exclusivamente em dados técnicos brutos.
Respostas curtas mantêm a precisão técnica total sem a necessidade de frases gramaticalmente completas.
O sistema substitui explicações verbais longas por diagramas de texto simples e setas de fluxo.

A economia de até 75% nos tokens de saída ocorre porque a estrutura de linguagem natural é descartada. Em testes com apps Next.js, a resposta padrão do Claude gasta palavras explicando que o sistema é simulado, enquanto o Caveman lista apenas os fatos essenciais. A informação técnica prevalece sobre a cortesia ou a fluidez da leitura.

Análise de custos e impacto do cache de prompt

O Caveman gera uma economia direta de 45% nos tokens de saída e 39% em relação a pedidos manuais de concisão.
Sessões de prompt único podem ser 10% mais caras devido ao tamanho do arquivo de instruções da habilidade.
Conversas contínuas ativam o cache de prompt, resultando em uma economia líquida de 39% nos custos totais.

Dez prompts de teste comparando git rebase e git merge mostram que o custo cai de 8 para 4 centavos em tokens de saída. Embora o carregamento inicial das regras do Caveman aumente o custo de entrada para 4 centavos, a eficiência é recuperada em diálogos longos. Estudos indicam que essa restrição de saída não apenas economiza dinheiro, mas melhora o desempenho do modelo em tarefas complexas.

Recursos específicos e intensidades de compressão

O pacote de skills da Vercel permite configurar regras estritas como trocar 'implementar uma solução' por 'corrigir'.
Níveis de intensidade variam do leve ao ultra, onde o último remove todas as conjunções.
Ferramentas auxiliares incluem o caveman commit para mensagens curtas e o compress para simplificar arquivos de entrada.

As regras de substituição priorizam sinônimos curtos e a manutenção estrita de blocos de código e mensagens de erro. A estrutura de resposta segue o padrão objeto, ação, motivo e próximo passo para garantir utilidade máxima. Além da economia financeira, as ferramentas de compressão de entrada permitem que arquivos de contexto ocupem menos espaço na memória de trabalho do modelo.

Community Posts

Como reduzir os custos da API do Claude 3.5 Sonnet em 40% com estratégias de prompt

makedream10天前3910

Write about this video