Caveman Claude Code é o Novo Meta (Veja a Ciência)

CChase AI
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00Fazer o código na nuvem falar como um homem das cavernas pode não apenas economizar tokens.
00:00:04Isso pode, na verdade, melhorar o seu desempenho também. Agora, superficialmente,
00:00:07isso parece um meme completo. Temos um repositório no GitHub chamado caveman
00:00:12que conseguiu 5.000 estrelas em 72 horas.
00:00:15E tudo o que ele faz é forçar o código na nuvem a falar como um neandertal.
00:00:19Ele remove todo o excesso. A ideia é que, ao torná-lo mais conciso,
00:00:24economizamos uma tonelada de tokens no processo,
00:00:27mas enterrado neste repositório está um link para este artigo de pesquisa que saiu há algumas
00:00:31semanas,
00:00:31que nos diz que, se forçarmos nossos modelos de linguagem a serem mais concisos,
00:00:36não apenas economizamos tokens, mas podemos melhorar drasticamente o seu desempenho.
00:00:40Então, hoje vou detalhar toda essa habilidade caveman.
00:00:42Vou explicar o que ela realmente te traz, porque os números no repositório
00:00:46são um pouco enganosos, e vamos discutir esse artigo de pesquisa para que você
00:00:50possa entender o que isso realmente significa para você. Então, este é o caveman,
00:00:54nosso repositório "por que dizer muita palavra quando pouca palavra resolve".
00:00:58Agora, de cara, o que ele está fazendo? É bem simples,
00:01:02cortando o excesso do código na nuvem. Agora ele fala como um homem das cavernas.
00:01:07Ele nos dá alguns exemplos de antes e depois, mostra a diferença de tokens e até
00:01:11tem uma lista completa de benchmarks mostrando a tarefa. Ele deu ao código na nuvem:
00:01:15explicar erro de renderização do React, os tokens normais sendo usados,
00:01:19os tokens do caveman e a quantidade economizada.
00:01:21Agora, os números apresentados neste repositório são meio insanos.
00:01:23Eles afirmam que, com esta habilidade,
00:01:26vamos cortar 75% dos tokens de saída, mantendo a precisão técnica total.
00:01:30Este caveman não muda como o código na nuvem raciocina internamente.
00:01:31Não muda como ele realmente gera o código. Nada disso é alterado.
00:01:35É apenas a saída. O que você vê como uma resposta.
00:01:38Também inclui uma ferramenta complementar que comprime seus arquivos de memória.
00:01:41Pense no claud.md no linguajar caveman.
00:01:45E isso deve reduzir nossos tokens de entrada em 45% a cada sessão.
00:01:47Agora, vamos ser claros. Você não está cortando 75% dos seus tokens de saída no geral,
00:01:52e nem 45% dos seus tokens de entrada no geral. Isso não é verdade de forma alguma.
00:01:57Embora possamos ver essas coisas que dizem: "Ei,
00:02:01economiza 87% de tokens em como ele explica um erro de renderização do React".
00:02:03O prompt que você recebe do código na nuvem, a resposta em si,
00:02:07o texto é apenas uma pequena parte dos tokens de saída no geral,
00:02:11assim como os arquivos de memória,
00:02:15como o claud.md, são apenas uma pequena parte da entrada no geral.
00:02:17Então, vamos ser bem claros sobre o que isso realmente nos traz em uma escala de tokens.
00:02:21Você não está economizando 80% do total de seus tokens. E para deixar um pouco mais claro,
00:02:25vamos detalhar sua sessão média de cem mil tokens do Claude Code. Agora,
00:02:28eu entendo que cada sessão é um pouco diferente, mas me acompanhe aqui.
00:02:32Temos uma sessão de cem mil tokens, e ela é dividida em duas partes.
00:02:36A entrada, que é a maior parte.
00:02:40Isso são 75.000 tokens e a saída, que é 25%.
00:02:42Agora, o caveman está afirmando que vamos reduzir a saída em 75%.
00:02:46Isso não é verdade. Se olharmos para a saída, ela está realmente em três partes, certo?
00:02:51Temos chamadas de ferramentas, ocupando uma parte dela, blocos de código,
00:02:56como a geração real do código, ocupando outra parte.
00:02:59E então as respostas em prosa propriamente ditas, esta resposta,
00:03:02aquela resposta de texto interna, é isso que o caveman está ajustando.
00:03:06É isso que ele está reduzindo. Ele pode reduzir 75% disso. Sabe,
00:03:10se descermos aqui, podemos ver, ok,
00:03:13normalmente a prosa ocupa 6 mil tokens com o caveman.
00:03:16Economizamos 4.000 tokens. Então conseguimos uma redução de 4%. Isso ainda é muito bom.
00:03:20Se estivermos economizando 4% do total de nossos tokens ao longo da semana,
00:03:25isso certamente se acumula,
00:03:29especialmente no ambiente atual, onde todos estamos tão conscientes do nosso uso.
00:03:30Mas entenda que isso não é 87%. É 70%,
00:03:3360% de uma parte de uma parte do total da sessão.
00:03:38Além disso,
00:03:43se você olhar para as entradas e ele falar sobre a compressão caveman economizando 45%,
00:03:44novamente, não é bem assim.
00:03:49Estamos falando da área do system prompt e apenas de certas partes do system
00:03:50prompt. Então no total aqui, certo? Estamos economizando o quê? Talvez mil tokens,
00:03:54talvez 2000 tokens. E ao longo, novamente, de uma sessão inteira.
00:03:58Se eu economizar 5.000 tokens, 5% de cada sessão, isso é ótimo, coisa boa,
00:04:03mas não são esses números exorbitantes. Então entenda isso indo em frente,
00:04:07esta é uma jogada marginal. Isso não muda totalmente.
00:04:13Você não vai conseguir passar de basicamente um plano máximo de 5x para um plano máximo de 20x
00:04:15porque estamos economizando 75%. Não, não, não, não,
00:04:19mas ainda há muito valor a ser adicionado aqui e ainda mais valor a ser
00:04:22extraído. Quando olhamos para o estudo, ele está meio que enterrado aqui.
00:04:25Há uma pequena seção dedicada a ele,
00:04:29mas este é um estudo chamado restrições de brevidade,
00:04:31hierarquias de desempenho reversas em modelos de linguagem.
00:04:34E isso saiu no início de março deste ano.
00:04:36Então, vou colocar um link para o estudo na descrição se você quiser conferir,
00:04:38mas vamos falar sobre isso rapidinho porque é realmente interessante.
00:04:41Porque a ideia e a expectativa é: modelo maior,
00:04:45sempre melhor que modelo menor. Bem,
00:04:49não exatamente, não de acordo com este estudo.
00:04:53Neste estudo, eles avaliaram 31 modelos em 1.500
00:04:56problemas,
00:05:01e identificaram o mecanismo como verbosidade espontânea dependente de escala que
00:05:02introduz erros através de elaboração excessiva. O que diabos isso significa?
00:05:07Isso significa que em quase 8% dos problemas nestes 1.500 problemas e
00:05:1131 modelos, os modelos de linguagem maiores,
00:05:16aqueles com mais parâmetros, tiveram um desempenho inferior aos menores em 28
00:05:19pontos percentuais, apesar de terem cem vezes mais parâmetros em alguns casos.
00:05:24Então você teve cenários onde, novamente, isso é com todos os modelos de pesos abertos.
00:05:28Você teve um modelo de 2 bilhões de parâmetros superando um modelo de 400 bilhões de
00:05:32parâmetros. Isso aconteceu várias vezes. Isso é loucura.
00:05:37Por que isso acontece? Bem,
00:05:41eles postulam que a razão é porque esses modelos de linguagem
00:05:43grandes falam demais.
00:05:49Eles são excessivamente verbosos ao ponto de basicamente andarem em
00:05:51círculos e chegarem à resposta errada por causa disso. E no estudo,
00:05:55eles descobriram que, ao restringir modelos grandes a produzir respostas breves,
00:05:58respostas estilo caveman, a precisão melhora em 26 pontos percentuais e reduz
00:06:02as lacunas de desempenho em até dois terços.
00:06:07E em muitos casos, ao forçar esses grandes modelos de linguagem a se tornarem mais concisos,
00:06:09mais parecidos com um homem das cavernas, isso mudou completamente aquela dinâmica em que antes eles
00:06:14estavam perdendo para modelos menores. E agora eles os estavam derrotando.
00:06:18Isso é bem selvagem, especialmente no contexto deste repositório do GitHub. Agora,
00:06:21obviamente estes são modelos de pesos abertos. Este não é o Opus 4.6.
00:06:26Este não é o Codex 5.4.
00:06:29Será que esses modelos de fronteira exibem exatamente esse mesmo tipo de comportamento?
00:06:30Não sabemos necessariamente com certeza,
00:06:34mas se você já viu algum desses estudos, entende que geralmente o que você vê aqui
00:06:36tende a se repetir em algum nível com os modelos de fronteira.
00:06:40Talvez não seja tão extremo, mas provavelmente há algo nisso.
00:06:44Agora, o resto do estudo entra em muitos detalhes sobre como eles executam os testes,
00:06:47como eles estão tentando separar correlação de causalidade e por que acham
00:06:51que isso é um problema. E como eu disse antes,
00:06:55eles hipotetizam que modelos grandes geram respostas excessivamente verbosas que
00:06:57obscurecem o raciocínio correto, um fenômeno que eles chamaram de overthinking.
00:07:02Eles estão apenas tentando colocar coisas demais ali.
00:07:06Em vez de apenas te dar a resposta e sair do caminho,
00:07:07eles acabam se convencendo da resposta errada, literalmente.
00:07:10E eles dizem especificamente que a tendência aprendida para a minuciosidade torna-se
00:07:13contraproducente, introduzindo o acúmulo de erros,
00:07:17as restrições de brevidade ajudam dramaticamente os modelos grandes, enquanto mal afetam os
00:07:21modelos menores. E uma pergunta óbvia que você deve ter é: bem, por que,
00:07:25por que esse é o caso? Por que esses modelos maiores estão tendo esse problema?
00:07:28Eles apontam para o aprendizado por reforço.
00:07:31Então, quando você treina um novo modelo,
00:07:34imagine que o Opus 5.0 está em processo de treinamento.
00:07:36Parte do que eles fazem é o aprendizado por reforço.
00:07:40Agora, não sei se a Anthropic faz isso especificamente,
00:07:42mas é assim que é feito para muitos modelos.
00:07:44Essencialmente, eles pegam o novo modelo e trazem um humano para avaliar suas
00:07:45respostas. Eles mostram várias respostas e o humano diz:
00:07:50Gosto mais desta do que desta. E eles estão dizendo no estudo:
00:07:52as chances são de que os humanos tendam a gostar de respostas mais verbosas, respostas mais detalhadas.
00:07:55E por causa disso,
00:08:00esses modelos maiores são essencialmente treinados para serem mais verbosos em vez de
00:08:01concisos e até mesmo corretos em alguns casos.
00:08:05Mas a grande lição aqui é esta: as restrições de brevidade reverteram completamente
00:08:08as hierarquias de desempenho. Então, onde eles estavam perdendo antes,
00:08:12agora eles estavam ganhando simplesmente ao lhes dizer para serem mais concisos.
00:08:14Eles não mudaram a forma como pensavam, não mudaram nada internamente.
00:08:18Eles apenas disseram: seja um homem das cavernas. Agora, eles não estavam literalmente usando este GitHub,
00:08:20mas é a exata mesma coisa.
00:08:25Então é por isso que acho que isso é realmente interessante,
00:08:28não apenas um meme completo, você sabe,
00:08:31além do fato de que existem alguns pontos positivos aqui em relação aos tokens,
00:08:32economizar 5% de tokens não é algo de se desprezar,
00:08:37especialmente se você não estivesse em um plano máximo de 20.
00:08:39Mas se houver um cenário potencial onde estamos realmente obtendo melhores saídas
00:08:41por causa disso, especialmente em perguntas mais diretas,
00:08:44porque se você mergulhar naquele estudo,
00:08:47ele meio que detalha em quais perguntas eles tiveram esse problema e
00:08:49essa dinâmica. É interessante, muito interessante,
00:08:53e é por isso que acho que vale a pena dar uma olhada nisso.
00:08:56E também é super simples de usar. É apenas um conjunto de habilidades.
00:08:58Instalar isso literalmente leva uma linha e depois é só rodar.
00:09:02Nós o invocamos com /caveman ou apenas dizemos algo como,
00:09:06"fale como um homem das cavernas", modo caveman ou menos tokens, por favor. Também existem níveis para isso.
00:09:09Podemos ir para o ultra caveman, certo? Tipo, acabamos de sair do oceano.
00:09:13Mal conseguimos ficar de pé. E temos o modo light.
00:09:17Assim, você pode ter diferentes níveis de caveman ao longo do tempo.
00:09:21E não é algo generalizado.
00:09:24Coisas como mensagens de erro são citadas exatamente. E novamente,
00:09:25tudo o que tem a ver com código, tudo o que tem a ver com geração,
00:09:29tudo o que acontece internamente permanece igual. Não estamos mudando a forma como ele realmente pensa.
00:09:31Então, no geral, acho que vale a pena testar. É uma habilidade única.
00:09:35Economiza tokens e não há desvantagem real. E com base no estudo,
00:09:37há realmente uma vantagem potencial aqui em termos de resultados.
00:09:42E se você não gosta dessa coisa toda de homem das cavernas,
00:09:45acho que isso aponta para, no mínimo, colocar algum tipo de linha em seu
00:09:48claud.md que diga: seja conciso, sem excessos,
00:09:52direto ao ponto, use menos palavras,
00:09:56porque claramente há uma vantagem nisso, não apenas em tokens,
00:09:59mas como vimos, potencialmente nas respostas reais que ele nos dá.
00:10:03Então, é aqui que vou deixar vocês por hoje.
00:10:06O que parecia superficialmente ser apenas um projeto de meme completo,
00:10:07o caveman Claude na verdade tem algum peso e algum rigor científico
00:10:11por trás do porquê,
00:10:15o que eu acho que realmente torna isso algo que vale a pena implementar.
00:10:17Então, como sempre, me digam nos comentários o que acharam,
00:10:21não deixem de conferir o Chase AI.
00:10:25Plus se você quiser colocar as mãos na minha masterclass de Claude Code,
00:10:26temos mais atualizações saindo nesse espaço nos próximos dias.
00:10:29Mas fora isso, a gente se vê por aí.
00:10:33Mas fora isso, vejo vocês por aí.

Key Takeaway

Limitar a saída do Claude Code ao estilo conciso caveman economiza 5% dos tokens por sessão e aumenta a precisão técnica ao eliminar o acúmulo de erros causado pela verbosidade excessiva dos modelos de grande escala.

Highlights

O repositório caveman no GitHub alcançou 5.000 estrelas em apenas 72 horas ao forçar o Claude Code a adotar uma comunicação extremamente concisa.

Restrições de brevidade em modelos de linguagem podem melhorar a precisão das respostas em até 26 pontos percentuais.

Modelos de linguagem maiores, com até 100 vezes mais parâmetros, chegam a apresentar desempenho 28% inferior aos modelos menores devido à verbosidade excessiva.

A aplicação do modo caveman reduz o consumo total de tokens em aproximadamente 5% por sessão de uso do Claude Code.

O fenômeno do overthinking faz com que modelos grandes gerem erros ao elaborar excessivamente respostas que obscurecem o raciocínio correto.

O treinamento por reforço com feedback humano (RLHF) incentiva a prolixidade porque avaliadores tendem a preferir respostas mais detalhadas, mesmo que menos precisas.

Timeline

O fenômeno do repositório caveman

  • A comunicação simplificada reduz o desperdício de tokens sem alterar a lógica interna de processamento do modelo.
  • O repositório caveman atingiu alta popularidade ao demonstrar que menos palavras resultam em eficiência computacional.
  • Exemplos práticos mostram economias de até 87% em tokens de saída para explicações técnicas isoladas.

A técnica consiste em remover todo o excesso linguístico das respostas do assistente de IA. Embora pareça um meme, a abordagem foca na economia de recursos em ambientes de nuvem. O objetivo central é manter a precisão técnica absoluta enquanto se utiliza a menor quantidade possível de palavras.

A realidade da economia de tokens

  • A redução real de tokens em uma sessão completa de 100 mil tokens é de aproximadamente 5%, e não os 75% sugeridos inicialmente.
  • As respostas em prosa representam apenas uma pequena fração dos tokens totais em comparação com blocos de código e chamadas de ferramentas.
  • Arquivos de memória comprimidos no estilo caveman reduzem os tokens de entrada de forma marginal no contexto de sessões longas.

Uma análise detalhada de uma sessão típica revela que a saída é composta por chamadas de sistema, código e prosa. Como o caveman atua apenas na prosa, o impacto no volume total de dados é limitado, mas cumulativo. Economizar 5.000 tokens em cada sessão de 100.000 oferece uma vantagem competitiva relevante para usuários que atingem limites de planos de uso.

Evidência científica sobre brevidade e desempenho

  • Um estudo de março de 2026 com 31 modelos e 1.500 problemas prova que a brevidade reverte hierarquias de desempenho.
  • Modelos de 2 bilhões de parâmetros superam modelos de 400 bilhões quando estes últimos são permitidos a falar excessivamente.
  • O overthinking ocorre quando o modelo se convence de uma resposta errada durante o processo de elaboração de um texto longo.

A pesquisa identifica a verbosidade espontânea como uma falha dependente da escala. Ao restringir modelos grandes a respostas breves, a lacuna de desempenho em relação a modelos menores é reduzida em até dois terços. O ato de forçar o modelo a ser conciso impede que ele entre em ciclos de raciocínio redundantes que levam ao erro.

Causas da verbosidade e implementação prática

  • O treinamento por reforço com humanos induz modelos a serem prolixos porque pessoas associam detalhamento a qualidade.
  • A instalação da habilidade caveman no Claude Code é realizada com um comando de linha única.
  • Configurações de sistema simples que exigem respostas diretas replicam os benefícios de desempenho sem a necessidade de ferramentas externas.

O comportamento excessivamente detalhado dos modelos atuais é um subproduto do feedback humano durante o treinamento. Para mitigar isso, usuários podem adotar o modo caveman em diferentes níveis, do ultra ao light, ou simplesmente adicionar instruções de concisão em seus arquivos de configuração. A prática garante resultados mais assertivos e uma interação mais rápida com a ferramenta de desenvolvimento.

Community Posts

View all posts