Caveman Claude Code é o Novo Meta (Veja a Ciência)

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

Computing/SoftwareManagementInternet Technology

Transcript

00:00:00Fazer o código na nuvem falar como um homem das cavernas pode não apenas economizar tokens.

00:00:04Isso pode, na verdade, melhorar o seu desempenho também. Agora, superficialmente,

00:00:07isso parece um meme completo. Temos um repositório no GitHub chamado caveman

00:00:12que conseguiu 5.000 estrelas em 72 horas.

00:00:15E tudo o que ele faz é forçar o código na nuvem a falar como um neandertal.

00:00:19Ele remove todo o excesso. A ideia é que, ao torná-lo mais conciso,

00:00:24economizamos uma tonelada de tokens no processo,

00:00:27mas enterrado neste repositório está um link para este artigo de pesquisa que saiu há algumas

00:00:31semanas,

00:00:31que nos diz que, se forçarmos nossos modelos de linguagem a serem mais concisos,

00:00:36não apenas economizamos tokens, mas podemos melhorar drasticamente o seu desempenho.

00:00:40Então, hoje vou detalhar toda essa habilidade caveman.

00:00:42Vou explicar o que ela realmente te traz, porque os números no repositório

00:00:46são um pouco enganosos, e vamos discutir esse artigo de pesquisa para que você

00:00:50possa entender o que isso realmente significa para você. Então, este é o caveman,

00:00:54nosso repositório "por que dizer muita palavra quando pouca palavra resolve".

00:00:58Agora, de cara, o que ele está fazendo? É bem simples,

00:01:02cortando o excesso do código na nuvem. Agora ele fala como um homem das cavernas.

00:01:07Ele nos dá alguns exemplos de antes e depois, mostra a diferença de tokens e até

00:01:11tem uma lista completa de benchmarks mostrando a tarefa. Ele deu ao código na nuvem:

00:01:15explicar erro de renderização do React, os tokens normais sendo usados,

00:01:19os tokens do caveman e a quantidade economizada.

00:01:21Agora, os números apresentados neste repositório são meio insanos.

00:01:23Eles afirmam que, com esta habilidade,

00:01:26vamos cortar 75% dos tokens de saída, mantendo a precisão técnica total.

00:01:30Este caveman não muda como o código na nuvem raciocina internamente.

00:01:31Não muda como ele realmente gera o código. Nada disso é alterado.

00:01:35É apenas a saída. O que você vê como uma resposta.

00:01:38Também inclui uma ferramenta complementar que comprime seus arquivos de memória.

00:01:41Pense no claud.md no linguajar caveman.

00:01:45E isso deve reduzir nossos tokens de entrada em 45% a cada sessão.

00:01:47Agora, vamos ser claros. Você não está cortando 75% dos seus tokens de saída no geral,

00:01:52e nem 45% dos seus tokens de entrada no geral. Isso não é verdade de forma alguma.

00:01:57Embora possamos ver essas coisas que dizem: "Ei,

00:02:01economiza 87% de tokens em como ele explica um erro de renderização do React".

00:02:03O prompt que você recebe do código na nuvem, a resposta em si,

00:02:07o texto é apenas uma pequena parte dos tokens de saída no geral,

00:02:11assim como os arquivos de memória,

00:02:15como o claud.md, são apenas uma pequena parte da entrada no geral.

00:02:17Então, vamos ser bem claros sobre o que isso realmente nos traz em uma escala de tokens.

00:02:21Você não está economizando 80% do total de seus tokens. E para deixar um pouco mais claro,

00:02:25vamos detalhar sua sessão média de cem mil tokens do Claude Code. Agora,

00:02:28eu entendo que cada sessão é um pouco diferente, mas me acompanhe aqui.

00:02:32Temos uma sessão de cem mil tokens, e ela é dividida em duas partes.

00:02:36A entrada, que é a maior parte.

00:02:40Isso são 75.000 tokens e a saída, que é 25%.

00:02:42Agora, o caveman está afirmando que vamos reduzir a saída em 75%.

00:02:46Isso não é verdade. Se olharmos para a saída, ela está realmente em três partes, certo?

00:02:51Temos chamadas de ferramentas, ocupando uma parte dela, blocos de código,

00:02:56como a geração real do código, ocupando outra parte.

00:02:59E então as respostas em prosa propriamente ditas, esta resposta,

00:03:02aquela resposta de texto interna, é isso que o caveman está ajustando.

00:03:06É isso que ele está reduzindo. Ele pode reduzir 75% disso. Sabe,

00:03:10se descermos aqui, podemos ver, ok,

00:03:13normalmente a prosa ocupa 6 mil tokens com o caveman.

00:03:16Economizamos 4.000 tokens. Então conseguimos uma redução de 4%. Isso ainda é muito bom.

00:03:20Se estivermos economizando 4% do total de nossos tokens ao longo da semana,

00:03:25isso certamente se acumula,

00:03:29especialmente no ambiente atual, onde todos estamos tão conscientes do nosso uso.

00:03:30Mas entenda que isso não é 87%. É 70%,

00:03:3360% de uma parte de uma parte do total da sessão.

00:03:38Além disso,

00:03:43se você olhar para as entradas e ele falar sobre a compressão caveman economizando 45%,

00:03:44novamente, não é bem assim.

00:03:49Estamos falando da área do system prompt e apenas de certas partes do system

00:03:50prompt. Então no total aqui, certo? Estamos economizando o quê? Talvez mil tokens,

00:03:54talvez 2000 tokens. E ao longo, novamente, de uma sessão inteira.

00:03:58Se eu economizar 5.000 tokens, 5% de cada sessão, isso é ótimo, coisa boa,

00:04:03mas não são esses números exorbitantes. Então entenda isso indo em frente,

00:04:07esta é uma jogada marginal. Isso não muda totalmente.

00:04:13Você não vai conseguir passar de basicamente um plano máximo de 5x para um plano máximo de 20x

00:04:15porque estamos economizando 75%. Não, não, não, não,

00:04:19mas ainda há muito valor a ser adicionado aqui e ainda mais valor a ser

00:04:22extraído. Quando olhamos para o estudo, ele está meio que enterrado aqui.

00:04:25Há uma pequena seção dedicada a ele,

00:04:29mas este é um estudo chamado restrições de brevidade,

00:04:31hierarquias de desempenho reversas em modelos de linguagem.

00:04:34E isso saiu no início de março deste ano.

00:04:36Então, vou colocar um link para o estudo na descrição se você quiser conferir,

00:04:38mas vamos falar sobre isso rapidinho porque é realmente interessante.

00:04:41Porque a ideia e a expectativa é: modelo maior,

00:04:45sempre melhor que modelo menor. Bem,

00:04:49não exatamente, não de acordo com este estudo.

00:04:53Neste estudo, eles avaliaram 31 modelos em 1.500

00:04:56problemas,

00:05:01e identificaram o mecanismo como verbosidade espontânea dependente de escala que

00:05:02introduz erros através de elaboração excessiva. O que diabos isso significa?

00:05:07Isso significa que em quase 8% dos problemas nestes 1.500 problemas e

00:05:1131 modelos, os modelos de linguagem maiores,

00:05:16aqueles com mais parâmetros, tiveram um desempenho inferior aos menores em 28

00:05:19pontos percentuais, apesar de terem cem vezes mais parâmetros em alguns casos.

00:05:24Então você teve cenários onde, novamente, isso é com todos os modelos de pesos abertos.

00:05:28Você teve um modelo de 2 bilhões de parâmetros superando um modelo de 400 bilhões de

00:05:32parâmetros. Isso aconteceu várias vezes. Isso é loucura.

00:05:37Por que isso acontece? Bem,

00:05:41eles postulam que a razão é porque esses modelos de linguagem

00:05:43grandes falam demais.

00:05:49Eles são excessivamente verbosos ao ponto de basicamente andarem em

00:05:51círculos e chegarem à resposta errada por causa disso. E no estudo,

00:05:55eles descobriram que, ao restringir modelos grandes a produzir respostas breves,

00:05:58respostas estilo caveman, a precisão melhora em 26 pontos percentuais e reduz

00:06:02as lacunas de desempenho em até dois terços.

00:06:07E em muitos casos, ao forçar esses grandes modelos de linguagem a se tornarem mais concisos,

00:06:09mais parecidos com um homem das cavernas, isso mudou completamente aquela dinâmica em que antes eles

00:06:14estavam perdendo para modelos menores. E agora eles os estavam derrotando.

00:06:18Isso é bem selvagem, especialmente no contexto deste repositório do GitHub. Agora,

00:06:21obviamente estes são modelos de pesos abertos. Este não é o Opus 4.6.

00:06:26Este não é o Codex 5.4.

00:06:29Será que esses modelos de fronteira exibem exatamente esse mesmo tipo de comportamento?

00:06:30Não sabemos necessariamente com certeza,

00:06:34mas se você já viu algum desses estudos, entende que geralmente o que você vê aqui

00:06:36tende a se repetir em algum nível com os modelos de fronteira.

00:06:40Talvez não seja tão extremo, mas provavelmente há algo nisso.

00:06:44Agora, o resto do estudo entra em muitos detalhes sobre como eles executam os testes,

00:06:47como eles estão tentando separar correlação de causalidade e por que acham

00:06:51que isso é um problema. E como eu disse antes,

00:06:55eles hipotetizam que modelos grandes geram respostas excessivamente verbosas que

00:06:57obscurecem o raciocínio correto, um fenômeno que eles chamaram de overthinking.

00:07:02Eles estão apenas tentando colocar coisas demais ali.

00:07:06Em vez de apenas te dar a resposta e sair do caminho,

00:07:07eles acabam se convencendo da resposta errada, literalmente.

00:07:10E eles dizem especificamente que a tendência aprendida para a minuciosidade torna-se

00:07:13contraproducente, introduzindo o acúmulo de erros,

00:07:17as restrições de brevidade ajudam dramaticamente os modelos grandes, enquanto mal afetam os

00:07:21modelos menores. E uma pergunta óbvia que você deve ter é: bem, por que,

00:07:25por que esse é o caso? Por que esses modelos maiores estão tendo esse problema?

00:07:28Eles apontam para o aprendizado por reforço.

00:07:31Então, quando você treina um novo modelo,

00:07:34imagine que o Opus 5.0 está em processo de treinamento.

00:07:36Parte do que eles fazem é o aprendizado por reforço.

00:07:40Agora, não sei se a Anthropic faz isso especificamente,

00:07:42mas é assim que é feito para muitos modelos.

00:07:44Essencialmente, eles pegam o novo modelo e trazem um humano para avaliar suas

00:07:45respostas. Eles mostram várias respostas e o humano diz:

00:07:50Gosto mais desta do que desta. E eles estão dizendo no estudo:

00:07:52as chances são de que os humanos tendam a gostar de respostas mais verbosas, respostas mais detalhadas.

00:07:55E por causa disso,

00:08:00esses modelos maiores são essencialmente treinados para serem mais verbosos em vez de

00:08:01concisos e até mesmo corretos em alguns casos.

00:08:05Mas a grande lição aqui é esta: as restrições de brevidade reverteram completamente

00:08:08as hierarquias de desempenho. Então, onde eles estavam perdendo antes,

00:08:12agora eles estavam ganhando simplesmente ao lhes dizer para serem mais concisos.

00:08:14Eles não mudaram a forma como pensavam, não mudaram nada internamente.

00:08:18Eles apenas disseram: seja um homem das cavernas. Agora, eles não estavam literalmente usando este GitHub,

00:08:20mas é a exata mesma coisa.

00:08:25Então é por isso que acho que isso é realmente interessante,

00:08:28não apenas um meme completo, você sabe,

00:08:31além do fato de que existem alguns pontos positivos aqui em relação aos tokens,

00:08:32economizar 5% de tokens não é algo de se desprezar,

00:08:37especialmente se você não estivesse em um plano máximo de 20.

00:08:39Mas se houver um cenário potencial onde estamos realmente obtendo melhores saídas

00:08:41por causa disso, especialmente em perguntas mais diretas,

00:08:44porque se você mergulhar naquele estudo,

00:08:47ele meio que detalha em quais perguntas eles tiveram esse problema e

00:08:49essa dinâmica. É interessante, muito interessante,

00:08:53e é por isso que acho que vale a pena dar uma olhada nisso.

00:08:56E também é super simples de usar. É apenas um conjunto de habilidades.

00:08:58Instalar isso literalmente leva uma linha e depois é só rodar.

00:09:02Nós o invocamos com /caveman ou apenas dizemos algo como,

00:09:06"fale como um homem das cavernas", modo caveman ou menos tokens, por favor. Também existem níveis para isso.

00:09:09Podemos ir para o ultra caveman, certo? Tipo, acabamos de sair do oceano.

00:09:13Mal conseguimos ficar de pé. E temos o modo light.

00:09:17Assim, você pode ter diferentes níveis de caveman ao longo do tempo.

00:09:21E não é algo generalizado.

00:09:24Coisas como mensagens de erro são citadas exatamente. E novamente,

00:09:25tudo o que tem a ver com código, tudo o que tem a ver com geração,

00:09:29tudo o que acontece internamente permanece igual. Não estamos mudando a forma como ele realmente pensa.

00:09:31Então, no geral, acho que vale a pena testar. É uma habilidade única.

00:09:35Economiza tokens e não há desvantagem real. E com base no estudo,

00:09:37há realmente uma vantagem potencial aqui em termos de resultados.

00:09:42E se você não gosta dessa coisa toda de homem das cavernas,

00:09:45acho que isso aponta para, no mínimo, colocar algum tipo de linha em seu

00:09:48claud.md que diga: seja conciso, sem excessos,

00:09:52direto ao ponto, use menos palavras,

00:09:56porque claramente há uma vantagem nisso, não apenas em tokens,

00:09:59mas como vimos, potencialmente nas respostas reais que ele nos dá.

00:10:03Então, é aqui que vou deixar vocês por hoje.

00:10:06O que parecia superficialmente ser apenas um projeto de meme completo,

00:10:07o caveman Claude na verdade tem algum peso e algum rigor científico

00:10:11por trás do porquê,

00:10:15o que eu acho que realmente torna isso algo que vale a pena implementar.

00:10:17Então, como sempre, me digam nos comentários o que acharam,

00:10:21não deixem de conferir o Chase AI.

00:10:25Plus se você quiser colocar as mãos na minha masterclass de Claude Code,

00:10:26temos mais atualizações saindo nesse espaço nos próximos dias.

00:10:29Mas fora isso, a gente se vê por aí.

00:10:33Mas fora isso, vejo vocês por aí.

Key Takeaway

Limitar a saída do Claude Code ao estilo conciso caveman economiza 5% dos tokens por sessão e aumenta a precisão técnica ao eliminar o acúmulo de erros causado pela verbosidade excessiva dos modelos de grande escala.

Highlights

O repositório caveman no GitHub alcançou 5.000 estrelas em apenas 72 horas ao forçar o Claude Code a adotar uma comunicação extremamente concisa.

Restrições de brevidade em modelos de linguagem podem melhorar a precisão das respostas em até 26 pontos percentuais.

Modelos de linguagem maiores, com até 100 vezes mais parâmetros, chegam a apresentar desempenho 28% inferior aos modelos menores devido à verbosidade excessiva.

A aplicação do modo caveman reduz o consumo total de tokens em aproximadamente 5% por sessão de uso do Claude Code.

O fenômeno do overthinking faz com que modelos grandes gerem erros ao elaborar excessivamente respostas que obscurecem o raciocínio correto.

O treinamento por reforço com feedback humano (RLHF) incentiva a prolixidade porque avaliadores tendem a preferir respostas mais detalhadas, mesmo que menos precisas.

Timeline

O fenômeno do repositório caveman

A comunicação simplificada reduz o desperdício de tokens sem alterar a lógica interna de processamento do modelo.
O repositório caveman atingiu alta popularidade ao demonstrar que menos palavras resultam em eficiência computacional.
Exemplos práticos mostram economias de até 87% em tokens de saída para explicações técnicas isoladas.

A técnica consiste em remover todo o excesso linguístico das respostas do assistente de IA. Embora pareça um meme, a abordagem foca na economia de recursos em ambientes de nuvem. O objetivo central é manter a precisão técnica absoluta enquanto se utiliza a menor quantidade possível de palavras.

A realidade da economia de tokens

A redução real de tokens em uma sessão completa de 100 mil tokens é de aproximadamente 5%, e não os 75% sugeridos inicialmente.
As respostas em prosa representam apenas uma pequena fração dos tokens totais em comparação com blocos de código e chamadas de ferramentas.
Arquivos de memória comprimidos no estilo caveman reduzem os tokens de entrada de forma marginal no contexto de sessões longas.

Uma análise detalhada de uma sessão típica revela que a saída é composta por chamadas de sistema, código e prosa. Como o caveman atua apenas na prosa, o impacto no volume total de dados é limitado, mas cumulativo. Economizar 5.000 tokens em cada sessão de 100.000 oferece uma vantagem competitiva relevante para usuários que atingem limites de planos de uso.

Evidência científica sobre brevidade e desempenho

Um estudo de março de 2026 com 31 modelos e 1.500 problemas prova que a brevidade reverte hierarquias de desempenho.
Modelos de 2 bilhões de parâmetros superam modelos de 400 bilhões quando estes últimos são permitidos a falar excessivamente.
O overthinking ocorre quando o modelo se convence de uma resposta errada durante o processo de elaboração de um texto longo.

A pesquisa identifica a verbosidade espontânea como uma falha dependente da escala. Ao restringir modelos grandes a respostas breves, a lacuna de desempenho em relação a modelos menores é reduzida em até dois terços. O ato de forçar o modelo a ser conciso impede que ele entre em ciclos de raciocínio redundantes que levam ao erro.

Causas da verbosidade e implementação prática

O treinamento por reforço com humanos induz modelos a serem prolixos porque pessoas associam detalhamento a qualidade.
A instalação da habilidade caveman no Claude Code é realizada com um comando de linha única.
Configurações de sistema simples que exigem respostas diretas replicam os benefícios de desempenho sem a necessidade de ferramentas externas.

O comportamento excessivamente detalhado dos modelos atuais é um subproduto do feedback humano durante o treinamento. Para mitigar isso, usuários podem adotar o modo caveman em diferentes níveis, do ultra ao light, ou simplesmente adicionar instruções de concisão em seus arquivos de configuração. A prática garante resultados mais assertivos e uma interação mais rápida com a ferramenta de desenvolvimento.

Community Posts

Como Reduzir os Tokens de Saída do Claude em 30% com a Técnica de Prompt Caveman

makedreamhá 15 dias6680

Write about this video