00:00:00Fazer o código na nuvem falar como um homem das cavernas pode não apenas economizar tokens.
00:00:04Isso pode, na verdade, melhorar o seu desempenho também. Agora, superficialmente,
00:00:07isso parece um meme completo. Temos um repositório no GitHub chamado caveman
00:00:12que conseguiu 5.000 estrelas em 72 horas.
00:00:15E tudo o que ele faz é forçar o código na nuvem a falar como um neandertal.
00:00:19Ele remove todo o excesso. A ideia é que, ao torná-lo mais conciso,
00:00:24economizamos uma tonelada de tokens no processo,
00:00:27mas enterrado neste repositório está um link para este artigo de pesquisa que saiu há algumas
00:00:31semanas,
00:00:31que nos diz que, se forçarmos nossos modelos de linguagem a serem mais concisos,
00:00:36não apenas economizamos tokens, mas podemos melhorar drasticamente o seu desempenho.
00:00:40Então, hoje vou detalhar toda essa habilidade caveman.
00:00:42Vou explicar o que ela realmente te traz, porque os números no repositório
00:00:46são um pouco enganosos, e vamos discutir esse artigo de pesquisa para que você
00:00:50possa entender o que isso realmente significa para você. Então, este é o caveman,
00:00:54nosso repositório "por que dizer muita palavra quando pouca palavra resolve".
00:00:58Agora, de cara, o que ele está fazendo? É bem simples,
00:01:02cortando o excesso do código na nuvem. Agora ele fala como um homem das cavernas.
00:01:07Ele nos dá alguns exemplos de antes e depois, mostra a diferença de tokens e até
00:01:11tem uma lista completa de benchmarks mostrando a tarefa. Ele deu ao código na nuvem:
00:01:15explicar erro de renderização do React, os tokens normais sendo usados,
00:01:19os tokens do caveman e a quantidade economizada.
00:01:21Agora, os números apresentados neste repositório são meio insanos.
00:01:23Eles afirmam que, com esta habilidade,
00:01:26vamos cortar 75% dos tokens de saída, mantendo a precisão técnica total.
00:01:30Este caveman não muda como o código na nuvem raciocina internamente.
00:01:31Não muda como ele realmente gera o código. Nada disso é alterado.
00:01:35É apenas a saída. O que você vê como uma resposta.
00:01:38Também inclui uma ferramenta complementar que comprime seus arquivos de memória.
00:01:41Pense no claud.md no linguajar caveman.
00:01:45E isso deve reduzir nossos tokens de entrada em 45% a cada sessão.
00:01:47Agora, vamos ser claros. Você não está cortando 75% dos seus tokens de saída no geral,
00:01:52e nem 45% dos seus tokens de entrada no geral. Isso não é verdade de forma alguma.
00:01:57Embora possamos ver essas coisas que dizem: "Ei,
00:02:01economiza 87% de tokens em como ele explica um erro de renderização do React".
00:02:03O prompt que você recebe do código na nuvem, a resposta em si,
00:02:07o texto é apenas uma pequena parte dos tokens de saída no geral,
00:02:11assim como os arquivos de memória,
00:02:15como o claud.md, são apenas uma pequena parte da entrada no geral.
00:02:17Então, vamos ser bem claros sobre o que isso realmente nos traz em uma escala de tokens.
00:02:21Você não está economizando 80% do total de seus tokens. E para deixar um pouco mais claro,
00:02:25vamos detalhar sua sessão média de cem mil tokens do Claude Code. Agora,
00:02:28eu entendo que cada sessão é um pouco diferente, mas me acompanhe aqui.
00:02:32Temos uma sessão de cem mil tokens, e ela é dividida em duas partes.
00:02:36A entrada, que é a maior parte.
00:02:40Isso são 75.000 tokens e a saída, que é 25%.
00:02:42Agora, o caveman está afirmando que vamos reduzir a saída em 75%.
00:02:46Isso não é verdade. Se olharmos para a saída, ela está realmente em três partes, certo?
00:02:51Temos chamadas de ferramentas, ocupando uma parte dela, blocos de código,
00:02:56como a geração real do código, ocupando outra parte.
00:02:59E então as respostas em prosa propriamente ditas, esta resposta,
00:03:02aquela resposta de texto interna, é isso que o caveman está ajustando.
00:03:06É isso que ele está reduzindo. Ele pode reduzir 75% disso. Sabe,
00:03:10se descermos aqui, podemos ver, ok,
00:03:13normalmente a prosa ocupa 6 mil tokens com o caveman.
00:03:16Economizamos 4.000 tokens. Então conseguimos uma redução de 4%. Isso ainda é muito bom.
00:03:20Se estivermos economizando 4% do total de nossos tokens ao longo da semana,
00:03:25isso certamente se acumula,
00:03:29especialmente no ambiente atual, onde todos estamos tão conscientes do nosso uso.
00:03:30Mas entenda que isso não é 87%. É 70%,
00:03:3360% de uma parte de uma parte do total da sessão.
00:03:38Além disso,
00:03:43se você olhar para as entradas e ele falar sobre a compressão caveman economizando 45%,
00:03:44novamente, não é bem assim.
00:03:49Estamos falando da área do system prompt e apenas de certas partes do system
00:03:50prompt. Então no total aqui, certo? Estamos economizando o quê? Talvez mil tokens,
00:03:54talvez 2000 tokens. E ao longo, novamente, de uma sessão inteira.
00:03:58Se eu economizar 5.000 tokens, 5% de cada sessão, isso é ótimo, coisa boa,
00:04:03mas não são esses números exorbitantes. Então entenda isso indo em frente,
00:04:07esta é uma jogada marginal. Isso não muda totalmente.
00:04:13Você não vai conseguir passar de basicamente um plano máximo de 5x para um plano máximo de 20x
00:04:15porque estamos economizando 75%. Não, não, não, não,
00:04:19mas ainda há muito valor a ser adicionado aqui e ainda mais valor a ser
00:04:22extraído. Quando olhamos para o estudo, ele está meio que enterrado aqui.
00:04:25Há uma pequena seção dedicada a ele,
00:04:29mas este é um estudo chamado restrições de brevidade,
00:04:31hierarquias de desempenho reversas em modelos de linguagem.
00:04:34E isso saiu no início de março deste ano.
00:04:36Então, vou colocar um link para o estudo na descrição se você quiser conferir,
00:04:38mas vamos falar sobre isso rapidinho porque é realmente interessante.
00:04:41Porque a ideia e a expectativa é: modelo maior,
00:04:45sempre melhor que modelo menor. Bem,
00:04:49não exatamente, não de acordo com este estudo.
00:04:53Neste estudo, eles avaliaram 31 modelos em 1.500
00:04:56problemas,
00:05:01e identificaram o mecanismo como verbosidade espontânea dependente de escala que
00:05:02introduz erros através de elaboração excessiva. O que diabos isso significa?
00:05:07Isso significa que em quase 8% dos problemas nestes 1.500 problemas e
00:05:1131 modelos, os modelos de linguagem maiores,
00:05:16aqueles com mais parâmetros, tiveram um desempenho inferior aos menores em 28
00:05:19pontos percentuais, apesar de terem cem vezes mais parâmetros em alguns casos.
00:05:24Então você teve cenários onde, novamente, isso é com todos os modelos de pesos abertos.
00:05:28Você teve um modelo de 2 bilhões de parâmetros superando um modelo de 400 bilhões de
00:05:32parâmetros. Isso aconteceu várias vezes. Isso é loucura.
00:05:37Por que isso acontece? Bem,
00:05:41eles postulam que a razão é porque esses modelos de linguagem
00:05:43grandes falam demais.
00:05:49Eles são excessivamente verbosos ao ponto de basicamente andarem em
00:05:51círculos e chegarem à resposta errada por causa disso. E no estudo,
00:05:55eles descobriram que, ao restringir modelos grandes a produzir respostas breves,
00:05:58respostas estilo caveman, a precisão melhora em 26 pontos percentuais e reduz
00:06:02as lacunas de desempenho em até dois terços.
00:06:07E em muitos casos, ao forçar esses grandes modelos de linguagem a se tornarem mais concisos,
00:06:09mais parecidos com um homem das cavernas, isso mudou completamente aquela dinâmica em que antes eles
00:06:14estavam perdendo para modelos menores. E agora eles os estavam derrotando.
00:06:18Isso é bem selvagem, especialmente no contexto deste repositório do GitHub. Agora,
00:06:21obviamente estes são modelos de pesos abertos. Este não é o Opus 4.6.
00:06:26Este não é o Codex 5.4.
00:06:29Será que esses modelos de fronteira exibem exatamente esse mesmo tipo de comportamento?
00:06:30Não sabemos necessariamente com certeza,
00:06:34mas se você já viu algum desses estudos, entende que geralmente o que você vê aqui
00:06:36tende a se repetir em algum nível com os modelos de fronteira.
00:06:40Talvez não seja tão extremo, mas provavelmente há algo nisso.
00:06:44Agora, o resto do estudo entra em muitos detalhes sobre como eles executam os testes,
00:06:47como eles estão tentando separar correlação de causalidade e por que acham
00:06:51que isso é um problema. E como eu disse antes,
00:06:55eles hipotetizam que modelos grandes geram respostas excessivamente verbosas que
00:06:57obscurecem o raciocínio correto, um fenômeno que eles chamaram de overthinking.
00:07:02Eles estão apenas tentando colocar coisas demais ali.
00:07:06Em vez de apenas te dar a resposta e sair do caminho,
00:07:07eles acabam se convencendo da resposta errada, literalmente.
00:07:10E eles dizem especificamente que a tendência aprendida para a minuciosidade torna-se
00:07:13contraproducente, introduzindo o acúmulo de erros,
00:07:17as restrições de brevidade ajudam dramaticamente os modelos grandes, enquanto mal afetam os
00:07:21modelos menores. E uma pergunta óbvia que você deve ter é: bem, por que,
00:07:25por que esse é o caso? Por que esses modelos maiores estão tendo esse problema?
00:07:28Eles apontam para o aprendizado por reforço.
00:07:31Então, quando você treina um novo modelo,
00:07:34imagine que o Opus 5.0 está em processo de treinamento.
00:07:36Parte do que eles fazem é o aprendizado por reforço.
00:07:40Agora, não sei se a Anthropic faz isso especificamente,
00:07:42mas é assim que é feito para muitos modelos.
00:07:44Essencialmente, eles pegam o novo modelo e trazem um humano para avaliar suas
00:07:45respostas. Eles mostram várias respostas e o humano diz:
00:07:50Gosto mais desta do que desta. E eles estão dizendo no estudo:
00:07:52as chances são de que os humanos tendam a gostar de respostas mais verbosas, respostas mais detalhadas.
00:07:55E por causa disso,
00:08:00esses modelos maiores são essencialmente treinados para serem mais verbosos em vez de
00:08:01concisos e até mesmo corretos em alguns casos.
00:08:05Mas a grande lição aqui é esta: as restrições de brevidade reverteram completamente
00:08:08as hierarquias de desempenho. Então, onde eles estavam perdendo antes,
00:08:12agora eles estavam ganhando simplesmente ao lhes dizer para serem mais concisos.
00:08:14Eles não mudaram a forma como pensavam, não mudaram nada internamente.
00:08:18Eles apenas disseram: seja um homem das cavernas. Agora, eles não estavam literalmente usando este GitHub,
00:08:20mas é a exata mesma coisa.
00:08:25Então é por isso que acho que isso é realmente interessante,
00:08:28não apenas um meme completo, você sabe,
00:08:31além do fato de que existem alguns pontos positivos aqui em relação aos tokens,
00:08:32economizar 5% de tokens não é algo de se desprezar,
00:08:37especialmente se você não estivesse em um plano máximo de 20.
00:08:39Mas se houver um cenário potencial onde estamos realmente obtendo melhores saídas
00:08:41por causa disso, especialmente em perguntas mais diretas,
00:08:44porque se você mergulhar naquele estudo,
00:08:47ele meio que detalha em quais perguntas eles tiveram esse problema e
00:08:49essa dinâmica. É interessante, muito interessante,
00:08:53e é por isso que acho que vale a pena dar uma olhada nisso.
00:08:56E também é super simples de usar. É apenas um conjunto de habilidades.
00:08:58Instalar isso literalmente leva uma linha e depois é só rodar.
00:09:02Nós o invocamos com /caveman ou apenas dizemos algo como,
00:09:06"fale como um homem das cavernas", modo caveman ou menos tokens, por favor. Também existem níveis para isso.
00:09:09Podemos ir para o ultra caveman, certo? Tipo, acabamos de sair do oceano.
00:09:13Mal conseguimos ficar de pé. E temos o modo light.
00:09:17Assim, você pode ter diferentes níveis de caveman ao longo do tempo.
00:09:21E não é algo generalizado.
00:09:24Coisas como mensagens de erro são citadas exatamente. E novamente,
00:09:25tudo o que tem a ver com código, tudo o que tem a ver com geração,
00:09:29tudo o que acontece internamente permanece igual. Não estamos mudando a forma como ele realmente pensa.
00:09:31Então, no geral, acho que vale a pena testar. É uma habilidade única.
00:09:35Economiza tokens e não há desvantagem real. E com base no estudo,
00:09:37há realmente uma vantagem potencial aqui em termos de resultados.
00:09:42E se você não gosta dessa coisa toda de homem das cavernas,
00:09:45acho que isso aponta para, no mínimo, colocar algum tipo de linha em seu
00:09:48claud.md que diga: seja conciso, sem excessos,
00:09:52direto ao ponto, use menos palavras,
00:09:56porque claramente há uma vantagem nisso, não apenas em tokens,
00:09:59mas como vimos, potencialmente nas respostas reais que ele nos dá.
00:10:03Então, é aqui que vou deixar vocês por hoje.
00:10:06O que parecia superficialmente ser apenas um projeto de meme completo,
00:10:07o caveman Claude na verdade tem algum peso e algum rigor científico
00:10:11por trás do porquê,
00:10:15o que eu acho que realmente torna isso algo que vale a pena implementar.
00:10:17Então, como sempre, me digam nos comentários o que acharam,
00:10:21não deixem de conferir o Chase AI.
00:10:25Plus se você quiser colocar as mãos na minha masterclass de Claude Code,
00:10:26temos mais atualizações saindo nesse espaço nos próximos dias.
00:10:29Mas fora isso, a gente se vê por aí.
00:10:33Mas fora isso, vejo vocês por aí.