Caveman Claude Code es el nuevo Meta (La ciencia lo explica)

CChase AI
컴퓨터/소프트웨어경영/리더십AI/미래기술

Transcript

00:00:00Hacer que el código en la nube hable como un cavernícola no solo podría ahorrarte tokens.
00:00:04De hecho, también podría mejorar tu rendimiento. Ahora bien, a simple vista,
00:00:07esto suena como un meme total. Tenemos un repositorio de GitHub llamado caveman.
00:00:12Ha obtenido 5.000 estrellas en 72 horas.
00:00:15Y lo único que hace es obligar al código en la nube a hablar como un neandertal.
00:00:19Elimina todo el relleno. La idea es que al hacerlo más conciso,
00:00:24ahorramos una tonelada de tokens en el proceso,
00:00:27pero escondido en este repo hay un enlace a este artículo de investigación que salió hace
00:00:31unas pocas semanas,
00:00:31que nos dice que si obligamos a nuestros modelos de lenguaje a ser más concisos,
00:00:36no solo ahorramos tokens, sino que podemos mejorar drásticamente su rendimiento.
00:00:40Así que hoy voy a desglosar toda esta habilidad de cavernícola.
00:00:42Voy a explicar lo que realmente te aporta, porque los números del repositorio
00:00:46son un poco engañosos, y vamos a analizar este artículo de investigación para que
00:00:50puedas entender lo que esto significa realmente para ti. Así que esto es caveman,
00:00:54nuestro repositorio de "por qué decir muchas palabras cuando pocas bastan".
00:00:58Ahora, de entrada, ¿qué está haciendo? Es muy simple,
00:01:02está recortando el relleno del código en la nube. Ahora habla como un cavernícola.
00:01:07Nos da algunos ejemplos de antes y después, muestra la diferencia de tokens e incluso
00:01:11tiene una lista completa de benchmarks con las tareas que le dio al código,
00:01:15como explicar un error de re-renderizado en React; los tokens normales utilizados,
00:01:19los tokens en modo cavernícola y la cantidad ahorrada.
00:01:21Ahora, las cifras presentadas en este repositorio son una locura.
00:01:23Afirman que con esta técnica,
00:01:26vamos a recortar el 75% de los tokens de salida manteniendo total
00:01:30precisión técnica.
00:01:31Este modo cavernícola no cambia cómo razona el código bajo el capó.
00:01:35No cambia cómo genera realmente el código. Nada de eso se modifica.
00:01:38Es solo la salida. Lo que ves como respuesta.
00:01:41También incluye una herramienta complementaria que comprime tus archivos de memoria.
00:01:45Piensa en pasar claud.md al lenguaje cavernícola.
00:01:47Y se supone que eso reduce nuestros tokens de entrada en un 45% en cada sesión.
00:01:52Ahora seamos claros. No vas a recortar el 75% de tus tokens de salida totales,
00:01:57ni el 45% de tus tokens de entrada en absoluto. Eso es completamente falso.
00:02:01Aunque veamos cosas que dicen: "Oye,
00:02:03ahorra un 87% de tokens al explicar un error de re-renderizado en React".
00:02:07El mensaje que recibes del código, la respuesta en sí,
00:02:11el texto es solo una pequeña parte de los tokens de salida totales,
00:02:15al igual que los archivos de memoria,
00:02:17como claud.md, son solo una pequeña parte de la entrada total.
00:02:21Así que dejemos muy claro lo que esto nos está aportando en una escala de tokens.
00:02:25No estás ahorrando el 80% de tus tokens totales. Y para que sea un poco más claro,
00:02:28desglosemos una sesión promedio de cien mil tokens. Ahora,
00:02:32entiendo que cada sesión es un poco diferente, pero sígueme en esto.
00:02:36Tenemos una sesión de cien mil tokens, y se divide en dos partes.
00:02:40La entrada, que es la mayor parte.
00:02:42Eso son 75.000 tokens, y la salida, que es el 25%.
00:02:46Ahora, caveman afirma que vamos a reducir la salida en un 75%.
00:02:51Eso no es cierto. Si observamos la salida, realmente se divide en tres partes, ¿vale?
00:02:56Tenemos las llamadas a herramientas, que ocupan una parte; los bloques de código,
00:02:59o sea la generación real de código, que ocupan otra parte.
00:03:02Y luego las respuestas de texto real, esta respuesta,
00:03:06esa respuesta de texto interna, eso es lo que caveman está ajustando.
00:03:10Eso es lo que está reduciendo. Puede reducir el 75% de eso. Ya sabes,
00:03:13si bajamos aquí, podemos ver, de acuerdo,
00:03:16normalmente el texto ocupa 6.000 tokens; con caveman,
00:03:20ahorramos 4.000 tokens. Así obtenemos una reducción del 4%. Sigue siendo muy bueno.
00:03:25Si ahorramos un 4% de nuestros tokens totales a lo largo de la semana,
00:03:29sin duda eso suma,
00:03:30especialmente en el entorno actual donde todos somos tan conscientes de nuestro uso.
00:03:33Pero entiende que esto no es el 87%. Es el 70%,
00:03:3860% de una porción de una porción de la sesión total.
00:03:43Además,
00:03:44si miras las entradas y dice que la compresión cavernícola ahorra el 45%,
00:03:49de nuevo, no es así realmente.
00:03:50Estamos hablando del área del system prompt y solo de ciertas partes del
00:03:54system prompt. Así que, en total, ¿qué estamos ahorrando? Quizás mil tokens,
00:03:58tal vez 2.000 tokens. Y repito, a lo largo de toda una sesión.
00:04:03Si ahorro 5.000 tokens, el 5% de cada sesión, es genial, es buen material,
00:04:07pero no son esas cifras tan llamativas. Así que entiendan eso antes de empezar,
00:04:13esto es una jugada en el margen. Esto no cambia todo totalmente.
00:04:15No vas a poder pasar de un plan de 5X máximo a uno de 20X máximo
00:04:19porque estemos ahorrando un 75%. No, no, no, no,
00:04:22pero todavía hay mucho valor que añadir aquí e incluso más valor por
00:04:25extraer. Una vez que echamos un vistazo al estudio, está un poco escondido aquí.
00:04:29Hay una pequeña sección dedicada a ello,
00:04:31pero este es un estudio llamado "Restricciones de brevedad,
00:04:34jerarquías de rendimiento inversas en modelos de lenguaje".
00:04:36Y esto salió a principios de marzo de este año.
00:04:38Pondré un enlace al estudio en la descripción por si quieren echarle un vistazo,
00:04:41pero hablemos de ello rápidamente porque es realmente interesante.
00:04:45Porque la idea y la expectativa es: modelo más grande,
00:04:49siempre mejor que el modelo más pequeño. Bueno,
00:04:53no exactamente, no según este estudio.
00:04:56En este estudio evaluaron 31 modelos a través de 1.500
00:05:01problemas,
00:05:02e identificaron el mecanismo como una verbosidad espontánea dependiente de la escala
00:05:07que introduce errores por exceso de elaboración. ¿Qué rayos significa eso?
00:05:11Significa que en casi el 8% de los problemas, a través de estos 1.500 problemas y
00:05:1631 modelos, los modelos de lenguaje más grandes,
00:05:19los que tienen más parámetros, tuvieron un rendimiento inferior a los más pequeños en 28
00:05:24puntos porcentuales, a pesar de tener cien veces más parámetros en algunos casos.
00:05:28Así que hubo escenarios donde, de nuevo, esto es con todos los modelos de código abierto.
00:05:32Tuviste un modelo de 2.000 millones de parámetros superando a un modelo de
00:05:37400.000 millones de parámetros. Esto ocurrió varias veces. Es de locos.
00:05:41¿Por qué ocurre esto? Bueno,
00:05:43plantean que la razón es porque estos modelos de lenguaje
00:05:49grandes hablan demasiado.
00:05:51Son excesivamente verbosos hasta el punto de que prácticamente dan vueltas en
00:05:55círculos y dan la respuesta incorrecta por ello. Y en el estudio,
00:05:58encontraron que al obligar a los modelos grandes a producir respuestas breves,
00:06:02respuestas de cavernícola, la precisión mejora en 26 puntos porcentuales y se reduce
00:06:07la brecha de rendimiento hasta en dos tercios.
00:06:09Y en muchos casos, al forzar a estos grandes modelos de lenguaje a ser más concisos,
00:06:14más parecidos a un cavernícola, esa dinámica cambió por completo: si antes
00:06:18perdían contra modelos más pequeños, de repente empezaron a ganarles.
00:06:21Eso es algo asombroso, especialmente en el contexto de este repositorio de GitHub.
00:06:26Obviamente, estos son modelos de código abierto. Esto no es Opus 4.6.
00:06:29Esto no es Codex 5.4.
00:06:30¿Exhiben estos modelos de vanguardia exactamente este mismo tipo de comportamiento?
00:06:34No lo sabemos necesariamente con certeza,
00:06:36pero si has visto alguno de estos estudios, entiendes que normalmente lo que ves aquí
00:06:40tiende a repetirse en cierto nivel con los modelos de vanguardia.
00:06:44Quizás no sea tan extremo, pero probablemente algo de cierto hay.
00:06:47El resto del estudio entra en muchos detalles sobre cómo realizan las pruebas,
00:06:51cómo intentan distinguir correlación de causalidad y por qué creen
00:06:55que esto es un problema. Y como dije antes,
00:06:57tienen la hipótesis de que los modelos grandes generan respuestas excesivamente verbosas
00:07:02que oscurecen el razonamiento correcto, un fenómeno que llamaron "sobrepensar".
00:07:06Simplemente intentan soltar demasiada información.
00:07:07En lugar de limitarse a dar la respuesta y no estorbar,
00:07:10se hablan a sí mismos hasta llegar a la respuesta incorrecta, literalmente.
00:07:13Y dicen específicamente que la tendencia aprendida hacia la minuciosidad se vuelve
00:07:17contraproducente, introduciendo una acumulación de errores;
00:07:21las restricciones de brevedad ayudan drásticamente a los modelos grandes mientras que
00:07:25apenas afectan a los modelos más pequeños. Y una pregunta obvia que deberías tener es, ¿por qué?
00:07:28¿Por qué es este el caso? ¿Por qué estos modelos más grandes tienen este problema?
00:07:31Ellos apuntan hacia el aprendizaje por refuerzo.
00:07:34Así que cuando entrenas un nuevo modelo,
00:07:36imagina que Opus 5.0 está en proceso de entrenamiento.
00:07:40Parte de lo que hacen es el aprendizaje por refuerzo.
00:07:42No sé si Anthropic lo hace específicamente,
00:07:44pero así es como se hace para muchos modelos.
00:07:45Básicamente toman el nuevo modelo y traen a un humano para calificar sus
00:07:50respuestas. Muestran varias respuestas y el humano dice:
00:07:52"Me gusta más esta que esta". Y dicen en el estudio que,
00:07:55lo más probable es que los humanos suelan preferir respuestas más verbosas, más minuciosas.
00:08:00Y debido a eso,
00:08:01estos modelos más grandes están esencialmente entrenados para ser más verbosos en lugar de
00:08:05concisos e incluso correctos en algunos casos.
00:08:08Pero la gran conclusión aquí es esta: que las restricciones de brevedad invirtieron
00:08:12totalmente las jerarquías de rendimiento. Así que donde antes perdían,
00:08:14ahora ganaban simplemente diciéndoles: sé más conciso.
00:08:18No cambiaron su forma de pensar, no cambiaron nada bajo el capó.
00:08:20Simplemente dijeron: sé un cavernícola. Ahora, no estaban usando literalmente este GitHub,
00:08:25pero es exactamente lo mismo.
00:08:28Por eso creo que esto es realmente interesante,
00:08:31no es solo un simple meme, ya sabes,
00:08:32más allá del hecho de que hay algunos puntos positivos con los tokens,
00:08:37ahorrar el 5% de los tokens no es algo para reírse,
00:08:39especialmente si no estuvieras en un plan máximo de 20.
00:08:41Pero si hay un escenario potencial donde realmente obtenemos mejores resultados
00:08:44gracias a ello, especialmente en preguntas más directas,
00:08:47porque si te sumerges en ese estudio,
00:08:49desglosa qué tipo de preguntas tenían este problema en
00:08:53esta dinámica. Es interesante, muy interesante,
00:08:56por eso creo que vale la pena echarle un vistazo.
00:08:58Y además es súper sencillo de usar. Es solo un conjunto de habilidades.
00:09:02Instalar esto es literalmente una línea y luego ejecutarlo.
00:09:06Podemos invocarlo con /caveman, o simplemente decir algo como,
00:09:09"habla como un cavernícola", "modo cavernícola" o "menos tokens, por favor". También hay niveles.
00:09:13Podemos ir en plan ultra cavernícola, ¿vale? Como si acabáramos de salir del océano.
00:09:17Apenas podemos mantenernos erguidos. Y luego tenemos el modo ligero.
00:09:21Así que puedes tener diferentes niveles de cavernícola a lo largo de los años.
00:09:24Y no es algo generalizado.
00:09:25Cosas como los mensajes de error se citan exactamente. Y de nuevo,
00:09:29cualquier cosa que tenga que ver con el código, con la generación,
00:09:31cualquier cosa bajo el capó se mantiene igual. No estamos cambiando cómo piensa realmente.
00:09:35Así que en general, creo que vale la pena probarlo. Es una sola habilidad.
00:09:37Ahorra tokens y no tiene ninguna desventaja real. Y según el estudio,
00:09:42en realidad hay una ventaja potencial aquí en términos de resultados.
00:09:45Y si no te gusta todo el asunto del cavernícola,
00:09:48creo que esto apunta, al menos, a poner algún tipo de línea en tu
00:09:52spot.md que diga: sé conciso, sin relleno,
00:09:56directo al grano, usa menos palabras,
00:09:59porque claramente hay una ventaja en eso, no solo en tokens,
00:10:03sino, como vimos, potencialmente en las respuestas reales que nos da.
00:10:06Así que ahí es donde lo voy a dejar por hoy.
00:10:07Lo que a simple vista parecía ser solo un proyecto de meme total,
00:10:11Caveman Claude en realidad tiene peso y algo de, ya sabes,
00:10:15rigor científico detrás del porqué,
00:10:17lo cual creo que hace que realmente valga la pena implementarlo.
00:10:21Como siempre, déjenme saber en los comentarios qué les pareció,
00:10:25asegúrense de echar un vistazo a Chase AI
00:10:26Plus si quieren poner sus manos en mi clase maestra de código de Claude,
00:10:29habrá más actualizaciones en ese espacio en los próximos días.
00:10:33Pero aparte de eso, los veré por ahí.

Key Takeaway

Imponer restricciones de brevedad mediante el modo cavernícola no solo ahorra hasta 5.000 tokens por sesión, sino que revierte las jerarquías de rendimiento permitiendo que los modelos grandes superen sus propios errores de sobrepensamiento.

Highlights

El repositorio caveman de GitHub alcanzó 5.000 estrellas en 72 horas al proponer un sistema que obliga a los modelos de lenguaje a responder de forma ultra concisa.

La reducción real de tokens en una sesión de 100.000 tokens es de aproximadamente un 4% al 5%, lejos de las cifras de marketing del 75%.

Restringir la brevedad en modelos grandes mejora la precisión en 26 puntos porcentuales al evitar el fenómeno del sobrepensamiento o verbosidad espontánea.

Modelos de IA de 2.000 millones de parámetros superaron a modelos de 400.000 millones en el 8% de 1.500 problemas probados debido a errores por exceso de elaboración.

El aprendizaje por refuerzo con humanos (RLHF) fomenta la verbosidad porque los evaluadores prefieren respuestas detalladas, aunque esto induzca a errores lógicos.

La implementación del modo cavernícola se realiza mediante una sola línea de comando y no altera la capacidad de razonamiento ni la generación de código del modelo.

Timeline

Métricas reales y mitos del modo cavernícola

  • El repositorio caveman de GitHub propone eliminar el relleno de las respuestas de Claude para ahorrar tokens.
  • La afirmación de que el ahorro de tokens de salida es del 75% es técnicamente falsa para una sesión completa.
  • Las llamadas a herramientas y bloques de código no cambian, por lo que el ahorro real es del 4% al 5% del total de la sesión.

El modo cavernícola reduce drásticamente el texto innecesario en las respuestas de la IA sin alterar la generación de código subyacente. Aunque los benchmarks individuales muestran ahorros del 87% en explicaciones de errores, la mayoría de los tokens de una sesión de 100.000 pertenecen a la entrada y a bloques de código técnico. El ahorro efectivo se concentra en la porción de texto narrativo del sistema, lo cual suma miles de tokens a lo largo de una semana de uso intensivo.

La ciencia detrás de la brevedad y el rendimiento

  • Un estudio de marzo de 2026 sobre jerarquías de rendimiento inversas revela que los modelos grandes pueden fallar ante los pequeños por ser excesivamente verbosos.
  • Obligar a los modelos a ser breves aumenta su precisión en 26 puntos porcentuales y reduce la brecha de rendimiento en dos tercios.
  • El fenómeno del sobrepensamiento ocurre cuando la IA genera tanta información que oscurece el razonamiento correcto.

Investigadores evaluaron 31 modelos a través de 1.500 problemas y descubrieron que los modelos más grandes a menudo fallan debido a la verbosidad espontánea. En un 8% de los casos, modelos con 100 veces menos parámetros superaron a los gigantes del sector simplemente por ser directos. Al aplicar restricciones de brevedad similares al modo cavernícola, los modelos grandes recuperan su superioridad técnica al eliminar la acumulación de errores que se genera al intentar explicar demasiado.

Impacto del entrenamiento humano y despliegue práctico

  • El aprendizaje por refuerzo sesga a los modelos hacia la minuciosidad excesiva porque los humanos prefieren respuestas largas.
  • El sistema caveman permite niveles de concisión desde modo ligero hasta ultra cavernícola para adaptarse a la tarea.
  • Implementar instrucciones de brevedad en el archivo de configuración del sistema es una ventaja estratégica sin puntos negativos.

La tendencia a la verbosidad es un efecto secundario del entrenamiento, donde los evaluadores humanos recompensan erróneamente la longitud sobre la precisión. El modo cavernícola se instala con una sola línea y permite invocar respuestas cortas mediante comandos específicos como /caveman. No existe una desventaja técnica en su uso, ya que los fragmentos de código y mensajes de error críticos se mantienen intactos, lo que sugiere que la instrucción de ser conciso debería ser una norma estándar para mejorar la fiabilidad de la IA.

Community Posts

View all posts