00:00:00Hacer que el código en la nube hable como un cavernícola no solo podría ahorrarte tokens.
00:00:04De hecho, también podría mejorar tu rendimiento. Ahora bien, a simple vista,
00:00:07esto suena como un meme total. Tenemos un repositorio de GitHub llamado caveman.
00:00:12Ha obtenido 5.000 estrellas en 72 horas.
00:00:15Y lo único que hace es obligar al código en la nube a hablar como un neandertal.
00:00:19Elimina todo el relleno. La idea es que al hacerlo más conciso,
00:00:24ahorramos una tonelada de tokens en el proceso,
00:00:27pero escondido en este repo hay un enlace a este artículo de investigación que salió hace
00:00:31unas pocas semanas,
00:00:31que nos dice que si obligamos a nuestros modelos de lenguaje a ser más concisos,
00:00:36no solo ahorramos tokens, sino que podemos mejorar drásticamente su rendimiento.
00:00:40Así que hoy voy a desglosar toda esta habilidad de cavernícola.
00:00:42Voy a explicar lo que realmente te aporta, porque los números del repositorio
00:00:46son un poco engañosos, y vamos a analizar este artículo de investigación para que
00:00:50puedas entender lo que esto significa realmente para ti. Así que esto es caveman,
00:00:54nuestro repositorio de "por qué decir muchas palabras cuando pocas bastan".
00:00:58Ahora, de entrada, ¿qué está haciendo? Es muy simple,
00:01:02está recortando el relleno del código en la nube. Ahora habla como un cavernícola.
00:01:07Nos da algunos ejemplos de antes y después, muestra la diferencia de tokens e incluso
00:01:11tiene una lista completa de benchmarks con las tareas que le dio al código,
00:01:15como explicar un error de re-renderizado en React; los tokens normales utilizados,
00:01:19los tokens en modo cavernícola y la cantidad ahorrada.
00:01:21Ahora, las cifras presentadas en este repositorio son una locura.
00:01:23Afirman que con esta técnica,
00:01:26vamos a recortar el 75% de los tokens de salida manteniendo total
00:01:30precisión técnica.
00:01:31Este modo cavernícola no cambia cómo razona el código bajo el capó.
00:01:35No cambia cómo genera realmente el código. Nada de eso se modifica.
00:01:38Es solo la salida. Lo que ves como respuesta.
00:01:41También incluye una herramienta complementaria que comprime tus archivos de memoria.
00:01:45Piensa en pasar claud.md al lenguaje cavernícola.
00:01:47Y se supone que eso reduce nuestros tokens de entrada en un 45% en cada sesión.
00:01:52Ahora seamos claros. No vas a recortar el 75% de tus tokens de salida totales,
00:01:57ni el 45% de tus tokens de entrada en absoluto. Eso es completamente falso.
00:02:01Aunque veamos cosas que dicen: "Oye,
00:02:03ahorra un 87% de tokens al explicar un error de re-renderizado en React".
00:02:07El mensaje que recibes del código, la respuesta en sí,
00:02:11el texto es solo una pequeña parte de los tokens de salida totales,
00:02:15al igual que los archivos de memoria,
00:02:17como claud.md, son solo una pequeña parte de la entrada total.
00:02:21Así que dejemos muy claro lo que esto nos está aportando en una escala de tokens.
00:02:25No estás ahorrando el 80% de tus tokens totales. Y para que sea un poco más claro,
00:02:28desglosemos una sesión promedio de cien mil tokens. Ahora,
00:02:32entiendo que cada sesión es un poco diferente, pero sígueme en esto.
00:02:36Tenemos una sesión de cien mil tokens, y se divide en dos partes.
00:02:40La entrada, que es la mayor parte.
00:02:42Eso son 75.000 tokens, y la salida, que es el 25%.
00:02:46Ahora, caveman afirma que vamos a reducir la salida en un 75%.
00:02:51Eso no es cierto. Si observamos la salida, realmente se divide en tres partes, ¿vale?
00:02:56Tenemos las llamadas a herramientas, que ocupan una parte; los bloques de código,
00:02:59o sea la generación real de código, que ocupan otra parte.
00:03:02Y luego las respuestas de texto real, esta respuesta,
00:03:06esa respuesta de texto interna, eso es lo que caveman está ajustando.
00:03:10Eso es lo que está reduciendo. Puede reducir el 75% de eso. Ya sabes,
00:03:13si bajamos aquí, podemos ver, de acuerdo,
00:03:16normalmente el texto ocupa 6.000 tokens; con caveman,
00:03:20ahorramos 4.000 tokens. Así obtenemos una reducción del 4%. Sigue siendo muy bueno.
00:03:25Si ahorramos un 4% de nuestros tokens totales a lo largo de la semana,
00:03:29sin duda eso suma,
00:03:30especialmente en el entorno actual donde todos somos tan conscientes de nuestro uso.
00:03:33Pero entiende que esto no es el 87%. Es el 70%,
00:03:3860% de una porción de una porción de la sesión total.
00:03:43Además,
00:03:44si miras las entradas y dice que la compresión cavernícola ahorra el 45%,
00:03:49de nuevo, no es así realmente.
00:03:50Estamos hablando del área del system prompt y solo de ciertas partes del
00:03:54system prompt. Así que, en total, ¿qué estamos ahorrando? Quizás mil tokens,
00:03:58tal vez 2.000 tokens. Y repito, a lo largo de toda una sesión.
00:04:03Si ahorro 5.000 tokens, el 5% de cada sesión, es genial, es buen material,
00:04:07pero no son esas cifras tan llamativas. Así que entiendan eso antes de empezar,
00:04:13esto es una jugada en el margen. Esto no cambia todo totalmente.
00:04:15No vas a poder pasar de un plan de 5X máximo a uno de 20X máximo
00:04:19porque estemos ahorrando un 75%. No, no, no, no,
00:04:22pero todavía hay mucho valor que añadir aquí e incluso más valor por
00:04:25extraer. Una vez que echamos un vistazo al estudio, está un poco escondido aquí.
00:04:29Hay una pequeña sección dedicada a ello,
00:04:31pero este es un estudio llamado "Restricciones de brevedad,
00:04:34jerarquías de rendimiento inversas en modelos de lenguaje".
00:04:36Y esto salió a principios de marzo de este año.
00:04:38Pondré un enlace al estudio en la descripción por si quieren echarle un vistazo,
00:04:41pero hablemos de ello rápidamente porque es realmente interesante.
00:04:45Porque la idea y la expectativa es: modelo más grande,
00:04:49siempre mejor que el modelo más pequeño. Bueno,
00:04:53no exactamente, no según este estudio.
00:04:56En este estudio evaluaron 31 modelos a través de 1.500
00:05:01problemas,
00:05:02e identificaron el mecanismo como una verbosidad espontánea dependiente de la escala
00:05:07que introduce errores por exceso de elaboración. ¿Qué rayos significa eso?
00:05:11Significa que en casi el 8% de los problemas, a través de estos 1.500 problemas y
00:05:1631 modelos, los modelos de lenguaje más grandes,
00:05:19los que tienen más parámetros, tuvieron un rendimiento inferior a los más pequeños en 28
00:05:24puntos porcentuales, a pesar de tener cien veces más parámetros en algunos casos.
00:05:28Así que hubo escenarios donde, de nuevo, esto es con todos los modelos de código abierto.
00:05:32Tuviste un modelo de 2.000 millones de parámetros superando a un modelo de
00:05:37400.000 millones de parámetros. Esto ocurrió varias veces. Es de locos.
00:05:41¿Por qué ocurre esto? Bueno,
00:05:43plantean que la razón es porque estos modelos de lenguaje
00:05:49grandes hablan demasiado.
00:05:51Son excesivamente verbosos hasta el punto de que prácticamente dan vueltas en
00:05:55círculos y dan la respuesta incorrecta por ello. Y en el estudio,
00:05:58encontraron que al obligar a los modelos grandes a producir respuestas breves,
00:06:02respuestas de cavernícola, la precisión mejora en 26 puntos porcentuales y se reduce
00:06:07la brecha de rendimiento hasta en dos tercios.
00:06:09Y en muchos casos, al forzar a estos grandes modelos de lenguaje a ser más concisos,
00:06:14más parecidos a un cavernícola, esa dinámica cambió por completo: si antes
00:06:18perdían contra modelos más pequeños, de repente empezaron a ganarles.
00:06:21Eso es algo asombroso, especialmente en el contexto de este repositorio de GitHub.
00:06:26Obviamente, estos son modelos de código abierto. Esto no es Opus 4.6.
00:06:29Esto no es Codex 5.4.
00:06:30¿Exhiben estos modelos de vanguardia exactamente este mismo tipo de comportamiento?
00:06:34No lo sabemos necesariamente con certeza,
00:06:36pero si has visto alguno de estos estudios, entiendes que normalmente lo que ves aquí
00:06:40tiende a repetirse en cierto nivel con los modelos de vanguardia.
00:06:44Quizás no sea tan extremo, pero probablemente algo de cierto hay.
00:06:47El resto del estudio entra en muchos detalles sobre cómo realizan las pruebas,
00:06:51cómo intentan distinguir correlación de causalidad y por qué creen
00:06:55que esto es un problema. Y como dije antes,
00:06:57tienen la hipótesis de que los modelos grandes generan respuestas excesivamente verbosas
00:07:02que oscurecen el razonamiento correcto, un fenómeno que llamaron "sobrepensar".
00:07:06Simplemente intentan soltar demasiada información.
00:07:07En lugar de limitarse a dar la respuesta y no estorbar,
00:07:10se hablan a sí mismos hasta llegar a la respuesta incorrecta, literalmente.
00:07:13Y dicen específicamente que la tendencia aprendida hacia la minuciosidad se vuelve
00:07:17contraproducente, introduciendo una acumulación de errores;
00:07:21las restricciones de brevedad ayudan drásticamente a los modelos grandes mientras que
00:07:25apenas afectan a los modelos más pequeños. Y una pregunta obvia que deberías tener es, ¿por qué?
00:07:28¿Por qué es este el caso? ¿Por qué estos modelos más grandes tienen este problema?
00:07:31Ellos apuntan hacia el aprendizaje por refuerzo.
00:07:34Así que cuando entrenas un nuevo modelo,
00:07:36imagina que Opus 5.0 está en proceso de entrenamiento.
00:07:40Parte de lo que hacen es el aprendizaje por refuerzo.
00:07:42No sé si Anthropic lo hace específicamente,
00:07:44pero así es como se hace para muchos modelos.
00:07:45Básicamente toman el nuevo modelo y traen a un humano para calificar sus
00:07:50respuestas. Muestran varias respuestas y el humano dice:
00:07:52"Me gusta más esta que esta". Y dicen en el estudio que,
00:07:55lo más probable es que los humanos suelan preferir respuestas más verbosas, más minuciosas.
00:08:00Y debido a eso,
00:08:01estos modelos más grandes están esencialmente entrenados para ser más verbosos en lugar de
00:08:05concisos e incluso correctos en algunos casos.
00:08:08Pero la gran conclusión aquí es esta: que las restricciones de brevedad invirtieron
00:08:12totalmente las jerarquías de rendimiento. Así que donde antes perdían,
00:08:14ahora ganaban simplemente diciéndoles: sé más conciso.
00:08:18No cambiaron su forma de pensar, no cambiaron nada bajo el capó.
00:08:20Simplemente dijeron: sé un cavernícola. Ahora, no estaban usando literalmente este GitHub,
00:08:25pero es exactamente lo mismo.
00:08:28Por eso creo que esto es realmente interesante,
00:08:31no es solo un simple meme, ya sabes,
00:08:32más allá del hecho de que hay algunos puntos positivos con los tokens,
00:08:37ahorrar el 5% de los tokens no es algo para reírse,
00:08:39especialmente si no estuvieras en un plan máximo de 20.
00:08:41Pero si hay un escenario potencial donde realmente obtenemos mejores resultados
00:08:44gracias a ello, especialmente en preguntas más directas,
00:08:47porque si te sumerges en ese estudio,
00:08:49desglosa qué tipo de preguntas tenían este problema en
00:08:53esta dinámica. Es interesante, muy interesante,
00:08:56por eso creo que vale la pena echarle un vistazo.
00:08:58Y además es súper sencillo de usar. Es solo un conjunto de habilidades.
00:09:02Instalar esto es literalmente una línea y luego ejecutarlo.
00:09:06Podemos invocarlo con /caveman, o simplemente decir algo como,
00:09:09"habla como un cavernícola", "modo cavernícola" o "menos tokens, por favor". También hay niveles.
00:09:13Podemos ir en plan ultra cavernícola, ¿vale? Como si acabáramos de salir del océano.
00:09:17Apenas podemos mantenernos erguidos. Y luego tenemos el modo ligero.
00:09:21Así que puedes tener diferentes niveles de cavernícola a lo largo de los años.
00:09:24Y no es algo generalizado.
00:09:25Cosas como los mensajes de error se citan exactamente. Y de nuevo,
00:09:29cualquier cosa que tenga que ver con el código, con la generación,
00:09:31cualquier cosa bajo el capó se mantiene igual. No estamos cambiando cómo piensa realmente.
00:09:35Así que en general, creo que vale la pena probarlo. Es una sola habilidad.
00:09:37Ahorra tokens y no tiene ninguna desventaja real. Y según el estudio,
00:09:42en realidad hay una ventaja potencial aquí en términos de resultados.
00:09:45Y si no te gusta todo el asunto del cavernícola,
00:09:48creo que esto apunta, al menos, a poner algún tipo de línea en tu
00:09:52spot.md que diga: sé conciso, sin relleno,
00:09:56directo al grano, usa menos palabras,
00:09:59porque claramente hay una ventaja en eso, no solo en tokens,
00:10:03sino, como vimos, potencialmente en las respuestas reales que nos da.
00:10:06Así que ahí es donde lo voy a dejar por hoy.
00:10:07Lo que a simple vista parecía ser solo un proyecto de meme total,
00:10:11Caveman Claude en realidad tiene peso y algo de, ya sabes,
00:10:15rigor científico detrás del porqué,
00:10:17lo cual creo que hace que realmente valga la pena implementarlo.
00:10:21Como siempre, déjenme saber en los comentarios qué les pareció,
00:10:25asegúrense de echar un vistazo a Chase AI
00:10:26Plus si quieren poner sus manos en mi clase maestra de código de Claude,
00:10:29habrá más actualizaciones en ese espacio en los próximos días.
00:10:33Pero aparte de eso, los veré por ahí.