Esta habilidad de Claude reduce tus costos de tokens a la MITAD

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Si te gusta ahorrar dinero o simplemente odias cómo hablan los LLM, esto podría ser para ti.
00:00:03Es una nueva habilidad en tendencia llamada "Caveman" y promete recortar hasta el 75% de los
00:00:07tokens de salida manteniendo la precisión técnica total.
00:00:10Todo gracias a las sabias palabras de Kevin.
00:00:12¿Por qué perder tiempo?
00:00:13Decir muchas palabras cuando pocas palabras bastan.
00:00:16Esto funciona en Claude, Codex y donde sea, y convierte tus resultados de palabras de relleno,
00:00:20respuestas demasiado largas que no vas a leer, a un agradable TL;DR con la misma precisión técnica y hasta
00:00:24es personalizable y tiene extras como el modo wenyan, commits breves, revisiones de código en una línea y una
00:00:29herramienta de compresión de entrada.
00:00:30Puede parecer un poco loco al principio, pero incluso hay algo de ciencia detrás de esto, así que
00:00:34entremos y echemos un vistazo.
00:00:40Estaba probando esto en Claude Code antes con una aplicación Next.js de demostración que
00:00:44tiene un sistema de autenticación falso y simplemente pregunté: ¿puedes explicar cómo se implementa
00:00:48la autenticación en esta aplicación?
00:00:49Ahora bien, este es Claude Code normal sin la habilidad instalada, ves de inmediato que
00:00:53usa palabras de relleno diciendo que este es un sistema de autenticación simulado.
00:00:56Tenemos nuestra raya que dice: sin backend, sin contraseñas, sin seguridad real, existe para demostrar
00:01:00el rastreo de usuarios RUM de Better Stack.
00:01:03Después de esto, continúa explicando los archivos principales y cómo funciona y todo está
00:01:06en un inglés legible.
00:01:08Si luego hacemos la misma pregunta pero esta vez usamos la habilidad caveman, ves que va
00:01:11directo al grano y es mucho más conciso.
00:01:13La primera frase es: solo demo, autenticación del lado del cliente, sin seguridad real, construido para
00:01:17demos de rastreo RUM de Better Stack.
00:01:18No tiene ninguna de esas palabras de relleno, las rayas o algo parecido.
00:01:21No necesita construir una oración adecuada, simplemente puede darte la información técnica
00:01:25de inmediato.
00:01:26Lo mismo ocurre con la sección de cómo funciona, el flujo y los puntos de integración.
00:01:29Puedes ver aquí que en lugar de decir cómo funciona esto en una oración en inglés sencillo,
00:01:33solo dice: carga de la app, y luego tiene una flecha para verificar el almacenamiento local para el usuario guardado.
00:01:36Así que es mucho más conciso y eso es lo que me importa, para ser sincero.
00:01:39Realmente no me importa que esté en inglés sencillo, solo quería la información técnica.
00:01:43de ello.
00:01:44Esa concisión es en realidad la razón principal por la que me gusta esta habilidad, pero su otro punto de venta
00:01:47es que esto significa que debería reducir los tokens de salida y, por lo tanto, teóricamente puedes
00:01:51sacar más provecho de tu suscripción a Claude Code o incluso ahorrar dinero en tus tokens de API.
00:01:55Pero creo que hay una pequeña trampa aquí.
00:01:57Este es el resultado de una prueba comparativa que realicé antes, donde comparaba la respuesta base
00:02:00de Claude Code contra una concisa donde literalmente le digo a Claude Code: sé
00:02:04conciso, contra el uso de nuestra habilidad caveman.
00:02:07Esto fue con 10 prompts y cosas tan simples como: ¿en qué se diferencia git rebase de un git merge?
00:02:11Ahora puedes ver que los resultados son muy positivos.
00:02:14Cuando usamos la habilidad caveman frente a la base, en realidad tenemos una reducción del 45% en nuestros
00:02:18tokens de salida y una del 39% frente a solo decirle a Claude Code que sea conciso.
00:02:22Eso obviamente también se va a relacionar con el costo, va a haber un ahorro del 45%
00:02:26en los tokens de salida; así, la base cuesta alrededor de 8 centavos y caveman cuesta unos
00:02:314 centavos.
00:02:32Así que todo parece bastante bien al principio.
00:02:34Donde las cosas empiezan a ponerse un poco más interesantes es cuando factorizamos el costo de los
00:02:37tokens de entrada.
00:02:38Obviamente, ahora que estamos usando la habilidad caveman, estamos cargando un archivo markdown
00:02:41que tiene mucho más texto que nuestros prompts de una sola frase; así que para la base donde solo
00:02:45estamos enviando esa frase, son fracciones de centavo, pero cuando usamos nuestra habilidad puedes ver que
00:02:49ahora ronda los 4 centavos.
00:02:50Si luego combinamos nuestros costos de tokens de entrada y salida, puedes ver que en promedio caveman
00:02:54es en realidad un 10% más caro que la base porque los ahorros que hicimos en esos tokens de
00:02:58salida se han perdido en nuestros tokens de entrada.
00:03:01Pero esto no significa que sea una pérdida para caveman y eso es porque esto solo es cierto en escenarios
00:03:04muy específicos.
00:03:05Solo es cierto si enviamos un único prompt pequeño y no hacemos preguntas de seguimiento.
00:03:10Si empiezas a hacer preguntas de seguimiento, puedes aprovechar los precios de caché de prompts y cuando
00:03:14hacemos eso, puedes ver que las cosas vuelven a inclinarse a favor de caveman y estamos logrando un
00:03:19ahorro de costos del 39%.
00:03:20Nos hemos metido un poco en un laberinto de detalles, pero demuestra que hay lógica en usar
00:03:23caveman y eso es antes de haber factorizado otra posible ventaja que es que
00:03:27un estudio este año mostró que restringir los modelos grandes a respuestas breves mejoró la
00:03:31precisión en un 26% en ciertos benchmarks.
00:03:34Así que tal vez Kevin era el inteligente después de todo, y tú serías inteligente por suscribirte.
00:03:38Puedes probar esta habilidad tú mismo usando el paquete de habilidades vacel y ejecutando un
00:03:41comando como este y aquí también podemos ver lo que le está pidiendo al agente que haga.
00:03:45Tenemos algunas reglas como omitir artículos como un, una, el, la; omitir palabras de relleno, cortesías,
00:03:49y vacilaciones.
00:03:50Luego también tenemos: usa sinónimos cortos, así que usa "grande" en lugar de "extenso" y di "arreglar"
00:03:54en lugar de "implementar una solución para"; y también tenemos lo que queremos mantener: términos
00:03:58técnicos, bloques de código y errores.
00:04:00Después de esto tenemos el patrón de cómo debería estructurarse: deberíamos tener
00:04:03una cosa, una acción, una razón y luego un siguiente paso.
00:04:05Así que agradable y conciso.
00:04:07Incluso hay modos de intensidad aquí para cambiar qué tan "cavernícola" se vuelve.
00:04:10Puedes ver que va desde "ligero" hasta "ultra".
00:04:12Yo estaba usando "full" ya que es el predeterminado, pero puedes ver que en "ultra" abrevia todo,
00:04:17elimina conjunciones, usa flechas para la causalidad y usa una palabra cuando una palabra
00:04:21es suficiente.
00:04:22También hay un modo wenyan que usa caracteres chinos clásicos porque son en realidad
00:04:26los más eficientes en tokens.
00:04:27Desafortunadamente no puedo leerlos, así que no me sirve de mucho.
00:04:30Eso ni siquiera es todo lo que caveman ofrece, y de hecho hay algunas habilidades más para
00:04:33escenarios específicos.
00:04:34Tenemos "caveman commit" para escribir mensajes breves y exactos en formato de commits convencionales.
00:04:38Tenemos "caveman review" para escribir comentarios de revisión de código que sean una línea concisa por hallazgo.
00:04:42y también tenemos una habilidad de compresión para tomar tus archivos de lenguaje natural y cavernícolizarlos
00:04:46para que puedas reutilizarlos con un poco menos de tokens de entrada.
00:04:49Déjame saber en los comentarios si te gusta alguna de estas y mientras estás por
00:04:52allí, suscríbete y, como siempre, nos vemos en el próximo.

Key Takeaway

La implementación de la habilidad Caveman en Claude optimiza el gasto operativo al reducir los tokens de salida casi a la mitad y aumentar la precisión técnica mediante la eliminación sistemática de lenguaje natural innecesario.

Highlights

La habilidad Caveman reduce los tokens de salida de los modelos de lenguaje hasta en un 45% mediante la eliminación de palabras de relleno y cortesías.

Restringir las respuestas de los LLM a formatos breves mejora la precisión técnica en un 26% según estudios recientes de 2026.

El uso de Caveman genera un ahorro del 39% en costos totales cuando se combinan preguntas de seguimiento con el almacenamiento en caché de prompts.

El modo ultra de esta herramienta elimina conjunciones y utiliza flechas de causalidad para maximizar la brevedad.

El modo wenyan emplea caracteres chinos clásicos por ser el sistema de escritura con mayor eficiencia de tokens disponible.

La herramienta incluye funciones específicas como caveman commit para mensajes de versión exactos y caveman review para revisiones de código en una sola línea.

Timeline

Introducción a la eficiencia Caveman

  • Caveman es una metodología diseñada para recortar hasta el 75% de los tokens de salida sin sacrificar la exactitud técnica.
  • Esta habilidad transforma respuestas largas y redundantes en resúmenes directos tipo TL;DR.
  • El sistema es compatible con Claude, Codex y otros entornos de desarrollo integrados.

El exceso de verborrea en los modelos de lenguaje actuales genera costos innecesarios y fatiga de lectura. Al aplicar reglas de comunicación minimalistas, se obtienen resultados que priorizan la información técnica sobre la estructura gramatical perfecta. La herramienta ofrece personalización mediante distintos modos de intensidad y utilidades adicionales para la compresión de entradas.

Comparativa de rendimiento en entornos reales

  • Las explicaciones estándar de Claude incluyen descripciones narrativas sobre la seguridad y el funcionamiento del código.
  • La versión procesada por Caveman utiliza listas de puntos y flechas de flujo para describir la arquitectura de software.
  • La eliminación de artículos y frases introductorias permite obtener la misma información técnica en una fracción del espacio original.

En una prueba con una aplicación Next.js, la respuesta base utilizaba oraciones completas en inglés para explicar un sistema de autenticación simulado. La habilidad Caveman sustituyó estas explicaciones por términos técnicos clave como 'solo demo' y 'autenticación del lado del cliente'. Este enfoque elimina la necesidad de construir oraciones gramaticalmente correctas cuando el usuario solo requiere datos técnicos específicos.

Análisis de costos y optimización de caché

  • Caveman reduce los tokens de salida en un 45% en comparación con la configuración base de Claude Code.
  • El ahorro neto es del 39% frente a la instrucción manual de 'ser conciso'.
  • Los costos de entrada son más altos inicialmente debido a la carga de las reglas del sistema en formato Markdown.

Un análisis de 10 prompts sobre comandos de Git mostró que el ahorro en salida compensa el costo de entrada solo en flujos de trabajo prolongados. En consultas únicas de una sola frase, el costo de cargar la habilidad puede hacer que el proceso sea un 10% más caro. Sin embargo, al utilizar el almacenamiento en caché de prompts (prompt caching) en conversaciones largas, la eficiencia económica vuelve a favorecer significativamente al método abreviado.

Configuración de reglas y modos de intensidad

  • El sistema aplica reglas estrictas como omitir artículos, vacilaciones y usar sinónimos cortos.
  • La estructura de respuesta sigue el patrón: objeto, acción, razón y siguiente paso.
  • Los niveles de intensidad varían desde 'ligero' hasta 'ultra' para controlar el nivel de abreviación.

Las reglas operativas obligan al modelo a sustituir términos como 'implementar una solución para' por el simple verbo 'arreglar'. El modo ultra lleva esto al extremo eliminando conjunciones y forzando el uso de una sola palabra siempre que sea posible. Además, existen variantes especializadas para commits de Git y revisiones de código que mantienen la consistencia en el flujo de trabajo de desarrollo.

Community Posts

View all posts