Este repositorio de código abierto soluciona el mayor problema de Claude Code

EspañolEnglish
CChase AI
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00¿Puede una sola habilidad hacer que CloudCode sea mucho más eficiente?
00:00:03¿Puede hacer que CloudCode sea más rápido, más barato y escriba menos código
00:00:06mientras nos sigue dando el mismo tipo de resultados de alto nivel a los que estamos acostumbrados?
00:00:10Bueno, eso es exactamente lo que Ponytail afirma ser capaz de hacer,
00:00:13y ha hecho que alcance las 40.000 estrellas solo siete días después de su lanzamiento.
00:00:18Ahora bien, Ponytail no es la primera herramienta que hemos visto afirmar que hace algo así.
00:00:22Hemos hablado de Caveman en el pasado, y todas estas herramientas tienden a tener la misma idea.
00:00:26La idea es que CloudCode es naturalmente verboso,
00:00:29y si le decimos, oye, deja de hablar tanto,
00:00:32podemos obtener una respuesta mucho más concisa que, en última instancia, es igual de correcta
00:00:36o, como recordamos con Caveman, podría ser incluso más correcta.
00:00:40Ponytail es simplemente la versión más reciente de esto,
00:00:42pero es una versión que afirma tener números mejores que cualquiera que hayamos visto en el pasado.
00:00:45Y podemos ver esos números aquí mismo.
00:00:47Podemos ver líneas de código frente a tokens frente a costo y frente a tiempo.
00:00:52Y en todos los aspectos, el gris es como la línea base sin ninguna de estas herramientas
00:00:55y el verde es Ponytail,
00:00:58Ponytail lidera prácticamente el grupo en todas partes o se acerca bastante.
00:01:03Ahora, los números que has visto aquí son agregados.
00:01:05Este es el promedio obtenido de varias pruebas diferentes,
00:01:08y esto también se hace usando Haiku 4.5.
00:01:11Y no te preocupes, más adelante vamos a A, validar estas pruebas,
00:01:14echar un vistazo a un modelo real porque ninguno de nosotros está usando Haiku 4.5 realmente.
00:01:18Estamos usando Opus 4.8, así que veamos cómo se ven esos números.
00:01:20Y en cuanto a las líneas de código, son alrededor de un 50% menos de líneas.
00:01:24Y si observamos los tokens, el costo y el tiempo,
00:01:27alrededor de un 20% a un 30% de mejora frente a la línea base.
00:01:31Y eso no es una cantidad pequeña,
00:01:32especialmente cuando extrapolamos esto a algo como Fable,
00:01:36que es terriblemente caro.
00:01:37Así que si pudiera decirte, oye, si usas algo como Fable,
00:01:40va a ser más rápido y más barato.
00:01:42Bueno, nos encantaría eso, ¿verdad?
00:01:43Ahora, antes de explicar cómo funciona esto
00:01:45y mostrarte cómo se ven las puntuaciones de referencia,
00:01:47cuando lo probé, unas breves palabras del patrocinador de hoy, yo mismo.
00:01:50Así que dentro de Chase AI+, tengo mi Masterclass de Clawed Code,
00:01:53que es la mejor manera de pasar de cero a desarrollador de IA,
00:01:56especialmente si no vienes de un entorno técnico.
00:01:59Actualizo esto cada semana,
00:02:01y también incluye clases magistrales sobre codecs
00:02:03y cómo construir tu propio sistema operativo agentic.
00:02:06Puedes encontrar un enlace en el comentario fijado.
00:02:08Y de nuevo, actualizo esto cada semana,
00:02:10y nos enfocamos en casos de uso reales.
00:02:12Así que si quieres empezar a dominar Clawed Code,
00:02:15este es el lugar para ti.
00:02:16¿Cómo funciona Ponytail?
00:02:17Bueno, pasa por un proceso de seis pasos
00:02:19antes de escribir código.
00:02:20Así que la primera pregunta es,
00:02:22¿esto siquiera necesita existir?
00:02:24Si la respuesta es no,
00:02:26bueno, entonces simplemente no escribimos código para ello.
00:02:28Relativamente obvio.
00:02:29Después de eso, preguntamos, ¿la biblioteca estándar lo hace?
00:02:33Si la respuesta es sí,
00:02:34vamos a usar la biblioteca estándar.
00:02:36Lo más importante que verás con las evaluaciones
00:02:38es que hay instancias en las que Clawed Code
00:02:41recreará características desde cero que ya existen,
00:02:45ya sea dentro de algún tipo de biblioteca o como una característica de la plataforma.
00:02:49Así que Clawed Code tiene el problema de que,
00:02:51oye, la rueda ya ha sido inventada.
00:02:52Tenemos la rueda aquí en este programa.
00:02:53Y es como, ¿sabes qué?
00:02:55Voy a construir una rueda desde cero.
00:02:56Y debido a eso,
00:02:57así es como obtienes mucho código
00:02:59cuando no necesariamente lo necesitas.
00:03:01Eso es algo que ves una y otra vez
00:03:03en estas evaluaciones.
00:03:04Y para alejarnos por un segundo,
00:03:05estos seis pasos están todos preguntando a Clawed Code,
00:03:09como, oye, ¿esta característica ya existe de forma nativa?
00:03:12¿Necesitamos crear algo personalizado?
00:03:15Porque a Clawed le gusta crear cosas personalizadas,
00:03:17incluso si no tiene que hacerlo.
00:03:18Así que si la biblioteca estándar no lo hace,
00:03:20entonces está diciendo, oye, ¿es esta una característica nativa de la plataforma?
00:03:22¿Es esta una dependencia instalada?
00:03:24¿Puede ser esto una línea?
00:03:26¿Necesitamos ser verbosos?
00:03:27Y si pasa por todo eso,
00:03:28y es esencialmente como, no, no, no, no, no,
00:03:30entonces estamos diciendo, lo que sea que escribas,
00:03:33haz solo lo mínimo que funcione.
00:03:35No te excedas.
00:03:36No lo crees si no lo necesitamos.
00:03:37Y si lo necesitamos, haz lo mínimo indispensable.
00:03:40Así que la idea aquí es hacer que Clawed Code sea perezoso,
00:03:42pero no negligente.
00:03:44Cualquier cosa que tenga que ver con validaciones de límites de confianza,
00:03:47pérdida de datos, manejo, seguridad y accesibilidad
00:03:48nunca están sobre la mesa.
00:03:50Así que es bastante inteligente acerca de a qué aplica este proceso.
00:03:53Ahora, en cuanto a la instalación, relativamente directa.
00:03:55Solo vas a copiar este comando aquí mismo.
00:03:57Y pondré un enlace en la descripción
00:03:58para este repositorio, obviamente,
00:04:00y esto lo va a instalar por ti.
00:04:01Y también puedes usar esto para codecs,
00:04:03o realmente cualquier agente de IA que exista.
00:04:05Hay algunos comandos cuando se trata de Ponytail.
00:04:07A saber, light, full, ultra y off.
00:04:10De nuevo, muy reminiscente de Caveman,
00:04:12como los niveles de Caveman a los que apuntamos.
00:04:14Podemos hacer que revise nuestro código.
00:04:16Podemos hacer que audite un repositorio.
00:04:18Y luego también tenemos las habilidades debt, gain y help.
00:04:20De nuevo, realmente puedes profundizar en estas
00:04:22si quieres dentro del repositorio de GitHub.
00:04:24Pero nada de esto importa realmente
00:04:24si las evaluaciones no se sostienen.
00:04:26Y lo bueno de este repositorio
00:04:28es que nos dan las evaluaciones.
00:04:29Podemos ejecutar esto nosotros mismos.
00:04:31¿Y adivina qué?
00:04:32Eso es exactamente lo que hice.
00:04:34Puedes hacer esto tú mismo también.
00:04:36Hay un informe completo
00:04:37sobre cómo obtuvieron las evaluaciones
00:04:39justo aquí en el README.
00:04:40Y también te da la capacidad de reproducirlas.
00:04:43Y así que lo que voy a mostrarte
00:04:44son los números que obtuve
00:04:45cuando reproduje todas estas evaluaciones.
00:04:48Y las reproduje no solo con Haiku 4.5,
00:04:51que es lo que ves en el repositorio,
00:04:52sino que también lo hice con Opus 4.8.
00:04:54Porque de nuevo, ninguno de nosotros está usando Haiku.
00:04:56Realmente no me importa Haiku.
00:04:58Me importa Opus.
00:05:00Y los resultados fueron honestamente bastante interesantes.
00:05:02Así que aquí están las pruebas, y aquí están las puntuaciones.
00:05:04Ves sus números publicados.
00:05:07Ves nuestra ejecución con Haiku.
00:05:09Y luego aquí a la derecha
00:05:10está nuestra ejecución con Opus.
00:05:12En la parte inferior, tienes el agregado.
00:05:14Así que el 54%, esto es de nuevo, mirando las líneas de código.
00:05:17Es un 54% menos de líneas de código, según Ponytail.
00:05:21Cuando lo ejecutamos, fue del 56% en Haiku.
00:05:24Así que esencialmente lo mismo.
00:05:27Y en Opus, fue del 71%.
00:05:29Así que vimos ganancias aún mayores o código más eficiente usando Ponytail al usar Opus.
00:05:36¿Por qué es eso?
00:05:36Porque a estos modelos más potentes les gusta hablar, ¿verdad?
00:05:40Les gusta ser verbosos.
00:05:41De nuevo, una especie de recordatorio de Caveman.
00:05:43Recordarás uno de los estudios que se mencionan allí
00:05:45es toda esta idea de que los modelos muy verbosos les gusta hablar mucho
00:05:50al punto de que a veces se hablan a sí mismos fuera de la respuesta correcta.
00:05:53Así que es bastante interesante y en realidad como una especie de impulso a esto.
00:05:57Y es interesante.
00:05:58Y hablan sobre por qué usaron Haiku en las pruebas y fue por el costo.
00:06:02Realmente creo que deberían haber hecho todo esto con Opus
00:06:04porque cuando lo ejecutamos, Opus en realidad hace que se vea mejor.
00:06:09Ya sabes, y este es el modelo que la gente está usando.
00:06:11Así que en todo caso, de alguna manera subestimaron su eficiencia en cuanto a líneas de código.
00:06:15Y esto también se aplica a los costos.
00:06:17Cuando observamos Haiku 4.5, ¿cuál fue el agregado en nuestras pruebas?
00:06:21Vimos alrededor de un 25% de reducción en el costo frente a Opus 4.8, una reducción del 53%,
00:06:28lo cual es una locura.
00:06:3053% menos es lo que nos está costando.
00:06:32Imagina que esto fuera Fable.
00:06:33Y puedes ver todas las pruebas y los números en todos los ámbitos.
00:06:35Y el más bajo fue del 13%.
00:06:38Y en algunos casos, fue tan alto como el 73% para un asistente de varios pasos.
00:06:42Ahora podrías pensar, ¿si quiera necesitamos Opus para algunos de estos?
00:06:45Punto justo.
00:06:45Pero solo entiende lo que se está ilustrando aquí.
00:06:48Lo que normalmente costaría $1.39 usando Opus estándar sin la habilidad, en cambio nos costó $0.38
00:06:55usando Ponytail.
00:06:57Y si observamos Haiku, estos modelos más pequeños en algunos casos en realidad terminaron costando más usando Ponytail.
00:07:04Así que toda esta idea de reducir las líneas de código y hacerlo más efectivo es mucho mejor cuando hablamos de modelos más potentes.
00:07:11En algunos casos, tenemos un efecto opuesto con los modelos más pequeños porque ya iban a ser eficientes porque son como tontos y rápidos.
00:07:18Puedes ver aquí en la evaluación de conteo de elementos, fue un 21% más caro usar Ponytail con Haiku.
00:07:27Ahora estamos hablando de una diferencia de dos centavos, pero el punto sigue en pie.
00:07:31Cuanto más fuerte es el modelo, más efectiva es esta arquitectura.
00:07:34Y me encantaría ver cómo se ve esto usando Fable.
00:07:37De nuevo, el 53% no es ninguna broma.
00:07:39¿Y qué hay de la velocidad?
00:07:40De nuevo, estamos viendo lo mismo con Haiku.
00:07:43¿Qué tan más rápido fue?
00:07:44Alrededor de un 31% más, 31% más rápido usar Haiku con Ponytail que sin él.
00:07:51Con Opus, 71% más rápido.
00:07:5571% más rápido.
00:07:56Y de nuevo, ¿qué vemos con Haiku?
00:07:58Hay instancias, tres de hecho, donde fue más lento usando Ponytail.
00:08:03Ya sabes, en algunos casos, un 22% más lento frente a cada evaluación en Opus hasta un 88%.
00:08:10En algunas instancias, siempre fue más rápido, ¿verdad?
00:08:13De nuevo, vemos asistente de varios pasos 78%, selector de fecha 88%.
00:08:17Y en el peor escenario, fue una diferencia del 27%.
00:08:22Así que vemos estos números con Ponytail y decimos, ah, tómalos con un grano de sal, aunque puedo hacer las evaluaciones, como ¿qué es realmente un 20%?
00:08:31Y luego dices, oh, es Haiku.
00:08:33Así que esto es algo BS.
00:08:34Entonces lo probamos en Opus y es muy diferente.
00:08:36Es mucho más efectivo.
00:08:37Y creo que la pregunta obvia es, bueno, ¿qué pasa con las evaluaciones mismas?
00:08:41Como ¿qué tan efectivas son estas evaluaciones?
00:08:42¿Son realistas?
00:08:44En primer lugar, ve al repositorio, pruébalas tú mismo o ejecuta tus propias evaluaciones que creas que se ajustan a lo que consideras legítimo.
00:08:52De cualquier manera, creo que cuando hablamos de, creo que las 19 evaluaciones diferentes que ejecutó, estamos empezando a ver lo mismo en todos los ámbitos.
00:08:59Cuando miramos un modelo más potente como Opus, quiero decir, honestamente, ignoro estas para Haiku.
00:09:04No me importa Haiku.
00:09:06Es más barato.
00:09:07Es más rápido.
00:09:08Y por lo tanto, es más eficiente.
00:09:11Y de nuevo, ya que estamos hablando de lo que es esencialmente solo una habilidad, ¿cuál es el inconveniente de probar esto?
00:09:16Estos números se ven muy bien.
00:09:17Sugiero encarecidamente que vayas a este repositorio, lo descargues y empieces a usarlo tú mismo.
00:09:21En el peor de los casos, digamos para tu proyecto en particular, es tan complicado que decirle que sea, ya sabes, menos verboso en realidad sale contraproducente.
00:09:30Bueno, quiero decir, creo que es una situación de no hay daño, no hay falta, ¿verdad?
00:09:34Así que ese es el peor caso.
00:09:37El mejor caso es que estás ahorrando como el 50% en tu uso de Opus y es un 70% más rápido.
00:09:43Así que cosas realmente interesantes.
00:09:45Definitivamente voy a usar esto en mi día a día.
00:09:47He estado usando Caveman por un mes o dos para todo el tiempo, solo cargado automáticamente.
00:09:52Y voy a cambiarme a Ponytail y ver cuánto me gusta.
00:09:55Creo que cuantas más cosas salgan así, mejor.
00:09:58Todo lo que escuchas estos días es costo de tokens, costo de tokens, costo de tokens.
00:10:03Así que cualquier cosa que pueda reducir eso para nosotros será bien recibida.
00:10:07Así que ahí es donde voy a terminar este video.
00:10:08Como siempre, asegúrate de ver ChaseAI Plus si quieres tener en tus manos mi Masterclass de Cloud Code.
00:10:13Déjame saber lo que piensas en los comentarios y te veré por ahí.

Key Takeaway

Ponytail es una herramienta de código abierto que optimiza Claude Code mediante un proceso de seis pasos diseñado para minimizar la verbosidad y la creación innecesaria de código, logrando mejoras de hasta el 71% en velocidad y el 53% en costos al utilizar el modelo Opus 4.8.

Highlights

  • Ponytail reduce el uso de líneas de código en aproximadamente un 50% frente a la línea base en Claude Code.

  • La implementación de Ponytail con el modelo Opus 4.8 logra reducciones de costos del 53% y aumentos de velocidad del 71%.

  • El proceso de Ponytail consta de seis pasos que evalúan la necesidad de crear código, priorizando el uso de la biblioteca estándar y funciones nativas.

  • La eficiencia de Ponytail aumenta significativamente con modelos de lenguaje más potentes, mientras que puede tener efectos marginales o contraproducentes en modelos pequeños como Haiku.

  • Las pruebas comparativas muestran que Ponytail evita que el modelo cree funciones personalizadas innecesarias, reduciendo la verbosidad excesiva.

Timeline

Funcionalidad y propuesta de Ponytail

  • Ponytail busca convertir a Claude Code en una herramienta más concisa y eficiente sin sacrificar la calidad de los resultados.
  • La herramienta afirma reducir las líneas de código en un 50% y los costos y tiempos entre un 20% y 30% en comparación con la línea base.
  • Los datos presentados son promedios derivados de pruebas con el modelo Haiku 4.5.

El problema central abordado es la naturaleza verbosa de Claude Code, que tiende a generar código innecesario. Ponytail se presenta como una solución similar a herramientas previas como Caveman, pero con métricas de rendimiento superiores. El análisis destaca que al limitar la verbosidad del modelo, se obtienen respuestas más precisas y eficientes.

El proceso de optimización en seis pasos

  • Ponytail sigue un protocolo de seis pasos que cuestiona la necesidad de cada nueva pieza de código antes de su creación.
  • El proceso prioriza el uso de bibliotecas estándar y características nativas de la plataforma frente a soluciones personalizadas.
  • La arquitectura de Ponytail busca que Claude Code sea 'perezoso' pero no negligente respecto a seguridad o manejo de datos.

El mecanismo operativo se centra en preguntar sistemáticamente si una funcionalidad ya existe. Si la respuesta es afirmativa, el sistema la utiliza en lugar de recrear la rueda. Solo cuando es estrictamente necesario, el sistema procede a escribir el código mínimo indispensable para lograr el objetivo.

Evaluación de rendimiento y resultados

  • La ejecución de pruebas con el modelo Opus 4.8 demostró una reducción del 71% en líneas de código y un 53% en costos.
  • Los modelos más potentes, como Opus, se benefician más de esta arquitectura que los modelos pequeños como Haiku.
  • El uso de Ponytail con Haiku puede generar un aumento marginal en costos en ciertos casos debido a su naturaleza rápida y simple.

Al validar las evaluaciones con Opus 4.8, se observó que la eficiencia superó los números publicados por el repositorio original. Mientras que Haiku en algunos casos presentó tiempos más lentos, la arquitectura de Ponytail demostró ser altamente efectiva para modelos grandes, logrando reducciones de hasta el 73% en costos para tareas complejas.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video