Este repositorio de código abierto soluciona el mayor problema de Claude Code
CChase AI
Computing/SoftwareSmall Business/StartupsInternet Technology
Transcript
00:00:00¿Puede una sola habilidad hacer que CloudCode sea mucho más eficiente?
00:00:03¿Puede hacer que CloudCode sea más rápido, más barato y escriba menos código
00:00:06mientras nos sigue dando el mismo tipo de resultados de alto nivel a los que estamos acostumbrados?
00:00:10Bueno, eso es exactamente lo que Ponytail afirma ser capaz de hacer,
00:00:13y ha hecho que alcance las 40.000 estrellas solo siete días después de su lanzamiento.
00:00:18Ahora bien, Ponytail no es la primera herramienta que hemos visto afirmar que hace algo así.
00:00:22Hemos hablado de Caveman en el pasado, y todas estas herramientas tienden a tener la misma idea.
00:00:26La idea es que CloudCode es naturalmente verboso,
00:00:29y si le decimos, oye, deja de hablar tanto,
00:00:32podemos obtener una respuesta mucho más concisa que, en última instancia, es igual de correcta
00:00:36o, como recordamos con Caveman, podría ser incluso más correcta.
00:00:40Ponytail es simplemente la versión más reciente de esto,
00:00:42pero es una versión que afirma tener números mejores que cualquiera que hayamos visto en el pasado.
00:00:45Y podemos ver esos números aquí mismo.
00:00:47Podemos ver líneas de código frente a tokens frente a costo y frente a tiempo.
00:00:52Y en todos los aspectos, el gris es como la línea base sin ninguna de estas herramientas
00:00:55y el verde es Ponytail,
00:00:58Ponytail lidera prácticamente el grupo en todas partes o se acerca bastante.
00:01:03Ahora, los números que has visto aquí son agregados.
00:01:05Este es el promedio obtenido de varias pruebas diferentes,
00:01:08y esto también se hace usando Haiku 4.5.
00:01:11Y no te preocupes, más adelante vamos a A, validar estas pruebas,
00:01:14echar un vistazo a un modelo real porque ninguno de nosotros está usando Haiku 4.5 realmente.
00:01:18Estamos usando Opus 4.8, así que veamos cómo se ven esos números.
00:01:20Y en cuanto a las líneas de código, son alrededor de un 50% menos de líneas.
00:01:24Y si observamos los tokens, el costo y el tiempo,
00:01:27alrededor de un 20% a un 30% de mejora frente a la línea base.
00:01:31Y eso no es una cantidad pequeña,
00:01:32especialmente cuando extrapolamos esto a algo como Fable,
00:01:36que es terriblemente caro.
00:01:37Así que si pudiera decirte, oye, si usas algo como Fable,
00:01:40va a ser más rápido y más barato.
00:01:42Bueno, nos encantaría eso, ¿verdad?
00:01:43Ahora, antes de explicar cómo funciona esto
00:01:45y mostrarte cómo se ven las puntuaciones de referencia,
00:01:47cuando lo probé, unas breves palabras del patrocinador de hoy, yo mismo.
00:01:50Así que dentro de Chase AI+, tengo mi Masterclass de Clawed Code,
00:01:53que es la mejor manera de pasar de cero a desarrollador de IA,
00:01:56especialmente si no vienes de un entorno técnico.
00:01:59Actualizo esto cada semana,
00:02:01y también incluye clases magistrales sobre codecs
00:02:03y cómo construir tu propio sistema operativo agentic.
00:02:06Puedes encontrar un enlace en el comentario fijado.
00:02:08Y de nuevo, actualizo esto cada semana,
00:02:10y nos enfocamos en casos de uso reales.
00:02:12Así que si quieres empezar a dominar Clawed Code,
00:02:15este es el lugar para ti.
00:02:16¿Cómo funciona Ponytail?
00:02:17Bueno, pasa por un proceso de seis pasos
00:02:19antes de escribir código.
00:02:20Así que la primera pregunta es,
00:02:22¿esto siquiera necesita existir?
00:02:24Si la respuesta es no,
00:02:26bueno, entonces simplemente no escribimos código para ello.
00:02:28Relativamente obvio.
00:02:29Después de eso, preguntamos, ¿la biblioteca estándar lo hace?
00:02:33Si la respuesta es sí,
00:02:34vamos a usar la biblioteca estándar.
00:02:36Lo más importante que verás con las evaluaciones
00:02:38es que hay instancias en las que Clawed Code
00:02:41recreará características desde cero que ya existen,
00:02:45ya sea dentro de algún tipo de biblioteca o como una característica de la plataforma.
00:02:49Así que Clawed Code tiene el problema de que,
00:02:51oye, la rueda ya ha sido inventada.
00:02:52Tenemos la rueda aquí en este programa.
00:02:53Y es como, ¿sabes qué?
00:02:55Voy a construir una rueda desde cero.
00:02:56Y debido a eso,
00:02:57así es como obtienes mucho código
00:02:59cuando no necesariamente lo necesitas.
00:03:01Eso es algo que ves una y otra vez
00:03:03en estas evaluaciones.
00:03:04Y para alejarnos por un segundo,
00:03:05estos seis pasos están todos preguntando a Clawed Code,
00:03:09como, oye, ¿esta característica ya existe de forma nativa?
00:03:12¿Necesitamos crear algo personalizado?
00:03:15Porque a Clawed le gusta crear cosas personalizadas,
00:03:17incluso si no tiene que hacerlo.
00:03:18Así que si la biblioteca estándar no lo hace,
00:03:20entonces está diciendo, oye, ¿es esta una característica nativa de la plataforma?
00:03:22¿Es esta una dependencia instalada?
00:03:24¿Puede ser esto una línea?
00:03:26¿Necesitamos ser verbosos?
00:03:27Y si pasa por todo eso,
00:03:28y es esencialmente como, no, no, no, no, no,
00:03:30entonces estamos diciendo, lo que sea que escribas,
00:03:33haz solo lo mínimo que funcione.
00:03:35No te excedas.
00:03:36No lo crees si no lo necesitamos.
00:03:37Y si lo necesitamos, haz lo mínimo indispensable.
00:03:40Así que la idea aquí es hacer que Clawed Code sea perezoso,
00:03:42pero no negligente.
00:03:44Cualquier cosa que tenga que ver con validaciones de límites de confianza,
00:03:47pérdida de datos, manejo, seguridad y accesibilidad
00:03:48nunca están sobre la mesa.
00:03:50Así que es bastante inteligente acerca de a qué aplica este proceso.
00:03:53Ahora, en cuanto a la instalación, relativamente directa.
00:03:55Solo vas a copiar este comando aquí mismo.
00:03:57Y pondré un enlace en la descripción
00:03:58para este repositorio, obviamente,
00:04:00y esto lo va a instalar por ti.
00:04:01Y también puedes usar esto para codecs,
00:04:03o realmente cualquier agente de IA que exista.
00:04:05Hay algunos comandos cuando se trata de Ponytail.
00:04:07A saber, light, full, ultra y off.
00:04:10De nuevo, muy reminiscente de Caveman,
00:04:12como los niveles de Caveman a los que apuntamos.
00:04:14Podemos hacer que revise nuestro código.
00:04:16Podemos hacer que audite un repositorio.
00:04:18Y luego también tenemos las habilidades debt, gain y help.
00:04:20De nuevo, realmente puedes profundizar en estas
00:04:22si quieres dentro del repositorio de GitHub.
00:04:24Pero nada de esto importa realmente
00:04:24si las evaluaciones no se sostienen.
00:04:26Y lo bueno de este repositorio
00:04:28es que nos dan las evaluaciones.
00:04:29Podemos ejecutar esto nosotros mismos.
00:04:31¿Y adivina qué?
00:04:32Eso es exactamente lo que hice.
00:04:34Puedes hacer esto tú mismo también.
00:04:36Hay un informe completo
00:04:37sobre cómo obtuvieron las evaluaciones
00:04:39justo aquí en el README.
00:04:40Y también te da la capacidad de reproducirlas.
00:04:43Y así que lo que voy a mostrarte
00:04:44son los números que obtuve
00:04:45cuando reproduje todas estas evaluaciones.
00:04:48Y las reproduje no solo con Haiku 4.5,
00:04:51que es lo que ves en el repositorio,
00:04:52sino que también lo hice con Opus 4.8.
00:04:54Porque de nuevo, ninguno de nosotros está usando Haiku.
00:04:56Realmente no me importa Haiku.
00:04:58Me importa Opus.
00:05:00Y los resultados fueron honestamente bastante interesantes.
00:05:02Así que aquí están las pruebas, y aquí están las puntuaciones.
00:05:04Ves sus números publicados.
00:05:07Ves nuestra ejecución con Haiku.
00:05:09Y luego aquí a la derecha
00:05:10está nuestra ejecución con Opus.
00:05:12En la parte inferior, tienes el agregado.
00:05:14Así que el 54%, esto es de nuevo, mirando las líneas de código.
00:05:17Es un 54% menos de líneas de código, según Ponytail.
00:05:21Cuando lo ejecutamos, fue del 56% en Haiku.
00:05:24Así que esencialmente lo mismo.
00:05:27Y en Opus, fue del 71%.
00:05:29Así que vimos ganancias aún mayores o código más eficiente usando Ponytail al usar Opus.
00:05:36¿Por qué es eso?
00:05:36Porque a estos modelos más potentes les gusta hablar, ¿verdad?
00:05:40Les gusta ser verbosos.
00:05:41De nuevo, una especie de recordatorio de Caveman.
00:05:43Recordarás uno de los estudios que se mencionan allí
00:05:45es toda esta idea de que los modelos muy verbosos les gusta hablar mucho
00:05:50al punto de que a veces se hablan a sí mismos fuera de la respuesta correcta.
00:05:53Así que es bastante interesante y en realidad como una especie de impulso a esto.
00:05:57Y es interesante.
00:05:58Y hablan sobre por qué usaron Haiku en las pruebas y fue por el costo.
00:06:02Realmente creo que deberían haber hecho todo esto con Opus
00:06:04porque cuando lo ejecutamos, Opus en realidad hace que se vea mejor.
00:06:09Ya sabes, y este es el modelo que la gente está usando.
00:06:11Así que en todo caso, de alguna manera subestimaron su eficiencia en cuanto a líneas de código.
00:06:15Y esto también se aplica a los costos.
00:06:17Cuando observamos Haiku 4.5, ¿cuál fue el agregado en nuestras pruebas?
00:06:21Vimos alrededor de un 25% de reducción en el costo frente a Opus 4.8, una reducción del 53%,
00:06:28lo cual es una locura.
00:06:3053% menos es lo que nos está costando.
00:06:32Imagina que esto fuera Fable.
00:06:33Y puedes ver todas las pruebas y los números en todos los ámbitos.
00:06:35Y el más bajo fue del 13%.
00:06:38Y en algunos casos, fue tan alto como el 73% para un asistente de varios pasos.
00:06:42Ahora podrías pensar, ¿si quiera necesitamos Opus para algunos de estos?
00:06:45Punto justo.
00:06:45Pero solo entiende lo que se está ilustrando aquí.
00:06:48Lo que normalmente costaría $1.39 usando Opus estándar sin la habilidad, en cambio nos costó $0.38
00:06:55usando Ponytail.
00:06:57Y si observamos Haiku, estos modelos más pequeños en algunos casos en realidad terminaron costando más usando Ponytail.
00:07:04Así que toda esta idea de reducir las líneas de código y hacerlo más efectivo es mucho mejor cuando hablamos de modelos más potentes.
00:07:11En algunos casos, tenemos un efecto opuesto con los modelos más pequeños porque ya iban a ser eficientes porque son como tontos y rápidos.
00:07:18Puedes ver aquí en la evaluación de conteo de elementos, fue un 21% más caro usar Ponytail con Haiku.
00:07:27Ahora estamos hablando de una diferencia de dos centavos, pero el punto sigue en pie.
00:07:31Cuanto más fuerte es el modelo, más efectiva es esta arquitectura.
00:07:34Y me encantaría ver cómo se ve esto usando Fable.
00:07:37De nuevo, el 53% no es ninguna broma.
00:07:39¿Y qué hay de la velocidad?
00:07:40De nuevo, estamos viendo lo mismo con Haiku.
00:07:43¿Qué tan más rápido fue?
00:07:44Alrededor de un 31% más, 31% más rápido usar Haiku con Ponytail que sin él.
00:07:51Con Opus, 71% más rápido.
00:07:5571% más rápido.
00:07:56Y de nuevo, ¿qué vemos con Haiku?
00:07:58Hay instancias, tres de hecho, donde fue más lento usando Ponytail.
00:08:03Ya sabes, en algunos casos, un 22% más lento frente a cada evaluación en Opus hasta un 88%.
00:08:10En algunas instancias, siempre fue más rápido, ¿verdad?
00:08:13De nuevo, vemos asistente de varios pasos 78%, selector de fecha 88%.
00:08:17Y en el peor escenario, fue una diferencia del 27%.
00:08:22Así que vemos estos números con Ponytail y decimos, ah, tómalos con un grano de sal, aunque puedo hacer las evaluaciones, como ¿qué es realmente un 20%?
00:08:31Y luego dices, oh, es Haiku.
00:08:33Así que esto es algo BS.
00:08:34Entonces lo probamos en Opus y es muy diferente.
00:08:36Es mucho más efectivo.
00:08:37Y creo que la pregunta obvia es, bueno, ¿qué pasa con las evaluaciones mismas?
00:08:41Como ¿qué tan efectivas son estas evaluaciones?
00:08:42¿Son realistas?
00:08:44En primer lugar, ve al repositorio, pruébalas tú mismo o ejecuta tus propias evaluaciones que creas que se ajustan a lo que consideras legítimo.
00:08:52De cualquier manera, creo que cuando hablamos de, creo que las 19 evaluaciones diferentes que ejecutó, estamos empezando a ver lo mismo en todos los ámbitos.
00:08:59Cuando miramos un modelo más potente como Opus, quiero decir, honestamente, ignoro estas para Haiku.
00:09:04No me importa Haiku.
00:09:06Es más barato.
00:09:07Es más rápido.
00:09:08Y por lo tanto, es más eficiente.
00:09:11Y de nuevo, ya que estamos hablando de lo que es esencialmente solo una habilidad, ¿cuál es el inconveniente de probar esto?
00:09:16Estos números se ven muy bien.
00:09:17Sugiero encarecidamente que vayas a este repositorio, lo descargues y empieces a usarlo tú mismo.
00:09:21En el peor de los casos, digamos para tu proyecto en particular, es tan complicado que decirle que sea, ya sabes, menos verboso en realidad sale contraproducente.
00:09:30Bueno, quiero decir, creo que es una situación de no hay daño, no hay falta, ¿verdad?
00:09:34Así que ese es el peor caso.
00:09:37El mejor caso es que estás ahorrando como el 50% en tu uso de Opus y es un 70% más rápido.
00:09:43Así que cosas realmente interesantes.
00:09:45Definitivamente voy a usar esto en mi día a día.
00:09:47He estado usando Caveman por un mes o dos para todo el tiempo, solo cargado automáticamente.
00:09:52Y voy a cambiarme a Ponytail y ver cuánto me gusta.
00:09:55Creo que cuantas más cosas salgan así, mejor.
00:09:58Todo lo que escuchas estos días es costo de tokens, costo de tokens, costo de tokens.
00:10:03Así que cualquier cosa que pueda reducir eso para nosotros será bien recibida.
00:10:07Así que ahí es donde voy a terminar este video.
00:10:08Como siempre, asegúrate de ver ChaseAI Plus si quieres tener en tus manos mi Masterclass de Cloud Code.
00:10:13Déjame saber lo que piensas en los comentarios y te veré por ahí.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video