¡NO DESPERDICIES TANTOS TOKENS! Agente de código PI vs OPENCODE con el mismo LLM local.
LLuigi Tech
컴퓨터/소프트웨어게임/e스포츠AI/미래기술
Transcript
00:00:00Hola a todos, esta es una demostración de Agent vs Open Code y vamos a probar
00:00:09estos dos entornos en este ejemplo. Este es un juego que programé en mi
00:00:20video anterior, este de aquí, y bueno, en este video me gustaría probar cómo arreglarlo
00:00:29porque tiene algunos errores. Por ejemplo, como pueden ver, la marca X ganó la
00:00:38partida pero las celdas no se resaltan, así que intentaremos hacer el mismo arreglo
00:00:51con un LLM local, que es Qwen 2.5 3B, que en mi opinión es el mejor modelo
00:01:04que puedes ejecutar en tu computadora ahora mismo. Probemos primero con el PI,
00:01:16este es PI y lo ejecutaré dentro de este directorio donde están las fuentes en
00:01:30archivos separados; tengo index.html, game.js y style.js, e intentaremos
00:01:42el mismo prompt en ambos entornos y compararemos los resultados. También
00:01:55usaré un temporizador para ver cuánto tiempo toma la tarea. Este es el prompt:
00:02:11“haz que los cubos de las celdas sean más visibles y añade espacio entre ellos”
00:02:19porque, como ven aquí, los cubos están muy pegados, y luego tenemos
00:02:28la segunda tarea: “mejora la lógica de victoria, las marcas ganadoras deben
00:02:37volverse verdes”. Este es otro problema porque no se ve dónde
00:02:46ganó el jugador con las marcas. Y sí, empezó a seguir mi prompt, y esto es
00:02:59PI, así que comienza analizando el directorio actual y aquí pueden ver el
00:03:09contexto utilizado, aunque quizás sea más interesante ver el tiempo empleado para
00:03:20arreglar el juego. Está trabajando, y luego haremos la misma tarea con
00:03:30Open Code; reiniciaré el repo para hacer el mismo tipo de prueba. Ahora
00:03:41pausaré el video un momento y nos vemos cuando termine de arreglar el juego.
00:04:00Listo. Aún está escribiendo el reporte de los cambios y luego probaremos
00:04:20los resultados. Bien. Pausamos en 7 minutos y 44 segundos con Qwen 2.5, probemos
00:04:38los resultados. Este es el reporte, esto es lo que pasó técnicamente en el
00:04:47código y, como pueden ver, leyó parcialmente game.js varias veces en
00:04:58múltiples partes. Esto también es un diff; como ven, tuvo que editar mucho
00:05:09el archivo. En total son 9.4K tokens enviados y 2.8K recibidos; este
00:05:23es el resultado del uso del contexto. Probemos el resultado: recargo y,
00:05:35como ven, ahora los cubos de las celdas están más espaciados, más separados entre sí.
00:05:44Probemos el juego: empezaré con la celda central y... vale, dejaré que
00:06:00gane... perfecto. Ahora la computadora ganó y, como ven, tenemos los cubos más
00:06:11separados y también las marcas ganadoras resaltadas; funciona. Esto fue con
00:06:20el agente de programación PI. Ahora haremos la misma prueba con Open Code,
00:06:30mismo modelo y mismo código. Voy a resetear el código; bien, los cambios volvieron
00:06:50a la versión con errores, así. Ahora probaremos el mismo prompt con
00:07:00Open Code para las celdas y para la lógica de victoria, y usaré el mismo modelo con
00:07:11Basico. Basico es un agente personalizado que hice y que también inicia; lo
00:07:27hice porque es mucho más simple que el agente de programación por defecto.
00:07:36El agente Basico es este:
00:07:56es solo un archivo markdown simple: “eres Basico, un agente minimalista”. Y sí,
00:08:07no especifiqué mucho aquí, solo que use búsqueda web con la herramienta de motor de búsqueda,
00:08:15que no usaremos en este caso. Es un agente muy simple solo para recrear
00:08:24condiciones similares para Open Code. Ya estamos usando 12k de contexto,
00:08:34empezó con index, game.js y sí, aquí también probaremos
00:08:47el resultado final tras pausar el video. Sigue ejecutándose sin dar
00:08:58mucho feedback. También quería decir que intenté la misma prueba
00:09:07con Gemma 2 27B, pero no fue capaz de realizar las llamadas a herramientas en
00:09:20este tipo de proyecto. Gemma fue capaz de recrear el juego de tic-tac-toe 3D, pero
00:09:30luego no pudo hacer las llamadas para editar los archivos. Solo hice este test
00:09:38con Qwen 2.5 porque creo que es el mejor para escenarios locales como este.
00:09:48Es interesante porque está llenando los “to-dos”. Hay dos tareas: una es
00:09:58hacer los cubos más visibles y la otra arreglar la lógica. Tendrá un
00:10:07poco de sobrecarga comparado con PI, pero PI pudo hacer
00:10:17este tipo de tarea también sin un “to-do” intermedio. Quizás en situaciones más
00:10:26intrincadas sea útil tener un “to-do”, pero es el modelo LLM
00:10:35lo que marca la mayor diferencia en mi opinión y no el entorno, pero
00:10:44ya veremos.
00:10:56Nos vemos.
00:11:27Casi listo, ambos “to-dos” se han completado, pero aún tiene que leer y
00:11:40luego escribir en el archivo.
00:11:52Está escribiendo el reporte. Espero que termine pronto; llevamos 12
00:12:05minutos, es más tiempo, pero bueno, ha terminado; pausar. Como ven,
00:12:15el contexto usado es de unos 23K con Open Code, probablemente reportan
00:12:26los tokens de forma distinta, pero parece que PI usó la mitad para
00:12:36arreglar los problemas. Este es el reporte técnico; abrió muchas veces
00:12:46game.js para hacer los arreglos. Probemos el juego para ver si realmente
00:12:57funciona el arreglo; recargo y parece similar a la versión de PI. Celda central...
00:13:19intentemos ganar la partida... gané. Y como pueden ver, obtuvimos el mismo resultado
00:13:32que con PI, pero con más tokens y más tiempo invertido en las
00:13:43soluciones. En este caso, Open Code, que suele tener muchas funciones
00:13:55como guardrails y más ajustes de prompts, dio las mismas soluciones que
00:14:06PI, pero con menos tiempo y tokens. En conclusión, en mi opinión y como
00:14:18dije antes, el LLM usado es la parte más relevante e importante. El
00:14:28entorno es útil e importante, pero lo es más la calidad de los datos
00:14:36que se ponen en el contexto. En esta situación con el agente PI
00:14:47tenemos menos sobrecarga y logramos un buen resultado sin un prompt muy grande.
00:14:58Díganme en los comentarios cuál es su entorno de programación de código abierto preferido.
00:15:06Nos vemos en otro video, adiós.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video