Anthropic lanzó una nueva forma de "programar con vibra"

AAI LABS
Internet TechnologyComputing/Software

Transcript

00:00:00El principal problema con los agentes de IA es la ventana de contexto limitada,
00:00:03que restringe lo que recuerdan de acciones anteriores.
00:00:06Cuando le damos a Claude Code una tarea más grande,
00:00:08se compacta varias veces al intentar una sola característica,
00:00:11olvidando la tarea principal que se le pidió implementar,
00:00:14lo que lo hace menos efectivo para tareas de larga duración.
00:00:17Anthropic acaba de lanzar una solución basada en cómo trabajan los equipos reales en un entorno de ingeniería.
00:00:22Identificaron dos razones clave por las que falla en tareas largas.
00:00:26Muchos hemos intentado crear aplicaciones enteras o grandes características de una sola vez,
00:00:31y hacer demasiado provoca que el modelo se quede sin contexto.
00:00:34Después de una compactación repetida,
00:00:35la ventana de contexto se actualiza con la característica solo a medio implementar,
00:00:39sin memoria de su progreso,
00:00:41lo que lleva a una implementación incompleta.
00:00:43El segundo problema es que,
00:00:44debido a sus menores capacidades de prueba,
00:00:46Claude marca las características no probadas como completadas.
00:00:49Asume que la característica está completa,
00:00:51incluso si en realidad no funciona correctamente.
00:00:53Su solución fue usar un agente de inicialización y un agente de codificación en armonía,
00:00:57inspirado en cómo trabajan los equipos de software reales.
00:00:59Este flujo de trabajo está originalmente pensado para agentes que construyes tú mismo,
00:01:03pero me di cuenta de que también podría aplicarse a las instancias de Claude Code.
00:01:06El primer agente se enfoca en inicializar correctamente tu agente de codificación,
00:01:09y tienes que ser paciente aquí porque lleva un poco de tiempo.
00:01:12Tengo un proyecto Next.js vacío y quiero construir un compilador de Python en línea.
00:01:16Antes de empezar,
00:01:17crea un archivo Claude.md usando el comando init.
00:01:20Este archivo es un documento para tu base de código y está en la raíz de tu proyecto,
00:01:24conteniendo una descripción general y toda la información importante.
00:01:27Luego,
00:01:27genera el JSON de la lista de características en la raíz del proyecto.
00:01:30Debe listar todas las características y sus pasos de prueba correspondientes,
00:01:33con todas las pruebas marcadas como fallando inicialmente,
00:01:36para que Claude se vea obligado a probarlas.
00:01:38Usamos JSON en lugar de Markdown porque los archivos JSON son más fáciles de gestionar en el contexto.
00:01:43Dado que Claude solo puede probar el código,
00:01:45no la interfaz que vemos en el navegador,
00:01:47conecté Puppeteer para las pruebas de navegador.
00:01:49Después de eso,
00:01:49crea un script de inicialización para guiar el inicio del servidor de desarrollo y un archivo de seguimiento de progreso para que el sistema pueda hacer un seguimiento del estado de finalización del proyecto.
00:01:57Como pautas,
00:01:58Claude necesita actualizar progress.md después de cada ejecución y probar cada característica después de la implementación.
00:02:04La práctica más importante es hacer commits a Git.
00:02:07Subestimamos lo crucial que es hacer commits en un estado fusionable.
00:02:10Los commits de Git con registros claros muestran lo que está completado y te permiten revertir si la implementación falla.
00:02:15Finalmente,
00:02:16Claude no debe cambiar la lista de características más allá de marcarlas como implementadas.
00:02:20Con el entorno listo, pasamos a la parte de codificación.
00:02:23La idea era implementar cada característica una por una del JSON de características.
00:02:27Claude también hizo mensajes de commit descriptivos después de cada característica probada y también lanzó el navegador cuando fue necesario.
00:02:33Una vez que verificó que la aplicación funcionaba,
00:02:35actualizó los campos JSON de falso a verdadero y actualizó progress.md con lo que se había completado hasta el momento.
00:02:42Finalmente,
00:02:42hizo commit de los cambios y verificó que el commit fue exitoso.
00:02:45La ventaja de este enfoque incremental es que,
00:02:48incluso si la sesión termina,
00:02:49puedes reanudar exactamente donde lo dejaste.
00:02:51Todo se rastrea en los registros de Git,
00:02:53así que no tienes que preocuparte por romper el código.
00:02:55Claude puede entender el proyecto a partir de los registros de Git y el archivo de progreso,
00:02:59no del código en sí,
00:03:00por lo que puedes reanudar la sesión fácilmente.
00:03:02Tu siguiente indicación es simplemente implementar la siguiente característica marcada como
00:03:06Este enfoque también reduce la tendencia de Claude a marcar características como completas sin pruebas adecuadas.
00:03:11Cada iteración asegura que la aplicación se construya de principio a fin con pruebas reales,
00:03:16ayudando a identificar errores que no son obvios solo con el código.
00:03:19Repetimos este ciclo hasta que todas las características estén marcadas como verdaderas.
00:03:22Podrías pensar que esto es similar al método BMAD.
00:03:24Comparte similitudes,
00:03:25pero creo que el flujo de trabajo de Claude es mejor en algunos aspectos.
00:03:28Fue más fácil ya que no llamabas a los agentes por separado,
00:03:31y la utilización del contexto también fue mejor.
00:03:33Después de implementar tantas características,
00:03:36solo usó el 84% del contexto,
00:03:37mientras que BMAD ya habría compactado dos veces debido a las grandes historias que crea.
00:03:42Dicho esto,
00:03:42BMAD sigue siendo un sistema completo listo para usar,
00:03:45mientras que esto sigue siendo una idea que necesita ser implementada.
00:03:48Pero BMAD podría usar algunas cosas de esto,
00:03:50como el sistema Git.
00:03:51Después de enseñar a millones de personas cómo construir con IA,
00:03:54empezamos a implementar estos flujos de trabajo nosotros mismos.
00:03:57Descubrimos que podíamos construir mejores productos más rápido que nunca antes.
00:04:00Ayudamos a dar vida a tus ideas,
00:04:02ya sean aplicaciones o sitios web.
00:04:04Quizás has visto nuestros videos pensando:
00:04:10Piensa en nosotros como tu copiloto técnico.
00:04:12Aplicamos los mismos flujos de trabajo que hemos enseñado a millones directamente a tu proyecto,
00:04:17convirtiendo conceptos en soluciones reales y funcionales sin los dolores de cabeza de contratar o gestionar un equipo de desarrollo.
00:04:22¿Listo para acelerar tu idea y convertirla en realidad?
00:04:25Contáctanos en hello@autometer.dev.
00:04:27Esto nos lleva al final de este video..
00:04:29Si quieres apoyar el canal y ayudarnos a seguir haciendo videos como este,
00:04:33puedes hacerlo usando el botón de super gracias de abajo.
00:04:36Como siempre, gracias por ver, y nos vemos en el próximo.

Key Takeaway

Anthropic ha introducido un flujo de trabajo de dos agentes para Claude Code que aborda las limitaciones de contexto y las deficiencias de prueba, permitiendo el desarrollo incremental y robusto de software mediante una gestión estructurada del proyecto y el uso de Git.

Highlights

Anthropic lanzó una solución para la limitación de la ventana de contexto de los agentes de IA, inspirada en equipos de ingeniería reales.

El nuevo enfoque utiliza un agente de inicialización y un agente de codificación que trabajan en armonía para gestionar tareas complejas de desarrollo de software.

La configuración del proyecto incluye archivos clave como Claude.md, un JSON de lista de características con pruebas inicialmente fallidas, y progress.md para el seguimiento del estado.

Se enfatiza la importancia de los commits de Git con registros claros para rastrear el progreso, permitir reversiones y mantener la memoria del proyecto.

El proceso de codificación incremental permite reanudar el trabajo exactamente donde se dejó, mejorando la fiabilidad y asegurando pruebas reales en cada iteración.

Este método reduce la tendencia de Claude a marcar características como completas sin una verificación adecuada, garantizando una construcción robusta de la aplicación.

Timeline

Problemas con los Agentes de IA y la Ventana de Contexto

El video comienza explicando que el principal problema de los agentes de IA, como Claude Code, es su limitada ventana de contexto, lo que restringe su capacidad para recordar acciones anteriores. Esto provoca que, al intentar una tarea grande, el modelo se compacte repetidamente, olvidando la tarea principal y volviéndose ineficaz para proyectos de larga duración. Esta limitación es crucial porque impide que los agentes mantengan una comprensión coherente del progreso del proyecto. La falta de memoria contextual lleva a implementaciones incompletas y a la necesidad de reiniciar el proceso.

La Solución de Anthropic y las Causas del Fracaso

Anthropic ha lanzado una solución inspirada en cómo trabajan los equipos de ingeniería reales para abordar las fallas en tareas largas. Se identifican dos razones clave por las que los agentes de IA fallan: primero, intentar construir aplicaciones o características grandes de una sola vez agota el contexto del modelo, llevando a implementaciones incompletas después de una compactación repetida. Segundo, las menores capacidades de prueba de Claude hacen que marque características no probadas como completadas, asumiendo que funcionan correctamente cuando en realidad no es así. Esta falta de validación automática es un obstáculo significativo para la fiabilidad del código generado.

El Flujo de Trabajo de Dos Agentes

La solución propuesta por Anthropic implica el uso de un agente de inicialización y un agente de codificación que trabajan en armonía, emulando la dinámica de los equipos de software reales. Este flujo de trabajo, aunque inicialmente diseñado para agentes personalizados, se adapta eficazmente a las instancias de Claude Code. La idea central es dividir las responsabilidades para optimizar la gestión del contexto y la ejecución de tareas complejas. Esta separación de roles permite una aproximación más estructurada y eficiente al desarrollo de software.

Configuración del Agente de Inicialización

El primer agente se encarga de inicializar correctamente el entorno para el agente de codificación, un proceso que requiere paciencia. Esto incluye la creación de un archivo `Claude.md` con una descripción general del proyecto y la generación de un JSON de lista de características que detalla las funcionalidades y sus pasos de prueba, marcadas inicialmente como fallidas para forzar la prueba. Se utiliza JSON en lugar de Markdown para facilitar la gestión del contexto. Además, se conecta Puppeteer para pruebas de navegador, y se establecen un script de inicialización y un archivo `progress.md` para el seguimiento del estado de finalización del proyecto.

Pautas Clave para el Agente de Codificación y Git

Se establecen pautas claras para el agente de codificación, como actualizar `progress.md` después de cada ejecución y probar cada característica después de su implementación. La práctica más importante es realizar commits a Git con registros claros, lo que permite rastrear el progreso y revertir cambios si es necesario, mostrando lo que está completado. Claude debe abstenerse de modificar la lista de características más allá de marcarlas como implementadas, asegurando la integridad del plan de trabajo. Este sistema de control de versiones es fundamental para la estabilidad y la trazabilidad del proyecto.

Proceso de Codificación Incremental y Beneficios

Una vez configurado el entorno, el agente de codificación implementa cada característica del JSON de forma incremental, una por una. Claude crea mensajes de commit descriptivos, lanza el navegador para pruebas cuando es necesario y actualiza el JSON (de falso a verdadero) y `progress.md` tras verificar el funcionamiento de la aplicación. Este enfoque incremental permite reanudar el trabajo exactamente donde se dejó, ya que todo se rastrea en los registros de Git y el archivo de progreso, no en el código en sí. Además, reduce la tendencia de Claude a marcar características como completas sin pruebas adecuadas, asegurando una construcción robusta y la identificación temprana de errores que no son obvios solo con el código.

Comparación con BMAD y Conclusión

El video compara este flujo de trabajo con el método BMAD, señalando similitudes pero destacando que el enfoque de Claude es más fácil de usar y tiene una mejor utilización del contexto, usando solo el 84% del contexto después de implementar muchas características. Aunque BMAD es un sistema completo y esto es una idea que necesita ser implementada, se sugiere que BMAD podría beneficiarse de incorporar el sistema Git propuesto. Finalmente, el orador presenta Autometer.dev, su empresa, que aplica estos flujos de trabajo para ayudar a clientes a construir productos más rápido, actuando como un copiloto técnico y ofreciendo servicios de desarrollo para convertir conceptos en soluciones funcionales. Se invita a los interesados a contactar a hello@autometer.dev.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video