00:00:00En los últimos meses hemos cubierto muchos marcos de trabajo de IA para programación, incluidos BMAD, GSD, Speckit y Superpowers,
00:00:08y muchos de ustedes ya han comenzado a usarlos. Pero Anthropic acaba de realizar experimentos en su propio entorno,
00:00:14eliminando componentes uno por uno y midiendo qué era lo que realmente importaba. Su conclusión fue que
00:00:17la mayor parte de eso es ahora un peso muerto. Cada componente en un marco de trabajo codifica una suposición
00:00:25sobre lo que el modelo no puede hacer por sí solo, y con Opus 4.6, esas suposiciones han caducado.
00:00:32Analizamos todo y mapeamos lo que todavía importa, lo que puedes eliminar y cómo debería ser tu configuración ahora.
00:00:37Los entornos de agentes juegan un papel importante para que los agentes funcionen sustancialmente mejor en horizontes largos.
00:00:43Anthropic ya lanzó un entorno de agentes, que cubrimos en detalle en un video anterior, explicando cómo configurarlo y usarlo.
00:00:50También hemos cubierto otros marcos en ese mismo contexto y, aunque sus implementaciones difieren, todos intentan hacer lo mismo.
00:00:55Pero cuando se lanzaron estos marcos, los modelos no eran tan capaces como lo es Opus 4.6 ahora.
00:01:01Por ejemplo, marcos como GSD se enfocan en el aislamiento del contexto, pero eso no es un problema con Opus 4.6.
00:01:06No solo por la ventana de contexto de un millón de tokens, sino por otra razón de la que hablaremos en un momento.
00:01:11Por lo tanto, muchos marcos implementados anteriormente son ahora una carga innecesaria para las nuevas capacidades del modelo.
00:01:17Anthropic realizó experimentos probando diferentes aspectos del entorno, eliminando cada uno y midiendo su impacto.
00:01:24De sus hallazgos, concluyeron que todo lo que un entorno de agentes necesita realmente son agentes para planificación, generación y evaluación.
00:01:29El resto son solo formas de hacer las cosas que se vuelven peso muerto dada la capacidad actual de los modelos.
00:01:35La teoría central es que cada componente en un entorno de agentes, sin importar cuál estés usando, se basa en el mismo principio.
00:01:38Cada componente codifica una suposición sobre lo que el modelo puede hacer por sí mismo.
00:01:46Estas suposiciones deben ponerse a prueba porque podrían ser incorrectas y caducarán a medida que el modelo mejore; eso es lo que hicieron en el artículo.
00:01:54Por lo tanto, con la evolución de los modelos, tu entorno también debe evolucionar, y si trabajas con los mismos principios de hace meses, no estás al día.
00:02:01La planificación es el primer paso que permanece inalterado en cada marco, pero la forma de planificar debe cambiar para modelos más capaces.
00:02:06Los entornos anteriores de Anthropic para procesos largos requerían que el usuario proporcionara una especificación detallada por adelantado.
00:02:14Marcos como BeMad y SpecKit literalmente fragmentan la tarea en partes más pequeñas y microtareas que ayudan al agente de IA a implementarlas con facilidad.
00:02:20Y no eran solo tareas pequeñas, eran literalmente pasos detallados que los agentes solo tenían que seguir sin pensar.
00:02:27Esto se debía a que en ese momento los modelos no eran lo suficientemente capaces y necesitaban ser micro-guiados para rendir como se deseaba.
00:02:30Pero con Opus 4.5 y 4.6, esto ha cambiado.
00:02:43Cuando Anthropic probó esto, descubrieron que si el planificador intentaba especificar micro-detalles técnicos por adelantado, un solo error
00:02:45caía en cascada por cada nivel de implementación, dificultando que el agente se desviara y corrigiera problemas por su cuenta.
00:02:50Todo dependía de qué tan bien escrito estuviera el plan. Por lo tanto, la planificación se ha vuelto de alto nivel en lugar de una implementación técnica detallada.
00:02:55Los agentes son mucho más inteligentes por sí solos ahora y solo tienes que decirles qué entregables se necesitan.
00:02:57Ellos pueden descifrar el camino hacia eso por su cuenta.
00:03:02Con este cambio, los enfoques de planificación como los de BeMad y SpecKit ya no son tan relevantes.
00:03:08Puedes limitar BeMad a la fase de planificación hasta la generación del PRD, sin necesidad de entrar en el proceso técnico de fragmentación.
00:03:18Como mencionamos antes, la generación de PRD con BeMad es efectiva porque tiene agentes especializados para entender los requisitos del producto
00:03:23mejor de lo que Claude lo haría por sí solo. Esto se debe a que esos agentes tienen el contexto externo para tareas específicas añadido por el autor.
00:03:32Alternativamente, puedes usar la sesión de preguntas de Superpowers, ya que fue diseñada para identificar casos de borde,
00:03:40lo cual puede ser más efectivo que una documentación de tareas de múltiples niveles.
00:03:46Pero el problema principal con una planificación excesivamente detallada es que bloquea al agente y no deja espacio para que la IA descubra cosas por sí misma.
00:03:52Anthropic también ha dado un ejemplo de plan generado por el agente planificador, que puedes usar para configurar tu propio agente planificador.
00:03:56Indica claramente que el plan debe ser ambicioso en alcance y desafiar los límites de cualquier idea de aplicación que proporciones.
00:04:06La idea central es mantener el proyecto a nivel de producto, no a nivel de implementación.
00:04:12Esto importa porque si intenta planificar la implementación dentro del plan del proyecto, se enfoca demasiado en detalles técnicos
00:04:22y podría fallar al entregar lo que realmente se necesita para un producto completo.
00:04:31Ahora podrías pensar que el modo de plan de Claude ya hace una planificación similar al hacer preguntas y proporcionar un plan detallado.
00:04:40Pero aquí está la diferencia. Aunque Claude tiene un agente de planificación, este se enfoca mucho en los detalles de implementación
00:04:44y no opera realmente a nivel de producto, lo cual va en contra de los hallazgos de Anthropic.
00:04:47Por lo tanto, una vez que tengas esto configurado, simplemente puedes pedirle a Claude que use el agente que creaste para planificar tu aplicación,
00:04:56y generará un plan completo y lo documentará en tu carpeta a medida que avance.
00:04:59Este plan incluye un desglose completo de funciones a nivel de producto, y con cada fase, incluye historias de usuario
00:05:02que muestran cómo se ve la perspectiva del usuario. Esto ayuda a Claude a implementar los flujos de trabajo correctos que los usuarios realmente esperan.
00:05:12Pero antes de seguir adelante, unas palabras de nuestro patrocinador, Minimax.
00:05:21Configurar agentes de IA es una pesadilla. Claves de API, configuraciones de servidor, setups de Docker... y tras todo eso,
00:05:27tu asistente lo olvida todo en cuanto cierras la pestaña. La solución es MaxClaw, una IA impulsada por la nube al alcance de tu mano.
00:05:33Sin configuraciones ni dolores de cabeza, puedes desplegar tu propio OpenClaw. Solo haz clic en desplegar y estarás en línea en menos de 10 segundos.
00:05:39Construye sitios web, escribe código, realiza investigaciones y automatiza tu trabajo pesado, todo desde simples comandos de texto.
00:05:42MaxClaw se conecta directamente a Telegram, Slack, Discord y más, permitiéndote automatizar flujos de trabajo, navegar por la web,
00:05:46e incluso generar imágenes o videos, todo desde un simple chat. Es parte de Minimax Agent,
00:05:56un espacio de trabajo nativo de IA donde todos se convierten en diseñadores de agentes.
00:06:03Funciona en Mac y Windows, impulsado por M 2.7, que iguala a Claude Opus 4.6 en Sweetbench.
00:06:08Deja de luchar con configuraciones complejas, deja que MaxClaw se encargue, y haz clic en el enlace del comentario fijado para comenzar.
00:06:10El agente que escribe el código no debería ser el mismo que lo evalúa.
00:06:15Este es el segundo problema más común y no suele discutirse mucho.
00:06:19La autoevaluación es problemática porque si usas el mismo agente que escribió el código para evaluarlo,
00:06:26tiende a responder con mucha confianza y elogiar su propio trabajo, incluso cuando la calidad es claramente inferior.
00:06:34Esto podría ser más fácil de gestionar para tareas que tienen métricas cuantitativas, como si las API implementadas realmente funcionan.
00:06:39Pero este problema se vuelve mucho más pronunciado en tareas que no tienen resultados claramente verificables.
00:06:47El mayor ejemplo de esto es la interfaz de usuario (UI). Lo que constituye una buena UI es subjetivo,
00:06:54y la IA podría no captar totalmente tus intenciones. Puede considerar que su propia implementación está bien hecha,
00:06:58incluso si no cumple con tus estándares. Este problema ya fue reconocido por los creadores de múltiples marcos de trabajo,
00:07:02e implementaron sus propios mecanismos de evaluación para abordarlo.
00:07:06Todos los marcos que hemos cubierto, como GSD, BMAD y Superpowers, aseguran que el mismo agente que escribió el código
00:07:12no sea el que evalúa su calidad. Este enfoque mejora significativamente la precisión y fiabilidad de las evaluaciones del agente.
00:07:18Por lo tanto, ya sea que uses un marco existente o construyas el tuyo, debes asegurar que el evaluador esté completamente separado del implementador.
00:07:22Antes de que comience la implementación, tanto el agente generador como el evaluador negocian un contrato,
00:07:27acordando cómo se ve el trabajo "terminado". Esto ayuda porque ambos agentes saben claramente qué lograr y qué verificar.
00:07:32Con una planificación de alto nivel, todavía se necesitan pasos accionables e implementables.
00:07:38Pero durante las pruebas con el entorno, intentaron eliminar el contrato de sprint.
00:07:42Encontraron que Opus 4.5 era menos eficiente en este escenario porque el evaluador aún tenía que intervenir para detectar problemas.
00:07:51Pero con Opus 4.6, las capacidades del modelo habían mejorado tanto que el contrato no era necesario.
00:07:57El agente generativo era lo suficientemente capaz de manejar la mayor parte del trabajo por su cuenta.
00:08:02Por lo tanto, para modelos más pequeños como Sonnet o Haiku, todavía necesitas documentar las tareas.
00:08:08Desglosarlas adecuadamente en estructuras de sprint y hacer que cada agente acuerde qué significa "completo".
00:08:13Pero con modelos más capaces, puedes confiar en que Opus ejecute el plan de alto nivel sin estos pasos adicionales.
00:08:17Ahora, dijimos que hay una razón por la cual el aislamiento del contexto importa.
00:08:21Esto se debe a que los modelos más pequeños experimentan "ansiedad de contexto",
00:08:28un fenómeno donde los modelos pierden coherencia en tareas largas a medida que se llena su ventana de contexto.
00:08:37Cuando esto sucede, terminan el trabajo prematuramente y afirman haber implementado las tareas correctamente, incluso cuando no es así.
00:08:42La solución que ayudó fue un reinicio de contexto, limpiando sus ventanas de contexto antes de comenzar la implementación.
00:08:47Como el contexto se limpiaba, podían confiar en un desglose de tareas documentado externamente, que persistía tras los reinicios.
00:08:50Pero los modelos mostraban tanta ansiedad de contexto que la compactación por sí sola no era suficiente.
00:08:56Necesitaban medidas adicionales para evitar problemas en tareas más largas.
00:09:02Sin embargo, a partir de Opus 4.5, los modelos ya no muestran este comportamiento.
00:09:07Estos agentes pueden ejecutarse continuamente durante toda una sesión, y la forma en que Claude maneja la compactación es suficiente.
00:09:11Por lo tanto, los reinicios de contexto ya no son necesarios, y los desgloses detallados de tareas como en BMAD y SpecKit tampoco,
00:09:18siendo suficiente con una guía de alto nivel. El agente generador es el implementador principal que construye la app función por función.
00:09:21Toma las especificaciones del plan y las implementa continuamente, integrándose con Git para el control de versiones.
00:09:30El generador trabaja en coordinación con el agente evaluador. Después de construir una función, la entrega para pruebas
00:09:39y recibe retroalimentación para mejorar su implementación. Su flujo de trabajo se organiza en varios pasos:
00:09:46entender la tarea, implementarla y refinar la implementación. Incluso dentro de la fase de implementación,
00:09:50el trabajo se divide en cuatro sub-fases que cubren diferentes aspectos. Sigue la dirección de diseño,
00:09:57verifica su trabajo y luego se lo entrega al evaluador. Esto crea un patrón estructurado paso a paso,
00:10:04permitiendo que el agente implemente una aplicación entera de forma independiente y sistemática.
00:10:10El agente evaluador actúa como el adversario del generador. Su trabajo es asegurar que la aplicación se implemente correctamente,
00:10:13no mediante un pase genérico de "buscar errores", sino abordándolo críticamente desde la perspectiva de que existen errores.
00:10:18Puede usar herramientas como Playwright para probar la aplicación simulando interacciones de usuario, identificar errores
00:10:24basándose en criterios predefinidos y enviar comentarios al generador. Al leer el plan, el evaluador comprende claramente
00:10:35qué debe ser "terminado" y lo revisa todo a fondo antes de aprobarlo. Cada marco de trabajo tiene su propio validador,
00:10:43pero los enfoques difieren significativamente. BMAD usa agentes especializados en revisión de código y QA
00:10:49que generan y ejecutan pruebas, evaluando el código desde múltiples ángulos. GSD usa un sub-agente verificador
00:10:54que comprueba la implementación contra el plan existente y produce un informe de documentación.
00:11:02Superpowers confía en sub-agentes nuevos y aplica un estricto TDD (Desarrollo Guiado por Pruebas),
00:11:06donde no se puede escribir código antes que los casos de prueba. Si el agente intenta saltarse esto, es bloqueado.
00:11:12SpecKit trata las especificaciones como la fuente de la verdad y permite al agente verificar el código contra la documentación.
00:11:19Pero ninguno de estos marcos proporciona un mecanismo de puntuación con el nivel de rigor que Anthropic buscaba.
00:11:27Por lo tanto, el evaluador en el entorno de Anthropic es lo más cercano a la implementación estricta de Ralph Loop para Claude,
00:11:37asegurando que el agente entregue lo necesario con un mecanismo de evaluación calificado adecuado.
00:11:44Además, si disfrutas de nuestro contenido, considera presionar el botón de apoyo, porque nos ayuda a crear más contenido como este.
00:11:54El agente no tiene forma de saber cuál es el resultado correcto para ti, especialmente cuando la implementación no es cuantificable.
00:12:02Por lo tanto, utilizas mecanismos de evaluación calificados para que sepan cómo se ve el resultado correcto para ti.
00:12:10Cuando Anthropic dio un ejemplo de métricas de evaluación para el front-end, mencionaron que la IA tiende a converger
00:12:17en resultados similares la mayor parte del tiempo. Establecieron cuatro criterios de calificación para los agentes generador y evaluador.
00:12:21El primero es la calidad del diseño, instruyéndole a verificar si el campo es coherente o solo componentes separados unidos.
00:12:35Luego la originalidad, que es uno de los principales porque la IA tiende por defecto al mismo patrón de gradiente púrpura y blanco.
00:12:49Esto va en contra de cómo diseñan los humanos, porque para un humano, cada elección de diseño es deliberada
00:12:58y eso hace que sea fácil identificar cuando un sitio web no se ve bien. El tercero es el acabado (craft),
00:13:03los detalles menores como tipografía, consistencia de espaciado y armonía de color, donde la relación de contraste está técnicamente balanceada.
00:13:10Y el último es la funcionalidad, porque en términos de UI, cada componente juega un papel visual para mejorar la experiencia del usuario.
00:13:24Claude ya puntúa bien en acabado y funcionalidad, pero los demás son sus mayores dificultades, y los prompts deben impulsarlo
00:13:33hacia su mejor capacidad enfatizando que el mejor diseño viene de la calidad. Por lo tanto, al construir tu aplicación,
00:13:43puedes establecer criterios similares para tantas funciones como quieras, como arquitectura de código, front-end, flujos de usuario y más.
00:13:48Haz que cada parte mencionada en los criterios tenga una puntuación dedicada para que el modelo identifique su importancia.
00:13:57Estos archivos se referencian en el agente evaluador porque su trabajo es puntuar, así que sabe qué rúbrica debe seguir.