Anthropic acaba de dejar obsoletos tus frameworks de agentes de IA

AAI LABS
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00En los últimos meses hemos cubierto muchos marcos de trabajo de IA para programación, incluidos BMAD, GSD, Speckit y Superpowers,
00:00:08y muchos de ustedes ya han comenzado a usarlos. Pero Anthropic acaba de realizar experimentos en su propio entorno,
00:00:14eliminando componentes uno por uno y midiendo qué era lo que realmente importaba. Su conclusión fue que
00:00:17la mayor parte de eso es ahora un peso muerto. Cada componente en un marco de trabajo codifica una suposición
00:00:25sobre lo que el modelo no puede hacer por sí solo, y con Opus 4.6, esas suposiciones han caducado.
00:00:32Analizamos todo y mapeamos lo que todavía importa, lo que puedes eliminar y cómo debería ser tu configuración ahora.
00:00:37Los entornos de agentes juegan un papel importante para que los agentes funcionen sustancialmente mejor en horizontes largos.
00:00:43Anthropic ya lanzó un entorno de agentes, que cubrimos en detalle en un video anterior, explicando cómo configurarlo y usarlo.
00:00:50También hemos cubierto otros marcos en ese mismo contexto y, aunque sus implementaciones difieren, todos intentan hacer lo mismo.
00:00:55Pero cuando se lanzaron estos marcos, los modelos no eran tan capaces como lo es Opus 4.6 ahora.
00:01:01Por ejemplo, marcos como GSD se enfocan en el aislamiento del contexto, pero eso no es un problema con Opus 4.6.
00:01:06No solo por la ventana de contexto de un millón de tokens, sino por otra razón de la que hablaremos en un momento.
00:01:11Por lo tanto, muchos marcos implementados anteriormente son ahora una carga innecesaria para las nuevas capacidades del modelo.
00:01:17Anthropic realizó experimentos probando diferentes aspectos del entorno, eliminando cada uno y midiendo su impacto.
00:01:24De sus hallazgos, concluyeron que todo lo que un entorno de agentes necesita realmente son agentes para planificación, generación y evaluación.
00:01:29El resto son solo formas de hacer las cosas que se vuelven peso muerto dada la capacidad actual de los modelos.
00:01:35La teoría central es que cada componente en un entorno de agentes, sin importar cuál estés usando, se basa en el mismo principio.
00:01:38Cada componente codifica una suposición sobre lo que el modelo puede hacer por sí mismo.
00:01:46Estas suposiciones deben ponerse a prueba porque podrían ser incorrectas y caducarán a medida que el modelo mejore; eso es lo que hicieron en el artículo.
00:01:54Por lo tanto, con la evolución de los modelos, tu entorno también debe evolucionar, y si trabajas con los mismos principios de hace meses, no estás al día.
00:02:01La planificación es el primer paso que permanece inalterado en cada marco, pero la forma de planificar debe cambiar para modelos más capaces.
00:02:06Los entornos anteriores de Anthropic para procesos largos requerían que el usuario proporcionara una especificación detallada por adelantado.
00:02:14Marcos como BeMad y SpecKit literalmente fragmentan la tarea en partes más pequeñas y microtareas que ayudan al agente de IA a implementarlas con facilidad.
00:02:20Y no eran solo tareas pequeñas, eran literalmente pasos detallados que los agentes solo tenían que seguir sin pensar.
00:02:27Esto se debía a que en ese momento los modelos no eran lo suficientemente capaces y necesitaban ser micro-guiados para rendir como se deseaba.
00:02:30Pero con Opus 4.5 y 4.6, esto ha cambiado.
00:02:43Cuando Anthropic probó esto, descubrieron que si el planificador intentaba especificar micro-detalles técnicos por adelantado, un solo error
00:02:45caía en cascada por cada nivel de implementación, dificultando que el agente se desviara y corrigiera problemas por su cuenta.
00:02:50Todo dependía de qué tan bien escrito estuviera el plan. Por lo tanto, la planificación se ha vuelto de alto nivel en lugar de una implementación técnica detallada.
00:02:55Los agentes son mucho más inteligentes por sí solos ahora y solo tienes que decirles qué entregables se necesitan.
00:02:57Ellos pueden descifrar el camino hacia eso por su cuenta.
00:03:02Con este cambio, los enfoques de planificación como los de BeMad y SpecKit ya no son tan relevantes.
00:03:08Puedes limitar BeMad a la fase de planificación hasta la generación del PRD, sin necesidad de entrar en el proceso técnico de fragmentación.
00:03:18Como mencionamos antes, la generación de PRD con BeMad es efectiva porque tiene agentes especializados para entender los requisitos del producto
00:03:23mejor de lo que Claude lo haría por sí solo. Esto se debe a que esos agentes tienen el contexto externo para tareas específicas añadido por el autor.
00:03:32Alternativamente, puedes usar la sesión de preguntas de Superpowers, ya que fue diseñada para identificar casos de borde,
00:03:40lo cual puede ser más efectivo que una documentación de tareas de múltiples niveles.
00:03:46Pero el problema principal con una planificación excesivamente detallada es que bloquea al agente y no deja espacio para que la IA descubra cosas por sí misma.
00:03:52Anthropic también ha dado un ejemplo de plan generado por el agente planificador, que puedes usar para configurar tu propio agente planificador.
00:03:56Indica claramente que el plan debe ser ambicioso en alcance y desafiar los límites de cualquier idea de aplicación que proporciones.
00:04:06La idea central es mantener el proyecto a nivel de producto, no a nivel de implementación.
00:04:12Esto importa porque si intenta planificar la implementación dentro del plan del proyecto, se enfoca demasiado en detalles técnicos
00:04:22y podría fallar al entregar lo que realmente se necesita para un producto completo.
00:04:31Ahora podrías pensar que el modo de plan de Claude ya hace una planificación similar al hacer preguntas y proporcionar un plan detallado.
00:04:40Pero aquí está la diferencia. Aunque Claude tiene un agente de planificación, este se enfoca mucho en los detalles de implementación
00:04:44y no opera realmente a nivel de producto, lo cual va en contra de los hallazgos de Anthropic.
00:04:47Por lo tanto, una vez que tengas esto configurado, simplemente puedes pedirle a Claude que use el agente que creaste para planificar tu aplicación,
00:04:56y generará un plan completo y lo documentará en tu carpeta a medida que avance.
00:04:59Este plan incluye un desglose completo de funciones a nivel de producto, y con cada fase, incluye historias de usuario
00:05:02que muestran cómo se ve la perspectiva del usuario. Esto ayuda a Claude a implementar los flujos de trabajo correctos que los usuarios realmente esperan.
00:05:12Pero antes de seguir adelante, unas palabras de nuestro patrocinador, Minimax.
00:05:21Configurar agentes de IA es una pesadilla. Claves de API, configuraciones de servidor, setups de Docker... y tras todo eso,
00:05:27tu asistente lo olvida todo en cuanto cierras la pestaña. La solución es MaxClaw, una IA impulsada por la nube al alcance de tu mano.
00:05:33Sin configuraciones ni dolores de cabeza, puedes desplegar tu propio OpenClaw. Solo haz clic en desplegar y estarás en línea en menos de 10 segundos.
00:05:39Construye sitios web, escribe código, realiza investigaciones y automatiza tu trabajo pesado, todo desde simples comandos de texto.
00:05:42MaxClaw se conecta directamente a Telegram, Slack, Discord y más, permitiéndote automatizar flujos de trabajo, navegar por la web,
00:05:46e incluso generar imágenes o videos, todo desde un simple chat. Es parte de Minimax Agent,
00:05:56un espacio de trabajo nativo de IA donde todos se convierten en diseñadores de agentes.
00:06:03Funciona en Mac y Windows, impulsado por M 2.7, que iguala a Claude Opus 4.6 en Sweetbench.
00:06:08Deja de luchar con configuraciones complejas, deja que MaxClaw se encargue, y haz clic en el enlace del comentario fijado para comenzar.
00:06:10El agente que escribe el código no debería ser el mismo que lo evalúa.
00:06:15Este es el segundo problema más común y no suele discutirse mucho.
00:06:19La autoevaluación es problemática porque si usas el mismo agente que escribió el código para evaluarlo,
00:06:26tiende a responder con mucha confianza y elogiar su propio trabajo, incluso cuando la calidad es claramente inferior.
00:06:34Esto podría ser más fácil de gestionar para tareas que tienen métricas cuantitativas, como si las API implementadas realmente funcionan.
00:06:39Pero este problema se vuelve mucho más pronunciado en tareas que no tienen resultados claramente verificables.
00:06:47El mayor ejemplo de esto es la interfaz de usuario (UI). Lo que constituye una buena UI es subjetivo,
00:06:54y la IA podría no captar totalmente tus intenciones. Puede considerar que su propia implementación está bien hecha,
00:06:58incluso si no cumple con tus estándares. Este problema ya fue reconocido por los creadores de múltiples marcos de trabajo,
00:07:02e implementaron sus propios mecanismos de evaluación para abordarlo.
00:07:06Todos los marcos que hemos cubierto, como GSD, BMAD y Superpowers, aseguran que el mismo agente que escribió el código
00:07:12no sea el que evalúa su calidad. Este enfoque mejora significativamente la precisión y fiabilidad de las evaluaciones del agente.
00:07:18Por lo tanto, ya sea que uses un marco existente o construyas el tuyo, debes asegurar que el evaluador esté completamente separado del implementador.
00:07:22Antes de que comience la implementación, tanto el agente generador como el evaluador negocian un contrato,
00:07:27acordando cómo se ve el trabajo "terminado". Esto ayuda porque ambos agentes saben claramente qué lograr y qué verificar.
00:07:32Con una planificación de alto nivel, todavía se necesitan pasos accionables e implementables.
00:07:38Pero durante las pruebas con el entorno, intentaron eliminar el contrato de sprint.
00:07:42Encontraron que Opus 4.5 era menos eficiente en este escenario porque el evaluador aún tenía que intervenir para detectar problemas.
00:07:51Pero con Opus 4.6, las capacidades del modelo habían mejorado tanto que el contrato no era necesario.
00:07:57El agente generativo era lo suficientemente capaz de manejar la mayor parte del trabajo por su cuenta.
00:08:02Por lo tanto, para modelos más pequeños como Sonnet o Haiku, todavía necesitas documentar las tareas.
00:08:08Desglosarlas adecuadamente en estructuras de sprint y hacer que cada agente acuerde qué significa "completo".
00:08:13Pero con modelos más capaces, puedes confiar en que Opus ejecute el plan de alto nivel sin estos pasos adicionales.
00:08:17Ahora, dijimos que hay una razón por la cual el aislamiento del contexto importa.
00:08:21Esto se debe a que los modelos más pequeños experimentan "ansiedad de contexto",
00:08:28un fenómeno donde los modelos pierden coherencia en tareas largas a medida que se llena su ventana de contexto.
00:08:37Cuando esto sucede, terminan el trabajo prematuramente y afirman haber implementado las tareas correctamente, incluso cuando no es así.
00:08:42La solución que ayudó fue un reinicio de contexto, limpiando sus ventanas de contexto antes de comenzar la implementación.
00:08:47Como el contexto se limpiaba, podían confiar en un desglose de tareas documentado externamente, que persistía tras los reinicios.
00:08:50Pero los modelos mostraban tanta ansiedad de contexto que la compactación por sí sola no era suficiente.
00:08:56Necesitaban medidas adicionales para evitar problemas en tareas más largas.
00:09:02Sin embargo, a partir de Opus 4.5, los modelos ya no muestran este comportamiento.
00:09:07Estos agentes pueden ejecutarse continuamente durante toda una sesión, y la forma en que Claude maneja la compactación es suficiente.
00:09:11Por lo tanto, los reinicios de contexto ya no son necesarios, y los desgloses detallados de tareas como en BMAD y SpecKit tampoco,
00:09:18siendo suficiente con una guía de alto nivel. El agente generador es el implementador principal que construye la app función por función.
00:09:21Toma las especificaciones del plan y las implementa continuamente, integrándose con Git para el control de versiones.
00:09:30El generador trabaja en coordinación con el agente evaluador. Después de construir una función, la entrega para pruebas
00:09:39y recibe retroalimentación para mejorar su implementación. Su flujo de trabajo se organiza en varios pasos:
00:09:46entender la tarea, implementarla y refinar la implementación. Incluso dentro de la fase de implementación,
00:09:50el trabajo se divide en cuatro sub-fases que cubren diferentes aspectos. Sigue la dirección de diseño,
00:09:57verifica su trabajo y luego se lo entrega al evaluador. Esto crea un patrón estructurado paso a paso,
00:10:04permitiendo que el agente implemente una aplicación entera de forma independiente y sistemática.
00:10:10El agente evaluador actúa como el adversario del generador. Su trabajo es asegurar que la aplicación se implemente correctamente,
00:10:13no mediante un pase genérico de "buscar errores", sino abordándolo críticamente desde la perspectiva de que existen errores.
00:10:18Puede usar herramientas como Playwright para probar la aplicación simulando interacciones de usuario, identificar errores
00:10:24basándose en criterios predefinidos y enviar comentarios al generador. Al leer el plan, el evaluador comprende claramente
00:10:35qué debe ser "terminado" y lo revisa todo a fondo antes de aprobarlo. Cada marco de trabajo tiene su propio validador,
00:10:43pero los enfoques difieren significativamente. BMAD usa agentes especializados en revisión de código y QA
00:10:49que generan y ejecutan pruebas, evaluando el código desde múltiples ángulos. GSD usa un sub-agente verificador
00:10:54que comprueba la implementación contra el plan existente y produce un informe de documentación.
00:11:02Superpowers confía en sub-agentes nuevos y aplica un estricto TDD (Desarrollo Guiado por Pruebas),
00:11:06donde no se puede escribir código antes que los casos de prueba. Si el agente intenta saltarse esto, es bloqueado.
00:11:12SpecKit trata las especificaciones como la fuente de la verdad y permite al agente verificar el código contra la documentación.
00:11:19Pero ninguno de estos marcos proporciona un mecanismo de puntuación con el nivel de rigor que Anthropic buscaba.
00:11:27Por lo tanto, el evaluador en el entorno de Anthropic es lo más cercano a la implementación estricta de Ralph Loop para Claude,
00:11:37asegurando que el agente entregue lo necesario con un mecanismo de evaluación calificado adecuado.
00:11:44Además, si disfrutas de nuestro contenido, considera presionar el botón de apoyo, porque nos ayuda a crear más contenido como este.
00:11:54El agente no tiene forma de saber cuál es el resultado correcto para ti, especialmente cuando la implementación no es cuantificable.
00:12:02Por lo tanto, utilizas mecanismos de evaluación calificados para que sepan cómo se ve el resultado correcto para ti.
00:12:10Cuando Anthropic dio un ejemplo de métricas de evaluación para el front-end, mencionaron que la IA tiende a converger
00:12:17en resultados similares la mayor parte del tiempo. Establecieron cuatro criterios de calificación para los agentes generador y evaluador.
00:12:21El primero es la calidad del diseño, instruyéndole a verificar si el campo es coherente o solo componentes separados unidos.
00:12:35Luego la originalidad, que es uno de los principales porque la IA tiende por defecto al mismo patrón de gradiente púrpura y blanco.
00:12:49Esto va en contra de cómo diseñan los humanos, porque para un humano, cada elección de diseño es deliberada
00:12:58y eso hace que sea fácil identificar cuando un sitio web no se ve bien. El tercero es el acabado (craft),
00:13:03los detalles menores como tipografía, consistencia de espaciado y armonía de color, donde la relación de contraste está técnicamente balanceada.
00:13:10Y el último es la funcionalidad, porque en términos de UI, cada componente juega un papel visual para mejorar la experiencia del usuario.
00:13:24Claude ya puntúa bien en acabado y funcionalidad, pero los demás son sus mayores dificultades, y los prompts deben impulsarlo
00:13:33hacia su mejor capacidad enfatizando que el mejor diseño viene de la calidad. Por lo tanto, al construir tu aplicación,
00:13:43puedes establecer criterios similares para tantas funciones como quieras, como arquitectura de código, front-end, flujos de usuario y más.
00:13:48Haz que cada parte mencionada en los criterios tenga una puntuación dedicada para que el modelo identifique su importancia.
00:13:57Estos archivos se referencian en el agente evaluador porque su trabajo es puntuar, así que sabe qué rúbrica debe seguir.

Key Takeaway

La evolución de modelos como Opus 4.6 convierte los frameworks de agentes complejos en peso muerto al integrar capacidades nativas de planificación de alto nivel y gestión de contexto que antes requerían segmentación manual y reinicios técnicos.

Highlights

Las capacidades de Opus 4.6 eliminan la necesidad de micro-segmentación de tareas, permitiendo que el modelo gestione planes de alto nivel sin errores en cascada.

El aislamiento de contexto y los reinicios constantes son innecesarios en Opus 4.5 y 4.6 porque estos modelos ya no presentan pérdida de coherencia o finalización prematura en sesiones largas.

Un entorno de agentes optimizado solo requiere tres componentes fundamentales: planificación a nivel de producto, generación de código y evaluación adversaria.

La autoevaluación del mismo agente que genera el código produce una confianza excesiva que ignora fallos de calidad, especialmente en interfaces de usuario subjetivas.

El agente evaluador de Anthropic utiliza herramientas como Playwright para simular interacciones reales y puntuar el trabajo basándose en criterios de diseño, originalidad, acabado y funcionalidad.

Timeline

La obsolescencia de los frameworks de agentes tradicionales

  • Componentes de frameworks como BMAD, GSD y SpecKit codifican suposiciones sobre limitaciones del modelo que ya no existen en Opus 4.6.
  • La ventana de contexto de un millón de tokens y la inteligencia mejorada eliminan la carga de procesos de aislamiento previamente obligatorios.
  • La arquitectura mínima necesaria se reduce a agentes de planificación, generación y evaluación.

Muchos marcos de trabajo actuales se diseñaron cuando los modelos de IA necesitaban una guía extrema para no perder el hilo de la tarea. Con las versiones actuales de Claude, estas estructuras se convierten en un obstáculo que consume recursos sin añadir valor real. Los experimentos demuestran que simplificar el entorno permite que el modelo aproveche mejor su capacidad de razonamiento autónomo.

Transición de micro-guía a planificación de alto nivel

  • La planificación técnica detallada por adelantado provoca errores en cascada que impiden al agente corregir su rumbo de forma autónoma.
  • Los planes efectivos se centran ahora en el nivel de producto y entregables finales en lugar de pasos de implementación técnica paso a paso.
  • La inclusión de historias de usuario dentro del plan ayuda a la IA a implementar flujos de trabajo alineados con las expectativas reales del usuario.

Anteriormente, los agentes requerían que cada tarea se fragmentara en micro-pasos para evitar fallos. Sin embargo, en modelos avanzados, decirle exactamente 'cómo' hacer algo limita su capacidad de descubrimiento y resolución de problemas. Al proporcionar objetivos de alto nivel y contexto de usuario, el agente puede determinar la mejor ruta técnica de manera más eficiente que una especificación rígida previa.

La importancia de la evaluación adversaria separada

  • El agente que escribe el código nunca debe evaluarlo para evitar sesgos de confianza y elogios injustificados hacia un trabajo inferior.
  • La negociación de un contrato de sprint entre el generador y el evaluador define qué significa un trabajo terminado antes de empezar.
  • Modelos más pequeños como Sonnet aún requieren documentación de tareas desglosadas, mientras que Opus puede ejecutar planes de alto nivel directamente.

La subjetividad en tareas como el diseño de interfaces de usuario hace que la autoevaluación sea ineficaz. Al separar las funciones, el evaluador puede actuar de forma crítica y objetiva. Aunque en modelos previos se necesitaba un contrato detallado para cada fase, Opus 4.6 es capaz de mantener la calidad sin esta formalidad adicional en cada paso de la implementación.

Superación de la ansiedad de contexto y flujo de trabajo

  • Opus 4.5 elimina el fenómeno de ansiedad de contexto donde los modelos terminan tareas prematuramente al llenarse su memoria temporal.
  • El agente generador trabaja en ciclos de cuatro sub-fases que incluyen dirección de diseño, verificación interna y entrega al evaluador.
  • Los evaluadores modernos utilizan desarrollo guiado por pruebas (TDD) y herramientas de simulación para validar la funcionalidad real.

La gestión interna de compactación de Claude ahora es suficiente para mantener la coherencia en sesiones largas, eliminando la necesidad de reiniciar el contexto manualmente. El proceso se vuelve sistemático: el generador construye función por función e integra el código con sistemas de control de versiones como Git. El evaluador no solo busca errores genéricos, sino que asume activamente que el código contiene fallos que deben ser encontrados.

Métricas de puntuación y calidad estética

  • Cuatro criterios específicos definen la calidad: diseño coherente, originalidad visual, acabado técnico (craft) y funcionalidad.
  • La IA tiende por defecto a patrones visuales repetitivos como gradientes púrpura y blanco a menos que se le exija originalidad deliberada.
  • El uso de rúbricas con puntuaciones numéricas permite al modelo identificar la importancia de detalles como la tipografía y el contraste de color.

Para evitar resultados genéricos, es necesario establecer métricas que obliguen a la IA a salir de sus patrones estándar. Al asignar puntuaciones a aspectos específicos como la armonía del color o la consistencia del espaciado, el agente evaluador tiene una base sólida para rechazar implementaciones mediocres. Esto empuja al generador a alcanzar su máxima capacidad técnica y estética en el desarrollo de aplicaciones front-end.

Community Posts

View all posts