00:00:00Gracias a HubSpot por patrocinar este video.
00:00:03En realidad, algo muy importante ocurrió en diciembre de 2025.
00:00:07Y la mayoría de la gente ni siquiera se dio cuenta.
00:00:09Andrew Cupsey tuiteó sobre esto la semana pasada.
00:00:10“Es muy difícil comunicar cuánto ha cambiado la programación debido a la IA en los últimos dos meses,
00:00:15específicamente desde el pasado diciembre”.
00:00:17Y Greg de OpenAI también habló sobre esto.
00:00:20Desde diciembre, ha habido mejoras exponenciales en lo que el modelo y las herramientas pueden hacer.
00:00:24Y algunos ingenieros le habían dicho que su trabajo ha cambiado fundamentalmente desde diciembre
00:00:28de 2025.
00:00:29Entonces, ¿qué pasó realmente en diciembre de 2025?
00:00:32En pocas palabras, el último modelo presentado entonces finalmente está listo para tareas
00:00:37totalmente autónomas de larga duración.
00:00:38Con la IA, el sueño definitivo siempre ha sido que, mientras dormimos, la IA pueda trabajar en
00:00:43tareas de forma totalmente autónoma, las 24 horas, los 7 días de la semana.
00:00:46Incluso en 2023, el proyecto más popular, si recuerdan, se llamaba AutoGPT.
00:00:50Fue la primera vez que se introdujeron esos sistemas de agentes totalmente autónomos.
00:00:54Y tenían una arquitectura bastante básica y simple que usaba GPT-4 como modelo para desglosar
00:00:59autónomamente una lista de tareas basadas en el objetivo del usuario y tenía un almacenamiento de memoria simple para guardar
00:01:03el resultado.
00:01:04Y la gente hacía cosas bastante locas como dar un objetivo de ganar 100.000 dólares y
00:01:08dejar que se ejecutara en un bucle de tareas infinitamente hasta completarlo.
00:01:11En aquel entonces, el sistema simplemente fallaba estrepitosamente porque el modelo no estaba listo.
00:01:15Pero desde diciembre del año pasado, esto realmente cambió.
00:01:18Los modelos tienen una calidad significativamente mayor, coherencia a largo plazo y pueden realizar
00:01:22tareas mucho más grandes y largas.
00:01:24Y vimos surgir todo tipo de experimentación diferente en la industria.
00:01:28Primero, desde enero, tuvimos este concepto súper popular llamado “rough loop”, que es básicamente
00:01:33un bucle de iteración de agentes simple para forzar al modelo a trabajar más tiempo y así poder realizar
00:01:37tareas más complejas.
00:01:38Simplemente pusimos el modelo en un bucle con algunas comprobaciones de condiciones simples, pero ya empezamos a ver
00:01:42la diferencia.
00:01:43Y una semana después, Cursor también lanzó su experimento donde usan GPT-5.2 para construir
00:01:49autónomamente un navegador desde cero con 3 millones de líneas de código.
00:01:52Y Anthropic también lanzó este experimento donde pusieron a un equipo de modelos Claude a trabajar
00:01:57autónomamente en un compilador de C desde cero durante dos semanas.
00:02:01Y al final, entregó una versión funcional sin ninguna codificación manual.
00:02:05Incluso puede ejecutar Doom dentro de este compilador.
00:02:08Y al mismo tiempo, OpenClaw comenzó a ganar atención y tuvo este crecimiento explosivo que nunca
00:02:13habíamos visto antes.
00:02:14Y era muy difícil entender qué estaba pasando con OpenClaw porque, desde fuera,
00:02:18es fácil clasificarlo como otra herramienta más, pero vive dentro de tu propio
00:02:23ordenador y también puedes acceder a él desde Telegram.
00:02:27Por qué es tan popular.
00:02:29Y solo más tarde, después de usarlo a fondo, me di cuenta de que la verdadera diferencia es que OpenClaw representa
00:02:35este tipo de agentes siempre activos, de larga duración y totalmente autónomos que son muy diferentes de
00:02:40todos los demás sistemas de agentes que usábamos antes, donde el humano es el motor principal que solicita
00:02:45la siguiente acción.
00:02:46OpenClaw está siempre encendido y es proactivo.
00:02:49Y esta sensación de autonomía es creada por una arquitectura bastante simple donde tiene una capa
00:02:53de contexto de memoria con disparadores y tareas programadas para realizar acciones automáticamente y tiene
00:02:58acceso total al ordenador, que es un entorno poderoso en el que puede operar.
00:03:02Y creo que OpenClaw es el primer proyecto que realmente inició el mayor cambio de paradigma
00:03:06en 2026: estamos pasando de un sistema de agentes simple basado en tareas tipo copiloto a estos agentes
00:03:13totalmente autónomos de larga duración.
00:03:15Algo que siempre está encendido, siempre listo, entregando de forma atómica trabajos coordinados súper complejos.
00:03:20Este es un cambio crítico que debes entender.
00:03:22El modelo hoy en día es en realidad mucho más potente de lo que crees, siempre y cuando diseñes el
00:03:27sistema adecuado para desbloquearlo.
00:03:28Y este es el punto crucial de lo que quiero hablar hoy.
00:03:30El “Harness Engineer” para habilitar sistemas autónomos de larga duración.
00:03:34Si es la primera vez que escuchas sobre el Harness Engineer, esto es como una evolución de lo que
00:03:38hemos hablado anteriormente, que es el Context Engineer o el Prompt Engineer.
00:03:41Anteriormente nos enfocábamos realmente en cómo optimizar los prompts dentro de la ventana de contexto efectiva
00:03:46para que un modelo tuviera el mejor rendimiento en una sesión de bucle de agente único.
00:03:49Pero el Harness Engineer se centra realmente en esas tareas de larga duración, lo que significa ¿cómo
00:03:53se diseña un sistema que pueda trabajar a través de diferentes sesiones y múltiples agentes diferentes?
00:03:57Y cómo diseñar el flujo de trabajo adecuado para asegurar que se recupere el contexto relevante
00:04:01para cada sesión y el conjunto correcto de herramientas para extraer el máximo provecho de los modelos.
00:04:05Este es un concepto bastante nuevo, pero lo bueno es que la industria ya ha convergido en
00:04:09algunas mejores prácticas que puedes usar de Anthropic, Vercel, LangChain y muchos otros.
00:04:14Repasaremos cada una de ellas una por una para que puedas ver los patrones.
00:04:16Pero antes de sumergirnos en esto, con este cambio de paradigma hacia agentes totalmente autónomos, una de las mayores
00:04:21oportunidades para los próximos 6 a 12 meses es construir un OpenClaw para un sector vertical específico.
00:04:25Lo cual significa investigar y entender profundamente el flujo de trabajo de extremo a extremo de un sector determinado.
00:04:29Y construir un agente autónomo con el entorno y las herramientas correctas para habilitar el proceso completo.
00:04:34Por eso quiero presentarte esta increíble investigación que hizo HubSpot sobre la adopción de la IA
00:04:39en el informe de marketing por correo electrónico.
00:04:40Es un informe fascinante para entender, en un sector como el email marketing, dónde
00:04:44usa la gente realmente la IA hoy en día y cuáles son las carencias.
00:04:47Porque este informe muestra flujos de trabajo claros y oportunidades en el marketing por correo electrónico que
00:04:51potencialmente puedes automatizar.
00:04:52Encuestaron a cientos de especialistas en email marketing de las principales empresas para entender exactamente cómo la IA
00:04:57está remodelando sus flujos de trabajo.
00:04:58Hablan de por qué los especialistas todavía están haciendo mucha edición pesada, cuáles eran las causas
00:05:03de ello, así como los mayores desafíos que enfrentan hoy al implementar la IA en el
00:05:06email marketing.
00:05:07Y cada uno de ellos es una gran oportunidad para que construyas un agente totalmente autónomo.
00:05:11Incluso profundizan en los KPI específicos que más les importan y donde la IA ha mostrado
00:05:15resultados probados.
00:05:16Así como qué es exactamente lo que los especialistas en email marketing realmente quieren de la IA.
00:05:20Así que si eres un desarrollador que está pensando en el próximo gran producto de agentes para construir, te
00:05:24recomiendo encarecidamente que consultes este recurso increíble.
00:05:27He puesto el enlace en la descripción de abajo para que lo descargues gratis.
00:05:30Y gracias a HubSpot por patrocinar este video.
00:05:32Ahora volvamos al “harness engineer” para sistemas de agentes de larga duración.
00:05:36Y a alto nivel, hay tres aprendizajes que saqué de esto.
00:05:39Uno es que para los agentes de tareas de larga duración, la parte crítica del diseño del sistema es crear
00:05:44este entorno legible donde cada subagente o sesión pueda realmente entender en qué punto
00:05:49están las cosas.
00:05:50Lo más probable es que existan algunos flujos de trabajo que se puedan realizar para forzar la legibilidad del entorno.
00:05:54Y explicaré un poco más sobre eso.
00:05:56Lo segundo es que la verificación es crítica.
00:05:58Puedes mejorar significativamente el resultado del sistema permitiéndole verificar su trabajo de manera efectiva
00:06:03con un bucle de retroalimentación más rápido.
00:06:04Y lo tercero es que necesitamos confiar más en el modelo en lugar de construir herramientas especializadas
00:06:08que envuelvan mucho razonamiento y lógica prematuramente.
00:06:11Deberíamos darle al modelo el máximo de contexto con herramientas genéricas que entienda de forma nativa y dejar
00:06:16que simplemente explore como los humanos.
00:06:17Y desglosaré esas tres cosas una por una a medida que pasemos por cada sección.
00:06:20Primero está el blog de Anthropic sobre sistemas de control efectivos para agentes de larga duración.
00:06:24Han experimentado usando el SDK de Claude Code para construir un agente especializado para tareas súper largas,”
00:06:29como construir un clon del sitio web de Claude.ai.
00:06:32Los primeros fallos que observaron son que, en primer lugar, los agentes tienden a hacer demasiado a la vez.
00:06:37Básicamente, siempre intentará crear toda la aplicación de un solo golpe.
00:06:40Y esto llevó a que el modelo se quedara sin contexto en medio de su implementación, dejando
00:06:45que la siguiente sesión comenzara con la funcionalidad implementada o documentada a medias.
00:06:49Entonces el agente tendría que adivinar qué pasó realmente y dedicar un tiempo sustancial tratando
00:06:52de hacer que la aplicación básica funcionara de nuevo.
00:06:55Y el segundo fallo que observan es que los agentes tienden a declarar el trabajo terminado prematuramente.
00:07:00Probablemente tú mismo hayas experimentado esto algunas veces.
00:07:02Claude Code o Cursor simplemente afirmarán que la tarea o funcionalidad está completada.
00:07:05Pero una vez que lo pruebas, en realidad no funciona.
00:07:07Así que su enfoque para resolver esos comportamientos de fallo por defecto del modelo es, en primer lugar, configurar un
00:07:12entorno inicial que siente las bases para todas las funciones que requiere el prompt dado, lo cual
00:07:16prepara al agente para trabajar paso a paso y función por función.
00:07:20Esto es algo similar al enfoque de plan o PRD que solemos tomar.
00:07:23Lo segundo es que empiezan a programar cada agente para que progrese de forma incremental hacia su objetivo,
00:07:27dejando también el entorno en un estado limpio al final de cada sesión.
00:07:32Lo que hicieron fue empezar a diseñar esta solución de dos partes.
00:07:35Tendrán este agente inicializador que usa un prompt especializado para pedir al modelo que configure el
00:07:40entorno inicial con un script init.sh, que configurará el servidor de desarrollo, por ejemplo,
00:07:45para que el siguiente modelo no tenga que preocuparse por esas cosas.
00:07:48Y también un archivo de progreso de Claude que guarda registros de lo que el agente ha hecho, así como un
00:07:53commit inicial de git que muestra qué archivos se han añadido.
00:07:55Luego, un agente de codificación para cada sesión subsiguiente para pedir al modelo que haga un progreso incremental,
00:08:01y luego deje actualizaciones estructuradas.
00:08:02Y todos esos esfuerzos realmente intentan servir a un propósito: ¿cómo pueden definir un
00:08:07entorno donde los agentes puedan entender rápidamente el estado del trabajo al comenzar con una
00:08:11ventana de contexto nueva?
00:08:13Así que el flujo de trabajo es que el agente inicializador primero intentaría configurar un entorno o
00:08:17puedes llamarlo un sistema de documentación para rastrear y mantener el plan general.
00:08:21Y el entorno que diseñan aquí consiste en que primero tendrán un documento con la lista de funciones para
00:08:25evitar que el agente intente crear toda la aplicación de una vez o considere prematuramente el proyecto terminado.
00:08:30Y harán que el agente inicializador desglose el proyecto en más de 200 funciones
00:08:34y las registre en un archivo JSON local que se ve algo así, donde cada tarea tiene especificaciones detalladas
00:08:39así como un estado de aprobado o fallido.
00:08:41Por defecto, todas las tareas se marcarán como fallidas.
00:08:43Así se fuerza al modelo a mirar siempre el objetivo general del proyecto y el progreso para elegir la
00:08:49tarea de mayor prioridad y hacer lo siguiente.
00:08:50Pero para que este flujo de trabajo funcione, también necesitan una forma de forzar al modelo a dejar el entorno
00:08:55en un estado limpio después de hacer el cambio de código; en sus experimentos, descubrieron que la mejor manera
00:08:59es pedirle al modelo que haga un commit del progreso en git con un mensaje descriptivo y escriba
00:09:05un resumen de su avance en el archivo de progreso; pero la documentación y el entorno de contacto
00:09:08por sí solos no son suficientes porque el modelo, por defecto, tiene esta tendencia a marcar algo
00:09:13como completado sin las pruebas adecuadas y, al principio, solo le pedían a Claude
00:09:17que hiciera siempre las pruebas después del cambio de código mediante pruebas unitarias o de API para
00:09:22el servidor de desarrollo.
00:09:23Pero todas esas cosas a menudo fallaban al reconocer que una funcionalidad no estaba funcionando de extremo a extremo.
00:09:27Porque las cosas realmente empiezan a cambiar cuando le dan al modelo las herramientas adecuadas para hacer la
00:09:30prueba de extremo a extremo por sí mismo, como Puppeteer MCP o Chrome dev tool, donde el agente fue capaz de
00:09:35identificar y corregir errores que no eran directamente obvios a partir del código mismo.
00:09:39Básicamente, están configurando la estructura donde tienen al agente inicializado para desglosar
00:09:43el objetivo del usuario en una lista de funciones junto con init.sh para poder ejecutar el servidor de
00:09:47desarrollo y los archivos de progreso.
00:09:49Así que el siguiente agente de codificación puede simplemente leer la lista de funciones para tener una idea del
00:09:53plan general del proyecto y elegir las tareas de alta prioridad y el archivo de progreso y obtener un registro para entender
00:09:57en qué punto están las cosas.
00:09:59Luego ejecuta init.sh para iniciar el servidor de desarrollo inmediatamente y hace una prueba de extremo a extremo para verificar que el entorno
00:10:04esté limpio para que pueda obtener una imagen completa y un bucle de retroalimentación más rápido mientras ocurre cada
00:10:09nueva sesión y ventana de contexto.
00:10:10En el blog de OpenAI, hablan de cosas muy similares.
00:10:13Tienes que asegurarte de que el entorno de tu aplicación sea legible.
00:10:16Hacen que todo el repositorio sea el sistema de conocimiento o registro.
00:10:19Inicialmente, pusieron un archivo agents.md gigantesco y falló de formas predecibles porque
00:10:23simplemente es demasiado contexto para que cualquier agente lo gestione y mantenga.
00:10:27Así que lo que hicieron fue diseñar una estructura de entorno de documentos adecuada y trataron el archivo agents.md como una tabla
00:10:32de contenidos.
00:10:33Así que configuraron este sistema de documentación desde arquitecturas, documentos de diseño, el plan de
00:10:37ejecución, esquema de base de datos, especificaciones del producto, plan de diseño del front-end, seguridad y muchos más, y
00:10:42pusieron esta tabla de contenidos en el archivo agents.md para que el agente pueda recuperar cualquier
00:10:47información cuando sea necesario.
00:10:49Y esto permite una revelación progresiva, y OpenAI en realidad lo lleva aún más lejos.
00:10:53Intentarán meter no solo el conocimiento del código, sino también Google Docs, mensajes de Slack, toda esa
00:10:58otra información fragmentada, alimentar los datos en el repositorio como una versión local del repositorio de
00:11:03artefactos.
00:11:04Así el agente también puede recuperarlos porque, desde el punto de vista del agente, si algo no se puede
00:11:09acceder en el entorno, entonces efectivamente no existe.
00:11:11Pero de nuevo, la documentación por sí sola no mantenía realmente coherente una base de código generada totalmente por agentes.
00:11:16También introdujeron ciertos flujos de trabajo programáticos para forzar invariantes.
00:11:20Por ejemplo, superponen la arquitectura de dominio con límites transversales explícitos, lo que
00:11:25les permite aplicar esas reglas con comprobaciones personalizadas, linters y pruebas estructurales, que
00:11:29pueden ser activadas e inyectadas automáticamente por cada pre-commit de git.
00:11:33Y ese tipo de arquitectura normalmente se pospondría hasta tener cientos de ingenieros
00:11:37en una empresa de software tradicional, pero con un agente de codificación es un requisito previo temprano.
00:11:41Dentro de esos límites, permites a los equipos y agentes una libertad significativa en cómo se expresan las
00:11:46soluciones sin microgestión y sin preocuparse de que la arquitectura se desvíe.
00:11:49Mientras tanto, también mejoraron mucho la base de código.
00:11:52Por ejemplo, hicieron que la aplicación fuera arrancable por árboles de trabajo de git, para que Claude Code pueda lanzar y
00:11:55manejar muchas instancias diferentes.
00:11:57Y también conectaron el protocolo Chrome dev tool al tiempo de ejecución del agente para que el agente pueda
00:12:01reproducir errores, validar correcciones mediante instantáneas del DOM, capturas de pantalla y navegación.
00:12:05Y con todo el entorno y el flujo de trabajo configurados, el repositorio finalmente cruzó un umbral
00:12:09mínimo donde Claude Code puede manejar una nueva funcionalidad de extremo a extremo.
00:12:13Así que cada vez que Claude Code recibe un único prompt, el agente comenzará validando el
00:12:17estado actual de la base de código, reproducirá un error reportado, grabará un video para demostrar
00:12:21el fallo, implementará la corrección, validará la corrección manejando la aplicación, grabará un segundo
00:12:25video demostrando la resolución y finalmente fusionará el cambio.
00:12:29Así que esas dos secciones muestran muy buenos aprendizajes y los sistemas de control necesarios que debes poner
00:12:32en marcha para un sistema totalmente autónomo.
00:12:34Mientras tanto, también hay ciertos aprendizajes adicionales.
00:12:36A menudo, cuando construimos agentes, especialmente agentes verticales específicos, nuestra tendencia es
00:12:40construir herramientas especializadas para realizar tareas específicas del dominio.
00:12:43El objetivo del aprendizaje es que los modelos de lenguaje grandes casi siempre funcionan mejor con herramientas genéricas
00:12:47que entienden de forma nativa.
00:12:49Vercel publicó este increíble artículo sobre cómo rediseñaron sus agentes de tareas a SQL.
00:12:53Pasaron meses construyendo un sofisticado agente interno de texto a SQL v0 con una ingeniería de prompts
00:12:58basada en herramientas especializadas y una gestión cuidadosa del contexto.
00:13:02Pero como muchos de nosotros hemos experimentado antes, ese tipo de sistemas funcionan más o menos pero son muy frágiles,
00:13:06lentos y requieren un mantenimiento constante.
00:13:09Porque cada vez que ocurre un nuevo caso extremo, necesitas inyectar un nuevo prompt al agente.
00:13:12Pero más tarde intentaron una cosa que cambió totalmente la trayectoria.
00:13:15Eliminaron la mayoría de las herramientas especializadas del agente, dejándolo solo con una herramienta de comandos por lotes.
00:13:20Y con esta arquitectura mucho más simple, el agente en realidad funcionó 3,5 veces más rápido con
00:13:25un 37% menos de tokens y la tasa de éxito aumentó del 80% al 100%.
00:13:30Un aprendizaje similar ha sido compartido por el equipo de Anthropic, donde hablan de que en lugar
00:13:34de tener herramientas de ejecución de búsqueda especializadas, solo tienen una herramienta por lotes donde
00:13:38pueden ejecutar grep, tail, npm, npm run lint.
00:13:41Y fundamentalmente, creo que es porque también el modelo de lenguaje grande está mucho más familiarizado
00:13:45con esas herramientas nativas de código que tienen miles de millones de tokens de entrenamiento frente a la llamada a herramientas personalizadas
00:13:49JSON que necesita generar.
00:13:51Y hablé de esto en el video de llamadas a herramientas programáticas que publiqué la semana pasada.
00:13:55Y creo que los principios fundamentales aquí son similares, pero la base de esa arquitectura simple
00:13:59es de nuevo el buen contexto y el entorno de documentación donde el modelo puede usar herramientas genéricas
00:14:05para recuperar el contexto progresivamente.
00:14:06Y es el mismo caso con OpenClaw.
00:14:09Una razón por la que OpenClaw es tan interesante es que tienen un entorno de contexto sorprendentemente
00:14:13simple pero efectivo.
00:14:15Tienen una lista de documentación para almacenar información central con esta base.
00:14:18Solo tienen las herramientas más básicas como leer, escribir, editar archivos, ejecutar comandos por lotes
00:14:23y enviar mensajes.
00:14:24Todo el resto proviene de dar al agente un entorno para recuperar el contexto relevante más una gran biblioteca
00:14:29de habilidades para ampliar capacidades.
00:14:31Así que esos son tres aprendizajes prácticos sobre cómo hacer ingeniería de control para agentes
00:14:35complejos de larga duración.
00:14:36Al configurar un entorno de contexto legible para permitir que cada sesión obtenga el contexto de manera efectiva
00:14:41y el flujo de trabajo y las herramientas adecuadas para que el modelo pueda verificar su trabajo de manera efectiva, impulsando un
00:14:46bucle de retroalimentación más rápido y confiando en el agente con herramientas genéricas que entiende de forma nativa.
00:14:50Si estás interesado, voy a compartir más en profundidad sobre cómo tomo estos aprendizajes
00:14:54y los transformo en un proceso de ciclo de vida de desarrollo.
00:14:58En el AI Builder Club, tenemos cursos y tutoriales sobre codificación intuitiva y construcción de agentes
00:15:02de producción.
00:15:03Y cada semana, yo mismo y expertos de la industria compartimos los últimos aprendizajes prácticos.
00:15:08Así que si te interesa aprender lo que yo aprendo cada día, puedes hacer clic en el enlace
00:15:12de abajo para unirte a la comunidad.
00:15:13Espero que hayas disfrutado de este video.
00:15:14Gracias y nos vemos la próxima vez.