Qué rayos es un Ingeniero de Arneses y por qué es importante

AAI Jason
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Gracias a HubSpot por patrocinar este video.
00:00:03En realidad, algo muy importante ocurrió en diciembre de 2025.
00:00:07Y la mayoría de la gente ni siquiera se dio cuenta.
00:00:09Andrew Cupsey tuiteó sobre esto la semana pasada.
00:00:10“Es muy difícil comunicar cuánto ha cambiado la programación debido a la IA en los últimos dos meses,
00:00:15específicamente desde el pasado diciembre”.
00:00:17Y Greg de OpenAI también habló sobre esto.
00:00:20Desde diciembre, ha habido mejoras exponenciales en lo que el modelo y las herramientas pueden hacer.
00:00:24Y algunos ingenieros le habían dicho que su trabajo ha cambiado fundamentalmente desde diciembre
00:00:28de 2025.
00:00:29Entonces, ¿qué pasó realmente en diciembre de 2025?
00:00:32En pocas palabras, el último modelo presentado entonces finalmente está listo para tareas
00:00:37totalmente autónomas de larga duración.
00:00:38Con la IA, el sueño definitivo siempre ha sido que, mientras dormimos, la IA pueda trabajar en
00:00:43tareas de forma totalmente autónoma, las 24 horas, los 7 días de la semana.
00:00:46Incluso en 2023, el proyecto más popular, si recuerdan, se llamaba AutoGPT.
00:00:50Fue la primera vez que se introdujeron esos sistemas de agentes totalmente autónomos.
00:00:54Y tenían una arquitectura bastante básica y simple que usaba GPT-4 como modelo para desglosar
00:00:59autónomamente una lista de tareas basadas en el objetivo del usuario y tenía un almacenamiento de memoria simple para guardar
00:01:03el resultado.
00:01:04Y la gente hacía cosas bastante locas como dar un objetivo de ganar 100.000 dólares y
00:01:08dejar que se ejecutara en un bucle de tareas infinitamente hasta completarlo.
00:01:11En aquel entonces, el sistema simplemente fallaba estrepitosamente porque el modelo no estaba listo.
00:01:15Pero desde diciembre del año pasado, esto realmente cambió.
00:01:18Los modelos tienen una calidad significativamente mayor, coherencia a largo plazo y pueden realizar
00:01:22tareas mucho más grandes y largas.
00:01:24Y vimos surgir todo tipo de experimentación diferente en la industria.
00:01:28Primero, desde enero, tuvimos este concepto súper popular llamado “rough loop”, que es básicamente
00:01:33un bucle de iteración de agentes simple para forzar al modelo a trabajar más tiempo y así poder realizar
00:01:37tareas más complejas.
00:01:38Simplemente pusimos el modelo en un bucle con algunas comprobaciones de condiciones simples, pero ya empezamos a ver
00:01:42la diferencia.
00:01:43Y una semana después, Cursor también lanzó su experimento donde usan GPT-5.2 para construir
00:01:49autónomamente un navegador desde cero con 3 millones de líneas de código.
00:01:52Y Anthropic también lanzó este experimento donde pusieron a un equipo de modelos Claude a trabajar
00:01:57autónomamente en un compilador de C desde cero durante dos semanas.
00:02:01Y al final, entregó una versión funcional sin ninguna codificación manual.
00:02:05Incluso puede ejecutar Doom dentro de este compilador.
00:02:08Y al mismo tiempo, OpenClaw comenzó a ganar atención y tuvo este crecimiento explosivo que nunca
00:02:13habíamos visto antes.
00:02:14Y era muy difícil entender qué estaba pasando con OpenClaw porque, desde fuera,
00:02:18es fácil clasificarlo como otra herramienta más, pero vive dentro de tu propio
00:02:23ordenador y también puedes acceder a él desde Telegram.
00:02:27Por qué es tan popular.
00:02:29Y solo más tarde, después de usarlo a fondo, me di cuenta de que la verdadera diferencia es que OpenClaw representa
00:02:35este tipo de agentes siempre activos, de larga duración y totalmente autónomos que son muy diferentes de
00:02:40todos los demás sistemas de agentes que usábamos antes, donde el humano es el motor principal que solicita
00:02:45la siguiente acción.
00:02:46OpenClaw está siempre encendido y es proactivo.
00:02:49Y esta sensación de autonomía es creada por una arquitectura bastante simple donde tiene una capa
00:02:53de contexto de memoria con disparadores y tareas programadas para realizar acciones automáticamente y tiene
00:02:58acceso total al ordenador, que es un entorno poderoso en el que puede operar.
00:03:02Y creo que OpenClaw es el primer proyecto que realmente inició el mayor cambio de paradigma
00:03:06en 2026: estamos pasando de un sistema de agentes simple basado en tareas tipo copiloto a estos agentes
00:03:13totalmente autónomos de larga duración.
00:03:15Algo que siempre está encendido, siempre listo, entregando de forma atómica trabajos coordinados súper complejos.
00:03:20Este es un cambio crítico que debes entender.
00:03:22El modelo hoy en día es en realidad mucho más potente de lo que crees, siempre y cuando diseñes el
00:03:27sistema adecuado para desbloquearlo.
00:03:28Y este es el punto crucial de lo que quiero hablar hoy.
00:03:30El “Harness Engineer” para habilitar sistemas autónomos de larga duración.
00:03:34Si es la primera vez que escuchas sobre el Harness Engineer, esto es como una evolución de lo que
00:03:38hemos hablado anteriormente, que es el Context Engineer o el Prompt Engineer.
00:03:41Anteriormente nos enfocábamos realmente en cómo optimizar los prompts dentro de la ventana de contexto efectiva
00:03:46para que un modelo tuviera el mejor rendimiento en una sesión de bucle de agente único.
00:03:49Pero el Harness Engineer se centra realmente en esas tareas de larga duración, lo que significa ¿cómo
00:03:53se diseña un sistema que pueda trabajar a través de diferentes sesiones y múltiples agentes diferentes?
00:03:57Y cómo diseñar el flujo de trabajo adecuado para asegurar que se recupere el contexto relevante
00:04:01para cada sesión y el conjunto correcto de herramientas para extraer el máximo provecho de los modelos.
00:04:05Este es un concepto bastante nuevo, pero lo bueno es que la industria ya ha convergido en
00:04:09algunas mejores prácticas que puedes usar de Anthropic, Vercel, LangChain y muchos otros.
00:04:14Repasaremos cada una de ellas una por una para que puedas ver los patrones.
00:04:16Pero antes de sumergirnos en esto, con este cambio de paradigma hacia agentes totalmente autónomos, una de las mayores
00:04:21oportunidades para los próximos 6 a 12 meses es construir un OpenClaw para un sector vertical específico.
00:04:25Lo cual significa investigar y entender profundamente el flujo de trabajo de extremo a extremo de un sector determinado.
00:04:29Y construir un agente autónomo con el entorno y las herramientas correctas para habilitar el proceso completo.
00:04:34Por eso quiero presentarte esta increíble investigación que hizo HubSpot sobre la adopción de la IA
00:04:39en el informe de marketing por correo electrónico.
00:04:40Es un informe fascinante para entender, en un sector como el email marketing, dónde
00:04:44usa la gente realmente la IA hoy en día y cuáles son las carencias.
00:04:47Porque este informe muestra flujos de trabajo claros y oportunidades en el marketing por correo electrónico que
00:04:51potencialmente puedes automatizar.
00:04:52Encuestaron a cientos de especialistas en email marketing de las principales empresas para entender exactamente cómo la IA
00:04:57está remodelando sus flujos de trabajo.
00:04:58Hablan de por qué los especialistas todavía están haciendo mucha edición pesada, cuáles eran las causas
00:05:03de ello, así como los mayores desafíos que enfrentan hoy al implementar la IA en el
00:05:06email marketing.
00:05:07Y cada uno de ellos es una gran oportunidad para que construyas un agente totalmente autónomo.
00:05:11Incluso profundizan en los KPI específicos que más les importan y donde la IA ha mostrado
00:05:15resultados probados.
00:05:16Así como qué es exactamente lo que los especialistas en email marketing realmente quieren de la IA.
00:05:20Así que si eres un desarrollador que está pensando en el próximo gran producto de agentes para construir, te
00:05:24recomiendo encarecidamente que consultes este recurso increíble.
00:05:27He puesto el enlace en la descripción de abajo para que lo descargues gratis.
00:05:30Y gracias a HubSpot por patrocinar este video.
00:05:32Ahora volvamos al “harness engineer” para sistemas de agentes de larga duración.
00:05:36Y a alto nivel, hay tres aprendizajes que saqué de esto.
00:05:39Uno es que para los agentes de tareas de larga duración, la parte crítica del diseño del sistema es crear
00:05:44este entorno legible donde cada subagente o sesión pueda realmente entender en qué punto
00:05:49están las cosas.
00:05:50Lo más probable es que existan algunos flujos de trabajo que se puedan realizar para forzar la legibilidad del entorno.
00:05:54Y explicaré un poco más sobre eso.
00:05:56Lo segundo es que la verificación es crítica.
00:05:58Puedes mejorar significativamente el resultado del sistema permitiéndole verificar su trabajo de manera efectiva
00:06:03con un bucle de retroalimentación más rápido.
00:06:04Y lo tercero es que necesitamos confiar más en el modelo en lugar de construir herramientas especializadas
00:06:08que envuelvan mucho razonamiento y lógica prematuramente.
00:06:11Deberíamos darle al modelo el máximo de contexto con herramientas genéricas que entienda de forma nativa y dejar
00:06:16que simplemente explore como los humanos.
00:06:17Y desglosaré esas tres cosas una por una a medida que pasemos por cada sección.
00:06:20Primero está el blog de Anthropic sobre sistemas de control efectivos para agentes de larga duración.
00:06:24Han experimentado usando el SDK de Claude Code para construir un agente especializado para tareas súper largas,”
00:06:29como construir un clon del sitio web de Claude.ai.
00:06:32Los primeros fallos que observaron son que, en primer lugar, los agentes tienden a hacer demasiado a la vez.
00:06:37Básicamente, siempre intentará crear toda la aplicación de un solo golpe.
00:06:40Y esto llevó a que el modelo se quedara sin contexto en medio de su implementación, dejando
00:06:45que la siguiente sesión comenzara con la funcionalidad implementada o documentada a medias.
00:06:49Entonces el agente tendría que adivinar qué pasó realmente y dedicar un tiempo sustancial tratando
00:06:52de hacer que la aplicación básica funcionara de nuevo.
00:06:55Y el segundo fallo que observan es que los agentes tienden a declarar el trabajo terminado prematuramente.
00:07:00Probablemente tú mismo hayas experimentado esto algunas veces.
00:07:02Claude Code o Cursor simplemente afirmarán que la tarea o funcionalidad está completada.
00:07:05Pero una vez que lo pruebas, en realidad no funciona.
00:07:07Así que su enfoque para resolver esos comportamientos de fallo por defecto del modelo es, en primer lugar, configurar un
00:07:12entorno inicial que siente las bases para todas las funciones que requiere el prompt dado, lo cual
00:07:16prepara al agente para trabajar paso a paso y función por función.
00:07:20Esto es algo similar al enfoque de plan o PRD que solemos tomar.
00:07:23Lo segundo es que empiezan a programar cada agente para que progrese de forma incremental hacia su objetivo,
00:07:27dejando también el entorno en un estado limpio al final de cada sesión.
00:07:32Lo que hicieron fue empezar a diseñar esta solución de dos partes.
00:07:35Tendrán este agente inicializador que usa un prompt especializado para pedir al modelo que configure el
00:07:40entorno inicial con un script init.sh, que configurará el servidor de desarrollo, por ejemplo,
00:07:45para que el siguiente modelo no tenga que preocuparse por esas cosas.
00:07:48Y también un archivo de progreso de Claude que guarda registros de lo que el agente ha hecho, así como un
00:07:53commit inicial de git que muestra qué archivos se han añadido.
00:07:55Luego, un agente de codificación para cada sesión subsiguiente para pedir al modelo que haga un progreso incremental,
00:08:01y luego deje actualizaciones estructuradas.
00:08:02Y todos esos esfuerzos realmente intentan servir a un propósito: ¿cómo pueden definir un
00:08:07entorno donde los agentes puedan entender rápidamente el estado del trabajo al comenzar con una
00:08:11ventana de contexto nueva?
00:08:13Así que el flujo de trabajo es que el agente inicializador primero intentaría configurar un entorno o
00:08:17puedes llamarlo un sistema de documentación para rastrear y mantener el plan general.
00:08:21Y el entorno que diseñan aquí consiste en que primero tendrán un documento con la lista de funciones para
00:08:25evitar que el agente intente crear toda la aplicación de una vez o considere prematuramente el proyecto terminado.
00:08:30Y harán que el agente inicializador desglose el proyecto en más de 200 funciones
00:08:34y las registre en un archivo JSON local que se ve algo así, donde cada tarea tiene especificaciones detalladas
00:08:39así como un estado de aprobado o fallido.
00:08:41Por defecto, todas las tareas se marcarán como fallidas.
00:08:43Así se fuerza al modelo a mirar siempre el objetivo general del proyecto y el progreso para elegir la
00:08:49tarea de mayor prioridad y hacer lo siguiente.
00:08:50Pero para que este flujo de trabajo funcione, también necesitan una forma de forzar al modelo a dejar el entorno
00:08:55en un estado limpio después de hacer el cambio de código; en sus experimentos, descubrieron que la mejor manera
00:08:59es pedirle al modelo que haga un commit del progreso en git con un mensaje descriptivo y escriba
00:09:05un resumen de su avance en el archivo de progreso; pero la documentación y el entorno de contacto
00:09:08por sí solos no son suficientes porque el modelo, por defecto, tiene esta tendencia a marcar algo
00:09:13como completado sin las pruebas adecuadas y, al principio, solo le pedían a Claude
00:09:17que hiciera siempre las pruebas después del cambio de código mediante pruebas unitarias o de API para
00:09:22el servidor de desarrollo.
00:09:23Pero todas esas cosas a menudo fallaban al reconocer que una funcionalidad no estaba funcionando de extremo a extremo.
00:09:27Porque las cosas realmente empiezan a cambiar cuando le dan al modelo las herramientas adecuadas para hacer la
00:09:30prueba de extremo a extremo por sí mismo, como Puppeteer MCP o Chrome dev tool, donde el agente fue capaz de
00:09:35identificar y corregir errores que no eran directamente obvios a partir del código mismo.
00:09:39Básicamente, están configurando la estructura donde tienen al agente inicializado para desglosar
00:09:43el objetivo del usuario en una lista de funciones junto con init.sh para poder ejecutar el servidor de
00:09:47desarrollo y los archivos de progreso.
00:09:49Así que el siguiente agente de codificación puede simplemente leer la lista de funciones para tener una idea del
00:09:53plan general del proyecto y elegir las tareas de alta prioridad y el archivo de progreso y obtener un registro para entender
00:09:57en qué punto están las cosas.
00:09:59Luego ejecuta init.sh para iniciar el servidor de desarrollo inmediatamente y hace una prueba de extremo a extremo para verificar que el entorno
00:10:04esté limpio para que pueda obtener una imagen completa y un bucle de retroalimentación más rápido mientras ocurre cada
00:10:09nueva sesión y ventana de contexto.
00:10:10En el blog de OpenAI, hablan de cosas muy similares.
00:10:13Tienes que asegurarte de que el entorno de tu aplicación sea legible.
00:10:16Hacen que todo el repositorio sea el sistema de conocimiento o registro.
00:10:19Inicialmente, pusieron un archivo agents.md gigantesco y falló de formas predecibles porque
00:10:23simplemente es demasiado contexto para que cualquier agente lo gestione y mantenga.
00:10:27Así que lo que hicieron fue diseñar una estructura de entorno de documentos adecuada y trataron el archivo agents.md como una tabla
00:10:32de contenidos.
00:10:33Así que configuraron este sistema de documentación desde arquitecturas, documentos de diseño, el plan de
00:10:37ejecución, esquema de base de datos, especificaciones del producto, plan de diseño del front-end, seguridad y muchos más, y
00:10:42pusieron esta tabla de contenidos en el archivo agents.md para que el agente pueda recuperar cualquier
00:10:47información cuando sea necesario.
00:10:49Y esto permite una revelación progresiva, y OpenAI en realidad lo lleva aún más lejos.
00:10:53Intentarán meter no solo el conocimiento del código, sino también Google Docs, mensajes de Slack, toda esa
00:10:58otra información fragmentada, alimentar los datos en el repositorio como una versión local del repositorio de
00:11:03artefactos.
00:11:04Así el agente también puede recuperarlos porque, desde el punto de vista del agente, si algo no se puede
00:11:09acceder en el entorno, entonces efectivamente no existe.
00:11:11Pero de nuevo, la documentación por sí sola no mantenía realmente coherente una base de código generada totalmente por agentes.
00:11:16También introdujeron ciertos flujos de trabajo programáticos para forzar invariantes.
00:11:20Por ejemplo, superponen la arquitectura de dominio con límites transversales explícitos, lo que
00:11:25les permite aplicar esas reglas con comprobaciones personalizadas, linters y pruebas estructurales, que
00:11:29pueden ser activadas e inyectadas automáticamente por cada pre-commit de git.
00:11:33Y ese tipo de arquitectura normalmente se pospondría hasta tener cientos de ingenieros
00:11:37en una empresa de software tradicional, pero con un agente de codificación es un requisito previo temprano.
00:11:41Dentro de esos límites, permites a los equipos y agentes una libertad significativa en cómo se expresan las
00:11:46soluciones sin microgestión y sin preocuparse de que la arquitectura se desvíe.
00:11:49Mientras tanto, también mejoraron mucho la base de código.
00:11:52Por ejemplo, hicieron que la aplicación fuera arrancable por árboles de trabajo de git, para que Claude Code pueda lanzar y
00:11:55manejar muchas instancias diferentes.
00:11:57Y también conectaron el protocolo Chrome dev tool al tiempo de ejecución del agente para que el agente pueda
00:12:01reproducir errores, validar correcciones mediante instantáneas del DOM, capturas de pantalla y navegación.
00:12:05Y con todo el entorno y el flujo de trabajo configurados, el repositorio finalmente cruzó un umbral
00:12:09mínimo donde Claude Code puede manejar una nueva funcionalidad de extremo a extremo.
00:12:13Así que cada vez que Claude Code recibe un único prompt, el agente comenzará validando el
00:12:17estado actual de la base de código, reproducirá un error reportado, grabará un video para demostrar
00:12:21el fallo, implementará la corrección, validará la corrección manejando la aplicación, grabará un segundo
00:12:25video demostrando la resolución y finalmente fusionará el cambio.
00:12:29Así que esas dos secciones muestran muy buenos aprendizajes y los sistemas de control necesarios que debes poner
00:12:32en marcha para un sistema totalmente autónomo.
00:12:34Mientras tanto, también hay ciertos aprendizajes adicionales.
00:12:36A menudo, cuando construimos agentes, especialmente agentes verticales específicos, nuestra tendencia es
00:12:40construir herramientas especializadas para realizar tareas específicas del dominio.
00:12:43El objetivo del aprendizaje es que los modelos de lenguaje grandes casi siempre funcionan mejor con herramientas genéricas
00:12:47que entienden de forma nativa.
00:12:49Vercel publicó este increíble artículo sobre cómo rediseñaron sus agentes de tareas a SQL.
00:12:53Pasaron meses construyendo un sofisticado agente interno de texto a SQL v0 con una ingeniería de prompts
00:12:58basada en herramientas especializadas y una gestión cuidadosa del contexto.
00:13:02Pero como muchos de nosotros hemos experimentado antes, ese tipo de sistemas funcionan más o menos pero son muy frágiles,
00:13:06lentos y requieren un mantenimiento constante.
00:13:09Porque cada vez que ocurre un nuevo caso extremo, necesitas inyectar un nuevo prompt al agente.
00:13:12Pero más tarde intentaron una cosa que cambió totalmente la trayectoria.
00:13:15Eliminaron la mayoría de las herramientas especializadas del agente, dejándolo solo con una herramienta de comandos por lotes.
00:13:20Y con esta arquitectura mucho más simple, el agente en realidad funcionó 3,5 veces más rápido con
00:13:25un 37% menos de tokens y la tasa de éxito aumentó del 80% al 100%.
00:13:30Un aprendizaje similar ha sido compartido por el equipo de Anthropic, donde hablan de que en lugar
00:13:34de tener herramientas de ejecución de búsqueda especializadas, solo tienen una herramienta por lotes donde
00:13:38pueden ejecutar grep, tail, npm, npm run lint.
00:13:41Y fundamentalmente, creo que es porque también el modelo de lenguaje grande está mucho más familiarizado
00:13:45con esas herramientas nativas de código que tienen miles de millones de tokens de entrenamiento frente a la llamada a herramientas personalizadas
00:13:49JSON que necesita generar.
00:13:51Y hablé de esto en el video de llamadas a herramientas programáticas que publiqué la semana pasada.
00:13:55Y creo que los principios fundamentales aquí son similares, pero la base de esa arquitectura simple
00:13:59es de nuevo el buen contexto y el entorno de documentación donde el modelo puede usar herramientas genéricas
00:14:05para recuperar el contexto progresivamente.
00:14:06Y es el mismo caso con OpenClaw.
00:14:09Una razón por la que OpenClaw es tan interesante es que tienen un entorno de contexto sorprendentemente
00:14:13simple pero efectivo.
00:14:15Tienen una lista de documentación para almacenar información central con esta base.
00:14:18Solo tienen las herramientas más básicas como leer, escribir, editar archivos, ejecutar comandos por lotes
00:14:23y enviar mensajes.
00:14:24Todo el resto proviene de dar al agente un entorno para recuperar el contexto relevante más una gran biblioteca
00:14:29de habilidades para ampliar capacidades.
00:14:31Así que esos son tres aprendizajes prácticos sobre cómo hacer ingeniería de control para agentes
00:14:35complejos de larga duración.
00:14:36Al configurar un entorno de contexto legible para permitir que cada sesión obtenga el contexto de manera efectiva
00:14:41y el flujo de trabajo y las herramientas adecuadas para que el modelo pueda verificar su trabajo de manera efectiva, impulsando un
00:14:46bucle de retroalimentación más rápido y confiando en el agente con herramientas genéricas que entiende de forma nativa.
00:14:50Si estás interesado, voy a compartir más en profundidad sobre cómo tomo estos aprendizajes
00:14:54y los transformo en un proceso de ciclo de vida de desarrollo.
00:14:58En el AI Builder Club, tenemos cursos y tutoriales sobre codificación intuitiva y construcción de agentes
00:15:02de producción.
00:15:03Y cada semana, yo mismo y expertos de la industria compartimos los últimos aprendizajes prácticos.
00:15:08Así que si te interesa aprender lo que yo aprendo cada día, puedes hacer clic en el enlace
00:15:12de abajo para unirte a la comunidad.
00:15:13Espero que hayas disfrutado de este video.
00:15:14Gracias y nos vemos la próxima vez.

Key Takeaway

La ingeniería de IA ha evolucionado hacia la creación de 'Harness Engineers' que diseñan sistemas de control y entornos estructurados para permitir que los agentes operen de forma totalmente autónoma y persistente en tareas complejas.

Highlights

El cambio de paradigma de diciembre de 2025 hacia modelos de IA capaces de realizar tareas autónomas de larga duración.

La evolución del rol de "Prompt Engineer" hacia el de "Harness Engineer", enfocado en diseñar sistemas y entornos para agentes autónomos.

La importancia de crear un entorno legible y estructurado, como el uso de archivos de progreso y documentación dinámica para que la IA no pierda el contexto.

El éxito de herramientas genéricas y nativas sobre herramientas personalizadas y complejas para mejorar la velocidad y la tasa de éxito de los agentes.

La implementación de bucles de verificación y pruebas de extremo a extremo (E2E) para evitar que la IA declare tareas como finalizadas prematuramente.

La oportunidad de mercado en los próximos meses para construir agentes autónomos verticales especializados en sectores específicos como el email marketing.

Timeline

El punto de inflexión de diciembre de 2025

El orador identifica diciembre de 2025 como el momento en que la programación cambió fundamentalmente debido a la disponibilidad de modelos listos para tareas autónomas de larga duración. Se menciona que figuras como Andrew Cupsey y líderes de OpenAI notaron mejoras exponenciales en la capacidad de las herramientas para trabajar sin supervisión constante. A diferencia de los intentos fallidos de 2023 con AutoGPT, los modelos actuales poseen una coherencia a largo plazo significativamente mayor. Este avance permite que el sueño de tener una IA trabajando 24/7 mientras el humano descansa sea finalmente una realidad técnica. La sección establece el contexto de por qué los métodos de trabajo anteriores han quedado obsoletos.

Nuevos paradigmas y el surgimiento de OpenClaw

En esta sección se exploran experimentos industriales como el "rough loop" y proyectos de Cursor y Anthropic que demostraron la capacidad de crear navegadores o compiladores desde cero. Se destaca OpenClaw como un ejemplo de agente proactivo y siempre activo que reside en el ordenador del usuario, marcando una diferencia con los sistemas tipo "copiloto". El cambio de paradigma implica pasar de solicitudes humanas constantes a sistemas coordinados que entregan trabajos complejos de forma atómica. El autor argumenta que el modelo de IA es más potente de lo que se cree, siempre que se diseñe el sistema adecuado para desbloquearlo. Esta transición define la necesidad de una nueva disciplina técnica centrada en la autonomía.

Definiendo al Harness Engineer y oportunidades de mercado

Se introduce el concepto de "Harness Engineer" como la evolución natural del Prompt Engineer, centrada en diseñar flujos de trabajo para múltiples sesiones y agentes. El autor subraya que el objetivo principal es asegurar la recuperación de contexto relevante y el uso de herramientas óptimas en tareas extensas. Se presenta una oportunidad de negocio para los próximos 6 a 12 meses: construir versiones de OpenClaw para sectores verticales específicos. Como ejemplo, se menciona un informe de HubSpot sobre el email marketing que revela carencias en la automatización actual y oportunidades para agentes autónomos. El análisis sugiere que entender los flujos de trabajo de extremo a extremo es la clave para el éxito empresarial en esta era.

Estrategias de Anthropic para el control de agentes

El video detalla tres aprendizajes críticos para gestionar agentes de larga duración, basándose en investigaciones de Anthropic y su SDK Claude Code. Se explica que los agentes suelen fallar al intentar hacer demasiado a la vez o declarar victoria prematuramente sin que el código funcione realmente. Para solucionar esto, se propone crear un entorno inicial con scripts de inicialización y archivos JSON que desglosen el proyecto en cientos de tareas pequeñas. Cada sesión debe dejar el entorno en un estado limpio mediante commits de git descriptivos y resúmenes de progreso. Finalmente, se destaca el uso de herramientas como Puppeteer para realizar pruebas reales de extremo a extremo, permitiendo al agente corregir errores que no son obvios solo con mirar el código.

Legibilidad del entorno y simplificación de herramientas

Esta sección analiza cómo OpenAI y Vercel optimizan sus sistemas tratando el repositorio como la única fuente de verdad o registro de conocimiento. OpenAI utiliza una estructura de documentos organizada en una tabla de contenidos para permitir la revelación progresiva de información al agente. Por otro lado, Vercel descubrió que eliminar herramientas especializadas en favor de comandos genéricos de terminal mejoró la velocidad en 3.5 veces y aumentó la tasa de éxito al 100%. El principio fundamental es que los modelos de lenguaje entienden mejor las herramientas nativas con las que fueron entrenados masivamente. Esto evita la fragilidad de los sistemas que dependen de inyectar prompts constantemente para cada nuevo caso extremo.

Conclusiones y recursos para desarrolladores

El video concluye recapitulando los tres pilares del Harness Engineering: entornos legibles, verificación constante con bucles de retroalimentación rápidos y confianza en herramientas genéricas. Se menciona que OpenClaw es un modelo a seguir debido a su arquitectura simple basada en lectura/escritura de archivos y ejecución de comandos por lotes. El autor invita a los espectadores a profundizar en estos temas a través del AI Builder Club, donde se enseñan técnicas de codificación intuitiva. La importancia radica en transformar estos aprendizajes teóricos en un ciclo de vida de desarrollo de software (SDLC) adaptado a la IA. El cierre refuerza la idea de que el diseño del sistema de control es ahora más importante que el prompt individual.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video