Ingeniería de Harness: La habilidad que definirá el 2026 para desarrolladores independientes

SSolo Swift Crafter
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Así que, bueno.
00:00:02¿Cuál es el mejor modelo de IA ahora mismo?
00:00:04Claude, GPT, Gemini.
00:00:07Y sinceramente, creo que esa es la pregunta equivocada.
00:00:11O sea, una pregunta totalmente equivocada.
00:00:14Rápido, soy Daniel.
00:00:16Llevo más de ocho años metido de lleno en el desarrollo de iOS.
00:00:20Empecé como freelance, diseñando interfaces,
00:00:24saltando de cliente en cliente,
00:00:25lanzando las ideas de otros
00:00:27mientras intentaba dar forma a las mías.
00:00:28Y tras el 2025, decidí lanzarme solo, a por todas.
00:00:33Sin clientes, sin red de seguridad.
00:00:36Desde entonces, he creado más de 15 aplicaciones propias,
00:00:39todas con SwiftUI y desarrolladas públicamente.
00:00:41Y ahora, de verdad, cada gota de energía que tengo
00:00:44la dedico a convertir este estudio unipersonal
00:00:46en algo que realmente perdure.
00:00:49No en otra serie de MVPs rápidos o basura generada por IA,
00:00:52sino en apps de verdad que aguanten el crecimiento.
00:00:55Y sí, todo ese proceso,
00:00:57todo ese viaje tan caótico, está en crafterslab.
00:01:00Está en crafterslab.dev,
00:01:01y no es un cementerio de tutoriales ni una fábrica de clones de IA.
00:01:06Es genuinamente mi base de operaciones,
00:01:08pensada para desarrolladores solistas que usan la IA como un compañero real.
00:01:12No como una máquina expendedora a la que golpeas cuando te atascas
00:01:14esperando que salga algo bueno.
00:01:16Si te importa el oficio,
00:01:18si vas en serio con eso de subir de nivel
00:01:20y construir cosas que duren de verdad,
00:01:23sí, te sentirías como en casa.
00:01:24Y oye, si todavía estás en Patreon,
00:01:26mil gracias, pero un aviso:
00:01:29todo se ha mudado a crafterslab.dev.
00:01:32Ahí es donde está todo el grupo ahora.
00:01:33Ven a construir con nosotros.
00:01:35Esto es lo que me hizo reflexionar sobre todo esto.
00:01:38Hace poco salió un estudio.
00:01:41Unos investigadores publicaron un benchmark llamado Epic's Agent.
00:01:45Y lo que lo diferencia de cualquier otro benchmark
00:01:49por el que veas a la gente discutir en internet,
00:01:51es que pone a prueba a los agentes con trabajo profesional real,
00:01:55no con acertijos de programación ni exámenes de opción múltiple.
00:01:58Hablamos de tareas reales que consultores, abogados
00:02:03o analistas hacen a diario.
00:02:05Cada una le lleva a un humano entre una y dos horas.
00:02:08Así que pasaron todos los grandes modelos punteros por ahí.
00:02:11El mejor completó esas tareas
00:02:13un 24% de las veces; una de cada cuatro.
00:02:17Y tras ocho intentos con el mismo modelo,
00:02:20solo subió hasta cerca del 40%.
00:02:23Ahora, tened en cuenta que son los mismos modelos
00:02:26que sacan más de un 90% en los benchmarks
00:02:29por los que todo el mundo se vuelve loco.
00:02:32Así que, o esos benchmarks están mal,
00:02:33o estamos midiendo lo que no es.
00:02:36Y yo creo que es lo segundo, ¿no?
00:02:37Pero bueno, aquí es donde la cosa se pone seria para nosotros.
00:02:41Los investigadores analizaron por qué fallaban los agentes.
00:02:46Y la respuesta no fue que los modelos fueran tontos.
00:02:49Tenían todo el conocimiento necesario.
00:02:51Podían razonar los problemas sin problemas.
00:02:54Los fallos se debían casi por completo
00:02:56a la ejecución y la orquestación.
00:03:00Los agentes se perdían tras demasiados pasos.
00:03:02Volvían a intentar métodos que ya habían fallado.
00:03:05Simplemente perdían el hilo de lo que se suponía
00:03:09que debían estar haciendo en primer lugar.
00:03:11Y si eres un desarrollador solista que usa Claude Code
00:03:14o Cursor a diario, sí, ya sabes de qué hablo.
00:03:18Has visto al agente entrar en bucle, intentando lo mismo
00:03:21que no funciona tres veces,
00:03:23olvidando por completo el contexto de hace 20 pasos.
00:03:26Y te quedas ahí pensando:
00:03:28"Quizás debería cambiar a Opus".
00:03:30"Quizás necesito otro proveedor",
00:03:32pero los datos dicen que ese no es el problema.
00:03:34El modelo no es el cuello de botella.
00:03:36Es todo lo que lo rodea.
00:03:38Y hay una palabra para eso.
00:03:40Y creo que va a definir el 2026
00:03:43igual que los agentes definieron el 2025.
00:03:46La palabra es "harness" (estructura de soporte).
00:03:47Un harness de agente es toda la infraestructura
00:03:50alrededor del modelo: lo que puede ver,
00:03:52las herramientas a las que tiene acceso,
00:03:54cómo se recupera cuando las cosas se tuercen,
00:03:56cómo rastrea lo que hace en una sesión larga.
00:03:59OpenAI publicó literalmente un post
00:04:02llamado "Ingeniería de Harness".
00:04:04Anthropic sacó toda una guía sobre cómo crear
00:04:07harnesses efectivos para agentes de larga duración.
00:04:09Manish, la empresa de IA que Meta acaba de comprar,
00:04:13publicó sus lecciones de ingeniería de contexto
00:04:16tras reconstruir todo su framework de agentes
00:04:19cinco veces en seis meses. Cinco veces.
00:04:22Y todos dicen exactamente lo mismo.
00:04:24El verdadero trabajo de ingeniería está en el harness,
00:04:27no en el modelo.
00:04:28Vale, y esta es la parte que, sinceramente, me sorprendió
00:04:32porque va totalmente en contra
00:04:34de cómo la mayoría pensamos al construir con estas herramientas.
00:04:38Hay una historia de Vercel.
00:04:41Tenían un agente de texto a SQL.
00:04:43Le haces una pregunta, escribe una consulta SQL,
00:04:46y lo hicieron como casi todo el mundo hace los agentes, ¿no?
00:04:49Le dieron un montón de herramientas especializadas,
00:04:51una para entender el esquema de la base de datos,
00:04:54una para escribir consultas, otra para validar resultados...
00:04:58Con todo ese control de errores envolviéndolo,
00:05:01y funcionaba un 80% de las veces.
00:05:04Entonces intentaron algo un poco radical.
00:05:06Quitaron el 80% de las herramientas, las eliminaron,
00:05:11y le dieron cosas básicas: ejecutar comandos bash, leer archivos,
00:05:15herramientas estándar de línea de comandos como grep y cat,
00:05:18el tipo de cosas que tú o yo usaríamos.
00:05:20Y la precisión pasó del 80% al 100%.
00:05:25Usó un 40% menos de tokens,
00:05:28y fue tres veces y media más rápido.
00:05:31No voy a mentir, es bastante increíble, ¿verdad?
00:05:33Y el ingeniero que lo construyó dijo algo
00:05:36que se me quedó grabado.
00:05:38Los modelos son cada vez más inteligentes.
00:05:40Las ventanas de contexto son cada vez mayores.
00:05:42Así que quizá la mejor arquitectura para un agente
00:05:44sea casi ninguna arquitectura.
00:05:46Y eso lo cambia todo, ¿sabes a qué me refiero?
00:05:50Porque el instinto, sobre todo cuando trabajas solo
00:05:54y quieres que esto sea fiable,
00:05:57es seguir añadiendo herramientas, más barandillas,
00:06:01más lógica de enrutamiento.
00:06:02Crees que más estructura va a ayudar,
00:06:04pero esas herramientas no ayudaban al modelo.
00:06:06Le estaban estorbando.
00:06:08Y esto no es algo aislado.
00:06:10Manus se dio cuenta de lo mismo.
00:06:13Reconstruyeron todo su framework de agentes
00:06:16cinco veces en seis meses,
00:06:19y sus mayores mejoras de rendimiento
00:06:21no vinieron de añadir funciones.
00:06:23Vinieron de quitarlas.
00:06:25Eliminaron la recuperación compleja de documentos,
00:06:28quitaron la lógica de enrutamiento sofisticada,
00:06:29y cambiaron los agentes de gestión por traspasos estructurados simples.
00:06:34En cada iteración, el sistema se hacía más simple y mejor.
00:06:37Y aquí está lo que creo que todo dev solista
00:06:40que hace sesiones largas con Claude Code necesita oír.
00:06:42Manus descubrió que su agente promediaba
00:06:45unas 50 llamadas a herramientas por tarea.
00:06:49Eso son muchísimos pasos.
00:06:50E incluso con modelos que técnicamente soportan
00:06:53ventanas de contexto enormes,
00:06:54el rendimiento simplemente se degrada a partir de cierto punto.
00:06:58El modelo no lo olvida todo de repente.
00:07:01Es más como si la señal se enterrara bajo el ruido.
00:07:04Tus instrucciones importantes del inicio de la sesión
00:07:07se pierden bajo cientos de resultados intermedios.
00:07:10Así que su solución fue de lo más simple.
00:07:12Empezaron a tratar el sistema de archivos
00:07:14como la memoria externa del modelo.
00:07:17En vez de meterlo todo en la ventana de contexto,
00:07:20el agente escribe la información clave en un archivo
00:07:23y la vuelve a leer cuando la necesita.
00:07:25Y sí, si usas Claude Code,
00:07:27lo has visto literalmente.
00:07:29Los archivos CLAUDE.md, las listas de tareas, el progreso...
00:07:34Ese es exactamente el patrón que se repite
00:07:36en tu terminal cada día.
00:07:37Muy bien, recordad lo que dije sobre que
00:07:40todo el mundo está convergiendo en la misma idea.
00:07:44Porque si te fijas
00:07:45en los tres sistemas de agentes más exitosos ahora mismo,
00:07:49todos han llegado al mismo sitio
00:07:51desde direcciones totalmente distintas.
00:07:53Codex de OpenAI tiene este enfoque por capas.
00:07:57Un orquestador que planifica,
00:07:59un ejecutor que maneja las tareas individuales,
00:08:02y una capa de recuperación que captura los fallos.
00:08:06Es robusto.
00:08:07Le puedes encargar cosas e irte.
00:08:09Esa es una filosofía.
00:08:10Claude Code, y esto lo uso todos los días.
00:08:14Su núcleo son literalmente solo cuatro herramientas.
00:08:16Leer, escribir y editar un archivo,
00:08:19y ejecutar un comando bash; nada más.
00:08:21Casi toda la inteligencia reside en el propio modelo.
00:08:23El harness se mantiene minimalista.
00:08:25Y cuando necesitas más, la extensibilidad viene vía MCP
00:08:28y habilidades que el agente adquiere según las necesite.
00:08:30Y luego Manus llegó a lo que yo llamaría
00:08:33reducir, descargar y aislar: encoger el contexto activamente,
00:08:38usar el sistema de archivos como memoria,
00:08:40lanzar subagentes para tareas pesadas,
00:08:43y que solo traigan de vuelta el resumen.
00:08:45Tres enfoques totalmente distintos,
00:08:47todos convergiendo en la misma idea.
00:08:50El harness importa más que el modelo.
00:08:52Y para los desarrolladores solistas,
00:08:55esto cambia en qué deberías
00:08:57deberías estar dedicando tu tiempo.
00:08:59Porque, ya sabes, no tenemos horas infinitas.
00:09:01Cada hora que pasas en Reddit debatiendo
00:09:05sobre Claude contra GPT es una hora que no estás creando.
00:09:08Y existe esta idea de Richard Sutton,
00:09:11uno de los creadores del aprendizaje por refuerzo,
00:09:14llamada "la lección amarga".
00:09:16El argumento central es que
00:09:18los enfoques que escalan con el cómputo
00:09:21siempre terminan superando a los enfoques
00:09:23que dependen del conocimiento diseñado a mano
00:09:26aplicado a lo que estamos haciendo.
00:09:27Eso significa algo muy específico.
00:09:29A medida que los modelos se vuelven más listos,
00:09:31tu estructura debería volverse más simple,
00:09:33no más compleja.
00:09:34Si estás añadiendo más lógica programada a mano,
00:09:36más flujos personalizados con cada mejora del modelo,
00:09:40estás nadando contra la corriente.
00:09:42Y, sinceramente, ese exceso de ingeniería
00:09:44es probablemente la razón por la que tu agente falla tanto.
00:09:47Así que, esto es lo que yo intentaría.
00:09:49Primero, haz el experimento de Vercel tú mismo.
00:09:52Si tienes algún tipo de configuración de agente,
00:09:54desmóntalo, quita las herramientas especializadas,
00:09:57dale una terminal bash y acceso básico a archivos
00:10:00y simplemente mira qué pasa.
00:10:02El modelo es probablemente más inteligente
00:10:03que el flujo de herramientas que construiste a su alrededor.
00:10:06Segundo, añade un archivo de progreso.
00:10:08Haz que tu agente mantenga una lista de tareas
00:10:10que actualice después de cada paso.
00:10:13Lee el archivo al comenzar cada acción
00:10:15y escribe en él al finalizar.
00:10:17Esto es exactamente lo que hace Claude Code
00:10:19con esos archivos markdown.
00:10:20Y es el mismo patrón al que llegó Manish
00:10:22después de cinco rediseños completos.
00:10:24De hecho, tengo todo un sistema para esto
00:10:26configurado en el laboratorio con mis instrucciones
00:10:29y plantillas .md, listo por si tienes curiosidad.
00:10:33Y tercero, empieza a aprender sobre MCP y habilidades.
00:10:37Estos le dan al modelo formas limpias y estándar
00:10:40de trabajar con herramientas externas
00:10:42sin que tengas que programar cada integración.
00:10:44Ahí es donde reside la extensibilidad ahora.
00:10:462025 fue el año de los agentes.
00:10:50Y en gran medida, sí, así fue.
00:10:53Pero creo que 2026 es el año de las estructuras,
00:10:58y el mismo modelo, exactamente el mismo modelo,
00:11:03se comporta de forma totalmente distinta en Claude Code
00:11:06comparado con Cursor o comparado con Codeium.
00:11:08Así que elige tu estructura con cuidado,
00:11:11ya sea que uses un agente de código o estés creando uno.
00:11:14Y bueno, si sigues aquí,
00:11:17sinceramente, eres una leyenda.
00:11:18Y mira, sé que el debate sobre los modelos es intenso.
00:11:22Cada semana hay un nuevo lanzamiento, un nuevo benchmark,
00:11:24un nuevo hilo sobre cuál es el rey.
00:11:27Pero los datos reales, la ingeniería real
00:11:30de las empresas que construyen esto,
00:11:32apuntan hacia otro lado.
00:11:34La victoria está en la estructura.
00:11:37Y como desarrolladores independientes, son grandes noticias
00:11:40porque construir una mejor estructura
00:11:42es algo que puedes hacer hoy mismo
00:11:45sin esperar al próximo lanzamiento de un modelo.
00:11:47Y si quieres profundizar en cómo
00:11:51configuro todo esto, los archivos .md, los flujos,
00:11:56cómo conecto todo para mis propias aplicaciones,
00:11:59echa un vistazo a crafterslab.dev.
00:12:02No es un vertedero de tutoriales ni otra granja de contenido IA.
00:12:06Es genuinamente mi base de operaciones para creadores solo
00:12:09que tratan a la IA como un compañero de equipo real
00:12:11y que realmente se preocupan por lo que lanzan.
00:12:13Dentro encontrarás guías completas,
00:12:15videotutoriales cortos, un montón de habilidades de Claude Code
00:12:19que puedes copiar y usar de inmediato,
00:12:21y recursos descargables para implementar
00:12:24directamente en tus proyectos.
00:12:26Los miembros debaten en los comentarios, preguntan dudas,
00:12:29intercambian ideas.
00:12:30Es una conversación real, no un canal de contenido unidireccional.
00:12:34Pero el núcleo real son los espacios de equipo en Notion,
00:12:37mi manual de estrategias en vivo; tendrás un asiento en primera fila
00:12:40para ver cómo gestiono cada app que construyo,
00:12:42los archivos .md reales que uso en proyectos reales,
00:12:46la librería de prompts, la documentación que escribo sobre la marcha,
00:12:49todas las automatizaciones que corren por detrás,
00:12:51nada retocado para la cámara, solo el proceso real,
00:12:55con sus partes desordenadas y todo; y está Swift Brain,
00:12:58una librería curada de Swift y SwiftUI
00:13:01que he creado durante años, análisis profundos,
00:13:04charlas privadas en las que invertí dinero real para curar,
00:13:07el tipo de material que no anda circulando
00:13:10en los datos de entrenamiento públicos.
00:13:11Esto es lo que uso para construir MCPs personalizados,
00:13:16configurar habilidades para Claude Code, Cursor y demás,
00:13:20siempre experimentando, compartiendo lo que funciona,
00:13:23y luego está Ops Lab.
00:13:25Ahí es donde viven las instrucciones de los agentes de IA,
00:13:28las plantillas de Notion, las habilidades de Claude Code,
00:13:31los flujos de trabajo, automatizaciones ya conectadas
00:13:33y listas para que las copies, las analices,
00:13:36las rompas por completo y las reconstruyas a tu manera.
00:13:38El punto es mantener conectada la tecnología independiente
00:13:41para que nunca estés construyendo realmente solo,
00:13:44aunque estés solo frente al teclado.
00:13:46Así que, si quieres entrar mientras el grupo aún es pequeño
00:13:49y los precios están bloqueados, ahora es el momento ideal.
00:13:52Se siente mucho más como un rincón de desarrolladores
00:13:55que como un foro gigante y sin rostro;
00:13:57me encantaría verte por allí.
00:14:00Compartir opiniones sobre este tema de las estructuras,
00:14:02quizás aprender algo de lo que estés construyendo.
00:14:05Sigue creando, sigue experimentando,
00:14:08y no dejes que el ruido de los benchmarks te distraiga
00:14:10de lo que realmente importa.
00:14:12Saludos.

Key Takeaway

El éxito de la inteligencia artificial en 2026 no dependerá de elegir el modelo más potente, sino de construir estructuras de soporte simples y eficientes que permitan al modelo ejecutar tareas sin interferencias de una ingeniería excesiva.

Highlights

La pregunta sobre qué modelo de IA (Claude, GPT, Gemini) es mejor es irrelevante comparada con la estructura que lo rodea.

El benchmark "Epic's Agent" demuestra que los fallos en tareas profesionales reales se deben a la ejecución y orquestación, no a la falta de conocimiento del modelo.

El concepto de "Harness Engineering" (Ingeniería de Estructura de Soporte) definirá el éxito de los desarrolladores en 2026.

Reducir la complejidad y eliminar herramientas especializadas puede aumentar drásticamente la precisión y velocidad de un agente, como demostró el caso de Vercel.

La técnica de usar el sistema de archivos como "memoria externa" ayuda a los modelos a no perder el hilo en sesiones largas de trabajo.

La "Lección Amarga" de Richard Sutton sugiere que los enfoques que escalan con el cómputo superan a los diseños manuales complejos.

La convergencia tecnológica apunta a que el "harness" importa más que el modelo individual utilizado.

Timeline

Introducción y el cambio de paradigma del 2026

Daniel, un desarrollador de iOS con ocho años de experiencia, introduce la idea de que la competencia entre modelos de IA como Claude o Gemini es la pregunta equivocada. Relata su transición de freelance a desarrollador solista tras el 2025, enfocándose en construir aplicaciones duraderas mediante SwiftUI. Presenta su plataforma, crafterslab.dev, como un espacio diseñado para creadores que ven a la IA como un compañero real y no como una simple herramienta de generación de código basura. Este segmento establece la credibilidad del autor y su filosofía de desarrollo basada en el oficio y la calidad sobre la cantidad. Explica que su enfoque se aleja de los tutoriales genéricos para centrarse en estrategias reales de supervivencia para el desarrollador independiente.

El fallo de los modelos en entornos profesionales reales

El autor analiza el estudio "Epic's Agent", un benchmark que pone a prueba a la IA con tareas profesionales reales de consultores y abogados en lugar de simples acertijos. Los resultados son reveladores: mientras los modelos sacan un 90% en exámenes teóricos, solo completan con éxito el 24% de las tareas prácticas. El análisis de los fallos indica que los modelos no son "tontos", sino que fallan por problemas de orquestación y pérdida de hilo conductor tras varios pasos. Los desarrolladores que usan herramientas como Cursor o Claude Code reconocerán estos bucles infinitos donde la IA olvida el contexto inicial. Se concluye que el cuello de botella actual no es la inteligencia del modelo, sino la infraestructura que lo gestiona.

La era de la Ingeniería de Harness

Se introduce el término crucial para el 2026: "Harness" o estructura de soporte, que abarca las herramientas, la visibilidad y la recuperación de errores del modelo. Grandes empresas como OpenAI, Anthropic y Meta (a través de Manish) están centrando sus esfuerzos de ingeniería en este componente periférico. Un ejemplo impactante es el caso de Vercel, donde un agente de texto a SQL pasó del 80% al 100% de precisión simplemente eliminando herramientas complejas. Al darle al modelo acceso básico a una terminal bash y comandos estándar, el sistema se volvió más rápido y consumió un 40% menos de tokens. Esta lección sugiere que, a menudo, demasiada estructura programada manualmente acaba estorbando la capacidad de razonamiento nativa del modelo.

Simplicidad y memoria externa en la orquestación

Daniel explica cómo la tendencia actual es hacia arquitecturas de agentes casi inexistentes o minimalistas para evitar el ruido en el contexto. Menciona que incluso con ventanas de contexto enormes, el rendimiento se degrada porque las instrucciones importantes se entierran bajo resultados intermedios. La solución adoptada por empresas punteras es tratar el sistema de archivos como una memoria externa, utilizando archivos como CLAUDE.md para rastrear el progreso. Este patrón permite que el agente "lea" su estado actual sin saturar su memoria de trabajo con detalles irrelevantes de pasos anteriores. Es una estrategia de "reducir, descargar y aislar" que mejora la fiabilidad en sesiones de trabajo extensas y complejas.

Convergencia de sistemas y la Lección Amarga

El video detalla cómo los tres sistemas de agentes más exitosos (Codex de OpenAI, Claude Code y Manus) están convergiendo en la misma filosofía de diseño. Codex utiliza un orquestador por capas, mientras que Claude Code se apoya en solo cuatro herramientas básicas y confía en la inteligencia del modelo. Daniel cita "La Lección Amarga" de Richard Sutton para advertir que los diseños manuales complejos siempre pierden contra los métodos que escalan con el cómputo. Advierte a los desarrolladores que añadir más lógica personalizada con cada actualización de modelo es nadar contra la corriente y causa fallos. La clave para el futuro cercano es mantener una estructura simple que se adapte a modelos cada vez más capaces.

Pasos prácticos y recursos para desarrolladores

Se proponen tres acciones concretas para mejorar el flujo de trabajo con IA: realizar el experimento de simplificación de herramientas, implementar archivos de progreso markdown y aprender sobre el Model Context Protocol (MCP). Estos pasos permiten que el modelo trabaje de forma estándar con herramientas externas sin necesidad de programar integraciones rígidas. El autor enfatiza que el mismo modelo puede comportarse de manera radicalmente distinta dependiendo de si se usa en Cursor, Claude Code o una configuración propia. La elección o construcción de la estructura adecuada es ahora la habilidad competitiva principal para el desarrollador solista. Este enfoque práctico busca transformar la manera en que los programadores interactúan con sus agentes en el día a día.

Conclusión y comunidad Crafters Lab

En el cierre, Daniel invita a los espectadores a ignorar el ruido de los benchmarks semanales y centrarse en la ingeniería de estructura real. Presenta detalladamente los beneficios de unirse a crafterslab.dev, destacando el acceso a espacios de equipo en Notion, librerías curadas como Swift Brain y el Ops Lab para automatizaciones. Ofrece una mirada transparente a su proceso de desarrollo, mostrando archivos reales y documentación sin filtros cinematográficos para fomentar un aprendizaje auténtico. El mensaje final es de empoderamiento: los desarrolladores independientes pueden ganar construyendo mejores estructuras hoy mismo sin esperar a la próxima versión de GPT o Claude. Se despide animando a la comunidad a seguir experimentando y creando cosas que perduren en el tiempo.

Community Posts

View all posts