00:00:00Así que, bueno.
00:00:02¿Cuál es el mejor modelo de IA ahora mismo?
00:00:04Claude, GPT, Gemini.
00:00:07Y sinceramente, creo que esa es la pregunta equivocada.
00:00:11O sea, una pregunta totalmente equivocada.
00:00:14Rápido, soy Daniel.
00:00:16Llevo más de ocho años metido de lleno en el desarrollo de iOS.
00:00:20Empecé como freelance, diseñando interfaces,
00:00:24saltando de cliente en cliente,
00:00:25lanzando las ideas de otros
00:00:27mientras intentaba dar forma a las mías.
00:00:28Y tras el 2025, decidí lanzarme solo, a por todas.
00:00:33Sin clientes, sin red de seguridad.
00:00:36Desde entonces, he creado más de 15 aplicaciones propias,
00:00:39todas con SwiftUI y desarrolladas públicamente.
00:00:41Y ahora, de verdad, cada gota de energía que tengo
00:00:44la dedico a convertir este estudio unipersonal
00:00:46en algo que realmente perdure.
00:00:49No en otra serie de MVPs rápidos o basura generada por IA,
00:00:52sino en apps de verdad que aguanten el crecimiento.
00:00:55Y sí, todo ese proceso,
00:00:57todo ese viaje tan caótico, está en crafterslab.
00:01:00Está en crafterslab.dev,
00:01:01y no es un cementerio de tutoriales ni una fábrica de clones de IA.
00:01:06Es genuinamente mi base de operaciones,
00:01:08pensada para desarrolladores solistas que usan la IA como un compañero real.
00:01:12No como una máquina expendedora a la que golpeas cuando te atascas
00:01:14esperando que salga algo bueno.
00:01:16Si te importa el oficio,
00:01:18si vas en serio con eso de subir de nivel
00:01:20y construir cosas que duren de verdad,
00:01:23sí, te sentirías como en casa.
00:01:24Y oye, si todavía estás en Patreon,
00:01:26mil gracias, pero un aviso:
00:01:29todo se ha mudado a crafterslab.dev.
00:01:32Ahí es donde está todo el grupo ahora.
00:01:33Ven a construir con nosotros.
00:01:35Esto es lo que me hizo reflexionar sobre todo esto.
00:01:38Hace poco salió un estudio.
00:01:41Unos investigadores publicaron un benchmark llamado Epic's Agent.
00:01:45Y lo que lo diferencia de cualquier otro benchmark
00:01:49por el que veas a la gente discutir en internet,
00:01:51es que pone a prueba a los agentes con trabajo profesional real,
00:01:55no con acertijos de programación ni exámenes de opción múltiple.
00:01:58Hablamos de tareas reales que consultores, abogados
00:02:03o analistas hacen a diario.
00:02:05Cada una le lleva a un humano entre una y dos horas.
00:02:08Así que pasaron todos los grandes modelos punteros por ahí.
00:02:11El mejor completó esas tareas
00:02:13un 24% de las veces; una de cada cuatro.
00:02:17Y tras ocho intentos con el mismo modelo,
00:02:20solo subió hasta cerca del 40%.
00:02:23Ahora, tened en cuenta que son los mismos modelos
00:02:26que sacan más de un 90% en los benchmarks
00:02:29por los que todo el mundo se vuelve loco.
00:02:32Así que, o esos benchmarks están mal,
00:02:33o estamos midiendo lo que no es.
00:02:36Y yo creo que es lo segundo, ¿no?
00:02:37Pero bueno, aquí es donde la cosa se pone seria para nosotros.
00:02:41Los investigadores analizaron por qué fallaban los agentes.
00:02:46Y la respuesta no fue que los modelos fueran tontos.
00:02:49Tenían todo el conocimiento necesario.
00:02:51Podían razonar los problemas sin problemas.
00:02:54Los fallos se debían casi por completo
00:02:56a la ejecución y la orquestación.
00:03:00Los agentes se perdían tras demasiados pasos.
00:03:02Volvían a intentar métodos que ya habían fallado.
00:03:05Simplemente perdían el hilo de lo que se suponía
00:03:09que debían estar haciendo en primer lugar.
00:03:11Y si eres un desarrollador solista que usa Claude Code
00:03:14o Cursor a diario, sí, ya sabes de qué hablo.
00:03:18Has visto al agente entrar en bucle, intentando lo mismo
00:03:21que no funciona tres veces,
00:03:23olvidando por completo el contexto de hace 20 pasos.
00:03:26Y te quedas ahí pensando:
00:03:28"Quizás debería cambiar a Opus".
00:03:30"Quizás necesito otro proveedor",
00:03:32pero los datos dicen que ese no es el problema.
00:03:34El modelo no es el cuello de botella.
00:03:36Es todo lo que lo rodea.
00:03:38Y hay una palabra para eso.
00:03:40Y creo que va a definir el 2026
00:03:43igual que los agentes definieron el 2025.
00:03:46La palabra es "harness" (estructura de soporte).
00:03:47Un harness de agente es toda la infraestructura
00:03:50alrededor del modelo: lo que puede ver,
00:03:52las herramientas a las que tiene acceso,
00:03:54cómo se recupera cuando las cosas se tuercen,
00:03:56cómo rastrea lo que hace en una sesión larga.
00:03:59OpenAI publicó literalmente un post
00:04:02llamado "Ingeniería de Harness".
00:04:04Anthropic sacó toda una guía sobre cómo crear
00:04:07harnesses efectivos para agentes de larga duración.
00:04:09Manish, la empresa de IA que Meta acaba de comprar,
00:04:13publicó sus lecciones de ingeniería de contexto
00:04:16tras reconstruir todo su framework de agentes
00:04:19cinco veces en seis meses. Cinco veces.
00:04:22Y todos dicen exactamente lo mismo.
00:04:24El verdadero trabajo de ingeniería está en el harness,
00:04:27no en el modelo.
00:04:28Vale, y esta es la parte que, sinceramente, me sorprendió
00:04:32porque va totalmente en contra
00:04:34de cómo la mayoría pensamos al construir con estas herramientas.
00:04:38Hay una historia de Vercel.
00:04:41Tenían un agente de texto a SQL.
00:04:43Le haces una pregunta, escribe una consulta SQL,
00:04:46y lo hicieron como casi todo el mundo hace los agentes, ¿no?
00:04:49Le dieron un montón de herramientas especializadas,
00:04:51una para entender el esquema de la base de datos,
00:04:54una para escribir consultas, otra para validar resultados...
00:04:58Con todo ese control de errores envolviéndolo,
00:05:01y funcionaba un 80% de las veces.
00:05:04Entonces intentaron algo un poco radical.
00:05:06Quitaron el 80% de las herramientas, las eliminaron,
00:05:11y le dieron cosas básicas: ejecutar comandos bash, leer archivos,
00:05:15herramientas estándar de línea de comandos como grep y cat,
00:05:18el tipo de cosas que tú o yo usaríamos.
00:05:20Y la precisión pasó del 80% al 100%.
00:05:25Usó un 40% menos de tokens,
00:05:28y fue tres veces y media más rápido.
00:05:31No voy a mentir, es bastante increíble, ¿verdad?
00:05:33Y el ingeniero que lo construyó dijo algo
00:05:36que se me quedó grabado.
00:05:38Los modelos son cada vez más inteligentes.
00:05:40Las ventanas de contexto son cada vez mayores.
00:05:42Así que quizá la mejor arquitectura para un agente
00:05:44sea casi ninguna arquitectura.
00:05:46Y eso lo cambia todo, ¿sabes a qué me refiero?
00:05:50Porque el instinto, sobre todo cuando trabajas solo
00:05:54y quieres que esto sea fiable,
00:05:57es seguir añadiendo herramientas, más barandillas,
00:06:01más lógica de enrutamiento.
00:06:02Crees que más estructura va a ayudar,
00:06:04pero esas herramientas no ayudaban al modelo.
00:06:06Le estaban estorbando.
00:06:08Y esto no es algo aislado.
00:06:10Manus se dio cuenta de lo mismo.
00:06:13Reconstruyeron todo su framework de agentes
00:06:16cinco veces en seis meses,
00:06:19y sus mayores mejoras de rendimiento
00:06:21no vinieron de añadir funciones.
00:06:23Vinieron de quitarlas.
00:06:25Eliminaron la recuperación compleja de documentos,
00:06:28quitaron la lógica de enrutamiento sofisticada,
00:06:29y cambiaron los agentes de gestión por traspasos estructurados simples.
00:06:34En cada iteración, el sistema se hacía más simple y mejor.
00:06:37Y aquí está lo que creo que todo dev solista
00:06:40que hace sesiones largas con Claude Code necesita oír.
00:06:42Manus descubrió que su agente promediaba
00:06:45unas 50 llamadas a herramientas por tarea.
00:06:49Eso son muchísimos pasos.
00:06:50E incluso con modelos que técnicamente soportan
00:06:53ventanas de contexto enormes,
00:06:54el rendimiento simplemente se degrada a partir de cierto punto.
00:06:58El modelo no lo olvida todo de repente.
00:07:01Es más como si la señal se enterrara bajo el ruido.
00:07:04Tus instrucciones importantes del inicio de la sesión
00:07:07se pierden bajo cientos de resultados intermedios.
00:07:10Así que su solución fue de lo más simple.
00:07:12Empezaron a tratar el sistema de archivos
00:07:14como la memoria externa del modelo.
00:07:17En vez de meterlo todo en la ventana de contexto,
00:07:20el agente escribe la información clave en un archivo
00:07:23y la vuelve a leer cuando la necesita.
00:07:25Y sí, si usas Claude Code,
00:07:27lo has visto literalmente.
00:07:29Los archivos CLAUDE.md, las listas de tareas, el progreso...
00:07:34Ese es exactamente el patrón que se repite
00:07:36en tu terminal cada día.
00:07:37Muy bien, recordad lo que dije sobre que
00:07:40todo el mundo está convergiendo en la misma idea.
00:07:44Porque si te fijas
00:07:45en los tres sistemas de agentes más exitosos ahora mismo,
00:07:49todos han llegado al mismo sitio
00:07:51desde direcciones totalmente distintas.
00:07:53Codex de OpenAI tiene este enfoque por capas.
00:07:57Un orquestador que planifica,
00:07:59un ejecutor que maneja las tareas individuales,
00:08:02y una capa de recuperación que captura los fallos.
00:08:06Es robusto.
00:08:07Le puedes encargar cosas e irte.
00:08:09Esa es una filosofía.
00:08:10Claude Code, y esto lo uso todos los días.
00:08:14Su núcleo son literalmente solo cuatro herramientas.
00:08:16Leer, escribir y editar un archivo,
00:08:19y ejecutar un comando bash; nada más.
00:08:21Casi toda la inteligencia reside en el propio modelo.
00:08:23El harness se mantiene minimalista.
00:08:25Y cuando necesitas más, la extensibilidad viene vía MCP
00:08:28y habilidades que el agente adquiere según las necesite.
00:08:30Y luego Manus llegó a lo que yo llamaría
00:08:33reducir, descargar y aislar: encoger el contexto activamente,
00:08:38usar el sistema de archivos como memoria,
00:08:40lanzar subagentes para tareas pesadas,
00:08:43y que solo traigan de vuelta el resumen.
00:08:45Tres enfoques totalmente distintos,
00:08:47todos convergiendo en la misma idea.
00:08:50El harness importa más que el modelo.
00:08:52Y para los desarrolladores solistas,
00:08:55esto cambia en qué deberías
00:08:57deberías estar dedicando tu tiempo.
00:08:59Porque, ya sabes, no tenemos horas infinitas.
00:09:01Cada hora que pasas en Reddit debatiendo
00:09:05sobre Claude contra GPT es una hora que no estás creando.
00:09:08Y existe esta idea de Richard Sutton,
00:09:11uno de los creadores del aprendizaje por refuerzo,
00:09:14llamada "la lección amarga".
00:09:16El argumento central es que
00:09:18los enfoques que escalan con el cómputo
00:09:21siempre terminan superando a los enfoques
00:09:23que dependen del conocimiento diseñado a mano
00:09:26aplicado a lo que estamos haciendo.
00:09:27Eso significa algo muy específico.
00:09:29A medida que los modelos se vuelven más listos,
00:09:31tu estructura debería volverse más simple,
00:09:33no más compleja.
00:09:34Si estás añadiendo más lógica programada a mano,
00:09:36más flujos personalizados con cada mejora del modelo,
00:09:40estás nadando contra la corriente.
00:09:42Y, sinceramente, ese exceso de ingeniería
00:09:44es probablemente la razón por la que tu agente falla tanto.
00:09:47Así que, esto es lo que yo intentaría.
00:09:49Primero, haz el experimento de Vercel tú mismo.
00:09:52Si tienes algún tipo de configuración de agente,
00:09:54desmóntalo, quita las herramientas especializadas,
00:09:57dale una terminal bash y acceso básico a archivos
00:10:00y simplemente mira qué pasa.
00:10:02El modelo es probablemente más inteligente
00:10:03que el flujo de herramientas que construiste a su alrededor.
00:10:06Segundo, añade un archivo de progreso.
00:10:08Haz que tu agente mantenga una lista de tareas
00:10:10que actualice después de cada paso.
00:10:13Lee el archivo al comenzar cada acción
00:10:15y escribe en él al finalizar.
00:10:17Esto es exactamente lo que hace Claude Code
00:10:19con esos archivos markdown.
00:10:20Y es el mismo patrón al que llegó Manish
00:10:22después de cinco rediseños completos.
00:10:24De hecho, tengo todo un sistema para esto
00:10:26configurado en el laboratorio con mis instrucciones
00:10:29y plantillas .md, listo por si tienes curiosidad.
00:10:33Y tercero, empieza a aprender sobre MCP y habilidades.
00:10:37Estos le dan al modelo formas limpias y estándar
00:10:40de trabajar con herramientas externas
00:10:42sin que tengas que programar cada integración.
00:10:44Ahí es donde reside la extensibilidad ahora.
00:10:462025 fue el año de los agentes.
00:10:50Y en gran medida, sí, así fue.
00:10:53Pero creo que 2026 es el año de las estructuras,
00:10:58y el mismo modelo, exactamente el mismo modelo,
00:11:03se comporta de forma totalmente distinta en Claude Code
00:11:06comparado con Cursor o comparado con Codeium.
00:11:08Así que elige tu estructura con cuidado,
00:11:11ya sea que uses un agente de código o estés creando uno.
00:11:14Y bueno, si sigues aquí,
00:11:17sinceramente, eres una leyenda.
00:11:18Y mira, sé que el debate sobre los modelos es intenso.
00:11:22Cada semana hay un nuevo lanzamiento, un nuevo benchmark,
00:11:24un nuevo hilo sobre cuál es el rey.
00:11:27Pero los datos reales, la ingeniería real
00:11:30de las empresas que construyen esto,
00:11:32apuntan hacia otro lado.
00:11:34La victoria está en la estructura.
00:11:37Y como desarrolladores independientes, son grandes noticias
00:11:40porque construir una mejor estructura
00:11:42es algo que puedes hacer hoy mismo
00:11:45sin esperar al próximo lanzamiento de un modelo.
00:11:47Y si quieres profundizar en cómo
00:11:51configuro todo esto, los archivos .md, los flujos,
00:11:56cómo conecto todo para mis propias aplicaciones,
00:11:59echa un vistazo a crafterslab.dev.
00:12:02No es un vertedero de tutoriales ni otra granja de contenido IA.
00:12:06Es genuinamente mi base de operaciones para creadores solo
00:12:09que tratan a la IA como un compañero de equipo real
00:12:11y que realmente se preocupan por lo que lanzan.
00:12:13Dentro encontrarás guías completas,
00:12:15videotutoriales cortos, un montón de habilidades de Claude Code
00:12:19que puedes copiar y usar de inmediato,
00:12:21y recursos descargables para implementar
00:12:24directamente en tus proyectos.
00:12:26Los miembros debaten en los comentarios, preguntan dudas,
00:12:29intercambian ideas.
00:12:30Es una conversación real, no un canal de contenido unidireccional.
00:12:34Pero el núcleo real son los espacios de equipo en Notion,
00:12:37mi manual de estrategias en vivo; tendrás un asiento en primera fila
00:12:40para ver cómo gestiono cada app que construyo,
00:12:42los archivos .md reales que uso en proyectos reales,
00:12:46la librería de prompts, la documentación que escribo sobre la marcha,
00:12:49todas las automatizaciones que corren por detrás,
00:12:51nada retocado para la cámara, solo el proceso real,
00:12:55con sus partes desordenadas y todo; y está Swift Brain,
00:12:58una librería curada de Swift y SwiftUI
00:13:01que he creado durante años, análisis profundos,
00:13:04charlas privadas en las que invertí dinero real para curar,
00:13:07el tipo de material que no anda circulando
00:13:10en los datos de entrenamiento públicos.
00:13:11Esto es lo que uso para construir MCPs personalizados,
00:13:16configurar habilidades para Claude Code, Cursor y demás,
00:13:20siempre experimentando, compartiendo lo que funciona,
00:13:23y luego está Ops Lab.
00:13:25Ahí es donde viven las instrucciones de los agentes de IA,
00:13:28las plantillas de Notion, las habilidades de Claude Code,
00:13:31los flujos de trabajo, automatizaciones ya conectadas
00:13:33y listas para que las copies, las analices,
00:13:36las rompas por completo y las reconstruyas a tu manera.
00:13:38El punto es mantener conectada la tecnología independiente
00:13:41para que nunca estés construyendo realmente solo,
00:13:44aunque estés solo frente al teclado.
00:13:46Así que, si quieres entrar mientras el grupo aún es pequeño
00:13:49y los precios están bloqueados, ahora es el momento ideal.
00:13:52Se siente mucho más como un rincón de desarrolladores
00:13:55que como un foro gigante y sin rostro;
00:13:57me encantaría verte por allí.
00:14:00Compartir opiniones sobre este tema de las estructuras,
00:14:02quizás aprender algo de lo que estés construyendo.
00:14:05Sigue creando, sigue experimentando,
00:14:08y no dejes que el ruido de los benchmarks te distraiga
00:14:10de lo que realmente importa.
00:14:12Saludos.