Un ejército de 16 agentes Claude construido con 20.000 dólares: La realidad del desarrollo autónomo de un compilador de C

El paradigma de la ingeniería de software está cambiando. Este proyecto, llevado a cabo por el investigador de Anthropic Nicholas Carlini, no se trata simplemente de pedirle a una IA que escriba código. Utilizando 16 instancias de Claude Opus 4.6, logró construir desde cero un compilador de C basado en Rust con una intervención humana mínima.

El resultado es un sistema de 100.000 líneas de código capaz de compilar el kernel de Linux 6.9 y ejecutar el clásico juego Doom. Sin embargo, más allá de la espectacularidad de los resultados, lo verdaderamente importante son las limitaciones y posibilidades de los flujos de trabajo agénticos descubiertas tras invertir 20.000 dólares (aprox. 27 millones de wones) en costes de API. Analizamos la realidad de la ingeniería necesaria para controlar y hacer colaborar a la IA de forma sistemática, yendo más allá del simple uso de prompts.

Bucle RALF: Diseño para bloquear la contaminación de memoria de la IA

En la programación de sistemas complejos, un solo agente alcanza rápidamente los límites de su ventana de contexto. Esto se debe a que, con el tiempo, el historial de conversaciones pasadas provoca alucinaciones que nublan el juicio presente. Para solucionar esto, Carlini introdujo el bucle RALF (Refresh, Act, Learn, Feedback) junto con 16 contenedores Docker independientes.

Refresh: Al iniciar la sesión, se inicializan los recuerdos innecesarios del pasado. En su lugar, se inyecta solo un paquete de información (briefing pack) con los hitos actuales y el registro de fallos para mantener la concentración.
Act: Sin comandos humanos, el agente establece sus propias prioridades y ejecuta editores o herramientas de construcción.
Learn: El agente aprende de sus propios errores a través de registros de prueba "Grep-friendly", fáciles de interpretar para una IA.
Feedback: Registra lo realizado y guías para el siguiente trabajador en un archivo README.md y lo sube a Git para sincronizar el conocimiento.

Protocolo de bloqueo basado en texto para evitar la duplicidad de tareas

El mayor riesgo cuando se despliegan 16 agentes simultáneamente es el desperdicio de recursos. Si dos agentes intentan corregir el mismo error, no solo habrá conflictos de código, sino que el coste de la API se duplicará. Carlini implementó un mecanismo de bloqueo (Locking) ligero utilizando flags de texto dentro del repositorio de Git, en lugar de una base de datos compleja.

Antes de comenzar una tarea específica, el agente crea un archivo con el mismo nombre de la tarea en el directorio current_tasks/. Gracias a la naturaleza de los commits atómicos de Git, se rechaza cualquier intento de subida de otro agente que intente crear el mismo archivo. Este sencillo sistema bloqueó de raíz las condiciones de carrera (Race Conditions) entre agentes.

Estrategia de Oráculo: No adivines, verifica

Lo más destacado de este proyecto fue el uso de GCC, una herramienta ya existente, como Oráculo (Oracle). En lugar de dejar que la IA adivine la respuesta correcta, la estrategia consiste en forzar sistemáticamente la corrección. Cuando ocurría un error al compilar el enorme kernel de Linux, Carlini automatizó un algoritmo de búsqueda binaria (Binary Search).

La mitad de los archivos del kernel se compilan con GCC y la otra mitad con Claude.
Se reduce el punto de error a la mitad sucesivamente hasta encontrar la única línea problemática entre miles de archivos.
Este método mejoró la eficiencia de la depuración en aproximadamente un 50% y bloqueó físicamente la posibilidad de alucinaciones de la IA.

Limitaciones técnicas: El muro de la optimización que la IA no pudo superar

Aunque los logros fueron abrumadores, el rendimiento del compilador generado no alcanzó ni siquiera el nivel de optimización más bajo de GCC (-O0). El ejército de agentes Claude mostró limitaciones en las siguientes áreas de ingeniería de alto nivel:

Defectos en la gestión de memoria: En lugar de optimizar el modelo de propiedad (ownership), optó por un método ineficiente de copiar todos los datos en buffers individuales.
Falta de comprensión del hardware: No pudo superar las estrictas limitaciones de memoria (32KB) del modo real de 16 bits de x86, por lo que finalmente fue necesaria la intervención humana o el uso de código de GCC en esta sección.
Ausencia de implementación de algoritmos: No pudo realizar de forma independiente análisis matemáticos para la asignación de registros, limitándose a una traducción literal de las instrucciones.

Lista de verificación para la toma de decisiones sobre la adopción de agentes en empresas

Desde el punto de vista de un gerente de ingeniería, 20.000 dólares no es en absoluto una cifra cara. Esto se debe a que una tarea que requeriría un equipo de 5 profesionales durante más de 3 meses se completó en solo 2 semanas. Esto demuestra una relación coste-beneficio más de 10 veces superior en comparación con los costes laborales tradicionales. Las empresas que deseen adoptar este modelo deben seguir este árbol de decisión:

Criterios de juicio para la adopción de flujos de trabajo agénticos

Pregunta	Sí	No
¿Se puede verificar objetivamente el resultado con pruebas?	Proceder al siguiente paso	No apto para adopción (riesgo de alucinación)
¿Existe una herramienta previa comparable (Oráculo)?	Adoptar estrategia de Oráculo	Requiere monitoreo humano constante
¿Se puede dividir el trabajo en más de 100 unidades?	Operar agentes en paralelo	Se recomienda un solo agente

Elementos esenciales de construcción

Harness Grep-friendly: Diseñe una estructura de logs que permita al agente identificar el éxito o el fallo en menos de un segundo.
Automatización del registro de estado: Obligue al agente a registrar el progreso en archivos como progress.json antes de finalizar.
Guardarraíles humanos: Aísle el código sensible, como el de seguridad o autenticación, para que pase necesariamente por una revisión humana.

De codificador a arquitecto: La transición del rol del ingeniero

El experimento de Anthropic significa que el rol del ingeniero se ha desplazado de escritor de código a diseñador y auditor de sistemas. Ahora, la competencia clave no es la capacidad de escribir algoritmos directamente, sino la capacidad de diseñar restricciones lógicas y sistemas de verificación (harnesses) para que el ejército de agentes de IA no se desvíe de su curso.

El coste de 20.000 dólares no es un simple gasto, sino un hito que muestra el límite superior de la automatización que la IA puede alcanzar cuando cuenta con el respaldo de un diseño humano sofisticado. Las empresas ahora deben centrarse en sistematizar la dirección estratégica humana en lugar de limitarse a confiar ciegamente en la autonomía de la IA.

Un ejército de 16 agentes Claude construido con 20.000 dólares: La realidad del desarrollo autónomo de un compilador de C

Bucle RALF: Diseño para bloquear la contaminación de memoria de la IA

Refresh: Al iniciar la sesión, se inicializan los recuerdos innecesarios del pasado. En su lugar, se inyecta solo un paquete de información (briefing pack) con los hitos actuales y el registro de fallos para mantener la concentración.
Act: Sin comandos humanos, el agente establece sus propias prioridades y ejecuta editores o herramientas de construcción.
Learn: El agente aprende de sus propios errores a través de registros de prueba "Grep-friendly", fáciles de interpretar para una IA.
Feedback: Registra lo realizado y guías para el siguiente trabajador en un archivo README.md y lo sube a Git para sincronizar el conocimiento.

Protocolo de bloqueo basado en texto para evitar la duplicidad de tareas

Estrategia de Oráculo: No adivines, verifica

La mitad de los archivos del kernel se compilan con GCC y la otra mitad con Claude.
Se reduce el punto de error a la mitad sucesivamente hasta encontrar la única línea problemática entre miles de archivos.
Este método mejoró la eficiencia de la depuración en aproximadamente un 50% y bloqueó físicamente la posibilidad de alucinaciones de la IA.

Limitaciones técnicas: El muro de la optimización que la IA no pudo superar

Defectos en la gestión de memoria: En lugar de optimizar el modelo de propiedad (ownership), optó por un método ineficiente de copiar todos los datos en buffers individuales.
Falta de comprensión del hardware: No pudo superar las estrictas limitaciones de memoria (32KB) del modo real de 16 bits de x86, por lo que finalmente fue necesaria la intervención humana o el uso de código de GCC en esta sección.
Ausencia de implementación de algoritmos: No pudo realizar de forma independiente análisis matemáticos para la asignación de registros, limitándose a una traducción literal de las instrucciones.

Lista de verificación para la toma de decisiones sobre la adopción de agentes en empresas

Criterios de juicio para la adopción de flujos de trabajo agénticos

Pregunta	Sí	No
¿Se puede verificar objetivamente el resultado con pruebas?	Proceder al siguiente paso	No apto para adopción (riesgo de alucinación)
¿Existe una herramienta previa comparable (Oráculo)?	Adoptar estrategia de Oráculo	Requiere monitoreo humano constante
¿Se puede dividir el trabajo en más de 100 unidades?	Operar agentes en paralelo	Se recomienda un solo agente

Elementos esenciales de construcción

Harness Grep-friendly: Diseñe una estructura de logs que permita al agente identificar el éxito o el fallo en menos de un segundo.
Automatización del registro de estado: Obligue al agente a registrar el progreso en archivos como progress.json antes de finalizar.
Guardarraíles humanos: Aísle el código sensible, como el de seguridad o autenticación, para que pase necesariamente por una revisión humana.

Un ejército de 16 agentes Claude construido con 20.000 dólares: La realidad del desarrollo autónomo de un compilador de C

Related Video

$20,000. 2 semanas. 16 agentes Claude. El primer compilador de C de Anthropic creado por IA

Un ejército de 16 agentes Claude construido con 20.000 dólares: La realidad del desarrollo autónomo de un compilador de C

Bucle RALF: Diseño para bloquear la contaminación de memoria de la IA

Protocolo de bloqueo basado en texto para evitar la duplicidad de tareas

Estrategia de Oráculo: No adivines, verifica

Limitaciones técnicas: El muro de la optimización que la IA no pudo superar

Lista de verificación para la toma de decisiones sobre la adopción de agentes en empresas

Criterios de juicio para la adopción de flujos de trabajo agénticos

Elementos esenciales de construcción

De codificador a arquitecto: La transición del rol del ingeniero

Comments (0)

Un ejército de 16 agentes Claude construido con 20.000 dólares: La realidad del desarrollo autónomo de un compilador de C

Bucle RALF: Diseño para bloquear la contaminación de memoria de la IA

Protocolo de bloqueo basado en texto para evitar la duplicidad de tareas

Estrategia de Oráculo: No adivines, verifica

Limitaciones técnicas: El muro de la optimización que la IA no pudo superar

Lista de verificación para la toma de decisiones sobre la adopción de agentes en empresas

Criterios de juicio para la adopción de flujos de trabajo agénticos

Elementos esenciales de construcción

De codificador a arquitecto: La transición del rol del ingeniero