Exército de 16 Agentes Claude Construído com 20 Mil Dólares: A Realidade do Desenvolvimento Autônomo de um Compilador C

O paradigma da engenharia de software está mudando. Este projeto, conduzido pelo pesquisador da Anthropic, Nicholas Carlini, não foi apenas uma questão de fazer a IA codificar. Ele mobilizou 16 instâncias do Claude Opus 4.6 para construir, do zero, um compilador C baseado em Rust com intervenção humana mínima.

O resultado consistiu em 100.000 linhas de código, conseguindo compilar o kernel Linux 6.9 e rodar o jogo clássico Doom. No entanto, mais importante do que a aparência chamativa é a realidade da engenharia por trás das limitações e possibilidades dos fluxos de trabalho agentes, descoberta ao investir 20.000 dólares (aprox. 110.000 reais) em custos de API. Investigamos como controlar e fazer a IA colaborar sistemicamente, indo além do simples uso de bons prompts.

Loop RALF: Design para Bloquear a Contaminação de Memória da IA

Na programação de sistemas complexos, um único agente atinge rapidamente o limite da janela de contexto. Isso ocorre porque, com o passar do tempo, o histórico de conversas passadas obscurece o julgamento presente, causando alucinações. Para resolver isso, Carlini introduziu o Loop RALF (Refresh, Act, Learn, Feedback) junto com 16 contêineres Docker independentes.

Refresh: Inicializa e limpa memórias desnecessárias do passado ao iniciar uma sessão. Em vez disso, injeta apenas um pacote de briefing contendo os marcos atuais e registros de falhas para manter o foco.
Act: Define prioridades e executa editores ou ferramentas de build de forma autônoma, sem comandos humanos.
Learn: Aprende com os erros através de logs de teste "Grep-friendly", fáceis de serem compreendidos pelo agente.
Feedback: Registra o conteúdo executado e guias para o próximo trabalhador no README.md e faz o push para o Git para sincronizar o conhecimento.

Protocolo de Travamento Baseado em Texto para Evitar Duplicidade de Trabalho

O maior risco quando 16 agentes são implantados simultaneamente é o desperdício de recursos. Se dois agentes tentarem corrigir o mesmo bug, ocorrerão conflitos de código e o custo da API será cobrado em dobro. Carlini implementou um mecanismo de travamento (Locking) leve utilizando flags de texto dentro do repositório Git, em vez de um banco de dados complexo à parte.

Antes de iniciar uma tarefa específica, o agente cria um arquivo com o mesmo nome da tarefa no diretório current_tasks/. Graças à natureza de commit atômico do Git, o push de outro agente que tentasse criar o mesmo arquivo seria rejeitado. Este sistema simples bloqueou na fonte as condições de corrida (Race Conditions) entre os agentes.

Estratégia Oracle: Não Adivinhe, Verifique

O ponto alto deste projeto foi a utilização do GCC, uma ferramenta já estabelecida, como um Oracle (Oráculo). Em vez de fazer a IA adivinhar a resposta correta, a estratégia é forçar sistemicamente a resposta certa. Quando ocorria um erro no build do gigantesco kernel Linux, Carlini automatizou um algoritmo de busca binária (Binary Search).

Metade dos arquivos do kernel é compilada com GCC e a outra metade com Claude.
O ponto de erro é estreitado pela metade sucessivamente até encontrar a linha exata do problema entre milhares de arquivos.
Este método aumentou a eficiência da depuração em cerca de 50% e bloqueou fisicamente as chances de alucinação da IA.

Limitações Técnicas: A Barreira da Otimização que a IA Não Superou

Embora os resultados tenham sido impressionantes, o desempenho do compilador gerado não alcançou sequer o nível mínimo de otimização do GCC (-O0). O exército de agentes Claude mostrou limitações em áreas de engenharia de alto nível, como:

Falhas na Gestão de Memória: Em vez de otimizar o modelo de ownership, escolheu o método ineficiente de copiar todos os dados para buffers individuais.
Falta de Compreensão de Hardware: Não conseguiu superar o limite estrito de memória (32KB) do modo real de 16 bits do x86, exigindo eventualmente intervenção humana ou empréstimo de código do GCC.
Ausência de Implementação de Algoritmos: Não realizou análises matemáticas independentes para alocação de registradores, limitando-se a uma tradução literal de instruções.

Checklist de Decisão para Adoção de Agentes em Empresas

Do ponto de vista de um gerente de engenharia, 20 mil dólares não é, de forma alguma, um valor caro. Isso porque uma tarefa que exigiria uma equipe de 5 especialistas por mais de 3 meses foi concluída em apenas 2 semanas. Isso prova um custo-benefício cerca de 10 vezes superior em comparação aos custos trabalhistas tradicionais. Empresas que desejam adotar este modelo devem seguir a seguinte árvore de decisão:

Critérios para Adoção de Fluxo de Trabalho Agente

Pergunta	Sim	Não
O resultado pode ser verificado objetivamente por testes?	Prosseguir para a próxima etapa	Inadequado para adoção (risco de alucinação)
Existe uma ferramenta comparável (Oráculo)?	Adotar estratégia de Oráculo	Necessário monitoramento humano constante
A tarefa pode ser dividida em mais de 100 unidades?	Operação de agentes paralelos	Recomendado agente único

Elementos Essenciais para Construção

Harness Grep-friendly: Projete uma estrutura de log onde o agente possa identificar sucesso/falha em menos de 1 segundo.
Automatização do Registro de Estado: Force o agente a registrar obrigatoriamente o progresso em algo como progress.json antes de encerrar.
Guardrails Humanos: Isole códigos sensíveis, como segurança ou autenticação, para que passem obrigatoriamente por revisão humana.

De Codificador a Arquiteto: A Transição do Papel do Engenheiro

O experimento da Anthropic significa que o papel do engenheiro mudou de escritor de código para projetista e auditor de sistemas. Agora, a competência crucial não é a habilidade de escrever algoritmos diretamente, mas a capacidade de projetar restrições lógicas e harnesses de verificação para que o exército de agentes de IA não saia dos trilhos.

O custo de 20 mil dólares não é um simples gasto, mas um marco que demonstra o teto da automação que a IA pode alcançar quando apoiada por um design humano sofisticado. As empresas devem agora focar em sistematizar o direcionamento estratégico humano, em vez de se perderem apenas na autonomia da IA.

Exército de 16 Agentes Claude Construído com 20 Mil Dólares: A Realidade do Desenvolvimento Autônomo de um Compilador C

Loop RALF: Design para Bloquear a Contaminação de Memória da IA

Refresh: Inicializa e limpa memórias desnecessárias do passado ao iniciar uma sessão. Em vez disso, injeta apenas um pacote de briefing contendo os marcos atuais e registros de falhas para manter o foco.
Act: Define prioridades e executa editores ou ferramentas de build de forma autônoma, sem comandos humanos.
Learn: Aprende com os erros através de logs de teste "Grep-friendly", fáceis de serem compreendidos pelo agente.
Feedback: Registra o conteúdo executado e guias para o próximo trabalhador no README.md e faz o push para o Git para sincronizar o conhecimento.

Protocolo de Travamento Baseado em Texto para Evitar Duplicidade de Trabalho

Estratégia Oracle: Não Adivinhe, Verifique

Metade dos arquivos do kernel é compilada com GCC e a outra metade com Claude.
O ponto de erro é estreitado pela metade sucessivamente até encontrar a linha exata do problema entre milhares de arquivos.
Este método aumentou a eficiência da depuração em cerca de 50% e bloqueou fisicamente as chances de alucinação da IA.

Limitações Técnicas: A Barreira da Otimização que a IA Não Superou

Falhas na Gestão de Memória: Em vez de otimizar o modelo de ownership, escolheu o método ineficiente de copiar todos os dados para buffers individuais.
Falta de Compreensão de Hardware: Não conseguiu superar o limite estrito de memória (32KB) do modo real de 16 bits do x86, exigindo eventualmente intervenção humana ou empréstimo de código do GCC.
Ausência de Implementação de Algoritmos: Não realizou análises matemáticas independentes para alocação de registradores, limitando-se a uma tradução literal de instruções.

Checklist de Decisão para Adoção de Agentes em Empresas

Critérios para Adoção de Fluxo de Trabalho Agente

Pergunta	Sim	Não
O resultado pode ser verificado objetivamente por testes?	Prosseguir para a próxima etapa	Inadequado para adoção (risco de alucinação)
Existe uma ferramenta comparável (Oráculo)?	Adotar estratégia de Oráculo	Necessário monitoramento humano constante
A tarefa pode ser dividida em mais de 100 unidades?	Operação de agentes paralelos	Recomendado agente único

Elementos Essenciais para Construção

Harness Grep-friendly: Projete uma estrutura de log onde o agente possa identificar sucesso/falha em menos de 1 segundo.
Automatização do Registro de Estado: Force o agente a registrar obrigatoriamente o progresso em algo como progress.json antes de encerrar.
Guardrails Humanos: Isole códigos sensíveis, como segurança ou autenticação, para que passem obrigatoriamente por revisão humana.

Exército de 16 Agentes Claude Construído com 20 Mil Dólares: A Realidade do Desenvolvimento Autônomo de um Compilador C

Related Video

$20.000. 2 Semanas. 16 Agentes Claude. O Primeiro Compilador C da Anthropic Feito por IA

Exército de 16 Agentes Claude Construído com 20 Mil Dólares: A Realidade do Desenvolvimento Autônomo de um Compilador C

Loop RALF: Design para Bloquear a Contaminação de Memória da IA

Protocolo de Travamento Baseado em Texto para Evitar Duplicidade de Trabalho

Estratégia Oracle: Não Adivinhe, Verifique

Limitações Técnicas: A Barreira da Otimização que a IA Não Superou

Checklist de Decisão para Adoção de Agentes em Empresas

Critérios para Adoção de Fluxo de Trabalho Agente

Elementos Essenciais para Construção

De Codificador a Arquiteto: A Transição do Papel do Engenheiro

Comments (0)

Exército de 16 Agentes Claude Construído com 20 Mil Dólares: A Realidade do Desenvolvimento Autônomo de um Compilador C

Loop RALF: Design para Bloquear a Contaminação de Memória da IA

Protocolo de Travamento Baseado em Texto para Evitar Duplicidade de Trabalho

Estratégia Oracle: Não Adivinhe, Verifique

Limitações Técnicas: A Barreira da Otimização que a IA Não Superou

Checklist de Decisão para Adoção de Agentes em Empresas

Critérios para Adoção de Fluxo de Trabalho Agente

Elementos Essenciais para Construção

De Codificador a Arquiteto: A Transição do Papel do Engenheiro