Log in to leave a comment
No posts yet
O paradigma da engenharia de software está mudando. Este projeto, conduzido pelo pesquisador da Anthropic, Nicholas Carlini, não foi apenas uma questão de fazer a IA codificar. Ele mobilizou 16 instâncias do Claude Opus 4.6 para construir, do zero, um compilador C baseado em Rust com intervenção humana mínima.
O resultado consistiu em 100.000 linhas de código, conseguindo compilar o kernel Linux 6.9 e rodar o jogo clássico Doom. No entanto, mais importante do que a aparência chamativa é a realidade da engenharia por trás das limitações e possibilidades dos fluxos de trabalho agentes, descoberta ao investir 20.000 dólares (aprox. 110.000 reais) em custos de API. Investigamos como controlar e fazer a IA colaborar sistemicamente, indo além do simples uso de bons prompts.
Na programação de sistemas complexos, um único agente atinge rapidamente o limite da janela de contexto. Isso ocorre porque, com o passar do tempo, o histórico de conversas passadas obscurece o julgamento presente, causando alucinações. Para resolver isso, Carlini introduziu o Loop RALF (Refresh, Act, Learn, Feedback) junto com 16 contêineres Docker independentes.
README.md e faz o push para o Git para sincronizar o conhecimento.O maior risco quando 16 agentes são implantados simultaneamente é o desperdício de recursos. Se dois agentes tentarem corrigir o mesmo bug, ocorrerão conflitos de código e o custo da API será cobrado em dobro. Carlini implementou um mecanismo de travamento (Locking) leve utilizando flags de texto dentro do repositório Git, em vez de um banco de dados complexo à parte.
Antes de iniciar uma tarefa específica, o agente cria um arquivo com o mesmo nome da tarefa no diretório current_tasks/. Graças à natureza de commit atômico do Git, o push de outro agente que tentasse criar o mesmo arquivo seria rejeitado. Este sistema simples bloqueou na fonte as condições de corrida (Race Conditions) entre os agentes.
O ponto alto deste projeto foi a utilização do GCC, uma ferramenta já estabelecida, como um Oracle (Oráculo). Em vez de fazer a IA adivinhar a resposta correta, a estratégia é forçar sistemicamente a resposta certa. Quando ocorria um erro no build do gigantesco kernel Linux, Carlini automatizou um algoritmo de busca binária (Binary Search).
Embora os resultados tenham sido impressionantes, o desempenho do compilador gerado não alcançou sequer o nível mínimo de otimização do GCC (-O0). O exército de agentes Claude mostrou limitações em áreas de engenharia de alto nível, como:
Do ponto de vista de um gerente de engenharia, 20 mil dólares não é, de forma alguma, um valor caro. Isso porque uma tarefa que exigiria uma equipe de 5 especialistas por mais de 3 meses foi concluída em apenas 2 semanas. Isso prova um custo-benefício cerca de 10 vezes superior em comparação aos custos trabalhistas tradicionais. Empresas que desejam adotar este modelo devem seguir a seguinte árvore de decisão:
| Pergunta | Sim | Não |
|---|---|---|
| O resultado pode ser verificado objetivamente por testes? | Prosseguir para a próxima etapa | Inadequado para adoção (risco de alucinação) |
| Existe uma ferramenta comparável (Oráculo)? | Adotar estratégia de Oráculo | Necessário monitoramento humano constante |
| A tarefa pode ser dividida em mais de 100 unidades? | Operação de agentes paralelos | Recomendado agente único |
progress.json antes de encerrar.O experimento da Anthropic significa que o papel do engenheiro mudou de escritor de código para projetista e auditor de sistemas. Agora, a competência crucial não é a habilidade de escrever algoritmos diretamente, mas a capacidade de projetar restrições lógicas e harnesses de verificação para que o exército de agentes de IA não saia dos trilhos.
O custo de 20 mil dólares não é um simples gasto, mas um marco que demonstra o teto da automação que a IA pode alcançar quando apoiada por um design humano sofisticado. As empresas devem agora focar em sistematizar o direcionamento estratégico humano, em vez de se perderem apenas na autonomia da IA.