Log in to leave a comment
No posts yet
Das Paradigma des Software-Engineerings wandelt sich. Dieses Projekt von Nicholas Carlini, einem Forscher bei Anthropic, war nicht einfach nur ein Versuch, eine KI zum Coden zu bewegen. Unter Einsatz von 16 Instanzen von Claude Opus 4.6 wurde mit minimalem menschlichem Eingreifen ein Rust-basierter C-Compiler von Grund auf neu entwickelt.
Das Ergebnis besteht aus 100.000 Zeilen Code, konnte den Linux 6.9-Kernel kompilieren und den Spieleklassiker Doom ausführen. Doch wichtiger als die beeindruckende Fassade sind die Grenzen und Möglichkeiten agentischer Workflows, die durch die Investition von 20.000 Dollar (ca. 18.500 Euro) an API-Kosten zutage traten. Wir werfen einen Blick auf die technische Realität hinter der Frage, wie man KI-Systeme kontrolliert und zur Zusammenarbeit bringt, anstatt nur gute Prompts zu schreiben.
In der komplexen Systemprogrammierung stößt ein einzelner Agent schnell an die Grenzen seines Context Windows. Mit der Zeit führen alte Dialoghistorien zu Halluzinationen, die aktuelle Entscheidungen verfälschen. Um dies zu lösen, implementierte Carlini neben 16 unabhängigen Docker-Containern den RALF-Loop (Refresh, Act, Learn, Feedback).
README.md festgehalten und per Git-Push synchronisiert.Das größte Risiko beim gleichzeitigen Einsatz von 16 Agenten ist die Ressourcenverschwendung. Wenn zwei Agenten versuchen, denselben Bug zu fixen, entstehen Code-Konflikte und die API-Kosten verdoppeln sich. Carlini implementierte einen leichtgewichtigen Locking-Mechanismus über Text-Flags innerhalb des Git-Repositorys anstelle einer komplexen Datenbank.
Bevor ein Agent eine Aufgabe beginnt, erstellt er im Verzeichnis current_tasks/ eine Datei mit dem Namen der Aufgabe. Dank der atomaren Commit-Eigenschaft von Git wird der Push eines anderen Agenten, der dieselbe Datei erstellen will, abgelehnt. Dieses einfache System verhinderte Race Conditions zwischen den Agenten effektiv.
Das Highlight des Projekts war die Nutzung von GCC als Oracle. Anstatt die KI die richtige Antwort raten zu lassen, wurde eine Strategie gewählt, die die korrekte Lösung systemisch erzwingt. Wenn beim Bau des riesigen Linux-Kernels Fehler auftraten, automatisierte Carlini einen Binärsuch-Algorithmus.
Trotz der überwältigenden Erfolge erreichte die Performance des generierten Compilers nicht einmal die niedrigste Optimierungsstufe von GCC (-O0). Die Claude-Agenten-Armee stieß in folgenden High-Level-Engineering-Bereichen an ihre Grenzen:
Aus Sicht eines Engineering-Managers sind 20.000 Dollar keineswegs teuer. Eine Aufgabe, für die ein Expertenteam von 5 Personen über drei Monate benötigt hätte, wurde in nur zwei Wochen abgeschlossen. Dies beweist eine mehr als 10-fache Kosteneffizienz gegenüber traditionellen Personalkosten. Unternehmen, die dieses Modell adaptieren wollen, sollten folgendem Entscheidungsbaum folgen:
| Frage | Ja | Nein |
|---|---|---|
| Ist das Ergebnis durch Tests objektiv validierbar? | Nächster Schritt | Ungeeignet (Halluzinationsgefahr) |
| Gibt es ein vergleichbares Bestandstool (Oracle)? | Oracle-Strategie wählen | Ständiges menschliches Monitoring nötig |
| Ist die Aufgabe in über 100 Einheiten teilbar? | Parallele Agenten nutzen | Einzelner Agent empfohlen |
progress.json zu protokollieren.Das Experiment von Anthropic verdeutlicht, dass sich die Rolle des Ingenieurs vom Schreiber des Codes hin zum Systemdesigner und Auditor verschiebt. Die entscheidende Kompetenz ist künftig nicht mehr die Fähigkeit, Algorithmen selbst zu schreiben, sondern logische Constraints und Validierungs-Harnesses zu entwerfen, die die Agenten-Armee auf Kurs halten.
Die Kosten von 20.000 Dollar sind keine bloße Ausgabe, sondern ein Meilenstein, der zeigt, welche Automatisierungshöhe KI erreichen kann, wenn sie durch präzises menschliches Design gestützt wird. Unternehmen sollten sich nicht nur auf die Autonomie der KI verlassen, sondern sich darauf konzentrieren, das strategische „Steering“ durch den Menschen zu systematisieren.