KI-Agenten sind unberechenbar… Dieser Fix macht sie deterministisch (Archon)

BBetter Stack
Computing/SoftwareSmall Business/StartupsConsumer ElectronicsInternet Technology

Transcript

00:00:00KI-Agenten werden wahnsinnig mächtig, aber sie sind immer noch chaotisch.
00:00:04Wir geben ihnen die exakt gleiche Aufgabe und erhalten völlig unterschiedlichen Code, andere Qualität und
00:00:09sogar jedes Mal andere Entscheidungen.
00:00:12Das ist gewissermaßen die Realität bei der Arbeit mit Agenten.
00:00:15Wie sich herausstellt, muss das nicht so sein.
00:00:17Das hier ist Archon, und es kann jetzt mehrere Agenten parallel ausführen – ohne Merge-Konflikte
00:00:22und mit konsistenten Ergebnissen.
00:00:24Ich zeige euch in den nächsten Minuten genau, wie man es einrichtet und wie es funktioniert.
00:00:30Wir wissen: Wenn wir Claude Code, Cursor oder Codex nutzen, sieht der erste Durchlauf super aus.
00:00:39Der zweite Durchlauf könnte einen völlig anderen Plan verfolgen.
00:00:42Der Kontext kann abweichen.
00:00:44Der Agent ändert mittendrin die Richtung.
00:00:47Dann versucht man es zu skalieren.
00:00:49Zwei Agenten, vielleicht drei, vier Agenten.
00:00:51Plötzlich ist dein Repo ein totales Durcheinander.
00:00:54Und hier liegt das eigentliche Problem.
00:00:55Man spart eigentlich keine Zeit mehr.
00:00:57Man führt Prompts erneut aus.
00:00:58Man korrigiert kaputten Code und hofft, dass dieser Durchlauf nicht alles zerschießt.
00:01:02Wenn man etwas entwickelt, killt das einfach das Arbeitstempo.
00:01:06Archon löst das mit etwas namens “Harness Engineering”.
00:01:10Anstatt zu hoffen, dass der Agent sich benimmt, definiert man den Prozess.
00:01:14Planung, Coding, Testing, Review – alles in YAML.
00:01:18Und Agenten-Skills sind wiederverwendbare Befehlspakete, die der Agent automatisch lädt.
00:01:23Anstatt also zu raten, was zu tun ist, folgt dein Agent einem System.
00:01:28Wenn dir Coding-Tools gefallen, die deinen Workflow beschleunigen, abonniere den Kanal.
00:01:32Wir veröffentlichen ständig neue Videos.
00:01:34Alles klar, jetzt zeige ich es euch.
00:01:36Das läuft lokal auf meinem M4 Pro, keine Cloud.
00:01:40Ich kann “archon serv” eingeben.
00:01:43Das ruft dieses UI-Interface auf.
00:01:45Ich installiere den Archon-Skill mit Claude in dieses Repo.
00:01:49Jetzt starte ich einen einfachen Workflow, um dieses Problem zu beheben.
00:01:54Achtet jetzt auf diesen Teil.
00:01:55Der Agent findet den Skill selbstständig, lädt den Workflow und führt ihn Schritt für Schritt aus.
00:02:02Man kann es hier im Terminal oder dort drüben in der UI verfolgen.
00:02:04Es sieht viel besser aus.
00:02:05Hier gibt es kein Prompt-Tweaking.
00:02:07Selbst wenn es fehlschlägt, erhält man volle Transparenz in der UI.
00:02:11Man sieht genau, welcher Schritt fehlgeschlagen ist, und kann den Workflow korrigieren.
00:02:15Das ist viel besser als bei rohem Claude-Code, wo man nur einen unübersichtlichen Chat-Verlauf hat.
00:02:20Dieser Punkt ist entscheidend.
00:02:21Es läuft auch in einem eigenen Git-Worktree, berührt also niemals den Main-Branch.
00:02:26Es geht die Prompts durch, und wie man hier sieht, generiert es das Ergebnis.
00:02:29Es ist fertig: sauberer PR, gleiche Struktur, gleiches Ergebnis.
00:02:33Wir können Logs sehen, den Prozess der Prompts und die gesamte Ausgabe.
00:02:38So sieht Konsistenz aus.
00:02:40Was hat sich also eigentlich geändert?
00:02:42Nun, durch Archon haben sich drei Dinge geändert.
00:02:45Erstens: die Workflows.
00:02:47Archon verwendet YAML-DAGs.
00:02:50Stellt es euch wie eine Checkliste vor, der der Agent folgen muss.
00:02:53Manche Schritte nutzen KI, sicher.
00:02:56Andere Schritte sind fest vorgegeben.
00:02:58Diese Mischung macht es zuverlässiger.
00:03:00Dann haben wir die Isolation.
00:03:01Jeder Durchlauf findet in einem separaten Git-Worktree statt, damit Agenten sich nicht gegenseitig überschreiben.
00:03:06Deshalb gibt es keine Merge-Konflikte.
00:03:08Und bei den Skills lädt der Agent den Kontext automatisch, statt jedes Mal Prompts vollzustopfen.
00:03:14Im Vergleich zu rohen Agenten eliminiert man also all diese Zufälligkeit.
00:03:19Verglichen mit Tools wie, sagen wir mal, LangChain...
00:03:22LangChain ist toll, aber Archon ist für Code gebaut, nicht für allgemeine Bots.
00:03:27Und im Vergleich zu Skripten ist das hier wiederverwendbar.
00:03:30Es ist versioniert.
00:03:31Es ist auffindbar.
00:03:32Der Agent muss nicht mehr raten.
00:03:34Wir haben diesen ganzen Workflow, den er durchläuft.
00:03:36Er folgt diesem tatsächlichen System.
00:03:38Jetzt können wir mehrere Agenten gleichzeitig laufen lassen, ohne Angst um das Repo zu haben.
00:03:42Man kann PRs erstellen, die jedes Mal gleich aussehen.
00:03:45Und der große Vorteil: Man verliert kein Wissen mehr in Chat-Verläufen.
00:03:49Der Prozess lebt jetzt in Workflows, was bedeutet, dass jeder Durchlauf durch die Nutzung
00:03:55hiervon konsistenter wird.
00:03:56Das bedeutet: saubere PRs, vorhersehbarere Ergebnisse.
00:03:58Gleicher Input führt zu gleichem Output.
00:04:00Das war der Teil, der Agenten bisher fehlte.
00:04:02Es ist natürlich nicht perfekt, oder?
00:04:04Aber was ist gut daran?
00:04:05Nun, es ist Open Source, es läuft super lokal, besonders auf M-Chips, richtig?
00:04:10Es gibt bestimmte Versionen mit VPS-Konfiguration.
00:04:13Die brauche ich hier nicht.
00:04:14YAML macht alles sichtbar.
00:04:16Ein toller Gewinn für uns, und Git-Worktrees lösen ein echtes Problem.
00:04:19Aber das bedeutet auch ein paar Dinge.
00:04:21Man muss im Voraus planen.
00:04:23Workflows zu entwerfen, erfordert etwas Aufwand, und es entwickelt sich noch, richtig?
00:04:28Dinge werden sich ändern.
00:04:29Sie werden sich weiterentwickeln, aber sie wachsen.
00:04:31Und wenn man nur schnelle Prompts macht, braucht man das wahrscheinlich gar nicht.
00:04:34Das wäre ehrlich gesagt nur Zeitverschwendung.
00:04:36Außerdem spielt das Modell immer noch eine Rolle.
00:04:38Ein besseres Modell wird uns offensichtlich ein besseres Ergebnis liefern.
00:04:42Wenn ihr es leid seid, Agentenfehler zu korrigieren, ist das definitiv einen Versuch wert.
00:04:46Wenn ihr etwas wollt, auf das ihr euch verlassen könnt, ohne euch ständig zu hinterfragen, ist es
00:04:50ebenfalls sehr lohnenswert.
00:04:52Wenn ihr nur experimentiert... ich meine, ja, ich habe dafür auch nur experimentiert.
00:04:55Ich habe es einfach gehalten.
00:04:56Es funktioniert großartig.
00:04:57Ich konnte sehen, worum es geht.
00:04:58Aber wenn man es ernst meint mit der Entwicklung durch Agenten, ist das eines der wirkungsvollsten Tools,
00:05:02die mir bisher begegnet sind.
00:05:04Das macht aus diesen Demos, die wir nutzen, etwas, mit dem wir tatsächlich
00:05:08zuverlässiger ausliefern können, indem wir es in unseren Workflow integrieren.
00:05:13Es ist ziemlich simpel.
00:05:14Bevor man nur hofft, dass der Agent das Richtige tut...
00:05:16Es ist ein Agent.
00:05:17Jetzt definieren wir, wie er arbeitet.
00:05:20Das ist deren Versprechen bzw. das, was dieses Harness Engineering ausmacht.
00:05:23Wenn euch solche Coding-Tools und Tipps gefallen, abonniert den Better Stack Kanal.
00:05:27Wir sehen uns im nächsten Video.

Key Takeaway

Archon macht unberechenbare KI-Agenten durch Harness Engineering und YAML-basierte Workflows deterministisch, indem es Aufgaben in isolierten Git-Worktrees mit standardisierten Skills ausführt.

Highlights

  • KI-Agenten liefern bei identischen Aufgaben oft unterschiedliche Ergebnisse, unsauberen Code und widersprüchliche Entscheidungen.

  • Das Open-Source-Tool Archon nutzt Harness Engineering, um Agenten-Workflows über YAML-Dateien deterministisch zu steuern.

  • Die Ausführung von Agenten in separaten Git-Worktrees verhindert Merge-Konflikte und das gegenseitige Überschreiben von Code.

  • Wiederverwendbare Befehlspakete, sogenannte Agenten-Skills, automatisieren das Laden von Kontext und machen manuelles Prompt-Tweaking überflüssig.

  • Archon läuft lokal auf Apple M-Chips ohne Cloud-Anbindung und bietet volle Transparenz durch eine grafische Benutzeroberfläche.

  • Die Strukturierung von Prozessen in Planung, Coding, Testing und Review sorgt für Pull Requests mit konsistenter Struktur.

Timeline

Das Problem der Unberechenbarkeit bei KI-Agenten

  • Identische Prompts führen bei gängigen Tools oft zu qualitativ unterschiedlichen Ergebnissen.
  • Agenten ändern häufig mitten im Prozess ihre Strategie oder verlieren den Kontext.
  • Die Skalierung auf mehrere Agenten führt ohne Kontrolle zu Chaos in Repositories.

Die Arbeit mit Claude Code, Cursor oder Codex ist oft von Inkonsistenz geprägt. Ein zweiter Durchlauf verfolgt häufig einen völlig anderen Plan als der erste. Nutzer verschwenden Zeit damit, Prompts erneut auszuführen oder fehlerhaften Code manuell zu korrigieren, was den Arbeitsfluss unterbricht.

Harness Engineering als Lösung durch Archon

  • Harness Engineering definiert feste Prozesse für Planung, Coding, Testing und Review in YAML-Dateien.
  • Agenten-Skills fungieren als vorgefertigte Befehlspakete für automatisierte Abläufe.
  • Die Benutzeroberfläche bietet Transparenz über jeden einzelnen Schritt des Workflows.

Archon ersetzt das Hoffen auf korrektes Verhalten durch ein definiertes System. Das Tool läuft lokal auf Hardware wie dem M4 Pro und benötigt keine Cloud. Fehler werden in der UI sofort sichtbar, sodass gezielte Korrekturen am Workflow möglich sind, statt in unübersichtlichen Chat-Verläufen nach Ursachen zu suchen.

Die drei Säulen der Konsistenz: Workflows, Isolation und Skills

  • YAML-basierte Directed Acyclic Graphs (DAGs) kombinieren KI-Schritte mit festen logischen Regeln.
  • Git-Worktrees isolieren jeden Durchlauf voneinander und schützen den Main-Branch.
  • Automatischer Kontext-Upload durch Skills reduziert die Fehleranfälligkeit gegenüber rohen Prompts.

Durch die Verwendung von DAGs fungiert der Workflow wie eine verbindliche Checkliste für den Agenten. Da jeder Agent in einer eigenen Umgebung arbeitet, werden Code-Überschreibungen ausgeschlossen. Das Ergebnis sind saubere Pull Requests, die bei gleichem Input stets den gleichen Output liefern.

Einsatzbereiche und Grenzen des Systems

  • Die Erstellung von Workflows erfordert initiale Planung und zeitlichen Aufwand.
  • Für einfache Ad-hoc-Prompts ist der Overhead von Archon nicht rentabel.
  • Die Qualität des zugrunde liegenden KI-Modells bleibt ein entscheidender Faktor für das Endergebnis.

Archon ist für die ernsthafte Softwareentwicklung konzipiert, bei der Zuverlässigkeit wichtiger ist als Schnelligkeit. Es transformiert experimentelle KI-Demos in produktive Werkzeuge für die Auslieferung von Code. Während das Tool noch wächst, löst es bereits heute das Kernproblem der mangelnden Vorhersehbarkeit in agentenbasierten Workflows.

Community Posts

View all posts