KI-Agenten sind unberechenbar… Dieser Fix macht sie deterministisch (Archon)
BBetter Stack
컴퓨터/소프트웨어창업/스타트업가전제품/카메라AI/미래기술
Transcript
00:00:00KI-Agenten werden wahnsinnig mächtig, aber sie sind immer noch chaotisch.
00:00:04Wir geben ihnen die exakt gleiche Aufgabe und erhalten völlig unterschiedlichen Code, andere Qualität und
00:00:09sogar jedes Mal andere Entscheidungen.
00:00:12Das ist gewissermaßen die Realität bei der Arbeit mit Agenten.
00:00:15Wie sich herausstellt, muss das nicht so sein.
00:00:17Das hier ist Archon, und es kann jetzt mehrere Agenten parallel ausführen – ohne Merge-Konflikte
00:00:22und mit konsistenten Ergebnissen.
00:00:24Ich zeige euch in den nächsten Minuten genau, wie man es einrichtet und wie es funktioniert.
00:00:30Wir wissen: Wenn wir Claude Code, Cursor oder Codex nutzen, sieht der erste Durchlauf super aus.
00:00:39Der zweite Durchlauf könnte einen völlig anderen Plan verfolgen.
00:00:42Der Kontext kann abweichen.
00:00:44Der Agent ändert mittendrin die Richtung.
00:00:47Dann versucht man es zu skalieren.
00:00:49Zwei Agenten, vielleicht drei, vier Agenten.
00:00:51Plötzlich ist dein Repo ein totales Durcheinander.
00:00:54Und hier liegt das eigentliche Problem.
00:00:55Man spart eigentlich keine Zeit mehr.
00:00:57Man führt Prompts erneut aus.
00:00:58Man korrigiert kaputten Code und hofft, dass dieser Durchlauf nicht alles zerschießt.
00:01:02Wenn man etwas entwickelt, killt das einfach das Arbeitstempo.
00:01:06Archon löst das mit etwas namens “Harness Engineering”.
00:01:10Anstatt zu hoffen, dass der Agent sich benimmt, definiert man den Prozess.
00:01:14Planung, Coding, Testing, Review – alles in YAML.
00:01:18Und Agenten-Skills sind wiederverwendbare Befehlspakete, die der Agent automatisch lädt.
00:01:23Anstatt also zu raten, was zu tun ist, folgt dein Agent einem System.
00:01:28Wenn dir Coding-Tools gefallen, die deinen Workflow beschleunigen, abonniere den Kanal.
00:01:32Wir veröffentlichen ständig neue Videos.
00:01:34Alles klar, jetzt zeige ich es euch.
00:01:36Das läuft lokal auf meinem M4 Pro, keine Cloud.
00:01:40Ich kann “archon serv” eingeben.
00:01:43Das ruft dieses UI-Interface auf.
00:01:45Ich installiere den Archon-Skill mit Claude in dieses Repo.
00:01:49Jetzt starte ich einen einfachen Workflow, um dieses Problem zu beheben.
00:01:54Achtet jetzt auf diesen Teil.
00:01:55Der Agent findet den Skill selbstständig, lädt den Workflow und führt ihn Schritt für Schritt aus.
00:02:02Man kann es hier im Terminal oder dort drüben in der UI verfolgen.
00:02:04Es sieht viel besser aus.
00:02:05Hier gibt es kein Prompt-Tweaking.
00:02:07Selbst wenn es fehlschlägt, erhält man volle Transparenz in der UI.
00:02:11Man sieht genau, welcher Schritt fehlgeschlagen ist, und kann den Workflow korrigieren.
00:02:15Das ist viel besser als bei rohem Claude-Code, wo man nur einen unübersichtlichen Chat-Verlauf hat.
00:02:20Dieser Punkt ist entscheidend.
00:02:21Es läuft auch in einem eigenen Git-Worktree, berührt also niemals den Main-Branch.
00:02:26Es geht die Prompts durch, und wie man hier sieht, generiert es das Ergebnis.
00:02:29Es ist fertig: sauberer PR, gleiche Struktur, gleiches Ergebnis.
00:02:33Wir können Logs sehen, den Prozess der Prompts und die gesamte Ausgabe.
00:02:38So sieht Konsistenz aus.
00:02:40Was hat sich also eigentlich geändert?
00:02:42Nun, durch Archon haben sich drei Dinge geändert.
00:02:45Erstens: die Workflows.
00:02:47Archon verwendet YAML-DAGs.
00:02:50Stellt es euch wie eine Checkliste vor, der der Agent folgen muss.
00:02:53Manche Schritte nutzen KI, sicher.
00:02:56Andere Schritte sind fest vorgegeben.
00:02:58Diese Mischung macht es zuverlässiger.
00:03:00Dann haben wir die Isolation.
00:03:01Jeder Durchlauf findet in einem separaten Git-Worktree statt, damit Agenten sich nicht gegenseitig überschreiben.
00:03:06Deshalb gibt es keine Merge-Konflikte.
00:03:08Und bei den Skills lädt der Agent den Kontext automatisch, statt jedes Mal Prompts vollzustopfen.
00:03:14Im Vergleich zu rohen Agenten eliminiert man also all diese Zufälligkeit.
00:03:19Verglichen mit Tools wie, sagen wir mal, LangChain...
00:03:22LangChain ist toll, aber Archon ist für Code gebaut, nicht für allgemeine Bots.
00:03:27Und im Vergleich zu Skripten ist das hier wiederverwendbar.
00:03:30Es ist versioniert.
00:03:31Es ist auffindbar.
00:03:32Der Agent muss nicht mehr raten.
00:03:34Wir haben diesen ganzen Workflow, den er durchläuft.
00:03:36Er folgt diesem tatsächlichen System.
00:03:38Jetzt können wir mehrere Agenten gleichzeitig laufen lassen, ohne Angst um das Repo zu haben.
00:03:42Man kann PRs erstellen, die jedes Mal gleich aussehen.
00:03:45Und der große Vorteil: Man verliert kein Wissen mehr in Chat-Verläufen.
00:03:49Der Prozess lebt jetzt in Workflows, was bedeutet, dass jeder Durchlauf durch die Nutzung
00:03:55hiervon konsistenter wird.
00:03:56Das bedeutet: saubere PRs, vorhersehbarere Ergebnisse.
00:03:58Gleicher Input führt zu gleichem Output.
00:04:00Das war der Teil, der Agenten bisher fehlte.
00:04:02Es ist natürlich nicht perfekt, oder?
00:04:04Aber was ist gut daran?
00:04:05Nun, es ist Open Source, es läuft super lokal, besonders auf M-Chips, richtig?
00:04:10Es gibt bestimmte Versionen mit VPS-Konfiguration.
00:04:13Die brauche ich hier nicht.
00:04:14YAML macht alles sichtbar.
00:04:16Ein toller Gewinn für uns, und Git-Worktrees lösen ein echtes Problem.
00:04:19Aber das bedeutet auch ein paar Dinge.
00:04:21Man muss im Voraus planen.
00:04:23Workflows zu entwerfen, erfordert etwas Aufwand, und es entwickelt sich noch, richtig?
00:04:28Dinge werden sich ändern.
00:04:29Sie werden sich weiterentwickeln, aber sie wachsen.
00:04:31Und wenn man nur schnelle Prompts macht, braucht man das wahrscheinlich gar nicht.
00:04:34Das wäre ehrlich gesagt nur Zeitverschwendung.
00:04:36Außerdem spielt das Modell immer noch eine Rolle.
00:04:38Ein besseres Modell wird uns offensichtlich ein besseres Ergebnis liefern.
00:04:42Wenn ihr es leid seid, Agentenfehler zu korrigieren, ist das definitiv einen Versuch wert.
00:04:46Wenn ihr etwas wollt, auf das ihr euch verlassen könnt, ohne euch ständig zu hinterfragen, ist es
00:04:50ebenfalls sehr lohnenswert.
00:04:52Wenn ihr nur experimentiert... ich meine, ja, ich habe dafür auch nur experimentiert.
00:04:55Ich habe es einfach gehalten.
00:04:56Es funktioniert großartig.
00:04:57Ich konnte sehen, worum es geht.
00:04:58Aber wenn man es ernst meint mit der Entwicklung durch Agenten, ist das eines der wirkungsvollsten Tools,
00:05:02die mir bisher begegnet sind.
00:05:04Das macht aus diesen Demos, die wir nutzen, etwas, mit dem wir tatsächlich
00:05:08zuverlässiger ausliefern können, indem wir es in unseren Workflow integrieren.
00:05:13Es ist ziemlich simpel.
00:05:14Bevor man nur hofft, dass der Agent das Richtige tut...
00:05:16Es ist ein Agent.
00:05:17Jetzt definieren wir, wie er arbeitet.
00:05:20Das ist deren Versprechen bzw. das, was dieses Harness Engineering ausmacht.
00:05:23Wenn euch solche Coding-Tools und Tipps gefallen, abonniert den Better Stack Kanal.
00:05:27Wir sehen uns im nächsten Video.