Loop Engineering verbessert Hermes-Agenten um das Zehnfache

AAI LABS
컴퓨터/소프트웨어AI/미래기술

Transcript

00:00:00Es gibt einen neuen Begriff, der gerade die Runde macht, und vielleicht haben Sie ihn schon gehört.
00:00:04Er heißt Loop-Engineering, und wie bei jedem anderen Hype-Begriff reden alle davon, als wäre es etwas Neues.
00:00:09Das ist es nicht, aber wenn man ihn mit einem ständig laufenden Agenten wie Hermes kombiniert, hört er auf, ein Hype zu sein.
00:00:13Die meisten, die versuchen, das einzurichten, bekommen zwar die Schleife hin, verpassen aber die Sache, die
00:00:17es tatsächlich zum Funktionieren bringt. Und wenn Sie schon wissen, dass es zwei Arten von Schleifen gibt, gibt es eine spezifische Konfiguration,
00:00:22die fast niemand macht. Sobald Sie sie sehen, ändert sich Ihre Art, mit Agenten zu bauen,
00:00:27komplett. Am Ende dieses Videos werden Sie genau verstehen, was es ist, und Sie werden es
00:00:31auf Hermes und sogar Claude Code laufen lassen, ohne dass Sie überhaupt eingreifen müssen. Bei Loop-Engineering
00:00:36ist die Grundidee einfach. Sie sind nicht mehr die Person, die den Prompt schreibt, der den Agenten steuert, und
00:00:41stattdessen lassen Sie den Agenten sich selbst steuern. Aber um zu sehen, warum es überhaupt eine Verschiebung ist,
00:00:46müssen Sie es mit dem vergleichen, was vorher war. Die Fähigkeit, auf die es früher ankam, war Prompt-Engineering, wobei sich unser ganzer Fokus
00:00:51darauf konzentrierte, die richtige Reihe von Anweisungen zu schreiben, um den Coding-Agenten richtig zu steuern. Aber Loop-Engineering
00:00:56dreht das um. Statt den Prompt selbst zu schreiben, entwerfen Sie das System, das das
00:01:01Prompt-Engineering für Sie übernimmt und den Agenten von alleine steuert. Der Fokus verschiebt sich also vom Erstellen von
00:01:05Anweisungen hin zum Entwerfen von Systemen, die von selbst laufen. Das alles begann, als der Schöpfer
00:01:10von OpenClaw sagte, dass man seine Coding-Agenten nicht mehr prompten sollte und dass man sich darauf konzentrieren sollte,
00:01:15Schleifen zu entwerfen, die den Agenten für einen prompten. Und er ist nicht der Einzige. Boris, der Schöpfer von
00:01:20Claude Code, machte auf der jährlichen Entwicklerkonferenz von Anthropic dieselbe Aussage, wo er sagte, er
00:01:25prompte Claude nicht mehr. Er hat Schleifen laufen, die Claude prompten, und es findet selbst heraus,
00:01:30was getan werden muss. Die Frage ist also, wie fängt man damit an? Alles läuft darauf hinaus,
00:01:34wie gut Sie die Systeme einrichten können, bei denen Sie sich überhaupt keine Sorgen mehr um das Prompten des Agenten machen müssen.
00:01:39Sie definieren, was Sie brauchen, und der Agent erledigt den Rest. Genau da steuert die KI-gestützte Entwicklung
00:01:45hin. Bevor wir dazu kommen, wie man sie tatsächlich baut, müssen Sie sich klar machen, was eine Schleife ist. Eine Schleife ist
00:01:50im Grunde ein Prozess, bei dem Sie das Endziel definieren und der Agent die Schritte herausfindet, um es von
00:01:56alleine zu erreichen. Er korrigiert sich auf dem Weg selbst und arbeitet sich durch Probleme, bis er das von Ihnen gesetzte Ziel erreicht.
00:02:01Vor ein paar Monaten, bevor die Modelle fähig genug waren, lange Aufgaben zu bewältigen, war das nicht möglich. Wenn Sie
00:02:06eine App bauen mussten, haben Sie den Agenten gepromptet, überwacht, was er tat, das Ergebnis selbst geprüft,
00:02:11die Probleme gefunden und erneut gepromptet, um sie zu beheben. Sie waren die Schleife. Sie waren der Teil, der die Fehlerprüfung
00:02:16und Kurskorrekturen zwischen jedem Schritt vornahm. So sieht Entwicklung für die meisten Menschen immer noch aus,
00:02:20und genau das wird Ihnen das Loop-Engineering abnehmen. Nun, das mag
00:02:25wie ein brandneues Konzept klingen, aber Schleifen gibt es tatsächlich schon eine Weile. Cron-Jobs sind
00:02:30ein gutes Beispiel für eine Schleife, die Sie wahrscheinlich schon gesehen haben. Es sind einfach Aufgaben, die so geplant sind, dass sie wiederholt
00:02:35und automatisch ablaufen, ohne dass Sie sie jedes Mal auslösen müssen. Der einzige wirkliche Unterschied ist, dass ein
00:02:39Cron-Job zu einer festen Zeit läuft. Mit Schleifen geht es also nicht mehr darum, den Prompt zu schreiben.
00:02:44Die Leistung Ihres Agenten bei einer Aufgabe hängt davon ab, wie gut Sie das Endziel definieren. Für einige von Ihnen
00:02:49wird dieser Prozess sehr nach Reinforcement Learning klingen. Falls Sie noch nicht darauf gestoßen sind: Reinforcement Learning
00:02:54ist im Grunde eine Methode zum Training eines Modells, bei der man ihm nicht die richtigen Antworten zeigt. Stattdessen sagt man ihm nur,
00:02:59wann es gut war und wann nicht, und es findet allmählich von selbst heraus, wie es besser werden kann.
00:03:04Das Modell findet den richtigen Pfad, indem es verschiedene Dinge ausprobiert. Es bekommt ein positives Signal, wenn es sich in
00:03:09die richtige Richtung bewegt, und ein negatives, wenn nicht. Die gleiche Idee gilt hier, nur dass das Modell selbst
00:03:14nicht trainiert wird. Stattdessen arbeitet der Agent daran, die von Ihnen gewünschte Aufgabe zu erfüllen,
00:03:19und iteriert auf die gleiche Weise, wie sich ein Modell während des Trainings verbessern würde. Wenn er scheitert, markiert die Schleife,
00:03:23die Sie auf den Agenten gesetzt haben, die Aufgabe nicht als erledigt. Er versucht es erneut, macht weiter und korrigiert sich selbst, bis
00:03:28er das von Ihnen gesetzte Ziel erreicht. Nun, nachdem Sie das alles gehört haben, fragen Sie sich vielleicht, was eigentlich für Sie
00:03:33noch zu tun bleibt, wenn alles autonom wird. Aber Ihre Rolle schrumpft nicht, sie wird wichtiger.
00:03:38Denn es ist Ihr Fachwissen und Ihre Erfahrung, die das Endziel überhaupt erst definieren, und
00:03:43das spiegelt sich in allem wider, was Sie bauen und ausliefern. Genau deshalb beschleunigt sich der Vorstoß hin zu autonomen
00:03:48Schleifen nur und zeigt sich in jedem neuen Feature, das gerade herauskommt. Fable 5 ist das
00:03:54bisher klarste Beispiel. Anthropic hat es herausgebracht, obwohl sie zu einer Verlangsamung der KI-
00:03:59Entwicklung aufgerufen hatten, weil die Modelle in einem Tempo fähig werden, bei dem man kaum noch mithalten kann. Und nachdem
00:04:03sie es für einige Zeit veröffentlicht hatten, haben sie es sogar wieder zurückgezogen. Sie haben es für lange und komplexe Aufgaben gebaut und es
00:04:08funktioniert umso besser, je länger und komplexer die Aufgabe wird, was im Grunde das Gegenteil davon ist, wie Modelle
00:04:13früher funktionierten. Diese Verschiebung begann wirklich mit Opus 4.5. Sobald das erschien, wurden lang laufende Aufgaben
00:04:19dramatisch besser. Und man musste Agenten nicht mehr mit sorgfältig geführten Strukturen ausstatten,
00:04:23im Grunde strukturierten Setups, die den Agenten durch jeden Schritt begleiten. Der Fokus verlagerte sich stattdessen darauf,
00:04:28das Projekt für den langfristigen Betrieb vorzubereiten, da die Modelle jetzt fähig genug sind, Dinge
00:04:33alleine zu handhaben, ohne viel schrittweise Anleitung. Aber die Schleife ist nicht das Einzige, was
00:04:38zählt. Sie müssen Ihr Projekt auch so strukturieren, dass der Agent für lange Zeit alleine daran arbeiten kann,
00:04:43ohne dass Sie eingreifen müssen. Deshalb haben viele Leute Systeme für genau diese Art von Setup gebaut und als Open Source veröffentlicht.
00:04:48Die RALF-Schleife war eine der ersten. Sie funktionierte, indem sie das Endziel festlegte
00:04:53und sicherstellte, dass der Agent nicht davon abweichen konnte. Dies geschah durch Hooks, die im Grunde
00:04:57Skripte sind, die automatisch ausgeführt werden, wenn etwas Bestimmtes passiert. Dieses Skript verhindert strikt, dass der Agent
00:05:03eine Aufgabe als erledigt markiert, es sei denn, sie hat die Bedingung tatsächlich erfüllt. Aber Hooks sind starr, also hat Claude seinen eigenen Zielbefehl eingeführt,
00:05:09der dasselbe tat, aber flexibler war. Statt einer hart codierten Prüfung lässt es
00:05:14ein anderes Modell entscheiden, ob die Aufgabe tatsächlich abgeschlossen ist. Wir haben Goal Buddy 2 behandelt, das darauf aufbaute,
00:05:19indem der Agent seinen Fortschritt in lokalen Dateien verfolgt und genau definiert, wie “erledigt” aussieht,
00:05:24bevor er überhaupt anfängt, damit er immer weiß, worauf er hinarbeitet. Der Hermes-Agent und OpenClaw wurden beide
00:05:29auf derselben Philosophie aufgebaut. Sie nehmen Sie komplett aus dem Bild und lassen den Agenten alles
00:05:35von alleine erledigen. Wenn Sie diese Schleifen bauen wollen, haben wir ein einfaches Fünf-Schritte-System für Sie, und da
00:05:40es zwei Arten von Schleifen gibt, funktionieren einige dieser Schritte etwas anders, aber wir gehen später auf beide Typen ein.
00:05:45Für den Moment beginnen wir in Claude Code und später im Video schauen wir uns an, wie man dasselbe
00:05:49im Hermes-Agenten macht. Der erste Schritt ist die Überprüfung des Zustands, in dem sich das Projekt befindet. Daraus entscheidet das Modell,
00:05:54was die nächste Aktion sein sollte. Dann handelt es nach dieser Entscheidung, und hier passiert die eigentliche Arbeit.
00:05:59Der Agent ruft Tools auf, schreibt in Dateien und führt Befehle aus, um die Aufgabe zu erledigen. Sobald das
00:06:04fertig ist, sammelt er Feedback, um zu sehen, was tatsächlich passiert ist, und entscheidet basierend darauf, ob die
00:06:09Aufgabe erledigt ist oder nicht. Das ist auch der Punkt, an dem der Unterschied zwischen Prompt-Engineering und Loop-Engineering
00:06:14deutlich wird. Beim Prompt-Engineering steuern Sie nur den Entscheidungsschritt, während Loop-Engineering
00:06:19alle fünf zusammen handhabt. Eine Schleife zu bauen, die gut funktioniert, bedeutet, eine Handvoll Dinge richtig zu machen, und
00:06:24jedes einzelne davon ist da, weil es ein spezifisches Problem löst. Das erste ist das Kontextmanagement. Sie achten darauf,
00:06:29was bei jedem Schritt in den Kontext eingeht, denn das bestimmt, was der Agent
00:06:34tatsächlich zu jedem Zeitpunkt weiß. Sie können sich nicht nur auf den Chat-Kontext verlassen, selbst mit Kontextfenstern
00:06:39von einer Million Tokens, also wie viel der Agent gleichzeitig im Arbeitsspeicher halten kann, denn wenn die
00:06:44Konversation wächst, werden Ihr System-Prompt und Ihre Anweisungen unter aktuellen Tool-Ausgaben begraben. Die Aufmerksamkeit des Agenten
00:06:50zieht sich natürlich zu dem, was am aktuellsten ist, sodass die wichtigen Dinge verloren gehen. Deshalb
00:06:55ist Kontextmanagement so wichtig. Das nächste, was man richtig machen muss, ist die Feedback-Qualität. Feedback sagt
00:07:00dem Agenten, wie er abgeschnitten hat, und es ist eines der wichtigsten Signale im gesamten System. Es kann viele
00:07:05Formen annehmen, wie das Ergebnis eines Testlaufs oder einen Screenshot der Benutzeroberfläche, die er gerade gebaut hat, und welche Form es auch annimmt,
00:07:11das ist das, was der Agent liest, um seinen nächsten Schritt zu bestimmen. Verifizierungs-Gates sind das, was dieses Feedback
00:07:16in ein klares Urteil verwandeln. Sie sind die Checkpoints, die dem Agenten sagen, ob eine Aufgabe tatsächlich erledigt ist oder
00:07:21nicht. Sie brauchen auch eine Abbruchbedingung, im Grunde eine Regel, die der Schleife sagt, wann sie aufhören soll, und diese muss
00:07:26explizit festgelegt werden, sonst beendet der Agent die Arbeit entweder zu früh oder macht weiter, ohne echte
00:07:31Fortschritte zu erzielen. Was die Leute am häufigsten übersehen, ist die Fehlerbehandlung. Sie müssen explizit angeben, was das Modell
00:07:36tun soll, wenn ein Tool-Aufruf fehlschlägt, damit das System ihn sauber handhabt, anstatt Dinge in
00:07:41einem fehlerhaften Zustand zu hinterlassen, der nur weitere Probleme schafft. Und schließlich müssen Sie den Status über Runden hinweg verwalten,
00:07:46im Grunde den Fortschritt der Aufgabe verfolgen, während die Konversation wächst. Das Kontextfenster kann nicht
00:07:51alles für immer halten, also stützen Sie sich auf externe Dateien, die Informationen für den Agenten verfolgen und ihn weiter
00:07:57arbeiten lassen, ohne den Faden zu verlieren. Eines sollten Sie jedoch beachten: Da Sie die Aufgabe,
00:08:01den Pfad herauszufinden, an das Modell abgeben, anstatt es selbst zu tun, werden Schleifen teuer in Bezug auf Tokens,
00:08:06also müssen Sie bewusst entscheiden, wann Sie sie tatsächlich verwenden. Je mehr Tokens eine Schleife
00:08:11verarbeiten kann, desto besser kommt sie tendenziell mit der Aufgabe zurecht. Aber bevor wir weitermachen, ein Wort von
00:08:15unserem Sponsor Scrimba. Die meisten Python-Kurse bestehen nur aus jemandem, der über Folien spricht. Scrimba ist anders,
00:08:21ihr Videoplayer ist der Code-Editor, sodass Sie jederzeit pausieren, den Code des Dozenten direkt bearbeiten
00:08:26und sehen können, was passiert. Kein Tab-Wechsel, kein Copy-Paste, nur praktisches Programmieren von Anfang an.
00:08:31Ihr neuer Kurs “Lerne Python” hat meine Aufmerksamkeit erregt, weil Sie statt zufälliger Übungen tatsächlich
00:08:37etwas Reales bauen. Vom ersten Tag an bauen Sie PayUp, eine voll funktionsfähige App zur Spesenaufteilung,
00:08:42und jedes Konzept wird sofort angewendet. Sie starten bei absolut null, keine Vorkenntnisse in Python erforderlich,
00:08:47und arbeiten sich durch Variablen, Strings, das Erfassen von Benutzereingaben, arithmetische Operatoren, Typkonvertierung,
00:08:53Datenbereinigung und Zahlenformatierung, alles durch das Bauen von Funktionen für die App. Am Ende
00:08:57haben Sie ein funktionierendes Projekt von Grund auf gebaut, das beweist, dass Sie Python tatsächlich beherrschen. Dies ist nur
00:09:02einer von mehreren Teilen, die in den kommenden Wochen verfügbar werden, und derzeit ist der Zugriff darauf
00:09:07komplett kostenlos. Fangen Sie noch heute mit ihren kostenlosen Kursen an, und unsere Nutzer erhalten zusätzlich 20% Rabatt auf ihre Pro-
00:09:12Pläne. Klicken Sie also auf den Link im angepinnten Kommentar oder scannen Sie den QR-Code und fangen Sie heute an zu bauen.
00:09:18Wie wir bereits erwähnt haben, gibt es zwei Arten von Schleifen. Die erste heißt die deterministische Schleife. Sie verwenden sie
00:09:23für Aufgaben, bei denen klar definiert ist, wie “erledigt” aussieht; das können bestandene Tests sein,
00:09:28erfolgreich kompilierter Code oder Ähnliches. Auf diese Schleifen lässt sich ziemlich direkt hinarbeiten,
00:09:33da das Endziel klar ist, sodass das Modell genau weiß, was es tun muss, bevor es die Aufgabe als
00:09:38erledigt bezeichnen kann. Da Hermes immer läuft, ist es ein wirklich guter Agent, um diese Schleife zu implementieren. Wir haben
00:09:43schon mehrfach Workflows darauf erstellt und in unserem vorherigen Video gezeigt, wie er viele unserer Aufgaben
00:09:49von alleine erledigt. Der Kern einer deterministischen Schleife ist die klare Definition des Endziels, und für die Apps,
00:09:54die Sie gehostet haben, sind diese Definitionen Ihre Tests. Sie können also den Hermes-Agenten auf jede App richten, die Sie mit Testfällen
00:09:59bereitgestellt haben, und ihn diese für Sie überwachen lassen. Wenn eine Änderung oder ein Commit am Ende die Produktion beschädigt,
00:10:04können Sie eine Automatisierung auf Hermes einrichten, um dies zu erkennen. Der Grund, warum es hier am besten funktioniert, ist, dass er
00:10:09mit der “Selbstentwickelnde Fähigkeiten”-Funktion kommt, sodass er automatisch Fähigkeiten basierend auf dem
00:10:14Workflow erstellt und weiterentwickelt, was den Zustand der App unter Kontrolle hält. Sobald Sie diese Überwachungsautomatisierung eingerichtet haben, können Sie ihn
00:10:18bitten, Claude Code im nicht-interaktiven Modus zu starten, ihn also im Grunde alleine laufen zu lassen, ohne dass Sie
00:10:23ihn steuern müssen, und Probleme in einer Schleife beheben lassen, bis alle Testfälle bestanden sind. Was er dann tut,
00:10:28ist den Automatisierungs-Workflow einzurichten und Fähigkeiten wie die “Sub-Agent-gesteuerte Entwicklung”-Fähigkeit
00:10:34und die “GitHub PR-Workflow”-Fähigkeit zu laden, die ihm sagen, wie er die App auf GitHub verwaltet. Er identifiziert zuerst die
00:10:39Probleme, die die Produktion beeinträchtigten, und startet dann Claude Code im nicht-interaktiven Modus, der
00:10:44die Tests durchführt und die Änderungen committet, sobald alle bestanden sind. Nachdem er jeden Test ausgeführt und behoben hat, was auch immer
00:10:50das Scheitern der Produktion verursacht hat, verwendet er die GitHub CLI, um die Änderungen zu committen. Die App läuft am Ende
00:10:55ohne Fehler, weil er bestätigt hat, dass alle Prüfungen für eine erfolgreiche Bereitstellung vorhanden sind.
00:11:00Wenn Ihnen diese Aufschlüsselungen gefallen, abonnieren Sie den Kanal, klicken Sie auf die Benachrichtigungsglocke und drücken Sie auch den Hype-
00:11:05Button. Auf dem Kanal posten wir Inhalte, die Ihnen helfen, neue Wege zu lernen, um verschiedene
00:11:10Prozesse in verschiedenen Unternehmen mit KI zu optimieren. Ihre Unterstützung, sei es durch das Abonnieren, die Benachrichtigungs-
00:11:15glocke oder den Hype-Button, hilft uns, mehr solcher Inhalte zu erstellen und mehr Menschen zu erreichen. Das bedeutet uns viel.
00:11:21Nun, die zweite Art ist die nicht-deterministische Schleife, und das sind Aufgaben, bei denen man nicht einfach eine klare
00:11:26Regel festlegen kann, um zu prüfen, ob die Arbeit erledigt ist, so wie bei deterministischen Schleifen. Aufgrund dessen
00:11:31gibt es keinen sauberen Weg, das Ergebnis zu verifizieren. Das sind Dinge, die wir als Menschen ansehen
00:11:36und selbst beurteilen können, wie das Bauen einer Benutzeroberfläche oder das Implementieren einer Funktion, die eine Entscheidung erfordert.
00:11:41Wenn Sie also mit einer nicht-deterministischen Schleife arbeiten, ist der Workflow anders. Wenn Sie
00:11:46KI auf eine Benutzeroberfläche anwenden, wissen Sie bereits, dass sie dazu neigt, immer auf dieselben Muster zurückzufallen. Deshalb haben wir
00:11:51eine Fähigkeit namens “KI-Slop-Detektor” entwickelt, die alle Anweisungen enthält, wie man KI-Slop vermeidet, und die
00:11:57Muster auflistet, die sie tatsächlich verraten. Und der Grund, warum wir Hermes wieder verwenden, sind die selbst-entwickelnden
00:12:02Fähigkeiten. Wenn wir nach Ausführung der Fähigkeit immer noch KI-Slop in der Benutzeroberfläche finden, kann die Fähigkeit sich selbst aktualisieren,
00:12:07um das Feedback direkt einzubeziehen, und genau deshalb haben wir diesen Workflow auf Hermes eingerichtet. Also baten wir
00:12:13Hermes, die Fähigkeit zu nutzen und zu prüfen, ob die Benutzeroberfläche eines dieser Muster aufweist. Wenn ja, behebt er sie
00:12:18und startet Claude Code im nicht-interaktiven Modus, um die Fähigkeit auszuführen und weiterhin zu beheben, was er findet, bis
00:12:23nichts mehr zu beheben ist. Ein weiterer Vorteil, den wir von Hermes erhalten, ist, dass das Modell, das die Arbeit überprüft, ein
00:12:28anderes ist als das, das sie baut. Wir haben die GPT-Modelle verwendet, die dafür bekannt sind, zu den besten für
00:12:33Code-Reviews zu gehören, sodass die Claude-Modelle der Erbauer und der andere Agent der Verifizierer wird. Das ist es, was
00:12:38die gegnerische Schleife vervollständigt, in der die beiden die Arbeit des anderen prüfen. Sobald diese Schleife lief, erzeugte sie
00:12:43eine viel bessere Benutzeroberfläche als das generische Ergebnis, das die Opus-Modelle heutzutage liefern. Und wenn Sie immer noch Anzeichen von KI-
00:12:49Slop in der Benutzeroberfläche entdecken, nachdem die Agentenschleife beendet ist, können Sie es einfach erwähnen und er wird die Fähigkeit für
00:12:54Sie aktualisieren und den Verifizierer stärken, den Sie bereits haben. Wir haben diese Fähigkeit erweitert, um mehrere KI-Slop-
00:12:59Muster abzugleichen, die wir und Hermes gemeinsam identifiziert haben. Wenn Sie diese Fähigkeit nutzen möchten, können Sie sie von unserem
00:13:04Community AI Labs Pro erhalten. Der Link befindet sich in der Beschreibung. Das bringt uns an das Ende dieses Videos.
00:13:09Wenn Sie den Kanal unterstützen und uns helfen möchten, weiterhin Videos wie dieses zu machen, können Sie dies tun, indem Sie den
00:13:14Super-Thanks-Button unten verwenden. Wie immer vielen Dank fürs Zuschauen und ich sehe Sie im nächsten Video.

Key Takeaway

Durch das Design von Loop-Engineering-Systemen, die Coding-Agenten wie Hermes und Claude Code automatisch steuern und iterativ Fehler korrigieren, wird die Effizienz bei komplexen Entwicklungsvorhaben um das Zehnfache gesteigert.

Highlights

  • Loop-Engineering verschiebt den Fokus von der manuellen Erstellung einzelner Prompts hin zum Design autonomer Systeme, die Coding-Agenten steuern.

  • Autonome Schleifen verbessern die Leistung von Agenten wie Hermes um das Zehnfache, indem sie Aufgaben iterativ korrigieren und selbstständig ausführen.

  • Deterministische Schleifen nutzen klare Abbruchbedingungen wie bestandene Unit-Tests oder erfolgreiche Code-Kompilierung, um den Abschluss einer Aufgabe zu verifizieren.

  • Nicht-deterministische Schleifen implementieren eine gegnerische Architektur, bei der ein Agent die Arbeit eines anderen prüft, um beispielsweise KI-generierte Oberflächenfehler (KI-Slop) zu minimieren.

  • Eine effektive Loop-Konfiguration erfordert ein System, das Kontextmanagement, Feedback-Qualität, Verifizierungs-Gates, explizite Abbruchbedingungen und Fehlerbehandlung integriert.

  • Der Einsatz von externen Dateien zur Statusverfolgung über Konversationsrunden hinweg verhindert, dass Agenten bei langen Aufgaben den Faden verlieren, wenn das Kontextfenster begrenzt ist.

Timeline

Grundlagen und Paradigmenwechsel zum Loop-Engineering

  • Loop-Engineering ersetzt manuelles Prompt-Engineering durch den Entwurf autonomer, selbststeuernder Systeme.
  • Entwickler definieren das Endziel, während der Agent Schritte, Fehlerkorrektur und Problemlösung autonom übernimmt.
  • Moderne Modelle wie Claude 3.5 Opus ermöglichen lang laufende Aufgaben ohne kleinteilige Anleitung durch den Menschen.

Die Entwicklung bewegt sich weg von starren Prompt-Strukturen hin zu Systemarchitekturen, die Agenten autonom steuern. Während früher Menschen als Fehlerprüfer zwischen jedem Schritt fungierten, übernehmen nun Schleifen diese Aufgabe. Cron-Jobs dienen als einfache Analogie für geplante Automatisierung, wobei moderne Agenten dynamisch auf Feedback reagieren, ähnlich wie bei Trainingsprozessen im Reinforcement Learning.

Architektur und Implementierung von Agenten-Schleifen

  • Ein Fünf-Schritte-Prozess umfasst Zustandsprüfung, Aktionsentscheidung, Tool-Ausführung, Feedback-Sammlung und Abschlussbewertung.
  • Effektives Kontextmanagement ist entscheidend, da das aktuelle System-Prompt und Anweisungen bei wachsenden Konversationen unter Tool-Ausgaben verloren gehen können.
  • Verifizierungs-Gates dienen als Checkpoints, um den Abschluss einer Aufgabe objektiv zu bestimmen.

Der Aufbau einer robusten Schleife erfordert die Beherrschung von Kontextmanagement, Feedback-Qualität und Fehlerbehandlung. Agenten müssen explizite Anweisungen für den Fall erhalten, dass Tool-Aufrufe fehlschlagen, um einen stabilen Zustand zu gewährleisten. Externe Dateien unterstützen die Statusverwaltung über viele Runden hinweg, da das Token-Limit des Arbeitsspeichers für langfristige Projekte oft unzureichend ist.

Deterministische vs. Nicht-deterministische Anwendungsfälle

  • Deterministische Schleifen eignen sich für Aufgaben mit binären Erfolgskriterien wie Unit-Tests oder Code-Kompilierung.
  • Nicht-deterministische Schleifen nutzen gegnerische Agenten-Architekturen zur subjektiven Qualitätsprüfung, beispielsweise zur Erkennung von KI-Slop.
  • Hermes-Agenten mit selbstentwickelnden Fähigkeiten können Workflows dynamisch anpassen und verbessern.

Deterministische Schleifen werden auf Hermes mit automatisierten Test-Workflows implementiert, um die Produktion stabil zu halten und Fehler automatisch zu beheben. Im Gegensatz dazu verwenden nicht-deterministische Ansätze getrennte Rollen für Erbauer und Verifizierer, etwa GPT-Modelle für das Code-Review von Claude-generierten Inhalten. Dies ermöglicht eine kontinuierliche Verbesserung der Arbeitsergebnisse durch iteratives Feedback.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video