Loop Engineering verbessert Hermes-Agenten um das Zehnfache
AAI LABS
Computing/SoftwareInternet Technology
Transcript
00:00:00Es gibt einen neuen Begriff, der gerade die Runde macht, und vielleicht haben Sie ihn schon gehört.
00:00:04Er heißt Loop-Engineering, und wie bei jedem anderen Hype-Begriff reden alle davon, als wäre es etwas Neues.
00:00:09Das ist es nicht, aber wenn man ihn mit einem ständig laufenden Agenten wie Hermes kombiniert, hört er auf, ein Hype zu sein.
00:00:13Die meisten, die versuchen, das einzurichten, bekommen zwar die Schleife hin, verpassen aber die Sache, die
00:00:17es tatsächlich zum Funktionieren bringt. Und wenn Sie schon wissen, dass es zwei Arten von Schleifen gibt, gibt es eine spezifische Konfiguration,
00:00:22die fast niemand macht. Sobald Sie sie sehen, ändert sich Ihre Art, mit Agenten zu bauen,
00:00:27komplett. Am Ende dieses Videos werden Sie genau verstehen, was es ist, und Sie werden es
00:00:31auf Hermes und sogar Claude Code laufen lassen, ohne dass Sie überhaupt eingreifen müssen. Bei Loop-Engineering
00:00:36ist die Grundidee einfach. Sie sind nicht mehr die Person, die den Prompt schreibt, der den Agenten steuert, und
00:00:41stattdessen lassen Sie den Agenten sich selbst steuern. Aber um zu sehen, warum es überhaupt eine Verschiebung ist,
00:00:46müssen Sie es mit dem vergleichen, was vorher war. Die Fähigkeit, auf die es früher ankam, war Prompt-Engineering, wobei sich unser ganzer Fokus
00:00:51darauf konzentrierte, die richtige Reihe von Anweisungen zu schreiben, um den Coding-Agenten richtig zu steuern. Aber Loop-Engineering
00:00:56dreht das um. Statt den Prompt selbst zu schreiben, entwerfen Sie das System, das das
00:01:01Prompt-Engineering für Sie übernimmt und den Agenten von alleine steuert. Der Fokus verschiebt sich also vom Erstellen von
00:01:05Anweisungen hin zum Entwerfen von Systemen, die von selbst laufen. Das alles begann, als der Schöpfer
00:01:10von OpenClaw sagte, dass man seine Coding-Agenten nicht mehr prompten sollte und dass man sich darauf konzentrieren sollte,
00:01:15Schleifen zu entwerfen, die den Agenten für einen prompten. Und er ist nicht der Einzige. Boris, der Schöpfer von
00:01:20Claude Code, machte auf der jährlichen Entwicklerkonferenz von Anthropic dieselbe Aussage, wo er sagte, er
00:01:25prompte Claude nicht mehr. Er hat Schleifen laufen, die Claude prompten, und es findet selbst heraus,
00:01:30was getan werden muss. Die Frage ist also, wie fängt man damit an? Alles läuft darauf hinaus,
00:01:34wie gut Sie die Systeme einrichten können, bei denen Sie sich überhaupt keine Sorgen mehr um das Prompten des Agenten machen müssen.
00:01:39Sie definieren, was Sie brauchen, und der Agent erledigt den Rest. Genau da steuert die KI-gestützte Entwicklung
00:01:45hin. Bevor wir dazu kommen, wie man sie tatsächlich baut, müssen Sie sich klar machen, was eine Schleife ist. Eine Schleife ist
00:01:50im Grunde ein Prozess, bei dem Sie das Endziel definieren und der Agent die Schritte herausfindet, um es von
00:01:56alleine zu erreichen. Er korrigiert sich auf dem Weg selbst und arbeitet sich durch Probleme, bis er das von Ihnen gesetzte Ziel erreicht.
00:02:01Vor ein paar Monaten, bevor die Modelle fähig genug waren, lange Aufgaben zu bewältigen, war das nicht möglich. Wenn Sie
00:02:06eine App bauen mussten, haben Sie den Agenten gepromptet, überwacht, was er tat, das Ergebnis selbst geprüft,
00:02:11die Probleme gefunden und erneut gepromptet, um sie zu beheben. Sie waren die Schleife. Sie waren der Teil, der die Fehlerprüfung
00:02:16und Kurskorrekturen zwischen jedem Schritt vornahm. So sieht Entwicklung für die meisten Menschen immer noch aus,
00:02:20und genau das wird Ihnen das Loop-Engineering abnehmen. Nun, das mag
00:02:25wie ein brandneues Konzept klingen, aber Schleifen gibt es tatsächlich schon eine Weile. Cron-Jobs sind
00:02:30ein gutes Beispiel für eine Schleife, die Sie wahrscheinlich schon gesehen haben. Es sind einfach Aufgaben, die so geplant sind, dass sie wiederholt
00:02:35und automatisch ablaufen, ohne dass Sie sie jedes Mal auslösen müssen. Der einzige wirkliche Unterschied ist, dass ein
00:02:39Cron-Job zu einer festen Zeit läuft. Mit Schleifen geht es also nicht mehr darum, den Prompt zu schreiben.
00:02:44Die Leistung Ihres Agenten bei einer Aufgabe hängt davon ab, wie gut Sie das Endziel definieren. Für einige von Ihnen
00:02:49wird dieser Prozess sehr nach Reinforcement Learning klingen. Falls Sie noch nicht darauf gestoßen sind: Reinforcement Learning
00:02:54ist im Grunde eine Methode zum Training eines Modells, bei der man ihm nicht die richtigen Antworten zeigt. Stattdessen sagt man ihm nur,
00:02:59wann es gut war und wann nicht, und es findet allmählich von selbst heraus, wie es besser werden kann.
00:03:04Das Modell findet den richtigen Pfad, indem es verschiedene Dinge ausprobiert. Es bekommt ein positives Signal, wenn es sich in
00:03:09die richtige Richtung bewegt, und ein negatives, wenn nicht. Die gleiche Idee gilt hier, nur dass das Modell selbst
00:03:14nicht trainiert wird. Stattdessen arbeitet der Agent daran, die von Ihnen gewünschte Aufgabe zu erfüllen,
00:03:19und iteriert auf die gleiche Weise, wie sich ein Modell während des Trainings verbessern würde. Wenn er scheitert, markiert die Schleife,
00:03:23die Sie auf den Agenten gesetzt haben, die Aufgabe nicht als erledigt. Er versucht es erneut, macht weiter und korrigiert sich selbst, bis
00:03:28er das von Ihnen gesetzte Ziel erreicht. Nun, nachdem Sie das alles gehört haben, fragen Sie sich vielleicht, was eigentlich für Sie
00:03:33noch zu tun bleibt, wenn alles autonom wird. Aber Ihre Rolle schrumpft nicht, sie wird wichtiger.
00:03:38Denn es ist Ihr Fachwissen und Ihre Erfahrung, die das Endziel überhaupt erst definieren, und
00:03:43das spiegelt sich in allem wider, was Sie bauen und ausliefern. Genau deshalb beschleunigt sich der Vorstoß hin zu autonomen
00:03:48Schleifen nur und zeigt sich in jedem neuen Feature, das gerade herauskommt. Fable 5 ist das
00:03:54bisher klarste Beispiel. Anthropic hat es herausgebracht, obwohl sie zu einer Verlangsamung der KI-
00:03:59Entwicklung aufgerufen hatten, weil die Modelle in einem Tempo fähig werden, bei dem man kaum noch mithalten kann. Und nachdem
00:04:03sie es für einige Zeit veröffentlicht hatten, haben sie es sogar wieder zurückgezogen. Sie haben es für lange und komplexe Aufgaben gebaut und es
00:04:08funktioniert umso besser, je länger und komplexer die Aufgabe wird, was im Grunde das Gegenteil davon ist, wie Modelle
00:04:13früher funktionierten. Diese Verschiebung begann wirklich mit Opus 4.5. Sobald das erschien, wurden lang laufende Aufgaben
00:04:19dramatisch besser. Und man musste Agenten nicht mehr mit sorgfältig geführten Strukturen ausstatten,
00:04:23im Grunde strukturierten Setups, die den Agenten durch jeden Schritt begleiten. Der Fokus verlagerte sich stattdessen darauf,
00:04:28das Projekt für den langfristigen Betrieb vorzubereiten, da die Modelle jetzt fähig genug sind, Dinge
00:04:33alleine zu handhaben, ohne viel schrittweise Anleitung. Aber die Schleife ist nicht das Einzige, was
00:04:38zählt. Sie müssen Ihr Projekt auch so strukturieren, dass der Agent für lange Zeit alleine daran arbeiten kann,
00:04:43ohne dass Sie eingreifen müssen. Deshalb haben viele Leute Systeme für genau diese Art von Setup gebaut und als Open Source veröffentlicht.
00:04:48Die RALF-Schleife war eine der ersten. Sie funktionierte, indem sie das Endziel festlegte
00:04:53und sicherstellte, dass der Agent nicht davon abweichen konnte. Dies geschah durch Hooks, die im Grunde
00:04:57Skripte sind, die automatisch ausgeführt werden, wenn etwas Bestimmtes passiert. Dieses Skript verhindert strikt, dass der Agent
00:05:03eine Aufgabe als erledigt markiert, es sei denn, sie hat die Bedingung tatsächlich erfüllt. Aber Hooks sind starr, also hat Claude seinen eigenen Zielbefehl eingeführt,
00:05:09der dasselbe tat, aber flexibler war. Statt einer hart codierten Prüfung lässt es
00:05:14ein anderes Modell entscheiden, ob die Aufgabe tatsächlich abgeschlossen ist. Wir haben Goal Buddy 2 behandelt, das darauf aufbaute,
00:05:19indem der Agent seinen Fortschritt in lokalen Dateien verfolgt und genau definiert, wie “erledigt” aussieht,
00:05:24bevor er überhaupt anfängt, damit er immer weiß, worauf er hinarbeitet. Der Hermes-Agent und OpenClaw wurden beide
00:05:29auf derselben Philosophie aufgebaut. Sie nehmen Sie komplett aus dem Bild und lassen den Agenten alles
00:05:35von alleine erledigen. Wenn Sie diese Schleifen bauen wollen, haben wir ein einfaches Fünf-Schritte-System für Sie, und da
00:05:40es zwei Arten von Schleifen gibt, funktionieren einige dieser Schritte etwas anders, aber wir gehen später auf beide Typen ein.
00:05:45Für den Moment beginnen wir in Claude Code und später im Video schauen wir uns an, wie man dasselbe
00:05:49im Hermes-Agenten macht. Der erste Schritt ist die Überprüfung des Zustands, in dem sich das Projekt befindet. Daraus entscheidet das Modell,
00:05:54was die nächste Aktion sein sollte. Dann handelt es nach dieser Entscheidung, und hier passiert die eigentliche Arbeit.
00:05:59Der Agent ruft Tools auf, schreibt in Dateien und führt Befehle aus, um die Aufgabe zu erledigen. Sobald das
00:06:04fertig ist, sammelt er Feedback, um zu sehen, was tatsächlich passiert ist, und entscheidet basierend darauf, ob die
00:06:09Aufgabe erledigt ist oder nicht. Das ist auch der Punkt, an dem der Unterschied zwischen Prompt-Engineering und Loop-Engineering
00:06:14deutlich wird. Beim Prompt-Engineering steuern Sie nur den Entscheidungsschritt, während Loop-Engineering
00:06:19alle fünf zusammen handhabt. Eine Schleife zu bauen, die gut funktioniert, bedeutet, eine Handvoll Dinge richtig zu machen, und
00:06:24jedes einzelne davon ist da, weil es ein spezifisches Problem löst. Das erste ist das Kontextmanagement. Sie achten darauf,
00:06:29was bei jedem Schritt in den Kontext eingeht, denn das bestimmt, was der Agent
00:06:34tatsächlich zu jedem Zeitpunkt weiß. Sie können sich nicht nur auf den Chat-Kontext verlassen, selbst mit Kontextfenstern
00:06:39von einer Million Tokens, also wie viel der Agent gleichzeitig im Arbeitsspeicher halten kann, denn wenn die
00:06:44Konversation wächst, werden Ihr System-Prompt und Ihre Anweisungen unter aktuellen Tool-Ausgaben begraben. Die Aufmerksamkeit des Agenten
00:06:50zieht sich natürlich zu dem, was am aktuellsten ist, sodass die wichtigen Dinge verloren gehen. Deshalb
00:06:55ist Kontextmanagement so wichtig. Das nächste, was man richtig machen muss, ist die Feedback-Qualität. Feedback sagt
00:07:00dem Agenten, wie er abgeschnitten hat, und es ist eines der wichtigsten Signale im gesamten System. Es kann viele
00:07:05Formen annehmen, wie das Ergebnis eines Testlaufs oder einen Screenshot der Benutzeroberfläche, die er gerade gebaut hat, und welche Form es auch annimmt,
00:07:11das ist das, was der Agent liest, um seinen nächsten Schritt zu bestimmen. Verifizierungs-Gates sind das, was dieses Feedback
00:07:16in ein klares Urteil verwandeln. Sie sind die Checkpoints, die dem Agenten sagen, ob eine Aufgabe tatsächlich erledigt ist oder
00:07:21nicht. Sie brauchen auch eine Abbruchbedingung, im Grunde eine Regel, die der Schleife sagt, wann sie aufhören soll, und diese muss
00:07:26explizit festgelegt werden, sonst beendet der Agent die Arbeit entweder zu früh oder macht weiter, ohne echte
00:07:31Fortschritte zu erzielen. Was die Leute am häufigsten übersehen, ist die Fehlerbehandlung. Sie müssen explizit angeben, was das Modell
00:07:36tun soll, wenn ein Tool-Aufruf fehlschlägt, damit das System ihn sauber handhabt, anstatt Dinge in
00:07:41einem fehlerhaften Zustand zu hinterlassen, der nur weitere Probleme schafft. Und schließlich müssen Sie den Status über Runden hinweg verwalten,
00:07:46im Grunde den Fortschritt der Aufgabe verfolgen, während die Konversation wächst. Das Kontextfenster kann nicht
00:07:51alles für immer halten, also stützen Sie sich auf externe Dateien, die Informationen für den Agenten verfolgen und ihn weiter
00:07:57arbeiten lassen, ohne den Faden zu verlieren. Eines sollten Sie jedoch beachten: Da Sie die Aufgabe,
00:08:01den Pfad herauszufinden, an das Modell abgeben, anstatt es selbst zu tun, werden Schleifen teuer in Bezug auf Tokens,
00:08:06also müssen Sie bewusst entscheiden, wann Sie sie tatsächlich verwenden. Je mehr Tokens eine Schleife
00:08:11verarbeiten kann, desto besser kommt sie tendenziell mit der Aufgabe zurecht. Aber bevor wir weitermachen, ein Wort von
00:08:15unserem Sponsor Scrimba. Die meisten Python-Kurse bestehen nur aus jemandem, der über Folien spricht. Scrimba ist anders,
00:08:21ihr Videoplayer ist der Code-Editor, sodass Sie jederzeit pausieren, den Code des Dozenten direkt bearbeiten
00:08:26und sehen können, was passiert. Kein Tab-Wechsel, kein Copy-Paste, nur praktisches Programmieren von Anfang an.
00:08:31Ihr neuer Kurs “Lerne Python” hat meine Aufmerksamkeit erregt, weil Sie statt zufälliger Übungen tatsächlich
00:08:37etwas Reales bauen. Vom ersten Tag an bauen Sie PayUp, eine voll funktionsfähige App zur Spesenaufteilung,
00:08:42und jedes Konzept wird sofort angewendet. Sie starten bei absolut null, keine Vorkenntnisse in Python erforderlich,
00:08:47und arbeiten sich durch Variablen, Strings, das Erfassen von Benutzereingaben, arithmetische Operatoren, Typkonvertierung,
00:08:53Datenbereinigung und Zahlenformatierung, alles durch das Bauen von Funktionen für die App. Am Ende
00:08:57haben Sie ein funktionierendes Projekt von Grund auf gebaut, das beweist, dass Sie Python tatsächlich beherrschen. Dies ist nur
00:09:02einer von mehreren Teilen, die in den kommenden Wochen verfügbar werden, und derzeit ist der Zugriff darauf
00:09:07komplett kostenlos. Fangen Sie noch heute mit ihren kostenlosen Kursen an, und unsere Nutzer erhalten zusätzlich 20% Rabatt auf ihre Pro-
00:09:12Pläne. Klicken Sie also auf den Link im angepinnten Kommentar oder scannen Sie den QR-Code und fangen Sie heute an zu bauen.
00:09:18Wie wir bereits erwähnt haben, gibt es zwei Arten von Schleifen. Die erste heißt die deterministische Schleife. Sie verwenden sie
00:09:23für Aufgaben, bei denen klar definiert ist, wie “erledigt” aussieht; das können bestandene Tests sein,
00:09:28erfolgreich kompilierter Code oder Ähnliches. Auf diese Schleifen lässt sich ziemlich direkt hinarbeiten,
00:09:33da das Endziel klar ist, sodass das Modell genau weiß, was es tun muss, bevor es die Aufgabe als
00:09:38erledigt bezeichnen kann. Da Hermes immer läuft, ist es ein wirklich guter Agent, um diese Schleife zu implementieren. Wir haben
00:09:43schon mehrfach Workflows darauf erstellt und in unserem vorherigen Video gezeigt, wie er viele unserer Aufgaben
00:09:49von alleine erledigt. Der Kern einer deterministischen Schleife ist die klare Definition des Endziels, und für die Apps,
00:09:54die Sie gehostet haben, sind diese Definitionen Ihre Tests. Sie können also den Hermes-Agenten auf jede App richten, die Sie mit Testfällen
00:09:59bereitgestellt haben, und ihn diese für Sie überwachen lassen. Wenn eine Änderung oder ein Commit am Ende die Produktion beschädigt,
00:10:04können Sie eine Automatisierung auf Hermes einrichten, um dies zu erkennen. Der Grund, warum es hier am besten funktioniert, ist, dass er
00:10:09mit der “Selbstentwickelnde Fähigkeiten”-Funktion kommt, sodass er automatisch Fähigkeiten basierend auf dem
00:10:14Workflow erstellt und weiterentwickelt, was den Zustand der App unter Kontrolle hält. Sobald Sie diese Überwachungsautomatisierung eingerichtet haben, können Sie ihn
00:10:18bitten, Claude Code im nicht-interaktiven Modus zu starten, ihn also im Grunde alleine laufen zu lassen, ohne dass Sie
00:10:23ihn steuern müssen, und Probleme in einer Schleife beheben lassen, bis alle Testfälle bestanden sind. Was er dann tut,
00:10:28ist den Automatisierungs-Workflow einzurichten und Fähigkeiten wie die “Sub-Agent-gesteuerte Entwicklung”-Fähigkeit
00:10:34und die “GitHub PR-Workflow”-Fähigkeit zu laden, die ihm sagen, wie er die App auf GitHub verwaltet. Er identifiziert zuerst die
00:10:39Probleme, die die Produktion beeinträchtigten, und startet dann Claude Code im nicht-interaktiven Modus, der
00:10:44die Tests durchführt und die Änderungen committet, sobald alle bestanden sind. Nachdem er jeden Test ausgeführt und behoben hat, was auch immer
00:10:50das Scheitern der Produktion verursacht hat, verwendet er die GitHub CLI, um die Änderungen zu committen. Die App läuft am Ende
00:10:55ohne Fehler, weil er bestätigt hat, dass alle Prüfungen für eine erfolgreiche Bereitstellung vorhanden sind.
00:11:00Wenn Ihnen diese Aufschlüsselungen gefallen, abonnieren Sie den Kanal, klicken Sie auf die Benachrichtigungsglocke und drücken Sie auch den Hype-
00:11:05Button. Auf dem Kanal posten wir Inhalte, die Ihnen helfen, neue Wege zu lernen, um verschiedene
00:11:10Prozesse in verschiedenen Unternehmen mit KI zu optimieren. Ihre Unterstützung, sei es durch das Abonnieren, die Benachrichtigungs-
00:11:15glocke oder den Hype-Button, hilft uns, mehr solcher Inhalte zu erstellen und mehr Menschen zu erreichen. Das bedeutet uns viel.
00:11:21Nun, die zweite Art ist die nicht-deterministische Schleife, und das sind Aufgaben, bei denen man nicht einfach eine klare
00:11:26Regel festlegen kann, um zu prüfen, ob die Arbeit erledigt ist, so wie bei deterministischen Schleifen. Aufgrund dessen
00:11:31gibt es keinen sauberen Weg, das Ergebnis zu verifizieren. Das sind Dinge, die wir als Menschen ansehen
00:11:36und selbst beurteilen können, wie das Bauen einer Benutzeroberfläche oder das Implementieren einer Funktion, die eine Entscheidung erfordert.
00:11:41Wenn Sie also mit einer nicht-deterministischen Schleife arbeiten, ist der Workflow anders. Wenn Sie
00:11:46KI auf eine Benutzeroberfläche anwenden, wissen Sie bereits, dass sie dazu neigt, immer auf dieselben Muster zurückzufallen. Deshalb haben wir
00:11:51eine Fähigkeit namens “KI-Slop-Detektor” entwickelt, die alle Anweisungen enthält, wie man KI-Slop vermeidet, und die
00:11:57Muster auflistet, die sie tatsächlich verraten. Und der Grund, warum wir Hermes wieder verwenden, sind die selbst-entwickelnden
00:12:02Fähigkeiten. Wenn wir nach Ausführung der Fähigkeit immer noch KI-Slop in der Benutzeroberfläche finden, kann die Fähigkeit sich selbst aktualisieren,
00:12:07um das Feedback direkt einzubeziehen, und genau deshalb haben wir diesen Workflow auf Hermes eingerichtet. Also baten wir
00:12:13Hermes, die Fähigkeit zu nutzen und zu prüfen, ob die Benutzeroberfläche eines dieser Muster aufweist. Wenn ja, behebt er sie
00:12:18und startet Claude Code im nicht-interaktiven Modus, um die Fähigkeit auszuführen und weiterhin zu beheben, was er findet, bis
00:12:23nichts mehr zu beheben ist. Ein weiterer Vorteil, den wir von Hermes erhalten, ist, dass das Modell, das die Arbeit überprüft, ein
00:12:28anderes ist als das, das sie baut. Wir haben die GPT-Modelle verwendet, die dafür bekannt sind, zu den besten für
00:12:33Code-Reviews zu gehören, sodass die Claude-Modelle der Erbauer und der andere Agent der Verifizierer wird. Das ist es, was
00:12:38die gegnerische Schleife vervollständigt, in der die beiden die Arbeit des anderen prüfen. Sobald diese Schleife lief, erzeugte sie
00:12:43eine viel bessere Benutzeroberfläche als das generische Ergebnis, das die Opus-Modelle heutzutage liefern. Und wenn Sie immer noch Anzeichen von KI-
00:12:49Slop in der Benutzeroberfläche entdecken, nachdem die Agentenschleife beendet ist, können Sie es einfach erwähnen und er wird die Fähigkeit für
00:12:54Sie aktualisieren und den Verifizierer stärken, den Sie bereits haben. Wir haben diese Fähigkeit erweitert, um mehrere KI-Slop-
00:12:59Muster abzugleichen, die wir und Hermes gemeinsam identifiziert haben. Wenn Sie diese Fähigkeit nutzen möchten, können Sie sie von unserem
00:13:04Community AI Labs Pro erhalten. Der Link befindet sich in der Beschreibung. Das bringt uns an das Ende dieses Videos.
00:13:09Wenn Sie den Kanal unterstützen und uns helfen möchten, weiterhin Videos wie dieses zu machen, können Sie dies tun, indem Sie den
00:13:14Super-Thanks-Button unten verwenden. Wie immer vielen Dank fürs Zuschauen und ich sehe Sie im nächsten Video.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video