Loop Engineering verbessert Hermes-Agenten um das Zehnfache

Deutschالعربية English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

컴퓨터/소프트웨어AI/미래기술

Transcript

00:00:00Es gibt einen neuen Begriff, der gerade die Runde macht, und vielleicht haben Sie ihn schon gehört.

00:00:04Er heißt Loop-Engineering, und wie bei jedem anderen Hype-Begriff reden alle davon, als wäre es etwas Neues.

00:00:09Das ist es nicht, aber wenn man ihn mit einem ständig laufenden Agenten wie Hermes kombiniert, hört er auf, ein Hype zu sein.

00:00:13Die meisten, die versuchen, das einzurichten, bekommen zwar die Schleife hin, verpassen aber die Sache, die

00:00:17es tatsächlich zum Funktionieren bringt. Und wenn Sie schon wissen, dass es zwei Arten von Schleifen gibt, gibt es eine spezifische Konfiguration,

00:00:22die fast niemand macht. Sobald Sie sie sehen, ändert sich Ihre Art, mit Agenten zu bauen,

00:00:27komplett. Am Ende dieses Videos werden Sie genau verstehen, was es ist, und Sie werden es

00:00:31auf Hermes und sogar Claude Code laufen lassen, ohne dass Sie überhaupt eingreifen müssen. Bei Loop-Engineering

00:00:36ist die Grundidee einfach. Sie sind nicht mehr die Person, die den Prompt schreibt, der den Agenten steuert, und

00:00:41stattdessen lassen Sie den Agenten sich selbst steuern. Aber um zu sehen, warum es überhaupt eine Verschiebung ist,

00:00:46müssen Sie es mit dem vergleichen, was vorher war. Die Fähigkeit, auf die es früher ankam, war Prompt-Engineering, wobei sich unser ganzer Fokus

00:00:51darauf konzentrierte, die richtige Reihe von Anweisungen zu schreiben, um den Coding-Agenten richtig zu steuern. Aber Loop-Engineering

00:00:56dreht das um. Statt den Prompt selbst zu schreiben, entwerfen Sie das System, das das

00:01:01Prompt-Engineering für Sie übernimmt und den Agenten von alleine steuert. Der Fokus verschiebt sich also vom Erstellen von

00:01:05Anweisungen hin zum Entwerfen von Systemen, die von selbst laufen. Das alles begann, als der Schöpfer

00:01:10von OpenClaw sagte, dass man seine Coding-Agenten nicht mehr prompten sollte und dass man sich darauf konzentrieren sollte,

00:01:15Schleifen zu entwerfen, die den Agenten für einen prompten. Und er ist nicht der Einzige. Boris, der Schöpfer von

00:01:20Claude Code, machte auf der jährlichen Entwicklerkonferenz von Anthropic dieselbe Aussage, wo er sagte, er

00:01:25prompte Claude nicht mehr. Er hat Schleifen laufen, die Claude prompten, und es findet selbst heraus,

00:01:30was getan werden muss. Die Frage ist also, wie fängt man damit an? Alles läuft darauf hinaus,

00:01:34wie gut Sie die Systeme einrichten können, bei denen Sie sich überhaupt keine Sorgen mehr um das Prompten des Agenten machen müssen.

00:01:39Sie definieren, was Sie brauchen, und der Agent erledigt den Rest. Genau da steuert die KI-gestützte Entwicklung

00:01:45hin. Bevor wir dazu kommen, wie man sie tatsächlich baut, müssen Sie sich klar machen, was eine Schleife ist. Eine Schleife ist

00:01:50im Grunde ein Prozess, bei dem Sie das Endziel definieren und der Agent die Schritte herausfindet, um es von

00:01:56alleine zu erreichen. Er korrigiert sich auf dem Weg selbst und arbeitet sich durch Probleme, bis er das von Ihnen gesetzte Ziel erreicht.

00:02:01Vor ein paar Monaten, bevor die Modelle fähig genug waren, lange Aufgaben zu bewältigen, war das nicht möglich. Wenn Sie

00:02:06eine App bauen mussten, haben Sie den Agenten gepromptet, überwacht, was er tat, das Ergebnis selbst geprüft,

00:02:11die Probleme gefunden und erneut gepromptet, um sie zu beheben. Sie waren die Schleife. Sie waren der Teil, der die Fehlerprüfung

00:02:16und Kurskorrekturen zwischen jedem Schritt vornahm. So sieht Entwicklung für die meisten Menschen immer noch aus,

00:02:20und genau das wird Ihnen das Loop-Engineering abnehmen. Nun, das mag

00:02:25wie ein brandneues Konzept klingen, aber Schleifen gibt es tatsächlich schon eine Weile. Cron-Jobs sind

00:02:30ein gutes Beispiel für eine Schleife, die Sie wahrscheinlich schon gesehen haben. Es sind einfach Aufgaben, die so geplant sind, dass sie wiederholt

00:02:35und automatisch ablaufen, ohne dass Sie sie jedes Mal auslösen müssen. Der einzige wirkliche Unterschied ist, dass ein

00:02:39Cron-Job zu einer festen Zeit läuft. Mit Schleifen geht es also nicht mehr darum, den Prompt zu schreiben.

00:02:44Die Leistung Ihres Agenten bei einer Aufgabe hängt davon ab, wie gut Sie das Endziel definieren. Für einige von Ihnen

00:02:49wird dieser Prozess sehr nach Reinforcement Learning klingen. Falls Sie noch nicht darauf gestoßen sind: Reinforcement Learning

00:02:54ist im Grunde eine Methode zum Training eines Modells, bei der man ihm nicht die richtigen Antworten zeigt. Stattdessen sagt man ihm nur,

00:02:59wann es gut war und wann nicht, und es findet allmählich von selbst heraus, wie es besser werden kann.

00:03:04Das Modell findet den richtigen Pfad, indem es verschiedene Dinge ausprobiert. Es bekommt ein positives Signal, wenn es sich in

00:03:09die richtige Richtung bewegt, und ein negatives, wenn nicht. Die gleiche Idee gilt hier, nur dass das Modell selbst

00:03:14nicht trainiert wird. Stattdessen arbeitet der Agent daran, die von Ihnen gewünschte Aufgabe zu erfüllen,

00:03:19und iteriert auf die gleiche Weise, wie sich ein Modell während des Trainings verbessern würde. Wenn er scheitert, markiert die Schleife,

00:03:23die Sie auf den Agenten gesetzt haben, die Aufgabe nicht als erledigt. Er versucht es erneut, macht weiter und korrigiert sich selbst, bis

00:03:28er das von Ihnen gesetzte Ziel erreicht. Nun, nachdem Sie das alles gehört haben, fragen Sie sich vielleicht, was eigentlich für Sie

00:03:33noch zu tun bleibt, wenn alles autonom wird. Aber Ihre Rolle schrumpft nicht, sie wird wichtiger.

00:03:38Denn es ist Ihr Fachwissen und Ihre Erfahrung, die das Endziel überhaupt erst definieren, und

00:03:43das spiegelt sich in allem wider, was Sie bauen und ausliefern. Genau deshalb beschleunigt sich der Vorstoß hin zu autonomen

00:03:48Schleifen nur und zeigt sich in jedem neuen Feature, das gerade herauskommt. Fable 5 ist das

00:03:54bisher klarste Beispiel. Anthropic hat es herausgebracht, obwohl sie zu einer Verlangsamung der KI-

00:03:59Entwicklung aufgerufen hatten, weil die Modelle in einem Tempo fähig werden, bei dem man kaum noch mithalten kann. Und nachdem

00:04:03sie es für einige Zeit veröffentlicht hatten, haben sie es sogar wieder zurückgezogen. Sie haben es für lange und komplexe Aufgaben gebaut und es

00:04:08funktioniert umso besser, je länger und komplexer die Aufgabe wird, was im Grunde das Gegenteil davon ist, wie Modelle

00:04:13früher funktionierten. Diese Verschiebung begann wirklich mit Opus 4.5. Sobald das erschien, wurden lang laufende Aufgaben

00:04:19dramatisch besser. Und man musste Agenten nicht mehr mit sorgfältig geführten Strukturen ausstatten,

00:04:23im Grunde strukturierten Setups, die den Agenten durch jeden Schritt begleiten. Der Fokus verlagerte sich stattdessen darauf,

00:04:28das Projekt für den langfristigen Betrieb vorzubereiten, da die Modelle jetzt fähig genug sind, Dinge

00:04:33alleine zu handhaben, ohne viel schrittweise Anleitung. Aber die Schleife ist nicht das Einzige, was

00:04:38zählt. Sie müssen Ihr Projekt auch so strukturieren, dass der Agent für lange Zeit alleine daran arbeiten kann,

00:04:43ohne dass Sie eingreifen müssen. Deshalb haben viele Leute Systeme für genau diese Art von Setup gebaut und als Open Source veröffentlicht.

00:04:48Die RALF-Schleife war eine der ersten. Sie funktionierte, indem sie das Endziel festlegte

00:04:53und sicherstellte, dass der Agent nicht davon abweichen konnte. Dies geschah durch Hooks, die im Grunde

00:04:57Skripte sind, die automatisch ausgeführt werden, wenn etwas Bestimmtes passiert. Dieses Skript verhindert strikt, dass der Agent

00:05:03eine Aufgabe als erledigt markiert, es sei denn, sie hat die Bedingung tatsächlich erfüllt. Aber Hooks sind starr, also hat Claude seinen eigenen Zielbefehl eingeführt,

00:05:09der dasselbe tat, aber flexibler war. Statt einer hart codierten Prüfung lässt es

00:05:14ein anderes Modell entscheiden, ob die Aufgabe tatsächlich abgeschlossen ist. Wir haben Goal Buddy 2 behandelt, das darauf aufbaute,

00:05:19indem der Agent seinen Fortschritt in lokalen Dateien verfolgt und genau definiert, wie “erledigt” aussieht,

00:05:24bevor er überhaupt anfängt, damit er immer weiß, worauf er hinarbeitet. Der Hermes-Agent und OpenClaw wurden beide

00:05:29auf derselben Philosophie aufgebaut. Sie nehmen Sie komplett aus dem Bild und lassen den Agenten alles

00:05:35von alleine erledigen. Wenn Sie diese Schleifen bauen wollen, haben wir ein einfaches Fünf-Schritte-System für Sie, und da

00:05:40es zwei Arten von Schleifen gibt, funktionieren einige dieser Schritte etwas anders, aber wir gehen später auf beide Typen ein.

00:05:45Für den Moment beginnen wir in Claude Code und später im Video schauen wir uns an, wie man dasselbe

00:05:49im Hermes-Agenten macht. Der erste Schritt ist die Überprüfung des Zustands, in dem sich das Projekt befindet. Daraus entscheidet das Modell,

00:05:54was die nächste Aktion sein sollte. Dann handelt es nach dieser Entscheidung, und hier passiert die eigentliche Arbeit.

00:05:59Der Agent ruft Tools auf, schreibt in Dateien und führt Befehle aus, um die Aufgabe zu erledigen. Sobald das

00:06:04fertig ist, sammelt er Feedback, um zu sehen, was tatsächlich passiert ist, und entscheidet basierend darauf, ob die

00:06:09Aufgabe erledigt ist oder nicht. Das ist auch der Punkt, an dem der Unterschied zwischen Prompt-Engineering und Loop-Engineering

00:06:14deutlich wird. Beim Prompt-Engineering steuern Sie nur den Entscheidungsschritt, während Loop-Engineering

00:06:19alle fünf zusammen handhabt. Eine Schleife zu bauen, die gut funktioniert, bedeutet, eine Handvoll Dinge richtig zu machen, und

00:06:24jedes einzelne davon ist da, weil es ein spezifisches Problem löst. Das erste ist das Kontextmanagement. Sie achten darauf,

00:06:29was bei jedem Schritt in den Kontext eingeht, denn das bestimmt, was der Agent

00:06:34tatsächlich zu jedem Zeitpunkt weiß. Sie können sich nicht nur auf den Chat-Kontext verlassen, selbst mit Kontextfenstern

00:06:39von einer Million Tokens, also wie viel der Agent gleichzeitig im Arbeitsspeicher halten kann, denn wenn die

00:06:44Konversation wächst, werden Ihr System-Prompt und Ihre Anweisungen unter aktuellen Tool-Ausgaben begraben. Die Aufmerksamkeit des Agenten

00:06:50zieht sich natürlich zu dem, was am aktuellsten ist, sodass die wichtigen Dinge verloren gehen. Deshalb

00:06:55ist Kontextmanagement so wichtig. Das nächste, was man richtig machen muss, ist die Feedback-Qualität. Feedback sagt

00:07:00dem Agenten, wie er abgeschnitten hat, und es ist eines der wichtigsten Signale im gesamten System. Es kann viele

00:07:05Formen annehmen, wie das Ergebnis eines Testlaufs oder einen Screenshot der Benutzeroberfläche, die er gerade gebaut hat, und welche Form es auch annimmt,

00:07:11das ist das, was der Agent liest, um seinen nächsten Schritt zu bestimmen. Verifizierungs-Gates sind das, was dieses Feedback

00:07:16in ein klares Urteil verwandeln. Sie sind die Checkpoints, die dem Agenten sagen, ob eine Aufgabe tatsächlich erledigt ist oder

00:07:21nicht. Sie brauchen auch eine Abbruchbedingung, im Grunde eine Regel, die der Schleife sagt, wann sie aufhören soll, und diese muss

00:07:26explizit festgelegt werden, sonst beendet der Agent die Arbeit entweder zu früh oder macht weiter, ohne echte

00:07:31Fortschritte zu erzielen. Was die Leute am häufigsten übersehen, ist die Fehlerbehandlung. Sie müssen explizit angeben, was das Modell

00:07:36tun soll, wenn ein Tool-Aufruf fehlschlägt, damit das System ihn sauber handhabt, anstatt Dinge in

00:07:41einem fehlerhaften Zustand zu hinterlassen, der nur weitere Probleme schafft. Und schließlich müssen Sie den Status über Runden hinweg verwalten,

00:07:46im Grunde den Fortschritt der Aufgabe verfolgen, während die Konversation wächst. Das Kontextfenster kann nicht

00:07:51alles für immer halten, also stützen Sie sich auf externe Dateien, die Informationen für den Agenten verfolgen und ihn weiter

00:07:57arbeiten lassen, ohne den Faden zu verlieren. Eines sollten Sie jedoch beachten: Da Sie die Aufgabe,

00:08:01den Pfad herauszufinden, an das Modell abgeben, anstatt es selbst zu tun, werden Schleifen teuer in Bezug auf Tokens,

00:08:06also müssen Sie bewusst entscheiden, wann Sie sie tatsächlich verwenden. Je mehr Tokens eine Schleife

00:08:11verarbeiten kann, desto besser kommt sie tendenziell mit der Aufgabe zurecht. Aber bevor wir weitermachen, ein Wort von

00:08:15unserem Sponsor Scrimba. Die meisten Python-Kurse bestehen nur aus jemandem, der über Folien spricht. Scrimba ist anders,

00:08:21ihr Videoplayer ist der Code-Editor, sodass Sie jederzeit pausieren, den Code des Dozenten direkt bearbeiten

00:08:26und sehen können, was passiert. Kein Tab-Wechsel, kein Copy-Paste, nur praktisches Programmieren von Anfang an.

00:08:31Ihr neuer Kurs “Lerne Python” hat meine Aufmerksamkeit erregt, weil Sie statt zufälliger Übungen tatsächlich

00:08:37etwas Reales bauen. Vom ersten Tag an bauen Sie PayUp, eine voll funktionsfähige App zur Spesenaufteilung,

00:08:42und jedes Konzept wird sofort angewendet. Sie starten bei absolut null, keine Vorkenntnisse in Python erforderlich,

00:08:47und arbeiten sich durch Variablen, Strings, das Erfassen von Benutzereingaben, arithmetische Operatoren, Typkonvertierung,

00:08:53Datenbereinigung und Zahlenformatierung, alles durch das Bauen von Funktionen für die App. Am Ende

00:08:57haben Sie ein funktionierendes Projekt von Grund auf gebaut, das beweist, dass Sie Python tatsächlich beherrschen. Dies ist nur

00:09:02einer von mehreren Teilen, die in den kommenden Wochen verfügbar werden, und derzeit ist der Zugriff darauf

00:09:07komplett kostenlos. Fangen Sie noch heute mit ihren kostenlosen Kursen an, und unsere Nutzer erhalten zusätzlich 20% Rabatt auf ihre Pro-

00:09:12Pläne. Klicken Sie also auf den Link im angepinnten Kommentar oder scannen Sie den QR-Code und fangen Sie heute an zu bauen.

00:09:18Wie wir bereits erwähnt haben, gibt es zwei Arten von Schleifen. Die erste heißt die deterministische Schleife. Sie verwenden sie

00:09:23für Aufgaben, bei denen klar definiert ist, wie “erledigt” aussieht; das können bestandene Tests sein,

00:09:28erfolgreich kompilierter Code oder Ähnliches. Auf diese Schleifen lässt sich ziemlich direkt hinarbeiten,

00:09:33da das Endziel klar ist, sodass das Modell genau weiß, was es tun muss, bevor es die Aufgabe als

00:09:38erledigt bezeichnen kann. Da Hermes immer läuft, ist es ein wirklich guter Agent, um diese Schleife zu implementieren. Wir haben

00:09:43schon mehrfach Workflows darauf erstellt und in unserem vorherigen Video gezeigt, wie er viele unserer Aufgaben

00:09:49von alleine erledigt. Der Kern einer deterministischen Schleife ist die klare Definition des Endziels, und für die Apps,

00:09:54die Sie gehostet haben, sind diese Definitionen Ihre Tests. Sie können also den Hermes-Agenten auf jede App richten, die Sie mit Testfällen

00:09:59bereitgestellt haben, und ihn diese für Sie überwachen lassen. Wenn eine Änderung oder ein Commit am Ende die Produktion beschädigt,

00:10:04können Sie eine Automatisierung auf Hermes einrichten, um dies zu erkennen. Der Grund, warum es hier am besten funktioniert, ist, dass er

00:10:09mit der “Selbstentwickelnde Fähigkeiten”-Funktion kommt, sodass er automatisch Fähigkeiten basierend auf dem

00:10:14Workflow erstellt und weiterentwickelt, was den Zustand der App unter Kontrolle hält. Sobald Sie diese Überwachungsautomatisierung eingerichtet haben, können Sie ihn

00:10:18bitten, Claude Code im nicht-interaktiven Modus zu starten, ihn also im Grunde alleine laufen zu lassen, ohne dass Sie

00:10:23ihn steuern müssen, und Probleme in einer Schleife beheben lassen, bis alle Testfälle bestanden sind. Was er dann tut,

00:10:28ist den Automatisierungs-Workflow einzurichten und Fähigkeiten wie die “Sub-Agent-gesteuerte Entwicklung”-Fähigkeit

00:10:34und die “GitHub PR-Workflow”-Fähigkeit zu laden, die ihm sagen, wie er die App auf GitHub verwaltet. Er identifiziert zuerst die

00:10:39Probleme, die die Produktion beeinträchtigten, und startet dann Claude Code im nicht-interaktiven Modus, der

00:10:44die Tests durchführt und die Änderungen committet, sobald alle bestanden sind. Nachdem er jeden Test ausgeführt und behoben hat, was auch immer

00:10:50das Scheitern der Produktion verursacht hat, verwendet er die GitHub CLI, um die Änderungen zu committen. Die App läuft am Ende

00:10:55ohne Fehler, weil er bestätigt hat, dass alle Prüfungen für eine erfolgreiche Bereitstellung vorhanden sind.

00:11:00Wenn Ihnen diese Aufschlüsselungen gefallen, abonnieren Sie den Kanal, klicken Sie auf die Benachrichtigungsglocke und drücken Sie auch den Hype-

00:11:05Button. Auf dem Kanal posten wir Inhalte, die Ihnen helfen, neue Wege zu lernen, um verschiedene

00:11:10Prozesse in verschiedenen Unternehmen mit KI zu optimieren. Ihre Unterstützung, sei es durch das Abonnieren, die Benachrichtigungs-

00:11:15glocke oder den Hype-Button, hilft uns, mehr solcher Inhalte zu erstellen und mehr Menschen zu erreichen. Das bedeutet uns viel.

00:11:21Nun, die zweite Art ist die nicht-deterministische Schleife, und das sind Aufgaben, bei denen man nicht einfach eine klare

00:11:26Regel festlegen kann, um zu prüfen, ob die Arbeit erledigt ist, so wie bei deterministischen Schleifen. Aufgrund dessen

00:11:31gibt es keinen sauberen Weg, das Ergebnis zu verifizieren. Das sind Dinge, die wir als Menschen ansehen

00:11:36und selbst beurteilen können, wie das Bauen einer Benutzeroberfläche oder das Implementieren einer Funktion, die eine Entscheidung erfordert.

00:11:41Wenn Sie also mit einer nicht-deterministischen Schleife arbeiten, ist der Workflow anders. Wenn Sie

00:11:46KI auf eine Benutzeroberfläche anwenden, wissen Sie bereits, dass sie dazu neigt, immer auf dieselben Muster zurückzufallen. Deshalb haben wir

00:11:51eine Fähigkeit namens “KI-Slop-Detektor” entwickelt, die alle Anweisungen enthält, wie man KI-Slop vermeidet, und die

00:11:57Muster auflistet, die sie tatsächlich verraten. Und der Grund, warum wir Hermes wieder verwenden, sind die selbst-entwickelnden

00:12:02Fähigkeiten. Wenn wir nach Ausführung der Fähigkeit immer noch KI-Slop in der Benutzeroberfläche finden, kann die Fähigkeit sich selbst aktualisieren,

00:12:07um das Feedback direkt einzubeziehen, und genau deshalb haben wir diesen Workflow auf Hermes eingerichtet. Also baten wir

00:12:13Hermes, die Fähigkeit zu nutzen und zu prüfen, ob die Benutzeroberfläche eines dieser Muster aufweist. Wenn ja, behebt er sie

00:12:18und startet Claude Code im nicht-interaktiven Modus, um die Fähigkeit auszuführen und weiterhin zu beheben, was er findet, bis

00:12:23nichts mehr zu beheben ist. Ein weiterer Vorteil, den wir von Hermes erhalten, ist, dass das Modell, das die Arbeit überprüft, ein

00:12:28anderes ist als das, das sie baut. Wir haben die GPT-Modelle verwendet, die dafür bekannt sind, zu den besten für

00:12:33Code-Reviews zu gehören, sodass die Claude-Modelle der Erbauer und der andere Agent der Verifizierer wird. Das ist es, was

00:12:38die gegnerische Schleife vervollständigt, in der die beiden die Arbeit des anderen prüfen. Sobald diese Schleife lief, erzeugte sie

00:12:43eine viel bessere Benutzeroberfläche als das generische Ergebnis, das die Opus-Modelle heutzutage liefern. Und wenn Sie immer noch Anzeichen von KI-

00:12:49Slop in der Benutzeroberfläche entdecken, nachdem die Agentenschleife beendet ist, können Sie es einfach erwähnen und er wird die Fähigkeit für

00:12:54Sie aktualisieren und den Verifizierer stärken, den Sie bereits haben. Wir haben diese Fähigkeit erweitert, um mehrere KI-Slop-

00:12:59Muster abzugleichen, die wir und Hermes gemeinsam identifiziert haben. Wenn Sie diese Fähigkeit nutzen möchten, können Sie sie von unserem

00:13:04Community AI Labs Pro erhalten. Der Link befindet sich in der Beschreibung. Das bringt uns an das Ende dieses Videos.

00:13:09Wenn Sie den Kanal unterstützen und uns helfen möchten, weiterhin Videos wie dieses zu machen, können Sie dies tun, indem Sie den

00:13:14Super-Thanks-Button unten verwenden. Wie immer vielen Dank fürs Zuschauen und ich sehe Sie im nächsten Video.

Key Takeaway

Durch das Design von Loop-Engineering-Systemen, die Coding-Agenten wie Hermes und Claude Code automatisch steuern und iterativ Fehler korrigieren, wird die Effizienz bei komplexen Entwicklungsvorhaben um das Zehnfache gesteigert.

Highlights

Loop-Engineering verschiebt den Fokus von der manuellen Erstellung einzelner Prompts hin zum Design autonomer Systeme, die Coding-Agenten steuern.
Autonome Schleifen verbessern die Leistung von Agenten wie Hermes um das Zehnfache, indem sie Aufgaben iterativ korrigieren und selbstständig ausführen.
Deterministische Schleifen nutzen klare Abbruchbedingungen wie bestandene Unit-Tests oder erfolgreiche Code-Kompilierung, um den Abschluss einer Aufgabe zu verifizieren.
Nicht-deterministische Schleifen implementieren eine gegnerische Architektur, bei der ein Agent die Arbeit eines anderen prüft, um beispielsweise KI-generierte Oberflächenfehler (KI-Slop) zu minimieren.
Eine effektive Loop-Konfiguration erfordert ein System, das Kontextmanagement, Feedback-Qualität, Verifizierungs-Gates, explizite Abbruchbedingungen und Fehlerbehandlung integriert.
Der Einsatz von externen Dateien zur Statusverfolgung über Konversationsrunden hinweg verhindert, dass Agenten bei langen Aufgaben den Faden verlieren, wenn das Kontextfenster begrenzt ist.

Timeline

Grundlagen und Paradigmenwechsel zum Loop-Engineering

Loop-Engineering ersetzt manuelles Prompt-Engineering durch den Entwurf autonomer, selbststeuernder Systeme.
Entwickler definieren das Endziel, während der Agent Schritte, Fehlerkorrektur und Problemlösung autonom übernimmt.
Moderne Modelle wie Claude 3.5 Opus ermöglichen lang laufende Aufgaben ohne kleinteilige Anleitung durch den Menschen.

Die Entwicklung bewegt sich weg von starren Prompt-Strukturen hin zu Systemarchitekturen, die Agenten autonom steuern. Während früher Menschen als Fehlerprüfer zwischen jedem Schritt fungierten, übernehmen nun Schleifen diese Aufgabe. Cron-Jobs dienen als einfache Analogie für geplante Automatisierung, wobei moderne Agenten dynamisch auf Feedback reagieren, ähnlich wie bei Trainingsprozessen im Reinforcement Learning.

Architektur und Implementierung von Agenten-Schleifen

Ein Fünf-Schritte-Prozess umfasst Zustandsprüfung, Aktionsentscheidung, Tool-Ausführung, Feedback-Sammlung und Abschlussbewertung.
Effektives Kontextmanagement ist entscheidend, da das aktuelle System-Prompt und Anweisungen bei wachsenden Konversationen unter Tool-Ausgaben verloren gehen können.
Verifizierungs-Gates dienen als Checkpoints, um den Abschluss einer Aufgabe objektiv zu bestimmen.

Der Aufbau einer robusten Schleife erfordert die Beherrschung von Kontextmanagement, Feedback-Qualität und Fehlerbehandlung. Agenten müssen explizite Anweisungen für den Fall erhalten, dass Tool-Aufrufe fehlschlagen, um einen stabilen Zustand zu gewährleisten. Externe Dateien unterstützen die Statusverwaltung über viele Runden hinweg, da das Token-Limit des Arbeitsspeichers für langfristige Projekte oft unzureichend ist.

Deterministische vs. Nicht-deterministische Anwendungsfälle

Deterministische Schleifen eignen sich für Aufgaben mit binären Erfolgskriterien wie Unit-Tests oder Code-Kompilierung.
Nicht-deterministische Schleifen nutzen gegnerische Agenten-Architekturen zur subjektiven Qualitätsprüfung, beispielsweise zur Erkennung von KI-Slop.
Hermes-Agenten mit selbstentwickelnden Fähigkeiten können Workflows dynamisch anpassen und verbessern.

Deterministische Schleifen werden auf Hermes mit automatisierten Test-Workflows implementiert, um die Produktion stabil zu halten und Fehler automatisch zu beheben. Im Gegensatz dazu verwenden nicht-deterministische Ansätze getrennte Rollen für Erbauer und Verifizierer, etwa GPT-Modelle für das Code-Review von Claude-generierten Inhalten. Dies ermöglicht eine kontinuierliche Verbesserung der Arbeitsergebnisse durch iteratives Feedback.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video