00:00:00In den letzten Monaten haben wir viele KI-Coding-Frameworks behandelt, darunter BMAD, GSD, Speckit und Superpowers,
00:00:08und viele von euch haben sie tatsächlich bereits benutzt.
00:00:14Doch Anthropic hat gerade Experimente mit ihrem eigenen Testsystem durchgeführt, Komponenten nacheinander entfernt
00:00:17und gemessen, worauf es wirklich ankommt.
00:00:25Ihr Fazit war, dass das meiste davon inzwischen nur noch Ballast ist.
00:00:32Jede Komponente in einem Framework enthält eine Annahme darüber, was das Modell nicht alleine tun kann,
00:00:37und mit Opus 4.6 sind diese Annahmen veraltet.
00:00:43Wir sind alles durchgegangen und haben kartiert, was noch wichtig ist, was man weglassen kann
00:00:50und wie dein Setup jetzt tatsächlich aussehen sollte.
00:00:55Agenten-Testsysteme spielen eine wichtige Rolle dabei, dass Agenten über lange Zeiträume wesentlich besser arbeiten.
00:01:01Anthropic hat bereits ein Agenten-Testsystem veröffentlicht, das wir in einem früheren Video ausführlich behandelt haben,
00:01:06indem wir erklärten, wie man es einrichtet und benutzt.
00:01:11Wir haben auch andere Frameworks im selben Kontext behandelt, und obwohl sich ihre Implementierungen unterscheiden,
00:01:17versuchen sie alle dasselbe zu erreichen.
00:01:24Aber als diese Frameworks veröffentlicht wurden, waren die Modelle noch nicht so leistungsfähig wie Opus 4.6 heute.
00:01:29Frameworks wie GSD konzentrieren sich zum Beispiel auf die Isolierung des Kontexts,
00:01:35aber das ist bei Opus 4.6 kein Problem mehr.
00:01:38Nicht nur wegen des Kontextfensters von einer Million Token, sondern auch aus einem anderen Grund, auf den wir gleich kommen.
00:01:46Daher sind viele früher implementierte Frameworks jetzt eher ein Hindernis für die neuen Fähigkeiten des Modells.
00:01:54Anthropic hat tatsächlich Experimente durchgeführt, um verschiedene Aspekte des Testsystems zu prüfen,
00:02:01indem sie jeden einzelnen entfernt und seine Auswirkung gemessen haben.
00:02:06Anhand ihrer Ergebnisse kamen sie zu dem Schluss, dass ein Agenten-Testsystem eigentlich nur Agenten
00:02:14für Planung, Generierung und Evaluierung benötigt.
00:02:20Der Rest sind nur Arbeitsweisen, die angesichts der heutigen Leistungsfähigkeit der Modelle zum Ballast werden.
00:02:27Die Kerntheorie besagt, dass jede Komponente in einem Agenten-Testsystem,
00:02:30egal welches man nutzt, auf demselben Prinzip beruht.
00:02:43Jede Komponente kodiert eine Annahme darüber, was das Modell von selbst leisten kann.
00:02:45Diese Annahmen sollten einem Stresstest unterzogen werden, da sie möglicherweise falsch sind
00:02:50oder veralten, wenn sich das Modell verbessert – und genau das haben sie in dem Artikel getan.
00:02:55Daher sollte sich mit der Entwicklung der Modelle auch dein Testsystem weiterentwickeln,
00:02:57und wenn du noch mit den Prinzipien von vor ein paar Monaten arbeitest, hältst du nicht mehr Schritt.
00:03:02Die Planung ist der erste Schritt, der in jedem Framework unverändert bleibt,
00:03:08aber die Art und Weise der Planung muss sich für leistungsfähigere Modelle ändern.
00:03:18Anthropics frühere, lang laufende Testsysteme erforderten vom Benutzer vorab eine detaillierte Spezifikation.
00:03:23Frameworks wie BeMad und SpecKit zerlegen die Aufgabe förmlich in kleinere Fragmente und Mikro-Aufgaben,
00:03:32um dem KI-Agenten die Umsetzung zu erleichtern.
00:03:40Und das waren nicht nur kleine Aufgaben, sondern regelrecht detaillierte Schritte,
00:03:46denen die Agenten einfach folgen mussten, ohne selbst nachzudenken.
00:03:52Das lag daran, dass die Modelle zu dieser Zeit nicht fähig genug waren
00:03:56und kleinteilig angeleitet werden mussten, damit sie die gewünschte Leistung erbrachten.
00:04:06Doch mit Opus 4.5 und 4.6 hat sich das geändert.
00:04:12Als Anthropic dies testete, stellten sie fest: Wenn der Planer versuchte, technische Mikro-Details vorab festzulegen,
00:04:22führte ein einziger Fehler zu einer Kaskade durch alle Ebenen der Implementierung.
00:04:31Das machte es für den Agenten schwer, abzuweichen und Probleme selbstständig zu beheben.
00:04:40Alles hing davon ab, wie gut der Plan geschrieben war.
00:04:44Deshalb ist die Planung nun eher auf einem hohen Niveau angesiedelt als in einer detaillierten technischen Umsetzung.
00:04:47Agenten sind heute von sich aus viel smarter, und man muss ihnen nur sagen, welche Ergebnisse benötigt werden.
00:04:56Sie können den Weg dorthin selbstständig finden.
00:04:59Mit diesem Wandel sind Planungsansätze wie die in BeMad und SpecKit nicht mehr so relevant.
00:05:02Man kann BeMad auf die Planungsphase bis zur PRD-Erstellung beschränken,
00:05:12ohne in den technischen Zerlegungsprozess gehen zu müssen.
00:05:21Wie bereits erwähnt, ist die PRD-Erstellung mit BeMad effektiv, weil es spezialisierte Agenten besitzt,
00:05:27um Produktanforderungen besser zu verstehen, als Claude es alleine könnte.
00:05:33Das liegt daran, dass diese Agenten über einen externen Kontext für spezifische Aufgaben verfügen, der vom Autor hinzugefügt wurde.
00:05:39Alternativ kannst du die Fragerunde von Superpowers nutzen,
00:05:42da sie eigentlich darauf ausgelegt war, Grenzfälle zu identifizieren,
00:05:46was effektiver sein kann als eine mehrstufige Aufgaben-Dokumentation.
00:05:56Doch das Kernproblem einer zu detaillierten Planung ist, dass sie den Agenten einengt
00:06:03und der KI keinen Raum lässt, Dinge selbst zu entdecken und herauszufinden.
00:06:08Anthropic hat auch einen Beispielplan veröffentlicht, der vom Planer-Agenten erstellt wurde,
00:06:10den du für die Einrichtung deines eigenen Planer-Agenten verwenden kannst.
00:06:15Er zeigt deutlich auf, dass der Plan beim Umfang groß denken und die Grenzen deiner App-Idee ausreizen sollte.
00:06:19Die Grundidee ist, das Projekt auf der Produktebene zu halten, nicht auf der Implementierungsebene.
00:06:26Das ist wichtig, denn wenn versucht wird, die Umsetzung bereits im Projektplan zu planen,
00:06:34fokussiert er sich zu sehr auf technische Details und scheitert eventuell daran, ein vollständiges Produkt zu liefern.
00:06:39Nun könntest du denken, dass Claudes eigener Planungsmodus bereits Ähnliches tut,
00:06:47indem er Fragen stellt und einen detaillierten Plan erstellt.
00:06:54Aber hier liegt der Unterschied: Obwohl Claude einen Planungsagenten hat, fokussiert er sich dennoch stark auf Implementierungsdetails
00:06:58und agiert nicht wirklich auf der Produktebene, was den Erkenntnissen von Anthropic widerspricht.
00:07:02Sobald du dies also eingerichtet hast, kannst du Claude einfach bitten, den von dir erstellten Agenten zur Planung deiner App zu nutzen,
00:07:06und er wird einen vollständigen Plan erstellen und diesen während des Fortschritts in deinem Ordner dokumentieren.
00:07:12Dieser Plan enthält eine vollständige Feature-Übersicht auf Produktebene,
00:07:18und für jede Phase sind User Stories enthalten, die zeigen, wie die Perspektive des Nutzers aussieht.
00:07:22Dies hilft Claude dabei, die korrekten Workflows zu implementieren, die die Benutzer tatsächlich erwarten.
00:07:27Bevor wir weitermachen, ein kurzes Wort von unserem Sponsor: Minimax.
00:07:32Das Einrichten von KI-Agenten ist ein Albtraum: API-Keys, Server-Konfigurationen, Docker-Setups,
00:07:38und nach all dem vergisst dein Assistent alles, sobald du den Tab schließt.
00:07:42Die Lösung ist MaxClaw, eine Cloud-gestützte KI direkt an deinen Fingerspitzen.
00:07:51Kein Setup, kein Kopfzerbrechen – du kannst dein eigenes OpenClaw bereitstellen.
00:07:57Einfach auf „Deploy“ klicken und du bist in weniger als 10 Sekunden live.
00:08:02Es erstellt Webseiten, schreibt Code, führt Recherchen durch und automatisiert deine Routinearbeit – alles durch einfache Textbefehle.
00:08:08MaxClaw verbindet sich direkt mit Telegram, Slack, Discord und mehr,
00:08:13sodass du Workflows automatisieren, im Web surfen und sogar Bilder oder Videos generieren kannst – alles aus einem einfachen Chat.
00:08:17Es ist Teil von Minimax Agent, einem KI-nativen Workspace, in dem jeder zum Agenten-Designer wird.
00:08:21Es läuft auf Mac und Windows, angetrieben von M 2.7, das im Sweetbench mit Claude Opus 4.6 mithalten kann.
00:08:28Hör auf, dich mit komplexen Setups herumzuschlagen; lass MaxClaw das erledigen und klicke auf den Link im angepinnten Kommentar.
00:08:37Der Agent, der den Code schreibt, sollte nicht derjenige sein, der ihn bewertet.
00:08:42Dies ist das zweithäufigste Problem, und es wird normalerweise nicht oft diskutiert.
00:08:47Selbst-Evaluierung ist problematisch, denn wenn du denselben Agenten zum Bewerten nutzt, der den Code geschrieben hat,
00:08:50neigt er dazu, sehr selbstbewusst zu antworten und die eigene Arbeit zu loben, selbst wenn die Qualität sichtlich mangelhaft ist.
00:08:56Das mag bei Aufgaben mit quantitativen Metriken noch einfacher zu handhaben sein,
00:09:02etwa ob die implementierten APIs tatsächlich funktionieren.
00:09:07Aber das Problem wird bei Aufgaben ohne klar verifizierbare Ergebnisse viel deutlicher.
00:09:11Das beste Beispiel hierfür ist die Benutzeroberfläche (UI).
00:09:18Was eine gute UI ausmacht, ist subjektiv, und die KI erfasst deine Absichten vielleicht nicht vollständig.
00:09:21Sie hält ihre eigene Umsetzung vielleicht für gelungen, selbst wenn sie deinen Standards nicht entspricht.
00:09:30Dieses Problem wurde bereits von den Entwicklern mehrerer Frameworks erkannt,
00:09:39und sie haben eigene Evaluierungsmechanismen implementiert, um es anzugehen.
00:09:46Alle Frameworks, die wir behandelt haben – wie GSD, BMAD und Superpowers – stellen sicher,
00:09:50dass nicht derselbe Agent, der den Code geschrieben hat, auch die Qualität bewerten darf.
00:09:57Dieser Ansatz verbessert die Genauigkeit und Zuverlässigkeit der Bewertungen des Agenten erheblich.
00:10:04Egal ob du ein bestehendes Framework nutzt oder ein eigenes baust,
00:10:10du musst sicherstellen, dass der Evaluator völlig getrennt vom Ausführenden ist.
00:10:13Bevor die Implementierung beginnt, handeln sowohl der Generierungs- als auch der Evaluierungs-Agent einen Vertrag aus,
00:10:18in dem sie vereinbaren, wie das fertige Ergebnis aussehen soll.
00:10:24Das hilft, weil beide Agenten genau wissen, was zu erreichen und was zu überprüfen ist.
00:10:35Trotz High-Level-Planung braucht es immer noch umsetzbare, implementierbare Schritte.
00:10:43Aber während der Tests mit dem Testsystem versuchten sie, den Sprint-Vertrag zu entfernen.
00:10:49Sie stellten fest, dass Opus 4.5 in diesem Szenario weniger effizient war, weil der Evaluator dennoch eingreifen musste, um Fehler zu finden.
00:10:54Aber mit Opus 4.6 hatten sich die Fähigkeiten des Modells so sehr verbessert, dass der Vertrag nicht mehr nötig war.
00:11:02Der generative Agent war fähig genug, den Großteil der Arbeit alleine zu bewältigen.
00:11:06Daher musst du für kleinere Modelle wie Sonnet oder Haiku die Aufgaben immer noch dokumentieren.
00:11:12Zerlege sie ordentlich in Sprint-Strukturen und lass jeden Agenten zustimmen, was „vollständig“ bedeutet.
00:11:19Aber bei fähigeren Modellen kannst du dich darauf verlassen, dass Opus den High-Level-Plan ohne diese Zusatzschritte ausführt.
00:11:27Wir sagten vorhin, dass es einen Grund gibt, warum Kontext-Isolierung wichtig ist.
00:11:37Das liegt daran, dass kleinere Modelle unter „Kontext-Angst“ leiden – ein Phänomen, bei dem Modelle bei langen Aufgaben an Kohärenz verlieren,
00:11:44sobald sich ihr Kontextfenster füllt.
00:11:54Wenn das passiert, schließen sie die Arbeit vorzeitig ab und behaupten, Aufgaben korrekt implementiert zu haben, obwohl das nicht stimmt.
00:12:02Die Lösung, die half, war ein Kontext-Reset: das Leeren des Kontextfensters vor Beginn der Implementierung.
00:12:10Da der Kontext geleert wurde, konnten sie sich auf eine extern dokumentierte Aufgabenzerlegung verlassen,
00:12:17die über die Kontext-Resets hinweg bestehen blieb.
00:12:21Doch die Modelle zeigten so viel Kontext-Angst, dass eine Komprimierung allein nicht ausreichte.
00:12:35Es waren zusätzliche Maßnahmen erforderlich, um Probleme bei längeren Aufgaben zu vermeiden.
00:12:49Ab Opus 4.5 zeigen Modelle dieses Verhalten jedoch nicht mehr.
00:12:58Diese Agenten können über eine gesamte Sitzung hinweg kontinuierlich laufen,
00:13:03und die Art, wie Claude die Komprimierung handhabt, reicht für ihre Funktion völlig aus.
00:13:10Daher sind Kontext-Resets nicht mehr nötig, und detaillierte Aufgabenzerlegungen wie in BMAD und SpecKit sind ebenfalls nicht mehr erforderlich,
00:13:24da eine grobe Anleitung allein ausreicht.
00:13:33Der Generierungs-Agent ist der Hauptakteur, der die App Feature für Feature tatsächlich aufbaut.
00:13:43Er übernimmt die Spezifikationen aus dem Plan, setzt sie kontinuierlich um und integriert sie mittels Git zur Versionskontrolle.
00:13:48Der Generator arbeitet dabei eng mit dem Evaluierungs-Agenten zusammen.
00:13:57Nachdem ein Feature erstellt wurde, übergibt er es zum Testen und erhält Feedback, um seine Implementierung zu verbessern.