Anthropic hat Ihre KI-Agent-Frameworks gerade obsolet gemacht

AAI LABS
컴퓨터/소프트웨어경영/리더십AI/미래기술

Transcript

00:00:00In den letzten Monaten haben wir viele KI-Coding-Frameworks behandelt, darunter BMAD, GSD, Speckit und Superpowers,
00:00:08und viele von euch haben sie tatsächlich bereits benutzt.
00:00:14Doch Anthropic hat gerade Experimente mit ihrem eigenen Testsystem durchgeführt, Komponenten nacheinander entfernt
00:00:17und gemessen, worauf es wirklich ankommt.
00:00:25Ihr Fazit war, dass das meiste davon inzwischen nur noch Ballast ist.
00:00:32Jede Komponente in einem Framework enthält eine Annahme darüber, was das Modell nicht alleine tun kann,
00:00:37und mit Opus 4.6 sind diese Annahmen veraltet.
00:00:43Wir sind alles durchgegangen und haben kartiert, was noch wichtig ist, was man weglassen kann
00:00:50und wie dein Setup jetzt tatsächlich aussehen sollte.
00:00:55Agenten-Testsysteme spielen eine wichtige Rolle dabei, dass Agenten über lange Zeiträume wesentlich besser arbeiten.
00:01:01Anthropic hat bereits ein Agenten-Testsystem veröffentlicht, das wir in einem früheren Video ausführlich behandelt haben,
00:01:06indem wir erklärten, wie man es einrichtet und benutzt.
00:01:11Wir haben auch andere Frameworks im selben Kontext behandelt, und obwohl sich ihre Implementierungen unterscheiden,
00:01:17versuchen sie alle dasselbe zu erreichen.
00:01:24Aber als diese Frameworks veröffentlicht wurden, waren die Modelle noch nicht so leistungsfähig wie Opus 4.6 heute.
00:01:29Frameworks wie GSD konzentrieren sich zum Beispiel auf die Isolierung des Kontexts,
00:01:35aber das ist bei Opus 4.6 kein Problem mehr.
00:01:38Nicht nur wegen des Kontextfensters von einer Million Token, sondern auch aus einem anderen Grund, auf den wir gleich kommen.
00:01:46Daher sind viele früher implementierte Frameworks jetzt eher ein Hindernis für die neuen Fähigkeiten des Modells.
00:01:54Anthropic hat tatsächlich Experimente durchgeführt, um verschiedene Aspekte des Testsystems zu prüfen,
00:02:01indem sie jeden einzelnen entfernt und seine Auswirkung gemessen haben.
00:02:06Anhand ihrer Ergebnisse kamen sie zu dem Schluss, dass ein Agenten-Testsystem eigentlich nur Agenten
00:02:14für Planung, Generierung und Evaluierung benötigt.
00:02:20Der Rest sind nur Arbeitsweisen, die angesichts der heutigen Leistungsfähigkeit der Modelle zum Ballast werden.
00:02:27Die Kerntheorie besagt, dass jede Komponente in einem Agenten-Testsystem,
00:02:30egal welches man nutzt, auf demselben Prinzip beruht.
00:02:43Jede Komponente kodiert eine Annahme darüber, was das Modell von selbst leisten kann.
00:02:45Diese Annahmen sollten einem Stresstest unterzogen werden, da sie möglicherweise falsch sind
00:02:50oder veralten, wenn sich das Modell verbessert – und genau das haben sie in dem Artikel getan.
00:02:55Daher sollte sich mit der Entwicklung der Modelle auch dein Testsystem weiterentwickeln,
00:02:57und wenn du noch mit den Prinzipien von vor ein paar Monaten arbeitest, hältst du nicht mehr Schritt.
00:03:02Die Planung ist der erste Schritt, der in jedem Framework unverändert bleibt,
00:03:08aber die Art und Weise der Planung muss sich für leistungsfähigere Modelle ändern.
00:03:18Anthropics frühere, lang laufende Testsysteme erforderten vom Benutzer vorab eine detaillierte Spezifikation.
00:03:23Frameworks wie BeMad und SpecKit zerlegen die Aufgabe förmlich in kleinere Fragmente und Mikro-Aufgaben,
00:03:32um dem KI-Agenten die Umsetzung zu erleichtern.
00:03:40Und das waren nicht nur kleine Aufgaben, sondern regelrecht detaillierte Schritte,
00:03:46denen die Agenten einfach folgen mussten, ohne selbst nachzudenken.
00:03:52Das lag daran, dass die Modelle zu dieser Zeit nicht fähig genug waren
00:03:56und kleinteilig angeleitet werden mussten, damit sie die gewünschte Leistung erbrachten.
00:04:06Doch mit Opus 4.5 und 4.6 hat sich das geändert.
00:04:12Als Anthropic dies testete, stellten sie fest: Wenn der Planer versuchte, technische Mikro-Details vorab festzulegen,
00:04:22führte ein einziger Fehler zu einer Kaskade durch alle Ebenen der Implementierung.
00:04:31Das machte es für den Agenten schwer, abzuweichen und Probleme selbstständig zu beheben.
00:04:40Alles hing davon ab, wie gut der Plan geschrieben war.
00:04:44Deshalb ist die Planung nun eher auf einem hohen Niveau angesiedelt als in einer detaillierten technischen Umsetzung.
00:04:47Agenten sind heute von sich aus viel smarter, und man muss ihnen nur sagen, welche Ergebnisse benötigt werden.
00:04:56Sie können den Weg dorthin selbstständig finden.
00:04:59Mit diesem Wandel sind Planungsansätze wie die in BeMad und SpecKit nicht mehr so relevant.
00:05:02Man kann BeMad auf die Planungsphase bis zur PRD-Erstellung beschränken,
00:05:12ohne in den technischen Zerlegungsprozess gehen zu müssen.
00:05:21Wie bereits erwähnt, ist die PRD-Erstellung mit BeMad effektiv, weil es spezialisierte Agenten besitzt,
00:05:27um Produktanforderungen besser zu verstehen, als Claude es alleine könnte.
00:05:33Das liegt daran, dass diese Agenten über einen externen Kontext für spezifische Aufgaben verfügen, der vom Autor hinzugefügt wurde.
00:05:39Alternativ kannst du die Fragerunde von Superpowers nutzen,
00:05:42da sie eigentlich darauf ausgelegt war, Grenzfälle zu identifizieren,
00:05:46was effektiver sein kann als eine mehrstufige Aufgaben-Dokumentation.
00:05:56Doch das Kernproblem einer zu detaillierten Planung ist, dass sie den Agenten einengt
00:06:03und der KI keinen Raum lässt, Dinge selbst zu entdecken und herauszufinden.
00:06:08Anthropic hat auch einen Beispielplan veröffentlicht, der vom Planer-Agenten erstellt wurde,
00:06:10den du für die Einrichtung deines eigenen Planer-Agenten verwenden kannst.
00:06:15Er zeigt deutlich auf, dass der Plan beim Umfang groß denken und die Grenzen deiner App-Idee ausreizen sollte.
00:06:19Die Grundidee ist, das Projekt auf der Produktebene zu halten, nicht auf der Implementierungsebene.
00:06:26Das ist wichtig, denn wenn versucht wird, die Umsetzung bereits im Projektplan zu planen,
00:06:34fokussiert er sich zu sehr auf technische Details und scheitert eventuell daran, ein vollständiges Produkt zu liefern.
00:06:39Nun könntest du denken, dass Claudes eigener Planungsmodus bereits Ähnliches tut,
00:06:47indem er Fragen stellt und einen detaillierten Plan erstellt.
00:06:54Aber hier liegt der Unterschied: Obwohl Claude einen Planungsagenten hat, fokussiert er sich dennoch stark auf Implementierungsdetails
00:06:58und agiert nicht wirklich auf der Produktebene, was den Erkenntnissen von Anthropic widerspricht.
00:07:02Sobald du dies also eingerichtet hast, kannst du Claude einfach bitten, den von dir erstellten Agenten zur Planung deiner App zu nutzen,
00:07:06und er wird einen vollständigen Plan erstellen und diesen während des Fortschritts in deinem Ordner dokumentieren.
00:07:12Dieser Plan enthält eine vollständige Feature-Übersicht auf Produktebene,
00:07:18und für jede Phase sind User Stories enthalten, die zeigen, wie die Perspektive des Nutzers aussieht.
00:07:22Dies hilft Claude dabei, die korrekten Workflows zu implementieren, die die Benutzer tatsächlich erwarten.
00:07:27Bevor wir weitermachen, ein kurzes Wort von unserem Sponsor: Minimax.
00:07:32Das Einrichten von KI-Agenten ist ein Albtraum: API-Keys, Server-Konfigurationen, Docker-Setups,
00:07:38und nach all dem vergisst dein Assistent alles, sobald du den Tab schließt.
00:07:42Die Lösung ist MaxClaw, eine Cloud-gestützte KI direkt an deinen Fingerspitzen.
00:07:51Kein Setup, kein Kopfzerbrechen – du kannst dein eigenes OpenClaw bereitstellen.
00:07:57Einfach auf „Deploy“ klicken und du bist in weniger als 10 Sekunden live.
00:08:02Es erstellt Webseiten, schreibt Code, führt Recherchen durch und automatisiert deine Routinearbeit – alles durch einfache Textbefehle.
00:08:08MaxClaw verbindet sich direkt mit Telegram, Slack, Discord und mehr,
00:08:13sodass du Workflows automatisieren, im Web surfen und sogar Bilder oder Videos generieren kannst – alles aus einem einfachen Chat.
00:08:17Es ist Teil von Minimax Agent, einem KI-nativen Workspace, in dem jeder zum Agenten-Designer wird.
00:08:21Es läuft auf Mac und Windows, angetrieben von M 2.7, das im Sweetbench mit Claude Opus 4.6 mithalten kann.
00:08:28Hör auf, dich mit komplexen Setups herumzuschlagen; lass MaxClaw das erledigen und klicke auf den Link im angepinnten Kommentar.
00:08:37Der Agent, der den Code schreibt, sollte nicht derjenige sein, der ihn bewertet.
00:08:42Dies ist das zweithäufigste Problem, und es wird normalerweise nicht oft diskutiert.
00:08:47Selbst-Evaluierung ist problematisch, denn wenn du denselben Agenten zum Bewerten nutzt, der den Code geschrieben hat,
00:08:50neigt er dazu, sehr selbstbewusst zu antworten und die eigene Arbeit zu loben, selbst wenn die Qualität sichtlich mangelhaft ist.
00:08:56Das mag bei Aufgaben mit quantitativen Metriken noch einfacher zu handhaben sein,
00:09:02etwa ob die implementierten APIs tatsächlich funktionieren.
00:09:07Aber das Problem wird bei Aufgaben ohne klar verifizierbare Ergebnisse viel deutlicher.
00:09:11Das beste Beispiel hierfür ist die Benutzeroberfläche (UI).
00:09:18Was eine gute UI ausmacht, ist subjektiv, und die KI erfasst deine Absichten vielleicht nicht vollständig.
00:09:21Sie hält ihre eigene Umsetzung vielleicht für gelungen, selbst wenn sie deinen Standards nicht entspricht.
00:09:30Dieses Problem wurde bereits von den Entwicklern mehrerer Frameworks erkannt,
00:09:39und sie haben eigene Evaluierungsmechanismen implementiert, um es anzugehen.
00:09:46Alle Frameworks, die wir behandelt haben – wie GSD, BMAD und Superpowers – stellen sicher,
00:09:50dass nicht derselbe Agent, der den Code geschrieben hat, auch die Qualität bewerten darf.
00:09:57Dieser Ansatz verbessert die Genauigkeit und Zuverlässigkeit der Bewertungen des Agenten erheblich.
00:10:04Egal ob du ein bestehendes Framework nutzt oder ein eigenes baust,
00:10:10du musst sicherstellen, dass der Evaluator völlig getrennt vom Ausführenden ist.
00:10:13Bevor die Implementierung beginnt, handeln sowohl der Generierungs- als auch der Evaluierungs-Agent einen Vertrag aus,
00:10:18in dem sie vereinbaren, wie das fertige Ergebnis aussehen soll.
00:10:24Das hilft, weil beide Agenten genau wissen, was zu erreichen und was zu überprüfen ist.
00:10:35Trotz High-Level-Planung braucht es immer noch umsetzbare, implementierbare Schritte.
00:10:43Aber während der Tests mit dem Testsystem versuchten sie, den Sprint-Vertrag zu entfernen.
00:10:49Sie stellten fest, dass Opus 4.5 in diesem Szenario weniger effizient war, weil der Evaluator dennoch eingreifen musste, um Fehler zu finden.
00:10:54Aber mit Opus 4.6 hatten sich die Fähigkeiten des Modells so sehr verbessert, dass der Vertrag nicht mehr nötig war.
00:11:02Der generative Agent war fähig genug, den Großteil der Arbeit alleine zu bewältigen.
00:11:06Daher musst du für kleinere Modelle wie Sonnet oder Haiku die Aufgaben immer noch dokumentieren.
00:11:12Zerlege sie ordentlich in Sprint-Strukturen und lass jeden Agenten zustimmen, was „vollständig“ bedeutet.
00:11:19Aber bei fähigeren Modellen kannst du dich darauf verlassen, dass Opus den High-Level-Plan ohne diese Zusatzschritte ausführt.
00:11:27Wir sagten vorhin, dass es einen Grund gibt, warum Kontext-Isolierung wichtig ist.
00:11:37Das liegt daran, dass kleinere Modelle unter „Kontext-Angst“ leiden – ein Phänomen, bei dem Modelle bei langen Aufgaben an Kohärenz verlieren,
00:11:44sobald sich ihr Kontextfenster füllt.
00:11:54Wenn das passiert, schließen sie die Arbeit vorzeitig ab und behaupten, Aufgaben korrekt implementiert zu haben, obwohl das nicht stimmt.
00:12:02Die Lösung, die half, war ein Kontext-Reset: das Leeren des Kontextfensters vor Beginn der Implementierung.
00:12:10Da der Kontext geleert wurde, konnten sie sich auf eine extern dokumentierte Aufgabenzerlegung verlassen,
00:12:17die über die Kontext-Resets hinweg bestehen blieb.
00:12:21Doch die Modelle zeigten so viel Kontext-Angst, dass eine Komprimierung allein nicht ausreichte.
00:12:35Es waren zusätzliche Maßnahmen erforderlich, um Probleme bei längeren Aufgaben zu vermeiden.
00:12:49Ab Opus 4.5 zeigen Modelle dieses Verhalten jedoch nicht mehr.
00:12:58Diese Agenten können über eine gesamte Sitzung hinweg kontinuierlich laufen,
00:13:03und die Art, wie Claude die Komprimierung handhabt, reicht für ihre Funktion völlig aus.
00:13:10Daher sind Kontext-Resets nicht mehr nötig, und detaillierte Aufgabenzerlegungen wie in BMAD und SpecKit sind ebenfalls nicht mehr erforderlich,
00:13:24da eine grobe Anleitung allein ausreicht.
00:13:33Der Generierungs-Agent ist der Hauptakteur, der die App Feature für Feature tatsächlich aufbaut.
00:13:43Er übernimmt die Spezifikationen aus dem Plan, setzt sie kontinuierlich um und integriert sie mittels Git zur Versionskontrolle.
00:13:48Der Generator arbeitet dabei eng mit dem Evaluierungs-Agenten zusammen.
00:13:57Nachdem ein Feature erstellt wurde, übergibt er es zum Testen und erhält Feedback, um seine Implementierung zu verbessern.

Key Takeaway

Durch die Beseitigung von Kontext-Angst und gesteigerte Autonomie in Opus 4.6 werden komplexe Framework-Strukturen durch ein minimalistisches Drei-Agenten-System aus High-Level-Planer, Generator und externem Evaluator ersetzt.

Highlights

Das Modell Opus 4.6 macht kleinteilige KI-Frameworks wie BMAD, GSD oder SpecKit durch verbesserte Eigenständigkeit weitgehend überflüssig.

KI-Agenten benötigen heute lediglich drei Kernkomponenten für optimale Ergebnisse: Planung, Generierung und Evaluierung.

Detaillierte technische Mikro-Aufgaben in der Planung führen bei modernen Modellen zu Kaskadenfehlern und schränken die Problemlösungskompetenz ein.

Opus 4.5 und 4.6 leiden nicht mehr unter Kontext-Angst, wodurch manuelle Kontext-Resets und externe Aufgaben-Dokumentationen entfallen.

Die Trennung von Generierungs- und Evaluierungs-Agenten verhindert qualitative Mängel, die durch übermäßiges Selbstvertrauen bei der Selbst-Bewertung entstehen.

Moderne Agenten-Setups erzielen bessere Resultate, wenn der Plan auf der Produktebene verbleibt und User Stories statt Implementierungsdetails nutzt.

Timeline

Veraltete Annahmen in KI-Frameworks

  • Jede Framework-Komponente basiert auf der Annahme einer spezifischen Unfähigkeit des zugrunde liegenden Modells.
  • Frühere Strategien zur Kontext-Isolierung behindern die neuen Fähigkeiten von Modellen mit einem Kontextfenster von einer Million Token.
  • Ein effizientes Agenten-Testsystem reduziert sich heute auf die Funktionen Planung, Generierung und Evaluierung.

Die technologische Entwicklung hat dazu geführt, dass viele Funktionen in Frameworks wie GSD oder Speckit nun als unnötiger Ballast wirken. Anthropic identifizierte durch Experimente, dass die meisten Komponenten lediglich Workarounds für Schwächen älterer Modelle waren. Da Opus 4.6 diese Schwächen nicht mehr aufweist, verlangsamen starre Frameworks den Arbeitsprozess eher, als ihn zu unterstützen.

Wandel von Mikro-Planung zu High-Level-Strategie

  • Detaillierte technische Vorab-Spezifikationen provozieren Kettenreaktionen bei Fehlern in der Implementierungsebene.
  • Effektive Planung findet auf der Produktebene statt und nutzt User Stories zur Definition der gewünschten Workflows.
  • Spezialisierte Agenten wie bei Superpowers identifizieren Grenzfälle besser als mehrstufige statische Dokumentationen.

Frühere Modelle benötigten kleinteilige Anleitungen, um Aufgaben ohne Abweichung auszuführen. Moderne Agenten arbeiten jedoch smarter, wenn ihnen lediglich das Ziel und die Produktanforderungen vorgegeben werden. Ein Fokus auf technische Details in der Planungsphase engt den Handlungsspielraum der KI ein und verhindert, dass sie eigenständig optimale Lösungswege entdeckt.

Notwendigkeit der getrennten Evaluierung

  • Agenten bewerten ihre eigene Arbeit oft als fehlerfrei, selbst wenn qualitative Mängel in der Benutzeroberfläche vorliegen.
  • Die Trennung von ausführendem und prüfendem Agenten steigert die Genauigkeit und Zuverlässigkeit der Ergebnisse massiv.
  • Opus 4.6 benötigt im Gegensatz zu kleineren Modellen keinen formalen Sprint-Vertrag mehr zwischen den Agenten.

Selbst-Evaluierung führt aufgrund von hoher subjektiver Zuversicht der Modelle zu fehlerhaften Beurteilungen, besonders bei nicht-quantitativen Aufgaben wie dem UI-Design. Durch den Einsatz eines unabhängigen Evaluators wird sichergestellt, dass Standards eingehalten werden. Während schwächere Modelle wie Sonnet noch eine explizite Definition von Erfolg benötigen, setzt Opus 4.6 komplexe Pläne ohne diese Zusatzschritte um.

Das Ende der Kontext-Angst

  • Kontext-Angst führt bei älteren Modellen zu vorzeitigen Aufgabenabbrüchen und falschen Erfolgsmeldungen bei vollem Arbeitsspeicher.
  • Moderne Agenten benötigen keine manuellen Kontext-Resets mehr, da das System die Komprimierung effizient handhabt.
  • Der Generierungs-Agent integriert neue Features kontinuierlich via Git und arbeitet direkt mit dem Feedback des Evaluators.

Früher war es notwendig, den Kontext regelmäßig zu leeren und auf externe Dokumentationen auszuweichen, um die Kohärenz über lange Zeiträume zu wahren. Ab der Version Opus 4.5 zeigen die Modelle dieses instabile Verhalten nicht mehr. Der Generator kann nun in einer einzigen Sitzung Features entwickeln, testen lassen und basierend auf dem Feedback des Evaluators sofort optimieren.

Community Posts

View all posts