Claudes neuer Advisor-Modus: Bessere Ergebnisse + GÜNSTIGER

CChase AI
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00Anthropic hat gerade die Advisor-Strategie veröffentlicht,
00:00:02mit der wir nicht nur eine bessere Leistung
00:00:05unserer Anthropic-Modelle erzielen, sondern das auch kostengünstiger.
00:00:09Und die Funktionsweise ist ziemlich simpel.
00:00:10Sie kombiniert Opus als Berater (Advisor)
00:00:12mit Sonnet oder Haiku als Ausführer (Executor).
00:00:15Opus erstellt also einen Plan,
00:00:17und das günstigere Modell erledigt die ganze Arbeit.
00:00:19Das ist sehr ähnlich wie bei der Nutzung von Claude Code,
00:00:22wenn wir Opus im Plan-Modus laufen lassen,
00:00:24aber die eigentliche Ausführung an Sonnet übergeben.
00:00:27Der Unterschied bei der Advisor-Strategie ist,
00:00:30dass dies alles automatisch über eine API geschieht.
00:00:32Das ist also perfekt, wenn Sie an Dingen
00:00:34außerhalb von Claude Code arbeiten.
00:00:35Wenn Sie also irgendeine Webanwendung haben,
00:00:38die im Hintergrund Anthropic-APIs nutzt,
00:00:41ist das ein absoluter Selbstläufer.
00:00:42Sie erhalten effektivere Ergebnisse für weniger Geld.
00:00:46Es ist sogar ein bisschen raffinierter
00:00:48als das, was wir in Claude Code mit der Opus-Planung
00:00:50und der Sonnet-Ausführung machen.
00:00:52Denn diese Advisor-Executor-Beziehung
00:00:55ist ständig im Fluss und keine einmalige Sache,
00:00:58bei der Opus einmal berät und Sonnet dann ausführt.
00:01:01Es geht tatsächlich hin und her.
00:01:02Wie es hier steht: Wenn der Executor,
00:01:04also Sonnet oder Haiku, auf eine Entscheidung stößt,
00:01:06die er nicht vernünftig lösen kann,
00:01:08konsultiert er Opus als Advisor um Rat.
00:01:11Opus hat den vollen Kontext dessen, was Sonnet tut.
00:01:15Es ist also nicht wie im Plan-Modus,
00:01:16wo es eine Strategie vorgibt und dann loslegt.
00:01:19Es ist eher so, als würde Sonnet versuchen auszuführen,
00:01:22auf ein Hindernis stoßen und dann zurück zu Opus gehen.
00:01:24Es gibt also einen ständigen Austausch.
00:01:26Um die Kosten niedrig zu halten,
00:01:28führt Opus zu keinem Zeitpunkt Tool-Aufrufe durch.
00:01:30Diese werden nur von dem kleineren LLM erledigt,
00:01:34in diesem Fall Sonnet oder Haiku.
00:01:35Aber Opus behält diesen vollen, gemeinsamen Kontext bei.
00:01:39Und wie ich eingangs erwähnte,
00:01:40liefert uns das bessere Ergebnisse für weniger Einsatz.
00:01:43Hier wird Sonnet 3.5 Sonnet mit
00:01:46Opus-Advisor gegen das alleinige Sonnet 3.5 Sonnet verglichen.
00:01:50Sonnet schnitt beim SWE-Bench mit 74,8 gegenüber 72,1 besser ab
00:01:55und war dabei günstiger.
00:01:56Es kostete knapp über 96 Cent pro agentischer Aufgabe
00:02:00statt fast 1,09 Dollar, was ein signifikanter Unterschied ist.
00:02:03Dasselbe sieht man auch in anderen Benchmarks
00:02:06wie Browse-Comp und Terminal-Bench.
00:02:0860,4 gegenüber 58,1, und es ist billiger.
00:02:12Dass es günstiger ist, ist großartig, denn wie wir wissen,
00:02:14sind die Anthropic-APIs zwar fantastisch,
00:02:16aber sie sind verdammt teuer.
00:02:19Oftmals wünscht man sich etwas,
00:02:21das zwischen Sonnet und Opus liegt, aber das gibt es einfach nicht.
00:02:24Dies bietet uns nun einen Mittelweg
00:02:26in Bezug auf die Leistung von Sonnet und Opus,
00:02:28aber zu Kosten, die niedriger sind als bei normalem Sonnet.
00:02:31Was kann man daran nicht lieben?
00:02:32Wie gesagt, das ist eine API-Sache,
00:02:33nicht unbedingt eine reine Claude-Code-Sache.
00:02:35Um das zu nutzen, müssen Sie nur Ihren Code anpassen,
00:02:38wie er diese API-Aufrufe tatsächlich tätigt.
00:02:41Konkret müssen Sie den Typ als "advisor" festlegen
00:02:45sowie die "max_uses" angeben.
00:02:47"Max_uses" ist dabei die Anzahl der Versuche,
00:02:48die das Modell zu Opus zurückkehren darf,
00:02:50um Rat zu einem bestimmten Problem einzuholen.
00:02:52Zusammenfassend: Das ist ein fantastisches Upgrade.
00:02:54Wenn Sie die Anthropic-API in echten Projekten
00:02:56außerhalb des Claude-Code-Ökosystems nutzen,
00:03:00erhalten wir bessere Ergebnisse für weniger Geld.
00:03:03Denn wie Sie wissen, ist Opus oft einfach zu viel
00:03:06für die allermeisten Aufgaben,
00:03:08und doch möchte man manchmal etwas Besseres als Sonnet.
00:03:10Und bitteschön, hier ist der perfekte Mittelweg.

Key Takeaway

Durch die automatische Kopplung von Opus und Sonnet über die API steigert die Advisor-Strategie die Leistung in Benchmarks wie SWE-Bench um knapp 3 Prozentpunkte bei gleichzeitiger Kostensenkung auf unter 1 Dollar pro Aufgabe.

Highlights

Die neue Anthropic Advisor-Strategie kombiniert Opus als planenden Advisor mit Sonnet oder Haiku als ausführendem Executor.

Im SWE-Bench erreicht die Advisor-Kombination 74,8 Punkte gegenüber 72,1 Punkten beim alleinigen Einsatz von Sonnet 3.5.

Die Kosten pro agentischer Aufgabe sinken durch den Advisor-Modus von 1,09 Dollar auf 96 Cent.

Der Executor konsultiert den Advisor automatisch bei schwierigen Entscheidungen und teilt dabei den vollen Kontext.

Um Kosten zu sparen, führt das teurere Opus-Modell selbst keine Tool-Aufrufe aus.

Die API-Implementierung erfordert die Definition des Typs als advisor und die Festlegung von max_uses für Rückfragen.

Timeline

Funktionsweise der Advisor-Executor-Hierarchie

  • Opus fungiert als strategischer Berater für die günstigeren Modelle Sonnet oder Haiku.
  • Ein dynamischer Austausch zwischen den Modellen ersetzt die starre Einmal-Planung.
  • Die Steuerung erfolgt vollautomatisch über die Anthropic-API.

Das System nutzt die hohe Intelligenz von Opus für die Planung, während die preiswerten Modelle die eigentliche Arbeit verrichten. Anders als bei Claude Code findet hier ein kontinuierlicher Fluss statt. Stößt der Executor auf ein Problem, geht die Anfrage für eine Entscheidungshilfe zurück an den Advisor.

Effizienzsteigerung und Kostenersparnis in Benchmarks

  • Der Executor übernimmt sämtliche Tool-Aufrufe zur Minimierung der Betriebskosten.
  • Die Kombination erzielt in den Benchmarks Browse-Comp und Terminal-Bench bessere Werte als Sonnet allein.
  • Der Advisor-Modus schließt die Preislücke zwischen den Modellen Sonnet und Opus.

Opus behält während des gesamten Prozesses den vollen Kontext, ohne durch teure Tool-Interaktionen das Budget zu belasten. Im Terminal-Bench steigt die Erfolgsrate auf 60,4 im Vergleich zu 58,1 bei reiner Sonnet-Nutzung. Nutzer erhalten so eine Leistungsklasse oberhalb von Sonnet zu einem Preis, der unter dem Standard-API-Tarif liegt.

Technische Integration und API-Konfiguration

  • Die Implementierung setzt eine Anpassung der bestehenden API-Aufrufe im Code voraus.
  • Der Parameter max_uses begrenzt die Anzahl der erlaubten Rückfragen an Opus.
  • Das System eignet sich primär für komplexe Projekte außerhalb der Standard-Claude-Umgebung.

Für die Aktivierung muss der API-Aufruf spezifisch als advisor deklariert werden. Die Variable max_uses dient als Sicherheitsmechanismus, um endlose Schleifen und unvorhersehbare Kosten durch zu viele Beratungszyklen zu verhindern. Diese Strategie bietet eine Lösung für Aufgaben, für die Opus allein zu teuer und Sonnet allein zu schwach ist.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video