Anthropic lässt die Opus 4.8 BOMBE platzen

CChase AI
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Anthropic hat heute Claude Opus 4.8 veröffentlicht.
00:00:02In diesem Video werde ich euch daher kurz
00:00:05zeigen, was sich geändert hat und worauf
00:00:08ihr bei diesem neuen Modell achten solltet.
00:00:09Springen wir also direkt zu den Benchmarks.
00:00:12Wir haben hier Opus 4.8 hervorgehoben
00:00:14und im Vergleich zu Opus 4.7, GPT 5.5 und Gemini 3.1 Pro
00:00:20schlägt Opus sie so ziemlich in jeder Kategorie,
00:00:24außer beim agentischen Terminal-Coding,
00:00:26also dem Terminal Bench 2.1.
00:00:28Dort erreicht es 74,6 Punkte,
00:00:30was immer noch ein riesiger Sprung gegenüber Opus 4.7 ist,
00:00:34aber es liegt immer noch hinter GPT 5.5.
00:00:37Aber bei allem anderen, dem SWE Bench Pro,
00:00:40multidisziplinärem Schlussfolgern, agentischer Computernutzung,
00:00:42Wissensarbeit sowie agentischer Finanzanalyse,
00:00:45zieht es am Rest des Feldes vorbei.
00:00:47Nun, wir nehmen Benchmarks zu diesem Zeitpunkt
00:00:49alle mit einer gesunden Portion Skepsis, aber es ist schön,
00:00:53diese großen Fortschritte gegenüber dem zu sehen,
00:00:56was sie mit Opus 4.7 berichteten,
00:00:57was ja erst vor kurzem war.
00:00:58Ich meine, erst vor wenigen Monaten
00:01:01kam 4.7 heraus und wir haben schon 4.8,
00:01:04und wir steigen beim agentischen Coding von 64 auf 69.
00:01:05Das ist wirklich gut.
00:01:08Eine der großen Verbesserungen von 4.8 gegenüber 4.7
00:01:11ist laut Anthropic die Ehrlichkeit.
00:01:14Und mit Ehrlichkeit meinen wir,
00:01:15dass dieses KI-Modell, wenn man es zu etwas auffordert,
00:01:18es einem auch sagt, ob es das kann oder nicht.
00:01:19Das ist eine wirklich große Sache,
00:01:20wenn ihr diese Modelle in den letzten Jahren
00:01:22überhaupt genutzt habt,
00:01:22wo man sie bittet:
00:01:24Hey, schau dir dieses riesige Transkript an
00:01:27und lies es wirklich und sag mir, was du getan hast.
00:01:29Und wenn man sich dann die Ausgabe ansieht
00:01:31und nachhakt,
00:01:32sagt es so etwas wie:
00:01:33Nun, ich habe es eigentlich nur zusammengefasst.
00:01:35Ich habe nicht alles gelesen.
00:01:35Das ist ein großes Problem.
00:01:37Und wenn ihr KI für echte Arbeit einsetzt,
00:01:40wisst ihr, wie wichtig es ist, diese Tests zu erstellen,
00:01:42um sicherzugehen, dass es auch wirklich tut, was es sagt.
00:01:46Aber Anthropic sagt,
00:01:47hey, bei 4.8 könnte das weniger ein Problem sein
00:01:50als bei einigen der Vorgängermodelle.
00:01:51Sie sagen konkret,
00:01:52laut ihren Auswertungen,
00:01:54die man in ihrer Systemkarte nachlesen kann,
00:01:56die etwa 250 Seiten lang ist,
00:01:59dass Opus 4.8
00:02:01etwa viermal weniger wahrscheinlich als der Vorgänger dazu neigt,
00:02:04Fehler im geschriebenen Code unkommentiert zu lassen.
00:02:07Es wird also viel ehrlicher sein,
00:02:09was funktioniert und was nicht,
00:02:12und es wird euch nicht gaslighten.
00:02:13Sie stellen außerdem fest, dass 4.8 Raten von nicht ausgerichteten Verhalten
00:02:16wie Täuschung oder Mitwirkung bei Missbrauch aufweist,
00:02:18die deutlich niedriger sind als bei Opus 4.7
00:02:21und ähnlich wie bei Mythos.
00:02:24Und man kann dieses nicht ausgerichtete Verhalten hier sehen,
00:02:25wo Opus 4.7 und insbesondere Sonnet 4.6
00:02:28noch einige dieser Tendenzen zeigten,
00:02:31was wir bei Mythos oder Opus 4.8
00:02:33nicht wirklich so sehen.
00:02:35Jenseits des Modells selbst
00:02:36hat Anthropic ein paar weitere Updates veröffentlicht.
00:02:39Das erste sind dynamische Workflows.
00:02:41Dynamische Workflows sind ähnlich wie Ziele.
00:02:43Die Idee ist, dass wir jetzt Claude Code
00:02:45für eine sehr komplexe Aufgabe einsetzen können,
00:02:47und es wird über Zeit daran arbeiten,
00:02:50wobei es dutzende bis hunderte parallele Agenten
00:02:52in einer einzigen Sitzung erstellt,
00:02:53um sicherzustellen, dass die Arbeit auch wirklich erledigt wird.
00:02:56Wie ihr wisst, gibt es viele Probleme,
00:02:57die selbst wenn man im Planungsmodus arbeitet
00:02:59und sie in eine Reihe von Aufgaben unterteilt,
00:03:00einfach zu viel für Claude Code auf einmal sind.
00:03:03Diese dynamischen Workflows sind die Lösung für dieses Problem,
00:03:05und ich werde in Kürze
00:03:06einen Deep Dive zu dynamischen Workflows machen.
00:03:09Aber wenn ihr sie heute ausprobieren wollt,
00:03:11gibt es zwei echte Möglichkeiten.
00:03:12Die erste ist, in einfacher Sprache zu sagen:
00:03:13Hey Claude, erstelle einen dynamischen Workflow,
00:03:15oder die neue Claude Code-spezifische Einstellung
00:03:18namens UltraCode zu aktivieren.
00:03:20Eine weitere große Änderung für Claude.ai,
00:03:22den eigentlichen Chatbot und Cowork,
00:03:24ist, dass sie jetzt mehr Steuerungsmöglichkeiten
00:03:26haben, wenn es darum geht auszuwählen,
00:03:27wie viel Anstrengung Claude in die Antwort steckt, richtig?
00:03:30Das hatten wir bei Claude Code schon länger
00:03:31mit 'hoch' gegen 'extra hoch' bis 'maximal'.
00:03:33Nun, das ist jetzt auch in Dingen wie Claude.ai und Cowork.
00:03:35Und schließlich, wenn ihr jemand seid,
00:03:36der die Messages API nutzt,
00:03:38sie akzeptiert jetzt System-Einträge
00:03:39innerhalb des Nachrichten-Arrays.
00:03:41Das ist wirklich schön, weil man Claudes Anweisungen
00:03:44mitten in der Aufgabe aktualisieren kann.
00:03:45Das ähnelt in etwa Codex
00:03:47und der Steer-Funktion
00:03:50im Vergleich zur Queue-Funktion,
00:03:51wenn man eine zusätzliche Eingabeaufforderung gibt.
00:03:52Zu beachten ist, dass Opus standardmäßig
00:03:54auf 'hohe Anstrengung' eingestellt ist, nicht 'extra hoch'.
00:03:57Erinnert euch an Opus 4.7,
00:03:59wo sie uns das Diagramm zeigten,
00:04:00sie sagten uns:
00:04:01Hey, 'extra hoch' ist das,
00:04:03wohin ihr wollt.
00:04:05Also versteht einfach, dass 4.8 auf 'hoch' steht
00:04:07und ihr immer noch zwei Stufen darüber habt,
00:04:09wenn ihr etwas mehr Anstrengung
00:04:11von diesem neuen Modell wollt.
00:04:12Und falls ihr euch wegen der Token-Nutzung fragt:
00:04:14Sie haben die Ratenbegrenzungen in Claude Code erhöht,
00:04:16um die höhere Token-Nutzung
00:04:18höherer Anstrengungsstufen auszugleichen,
00:04:20was wirklich schön ist.
00:04:21Das war also euer kurzer Überblick
00:04:22über das brandneue Claude Opus 4.8.
00:04:24Denkt daran, es hat genau dieselbe Preisgestaltung
00:04:25wie Opus 4.7,
00:04:26ihr zahlt also nichts extra
00:04:28für diese neue Leistung.
00:04:29Lasst mich wie immer wissen, was ihr dachtet.
00:04:31Achtet darauf, Chase AI Plus
00:04:33im verlinkten Kommentar zu prüfen,
00:04:34wenn ihr meine Claude Code Masterclass
00:04:35in die Hände bekommen wollt.
00:04:36Wir sehen uns!

Key Takeaway

Anthropic veröffentlicht Claude Opus 4.8, das durch eine vierfach geringere Fehlerrate bei Code, verbesserte Ehrlichkeit und die Einführung dynamischer Workflows zur Bewältigung komplexer, paralleler Agenten-Aufgaben signifikante Fortschritte gegenüber Version 4.7 erzielt.

Highlights

  • Claude Opus 4.8 übertrifft den Vorgänger 4.7 sowie GPT 5.5 und Gemini 3.1 Pro in fast allen Benchmarks, darunter SWE Bench Pro und agentische Finanzanalyse.

  • Die Fehlerrate bei unkommentiertem Code sinkt um den Faktor 4 im Vergleich zum Vorgängermodell.

  • Das Modell zeigt eine deutlich höhere Ehrlichkeit, indem es bei Aufgaben explizit angibt, ob diese innerhalb der eigenen Fähigkeiten liegen.

  • Dynamische Workflows ermöglichen die Erstellung von dutzenden bis hunderten parallelen Agenten in einer Sitzung für hochkomplexe Aufgaben.

  • Claude Opus 4.8 behält die Preisstruktur von Version 4.7 bei, trotz der Leistungssteigerungen.

  • Die Messages API akzeptiert nun System-Einträge innerhalb des Nachrichten-Arrays zur Echtzeit-Aktualisierung von Anweisungen.

Timeline

Benchmark-Leistung von Claude Opus 4.8

  • Opus 4.8 dominiert GPT 5.5 und Gemini 3.1 Pro in Bereichen wie multidisziplinärem Schlussfolgern und agentischer Computernutzung.
  • Das Modell erreicht 74,6 Punkte im Terminal Bench 2.1, bleibt damit jedoch hinter GPT 5.5 zurück.
  • Beim agentischen Coding steigt die Leistung im Vergleich zum Vorgänger von 64 auf 69 Punkte.

Die Leistungsdaten zeigen eine konsistente Verbesserung über fast alle Kategorien hinweg. Trotz der schnellen Release-Zyklen innerhalb weniger Monate markiert der Sprung von Version 4.7 auf 4.8 einen deutlichen Fortschritt in der agentischen Leistungsfähigkeit.

Erhöhte Ehrlichkeit und Sicherheit

  • Die Wahrscheinlichkeit für nicht kommentierte Fehler im geschriebenen Code reduziert sich auf ein Viertel gegenüber 4.7.
  • Das Modell kommuniziert klarer, ob es eine Aufgabe tatsächlich vollständig ausgeführt hat oder nur oberflächlich zusammengefasst wurde.
  • Tendenzen zu nicht ausgerichtetem Verhalten wie Täuschung sind im Vergleich zu Opus 4.7 und Sonnet 4.6 signifikant gesunken.

Anthropic dokumentiert diese Verbesserungen in einer rund 250 Seiten umfassenden Systemkarte. Die gesteigerte Ehrlichkeit verhindert, dass Anwender falsche Ergebnisse erhalten, indem das Modell bei Überforderung dies offen zugibt, anstatt Fehler zu kaschieren.

Dynamische Workflows und API-Updates

  • Dynamische Workflows unterstützen die Ausführung komplexer Aufgaben durch das parallele Management von hunderten Agenten.
  • Die neue Einstellung 'UltraCode' in Claude Code ermöglicht die Aktivierung dieser dynamischen Prozesse.
  • System-Einträge sind nun direkt im Nachrichten-Array der API möglich, um Claudes Anweisungen während des laufenden Prozesses anzupassen.
  • Opus 4.8 ist standardmäßig auf 'hohe Anstrengung' eingestellt, bietet aber zusätzliche Stufen für intensivere Rechenleistung.

Die Einführung dynamischer Workflows adressiert das Problem, dass komplexe Aufgaben oft die Kapazitäten für einen einfachen Planungsmodus überschreiten. Parallel dazu wurden die Ratenbegrenzungen in Claude Code angepasst, um die gestiegene Token-Nutzung durch höhere Anstrengungsstufen auszugleichen, ohne die Kosten für den Nutzer zu erhöhen.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video