Transcript
00:00:00Anthropic hat heute Claude Opus 4.8 veröffentlicht.
00:00:02In diesem Video werde ich euch daher kurz
00:00:05zeigen, was sich geändert hat und worauf
00:00:08ihr bei diesem neuen Modell achten solltet.
00:00:09Springen wir also direkt zu den Benchmarks.
00:00:12Wir haben hier Opus 4.8 hervorgehoben
00:00:14und im Vergleich zu Opus 4.7, GPT 5.5 und Gemini 3.1 Pro
00:00:20schlägt Opus sie so ziemlich in jeder Kategorie,
00:00:24außer beim agentischen Terminal-Coding,
00:00:26also dem Terminal Bench 2.1.
00:00:28Dort erreicht es 74,6 Punkte,
00:00:30was immer noch ein riesiger Sprung gegenüber Opus 4.7 ist,
00:00:34aber es liegt immer noch hinter GPT 5.5.
00:00:37Aber bei allem anderen, dem SWE Bench Pro,
00:00:40multidisziplinärem Schlussfolgern, agentischer Computernutzung,
00:00:42Wissensarbeit sowie agentischer Finanzanalyse,
00:00:45zieht es am Rest des Feldes vorbei.
00:00:47Nun, wir nehmen Benchmarks zu diesem Zeitpunkt
00:00:49alle mit einer gesunden Portion Skepsis, aber es ist schön,
00:00:53diese großen Fortschritte gegenüber dem zu sehen,
00:00:56was sie mit Opus 4.7 berichteten,
00:00:57was ja erst vor kurzem war.
00:00:58Ich meine, erst vor wenigen Monaten
00:01:01kam 4.7 heraus und wir haben schon 4.8,
00:01:04und wir steigen beim agentischen Coding von 64 auf 69.
00:01:05Das ist wirklich gut.
00:01:08Eine der großen Verbesserungen von 4.8 gegenüber 4.7
00:01:11ist laut Anthropic die Ehrlichkeit.
00:01:14Und mit Ehrlichkeit meinen wir,
00:01:15dass dieses KI-Modell, wenn man es zu etwas auffordert,
00:01:18es einem auch sagt, ob es das kann oder nicht.
00:01:19Das ist eine wirklich große Sache,
00:01:20wenn ihr diese Modelle in den letzten Jahren
00:01:22überhaupt genutzt habt,
00:01:22wo man sie bittet:
00:01:24Hey, schau dir dieses riesige Transkript an
00:01:27und lies es wirklich und sag mir, was du getan hast.
00:01:29Und wenn man sich dann die Ausgabe ansieht
00:01:31und nachhakt,
00:01:32sagt es so etwas wie:
00:01:33Nun, ich habe es eigentlich nur zusammengefasst.
00:01:35Ich habe nicht alles gelesen.
00:01:35Das ist ein großes Problem.
00:01:37Und wenn ihr KI für echte Arbeit einsetzt,
00:01:40wisst ihr, wie wichtig es ist, diese Tests zu erstellen,
00:01:42um sicherzugehen, dass es auch wirklich tut, was es sagt.
00:01:46Aber Anthropic sagt,
00:01:47hey, bei 4.8 könnte das weniger ein Problem sein
00:01:50als bei einigen der Vorgängermodelle.
00:01:51Sie sagen konkret,
00:01:52laut ihren Auswertungen,
00:01:54die man in ihrer Systemkarte nachlesen kann,
00:01:56die etwa 250 Seiten lang ist,
00:01:59dass Opus 4.8
00:02:01etwa viermal weniger wahrscheinlich als der Vorgänger dazu neigt,
00:02:04Fehler im geschriebenen Code unkommentiert zu lassen.
00:02:07Es wird also viel ehrlicher sein,
00:02:09was funktioniert und was nicht,
00:02:12und es wird euch nicht gaslighten.
00:02:13Sie stellen außerdem fest, dass 4.8 Raten von nicht ausgerichteten Verhalten
00:02:16wie Täuschung oder Mitwirkung bei Missbrauch aufweist,
00:02:18die deutlich niedriger sind als bei Opus 4.7
00:02:21und ähnlich wie bei Mythos.
00:02:24Und man kann dieses nicht ausgerichtete Verhalten hier sehen,
00:02:25wo Opus 4.7 und insbesondere Sonnet 4.6
00:02:28noch einige dieser Tendenzen zeigten,
00:02:31was wir bei Mythos oder Opus 4.8
00:02:33nicht wirklich so sehen.
00:02:35Jenseits des Modells selbst
00:02:36hat Anthropic ein paar weitere Updates veröffentlicht.
00:02:39Das erste sind dynamische Workflows.
00:02:41Dynamische Workflows sind ähnlich wie Ziele.
00:02:43Die Idee ist, dass wir jetzt Claude Code
00:02:45für eine sehr komplexe Aufgabe einsetzen können,
00:02:47und es wird über Zeit daran arbeiten,
00:02:50wobei es dutzende bis hunderte parallele Agenten
00:02:52in einer einzigen Sitzung erstellt,
00:02:53um sicherzustellen, dass die Arbeit auch wirklich erledigt wird.
00:02:56Wie ihr wisst, gibt es viele Probleme,
00:02:57die selbst wenn man im Planungsmodus arbeitet
00:02:59und sie in eine Reihe von Aufgaben unterteilt,
00:03:00einfach zu viel für Claude Code auf einmal sind.
00:03:03Diese dynamischen Workflows sind die Lösung für dieses Problem,
00:03:05und ich werde in Kürze
00:03:06einen Deep Dive zu dynamischen Workflows machen.
00:03:09Aber wenn ihr sie heute ausprobieren wollt,
00:03:11gibt es zwei echte Möglichkeiten.
00:03:12Die erste ist, in einfacher Sprache zu sagen:
00:03:13Hey Claude, erstelle einen dynamischen Workflow,
00:03:15oder die neue Claude Code-spezifische Einstellung
00:03:18namens UltraCode zu aktivieren.
00:03:20Eine weitere große Änderung für Claude.ai,
00:03:22den eigentlichen Chatbot und Cowork,
00:03:24ist, dass sie jetzt mehr Steuerungsmöglichkeiten
00:03:26haben, wenn es darum geht auszuwählen,
00:03:27wie viel Anstrengung Claude in die Antwort steckt, richtig?
00:03:30Das hatten wir bei Claude Code schon länger
00:03:31mit 'hoch' gegen 'extra hoch' bis 'maximal'.
00:03:33Nun, das ist jetzt auch in Dingen wie Claude.ai und Cowork.
00:03:35Und schließlich, wenn ihr jemand seid,
00:03:36der die Messages API nutzt,
00:03:38sie akzeptiert jetzt System-Einträge
00:03:39innerhalb des Nachrichten-Arrays.
00:03:41Das ist wirklich schön, weil man Claudes Anweisungen
00:03:44mitten in der Aufgabe aktualisieren kann.
00:03:45Das ähnelt in etwa Codex
00:03:47und der Steer-Funktion
00:03:50im Vergleich zur Queue-Funktion,
00:03:51wenn man eine zusätzliche Eingabeaufforderung gibt.
00:03:52Zu beachten ist, dass Opus standardmäßig
00:03:54auf 'hohe Anstrengung' eingestellt ist, nicht 'extra hoch'.
00:03:57Erinnert euch an Opus 4.7,
00:03:59wo sie uns das Diagramm zeigten,
00:04:00sie sagten uns:
00:04:01Hey, 'extra hoch' ist das,
00:04:03wohin ihr wollt.
00:04:05Also versteht einfach, dass 4.8 auf 'hoch' steht
00:04:07und ihr immer noch zwei Stufen darüber habt,
00:04:09wenn ihr etwas mehr Anstrengung
00:04:11von diesem neuen Modell wollt.
00:04:12Und falls ihr euch wegen der Token-Nutzung fragt:
00:04:14Sie haben die Ratenbegrenzungen in Claude Code erhöht,
00:04:16um die höhere Token-Nutzung
00:04:18höherer Anstrengungsstufen auszugleichen,
00:04:20was wirklich schön ist.
00:04:21Das war also euer kurzer Überblick
00:04:22über das brandneue Claude Opus 4.8.
00:04:24Denkt daran, es hat genau dieselbe Preisgestaltung
00:04:25wie Opus 4.7,
00:04:26ihr zahlt also nichts extra
00:04:28für diese neue Leistung.
00:04:29Lasst mich wie immer wissen, was ihr dachtet.
00:04:31Achtet darauf, Chase AI Plus
00:04:33im verlinkten Kommentar zu prüfen,
00:04:34wenn ihr meine Claude Code Masterclass
00:04:35in die Hände bekommen wollt.
00:04:36Wir sehen uns!
Community Posts
No posts yet. Be the first to write about this video!
Write about this video