Claude Opus 4.7 ist da – und es ist kein Vergleich

Deutschالعربية English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

Computing/SoftwareBusiness NewsConsumer ElectronicsInternet Technology

Transcript

00:00:00Opus 4.7 wurde gerade veröffentlicht, und den Zahlen nach

00:00:04ist dies ein massives Upgrade. Tauchen wir also ein. Zuerst einmal

00:00:08die Benchmarks. Sie zeigen hier rechts Mythos,

00:00:12nur um uns mit Dingen zu reizen, die tatsächlich existieren.

00:00:15Aber worauf ich wirklich achten möchte, ist 4.7 gegenüber 4.6, denn wer weiß,

00:00:20wann Mythos verfügbar sein wird, und den Zahlen nach

00:00:23ist dies ein sehr solider Sprung nach vorn, besonders beim Programmieren.

00:00:28Wenn wir uns das agentische Coding ansehen, sehen wir einen Sprung von 53 auf 64,

00:00:32von 80 auf 87

00:00:34und dann von 65 auf 69 bei den drei großen Tests: SWE-bench

00:00:39Pro, SWE-bench Verified und TerminalBench 2.0.

00:00:42Die einzigen Stellen, an denen Opus 4.7 Benchmarks zeigt,

00:00:46die nicht an der Spitze aller anderen Modelle liegen,

00:00:49außer Mythos, ist die agentische Suche, wo wir auf GPT 5.4 blicken.

00:00:54Dort steht es bei 89,3 gegenüber Opus 4.7,

00:00:57das seltsamerweise gegenüber 4.6 gefallen ist, was, wissen Sie,

00:01:01wenn man solche Dinge sieht,

00:01:02wo sie Benchmarks zeigen, bei denen es gegenüber Opus 4.6 abgenommen hat,

00:01:06fragt man sich, ob sie die einfach so einfügen. Nach dem Motto: „Oh nein,

00:01:08diese Benchmarks sind echt, Leute. Wir würden hierbei nicht lügen. Seht her,

00:01:11seht euch das an.“ Äm,

00:01:12aber 5.4 liegt bei der agentischen Suche vorn, ebenso wie beim logischen Denken

00:01:17auf Hochschulniveau. Ein weiterer Bereich mit massiver Verbesserung ist das visuelle Denken.

00:01:21Hier springen wir von 69 auf 82,

00:01:25und das könnte damit zu tun haben, dass dieses Modell eine viel bessere

00:01:29Bilderkennung hat.

00:01:29Sie sagen uns, dass die Bilder, die man in Opus 4.7 eingibt, jetzt eine

00:01:34dreimal höhere Auflösung haben, was gewaltig ist.

00:01:36Wenn man mit Diagrammen oder kleinem Text arbeitet,

00:01:38spiegeln sich dieselben Zahlen hier in diesen Grafiken wider.

00:01:42Verbesserungen bei Wissensarbeit, Vision, ein riesiger Sprung beim Dokumenten-Verständnis,

00:01:46von 57,1 auf 80,6, was ein riesiges Plus ist.

00:01:50Wenn Sie jemand sind, der Tools wie Cowork nutzt,

00:01:52oder dies in einem Büroszenario verwenden und den ganzen Tag nur

00:01:55Dokumente einspeisen. Das Denken in langem Kontext ist ebenfalls ein großer Punkt.

00:01:57Wir reiten auf diesem Kanal ständig auf der „Kontext-Fäulnis“ herum und der Idee,

00:02:02dass wir uns sehr auf das Session-Management konzentrieren müssen. Ich denke nicht, dass sich das ändert.

00:02:07Der Sprung von 71 auf 75 ist zwar großartig,

00:02:09aber ich glaube nicht, dass man ändern sollte, wie aggressiv man das IE löscht. Sobald man bei 20 %

00:02:13oder 25 % des Kontextfensters ist, sollte man löschen, aber das hier ist eine Verbesserung.

00:02:17Das sehen wir gerne. Und dieser Punkt ist ebenfalls interessant:

00:02:19Dieser Coding-Benchmark, der mit Multimodalität zu tun hat. Es wird programmiert,

00:02:22aber es beinhaltet auch Dinge, bei denen Kontext mit Inhalten wie

00:02:25Bildern übergeben wird. Und ich denke, das ist keine Überraschung.

00:02:28Vieles davon hat wohl mit der Auflösung zu tun.

00:02:30Neben dem Modell selbst gab es noch ein paar weitere Updates.

00:02:32Das größte ist mehr „Effort Control“. Es gibt jetzt eine Stufe „X-High“,

00:02:37wahrscheinlich von OpenAI übernommen, zwischen High und Max.

00:02:40Darüber hinaus ist Cloud Code jetzt standardmäßig auf „Extra High“ eingestellt.

00:02:44Ich denke, das ist wahrscheinlich eine Reaktion auf viele Behauptungen, Opus 4.6 sei

00:02:48schlechter geworden. Und dann kam Boris Cherny, der Schöpfer von Opus – nun, nicht von Opus,

00:02:52sondern von Cloud Code – und sagte:

00:02:54„Eigentlich haben wir die Standard-Denkstufe, das Standard-Anstrengungsniveau,

00:02:58auf Medium verschoben.“ Dass sie nun mit „X-High“ herausgekommen sind,

00:03:01ist meiner Meinung nach eine Reaktion darauf, um es sozusagen besser zu machen

00:03:05und sich mehr anstrengen zu lassen, ohne die Leute direkt auf „Max“ zu drängen,

00:03:10weil es sonst ins Gegenteil umschlägt und sich jeder über das verbrauchte Kontingent beschwert.

00:03:12Und denken Sie daran: Wenn Sie das ändern wollen,

00:03:13müssen Sie nur „/effort“ eingeben und dann Ihre Stufe festlegen.

00:03:16Die höhere Auflösung ist auch in der API verfügbar.

00:03:19Zudem haben sie den neuen Befehl „/ultra review“ veröffentlicht.

00:03:24Man erhält also eine dedizierte Review-Session obendrauf.

00:03:28Sie haben auch den Auto-Modus erweitert. Falls Sie den Auto-Modus nicht kennen,

00:03:31er ist im Grunde nur eine Alternative zum gefährlichen Überspringen von Berechtigungen.

00:03:34Eine Sache, die sie hier anmerken, ist, dass Opus 4.7 mehr Token verwenden wird

00:03:39als 4.6.

00:03:40Sie geben explizit an, dass Opus 4.7 einen aktualisierten Tokenizer verwendet und verbessert,

00:03:45wie es Text verarbeitet, dass dies aber die Anzahl der Token im Input erhöht,

00:03:50etwa um das 1- bis 1,35-fache, je nach Inhaltstyp.

00:03:54Und zweitens denkt Opus 4.7 bei höheren Effort-Stufen mehr nach.

00:03:58Bedenken Sie also: Da sie den Standard-Effort auf „Extra High“ setzen,

00:04:03während er zuvor auf Medium war, verbraucht Opus 4.7 mehr Token.

00:04:07Wenn Sie also die ganze Zeit auf Medium waren,

00:04:09es nie geändert haben und bereits an die Nutzungsgrenzen bei

00:04:134.6 gestoßen sind, seien Sie vorsichtig. Verstehen Sie, dass Sie definitiv

00:04:18in Nutzungsprobleme laufen könnten, wenn Sie zu dieser Gruppe gehören,

00:04:19da es jetzt noch mehr Token verbrauchen wird.

00:04:21Interessant ist auch, dass sie das „Extended Thinking“ entfernt haben.

00:04:25Wenn Sie mehr lesen und tief in diese Migration eintauchen wollen,

00:04:28haben sie einen ganzen Artikel in der Dokumentation veröffentlicht.

00:04:30Alles in allem sieht es nach einem wirklich soliden Upgrade aus.

00:04:32Ich freue mich darauf, einzusteigen und es selbst zu testen.

Key Takeaway

Claude Opus 4.7 liefert durch eine dreifache Bildauflösung und optimierte Coding-Benchmarks von bis zu 87 % massive Leistungssteigerungen, erhöht jedoch gleichzeitig den Tokenverbrauch um bis zu 35 %.

Highlights

Opus 4.7 steigert die Leistung beim agentischen Coding auf 64 % im SWE-bench Pro und 87 % im SWE-bench Verified.

Die Bilderkennung verarbeitet Eingaben nun mit einer dreimal höheren Auflösung als die Vorgängerversion.

Das Verständnis von Dokumenten verbessert sich signifikant von 57,1 auf 80,6 Punkte.

Ein neuer Tokenizer und höhere Denkstufen erhöhen den Tokenverbrauch im Input um den Faktor 1 bis 1,35.

Die neue Anstrengungsstufe „X-High“ ersetzt den bisherigen Standard „Medium“ für Cloud Code.

Der Befehl „/ultra review“ ermöglicht dedizierte Überprüfungssitzungen innerhalb der Anwendung.

Timeline

Leistungsvergleich und Coding-Benchmarks

Die Ergebnisse im SWE-bench Pro steigen von 53 auf 64 Punkte.
Im Bereich Logik auf Hochschulniveau und agentische Suche liegt GPT 5.4 mit 89,3 Punkten weiterhin vorne.
Opus 4.7 erzielt im TerminalBench 2.0 einen Wert von 69 Punkten.

Die neuen Benchmarks positionieren das Modell als führend in fast allen Kategorien außer der agentischen Suche. Während die Coding-Fähigkeiten einen deutlichen Sprung machen, verzeichnet die Suche im Vergleich zur Version 4.6 einen leichten Rückgang. Diese Diskrepanz unterstreicht die Echtheit der Daten gegenüber künstlich geglätteten Marketingzahlen.

Visuelles Denken und Dokumentenanalyse

Das visuelle Denken verbessert sich durch eine dreimal höhere Bildauflösung von 69 auf 82 Punkte.
Die Genauigkeit beim Verständnis komplexer Dokumente steigt um über 23 Prozentpunkte.
Multimodales Coding profitiert direkt von der verbesserten Verarbeitung bildbasierter Kontexte.

Die Erhöhung der Auflösung ermöglicht eine präzisere Analyse von Diagrammen und kleingedruckten Texten in Dokumenten. Besonders Wissensarbeiter, die große Mengen an Dokumenten einspeisen, profitieren von dem Sprung auf 80,6 Punkte. Das Denken in langen Kontexten verbessert sich zwar auf 75 Punkte, erfordert aber weiterhin ein proaktives Sitzungsmanagement ab einer Auslastung von 25 %.

Neue Steuerungsfunktionen und Token-Ökonomie

Die neue Stufe „X-High“ steuert den Denkaufwand präziser als die bisherigen Optionen.
Der Tokenverbrauch pro Anfrage steigt durch den neuen Tokenizer um 100 % bis 135 %.
Die Funktion „Extended Thinking“ entfällt zugunsten der neuen Effort-Stufen.

Die Einführung von „Extra High“ als Standard für Cloud Code reagiert auf Berichte über Leistungsabfälle in der Vorversion. Nutzer müssen den erhöhten Token-Durchsatz beachten, da die Kombination aus komplexerem Tokenizer und intensiveren Denkstufen die Nutzungsgrenzen schneller erreicht. Die API unterstützt nun ebenfalls die höhere Bildauflösung für externe Anwendungen.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video