00:00:00Opus 4.7 wurde gerade veröffentlicht, und den Zahlen nach
00:00:04ist dies ein massives Upgrade. Tauchen wir also ein. Zuerst einmal
00:00:08die Benchmarks. Sie zeigen hier rechts Mythos,
00:00:12nur um uns mit Dingen zu reizen, die tatsächlich existieren.
00:00:15Aber worauf ich wirklich achten möchte, ist 4.7 gegenüber 4.6, denn wer weiß,
00:00:20wann Mythos verfügbar sein wird, und den Zahlen nach
00:00:23ist dies ein sehr solider Sprung nach vorn, besonders beim Programmieren.
00:00:28Wenn wir uns das agentische Coding ansehen, sehen wir einen Sprung von 53 auf 64,
00:00:32von 80 auf 87
00:00:34und dann von 65 auf 69 bei den drei großen Tests: SWE-bench
00:00:39Pro, SWE-bench Verified und TerminalBench 2.0.
00:00:42Die einzigen Stellen, an denen Opus 4.7 Benchmarks zeigt,
00:00:46die nicht an der Spitze aller anderen Modelle liegen,
00:00:49außer Mythos, ist die agentische Suche, wo wir auf GPT 5.4 blicken.
00:00:54Dort steht es bei 89,3 gegenüber Opus 4.7,
00:00:57das seltsamerweise gegenüber 4.6 gefallen ist, was, wissen Sie,
00:01:01wenn man solche Dinge sieht,
00:01:02wo sie Benchmarks zeigen, bei denen es gegenüber Opus 4.6 abgenommen hat,
00:01:06fragt man sich, ob sie die einfach so einfügen. Nach dem Motto: „Oh nein,
00:01:08diese Benchmarks sind echt, Leute. Wir würden hierbei nicht lügen. Seht her,
00:01:11seht euch das an.“ Äm,
00:01:12aber 5.4 liegt bei der agentischen Suche vorn, ebenso wie beim logischen Denken
00:01:17auf Hochschulniveau. Ein weiterer Bereich mit massiver Verbesserung ist das visuelle Denken.
00:01:21Hier springen wir von 69 auf 82,
00:01:25und das könnte damit zu tun haben, dass dieses Modell eine viel bessere
00:01:29Bilderkennung hat.
00:01:29Sie sagen uns, dass die Bilder, die man in Opus 4.7 eingibt, jetzt eine
00:01:34dreimal höhere Auflösung haben, was gewaltig ist.
00:01:36Wenn man mit Diagrammen oder kleinem Text arbeitet,
00:01:38spiegeln sich dieselben Zahlen hier in diesen Grafiken wider.
00:01:42Verbesserungen bei Wissensarbeit, Vision, ein riesiger Sprung beim Dokumenten-Verständnis,
00:01:46von 57,1 auf 80,6, was ein riesiges Plus ist.
00:01:50Wenn Sie jemand sind, der Tools wie Cowork nutzt,
00:01:52oder dies in einem Büroszenario verwenden und den ganzen Tag nur
00:01:55Dokumente einspeisen. Das Denken in langem Kontext ist ebenfalls ein großer Punkt.
00:01:57Wir reiten auf diesem Kanal ständig auf der „Kontext-Fäulnis“ herum und der Idee,
00:02:02dass wir uns sehr auf das Session-Management konzentrieren müssen. Ich denke nicht, dass sich das ändert.
00:02:07Der Sprung von 71 auf 75 ist zwar großartig,
00:02:09aber ich glaube nicht, dass man ändern sollte, wie aggressiv man das IE löscht. Sobald man bei 20 %
00:02:13oder 25 % des Kontextfensters ist, sollte man löschen, aber das hier ist eine Verbesserung.
00:02:17Das sehen wir gerne. Und dieser Punkt ist ebenfalls interessant:
00:02:19Dieser Coding-Benchmark, der mit Multimodalität zu tun hat. Es wird programmiert,
00:02:22aber es beinhaltet auch Dinge, bei denen Kontext mit Inhalten wie
00:02:25Bildern übergeben wird. Und ich denke, das ist keine Überraschung.
00:02:28Vieles davon hat wohl mit der Auflösung zu tun.
00:02:30Neben dem Modell selbst gab es noch ein paar weitere Updates.
00:02:32Das größte ist mehr „Effort Control“. Es gibt jetzt eine Stufe „X-High“,
00:02:37wahrscheinlich von OpenAI übernommen, zwischen High und Max.
00:02:40Darüber hinaus ist Cloud Code jetzt standardmäßig auf „Extra High“ eingestellt.
00:02:44Ich denke, das ist wahrscheinlich eine Reaktion auf viele Behauptungen, Opus 4.6 sei
00:02:48schlechter geworden. Und dann kam Boris Cherny, der Schöpfer von Opus – nun, nicht von Opus,
00:02:52sondern von Cloud Code – und sagte:
00:02:54„Eigentlich haben wir die Standard-Denkstufe, das Standard-Anstrengungsniveau,
00:02:58auf Medium verschoben.“ Dass sie nun mit „X-High“ herausgekommen sind,
00:03:01ist meiner Meinung nach eine Reaktion darauf, um es sozusagen besser zu machen
00:03:05und sich mehr anstrengen zu lassen, ohne die Leute direkt auf „Max“ zu drängen,
00:03:10weil es sonst ins Gegenteil umschlägt und sich jeder über das verbrauchte Kontingent beschwert.
00:03:12Und denken Sie daran: Wenn Sie das ändern wollen,
00:03:13müssen Sie nur „/effort“ eingeben und dann Ihre Stufe festlegen.
00:03:16Die höhere Auflösung ist auch in der API verfügbar.
00:03:19Zudem haben sie den neuen Befehl „/ultra review“ veröffentlicht.
00:03:24Man erhält also eine dedizierte Review-Session obendrauf.
00:03:28Sie haben auch den Auto-Modus erweitert. Falls Sie den Auto-Modus nicht kennen,
00:03:31er ist im Grunde nur eine Alternative zum gefährlichen Überspringen von Berechtigungen.
00:03:34Eine Sache, die sie hier anmerken, ist, dass Opus 4.7 mehr Token verwenden wird
00:03:39als 4.6.
00:03:40Sie geben explizit an, dass Opus 4.7 einen aktualisierten Tokenizer verwendet und verbessert,
00:03:45wie es Text verarbeitet, dass dies aber die Anzahl der Token im Input erhöht,
00:03:50etwa um das 1- bis 1,35-fache, je nach Inhaltstyp.
00:03:54Und zweitens denkt Opus 4.7 bei höheren Effort-Stufen mehr nach.
00:03:58Bedenken Sie also: Da sie den Standard-Effort auf „Extra High“ setzen,
00:04:03während er zuvor auf Medium war, verbraucht Opus 4.7 mehr Token.
00:04:07Wenn Sie also die ganze Zeit auf Medium waren,
00:04:09es nie geändert haben und bereits an die Nutzungsgrenzen bei
00:04:134.6 gestoßen sind, seien Sie vorsichtig. Verstehen Sie, dass Sie definitiv
00:04:18in Nutzungsprobleme laufen könnten, wenn Sie zu dieser Gruppe gehören,
00:04:19da es jetzt noch mehr Token verbrauchen wird.
00:04:21Interessant ist auch, dass sie das „Extended Thinking“ entfernt haben.
00:04:25Wenn Sie mehr lesen und tief in diese Migration eintauchen wollen,
00:04:28haben sie einen ganzen Artikel in der Dokumentation veröffentlicht.
00:04:30Alles in allem sieht es nach einem wirklich soliden Upgrade aus.
00:04:32Ich freue mich darauf, einzusteigen und es selbst zu testen.