Opus 4.7 ist GENIAL (bis auf den Token-Verbrauch)

BBetter Stack
컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00Das neue beste Modell ist da, Opus 4.7. Es sieht nach einem ziemlich guten Upgrade aus, offensichtlich
00:00:05ist es besser im Coden, aber es hat auch verbessertes Sehen, Selbstverifizierung und es ist angeblich
00:00:09besser darin, UIs geschmackvoller und kreativer zu gestalten.
00:00:12Der Nachteil ist jedoch, dass sich zwar die Kosten nicht geändert haben, aber der Tokenizer, sodass derselbe
00:00:17Eingabeprompt jetzt bis zu 35 % mehr Token verbrauchen könnte, und es denkt auch mehr, also noch
00:00:22mehr Token zum Verbrennen. Es gibt definitiv einige wirklich interessante Details in diesem Release
00:00:26und wahrscheinlich eine Änderung, die du jetzt an Claude Code vornehmen willst. Also springen wir direkt rein, schauen wir,
00:00:30was neu ist, und testen es aus.
00:00:31Ich werde eigentlich mit den Benchmarks beginnen, weil ich vorhin ein bisschen gelogen habe, als ich sagte, dies
00:00:40sei das neue beste Modell. Es ist das beste öffentlich verfügbare, aber diese Benchmarks enthalten auch
00:00:44Mythos, das Modell, das so mächtig ist, dass wir es noch nicht benutzen dürfen.
00:00:47Laut Anthropic testet Opus 4.7 tatsächlich neue Cyber-Schutzmaßnahmen, um Anfragen zu blockieren,
00:00:52die auf verbotene oder hochriskante Cybersicherheits-Nutzung hindeuten, und was sie daraus lernen, wird
00:00:56ihnen helfen, auf eine breite Veröffentlichung der Mythos-Klasse-Modelle hinzuarbeiten, also hoffentlich in der Zukunft
00:01:00kann ich ein Video über den Mythos-Release machen und wie es das Ende der Softwareentwicklung bedeutet,
00:01:03wie wir sie kennen. Also abonniere, wenn du das nicht verpassen willst.
00:01:06Für den Moment werde ich Mythos ignorieren und mich auf das konzentrieren, das wir tatsächlich benutzen können,
00:01:10nämlich Opus 4.7, und dieses hat bei den Benchmarks tatsächlich große Fortschritte gemacht.
00:01:13Ich werde hier nicht zu sehr ins Detail gehen, und du kannst den Bildschirm anhalten, wenn du
00:01:16die einzelnen Werte lesen willst. Du siehst bei Benchmarks wie SWE Bench Pro einen Sprung von 10 %
00:01:21gegenüber Opus 4.6, und bei Verified sind es 7 %, und dieses Muster setzt sich so ziemlich
00:01:26für den Rest der Benchmarks fort, außer in der Cybersicherheit, wo es eigentlich leicht zurückging, was anscheinend
00:01:30mit den Sicherheitsmaßnahmen zusammenhängt, die ich vorhin erwähnt habe; es scheint, als würde man diesen
00:01:34Score künstlich niedrig halten, um die Welt zu retten oder so.
00:01:37Ich habe auch einen wirklich interessanten Benchmark in dieser Systemkarte gefunden, wo es scheint, dass die
00:01:40Leistung bei langem Kontext im Vergleich zu Opus 4.6 anscheinend einen Sturzflug gemacht hat,
00:01:45wenn man den "Needle in a Haystack"-Test verwendet, also bin ich gespannt, wie sich das auf die tatsächliche Nutzung
00:01:50mit der Zeit auswirkt. Abgesehen von den Benchmarks gibt es auch einige andere bemerkenswerte Verbesserungen,
00:01:54die vielleicht sogar die Art und Weise ändern, wie du Claude benutzt. Die erste ist die bessere Befolgung von Anweisungen,
00:01:58was eigentlich bedeutet, dass du unerwartete Ergebnisse bei Prompts haben könntest, die du bereits zuvor
00:02:01verwendet hast, da ältere Modelle Anweisungen locker interpretierten oder Teile übersprangen, während Opus 4.7
00:02:07wirklich darauf fokussiert ist, Anweisungen wörtlich zu nehmen, also musst du vielleicht einige Prompts anpassen.
00:02:11Als Nächstes hat es eine verbesserte multimodale Unterstützung, es kann also Bilder mit dreimal höherer
00:02:16Auflösung als die älteren Modelle akzeptieren, was es besser machen sollte bei Aufgaben wie der Computersteuerung
00:02:20und Datenextraktion. Auch die Speichernutzung wurde verbessert, Opus 4.7 sollte also besser darin sein, dateisystembasierten
00:02:25Speicher zu nutzen, wo es sich an wichtige Notizen über lange Sitzungen hinweg erinnert und diese
00:02:30nutzt, um zu neuen Aufgaben überzugehen, die dadurch weniger Kontext vorab benötigen. Vielleicht
00:02:34spart mir das ein paar Token, was jetzt ziemlich wichtig ist, da die nächste Änderung den Tokenizer
00:02:39und das Denken betrifft. Opus 4.7 verwendet einen aktualisierten Tokenizer, der verbessert, wie das Modell Text verarbeitet,
00:02:45aber es bedeutet auch, dass derselbe Eingabeprompt bis zu 35 % mehr Token kosten kann, und wenn man
00:02:49dies mit der Tatsache kombiniert, dass Opus 4.7 bei höheren Aufwandstufen mehr denkt, wird dieses Modell
00:02:54wirklich einige Token verbrennen. Um es noch schlimmer zu machen, gibt es auch eine neue Stufe für
00:02:58extra hohen Aufwand, und sie ist in Claude Code sogar als Standard eingestellt. Ich empfehle dir daher dringend,
00:03:02die verschiedenen Aufwandstufen auszutesten und diejenige zu finden, die am besten zu dir passt, um zu sehen,
00:03:05ob du sie eventuell herabstufen kannst, ohne Auswirkungen zu bemerken. Zum Vergleich: Die neue
00:03:09Stufe für extra hohen Aufwand verbraucht etwa die gleiche Menge an Token wie die maximale Aufwandstufe von Opus 4.6,
00:03:14und die Stufe für hohen Aufwand von Opus 4.7 schneidet sogar besser ab als die maximale Stufe von Opus 4.6,
00:03:19bei weniger verbrauchten Token. Wenn du also mit dem zufrieden bist, was du vorher hattest, würde ich diese Tabelle
00:03:24zum Vergleich heranziehen, denn ich weiß für mich, dass ich dies in den meisten Fällen wahrscheinlich auf
00:03:27die Stufe für hohen Aufwand umstellen werde. Nachdem die Zusammenfassung der Neuerungen erledigt ist, werde ich
00:03:31meine Credits verbrauchen und das Ganze testen. Das Erste, was ich prüfe: Ist es besser im UI-Design?
00:03:35Also gab ich ihm einen sehr einfachen Prompt, eine Café-Website nur mit einer index.html zu erstellen,
00:03:40und ich verwende die maximale Aufwandstufe bei allen Modellen, die ich teste. Ich werde dies also
00:03:43in Opus 4.7, 4.6, Gemini 3.1 und GPT 5.4 ausprobieren. Das ist das Ergebnis, das ich von Opus 4.7 zurückbekam,
00:03:51und ich finde, es sieht ziemlich gut aus; es hat so ein schönes Café-Gefühl, es wurde eine
00:03:55schöne Schriftart verwendet, und Bilder von Unsplash wurden hier eingebunden. Insgesamt kann ich mich nicht beschweren,
00:03:59es ist eine ziemlich einfache Website, hat einen schönen Menübereich, alles ist tatsächlich responsiv und insgesamt
00:04:04würde ich sagen, ja, es sieht ziemlich gut aus. Wenn wir das mit dem vergleichen, was Opus 4.6 mir geliefert hat,
00:04:09sieht man, dass es einen etwas anderen Stil gewählt hat, aber es hat eine ähnliche Schriftart und einen ähnlichen Menübereich,
00:04:12und insgesamt ist es ein kleines bisschen schlechter, würde ich sagen, nur weil es keinen schönen
00:04:16Hintergrund hier verwendet hat und dieser Farbverlauf überhaupt kein schöner Übergang ist, aber trotzdem,
00:04:20man kann sich nicht zu sehr beschweren; ich würde sagen, Opus 4.7 ist nur eine kleine Stufe darüber. Gemini 3.1
00:04:25auf der anderen Seite hat mir, glaube ich, mein bestes Ergebnis geliefert, zumindest ist dieses hier mein Favorit.
00:04:29Lass mich in den Kommentaren wissen, welches deins ist. Ich mag es einfach sehr, dass dieser Hintergrund
00:04:33sich nicht mitbewegt, wenn wir scrollen; ich finde, das ist mit diesem Bildbereich hier im "Unsere Geschichte"-Bereich
00:04:36wirklich gut gemacht. Das Menü sieht den anderen ähnlich, aber auch hier finde ich es schön
00:04:40gestaltet, genauso wie der Footer, also gewinnt 3.1 hier für mich. Auf dem
00:04:45letzten Platz landet allerdings definitiv GPT 5.4; das hat einfach so einen GPT-Look-and-Feel,
00:04:50es liebt diese Art von Karten mit einer schönen Unschärfe, und es ist einfach keine gute
00:04:55Café-Website meiner Meinung nach; es sieht aus wie jede andere GPT-App, die ich je gesehen habe. Also,
00:04:59Opus 4.7 ist definitiv gut in UI und wird es wahrscheinlich mit mehr Anweisungen noch besser handhaben.
00:05:04Momentan führt in der Design-Arena Opus 4.6 bei Websites, also
00:05:09erwarte ich, dass 4.7 seinen Platz einnehmen wird. Nun, offensichtlich war dieser Test ein ziemlich
00:05:13einfacher, also gebe ich ihnen als Nächstes allen eine fortgeschrittenere Aufgabe. Wie du hier in Claude Code sehen kannst,
00:05:17bitte ich Opus 4.6 um ein Dashboard für persönliches Finanzmanagement, das einen detaillierten
00:05:21Überblick über die finanzielle Gesundheit einer Person bietet, mit einer Menge Funktionen, die ich im
00:05:25Prompt hier habe, und ich gebe keinen Hinweis auf den Stack, den es verwenden soll; es wird
00:05:30das alles selbst auswählen und von Grund auf neu anfangen. Zuerst haben wir das Ergebnis von Opus 4.7, und
00:05:34es hat das alles mit einem einzigen Prompt in etwa 20 Minuten erledigt, und meine erste Reaktion ist einfach
00:05:39nur: Wow, das sieht wirklich gut aus; die UI ist sehr sauber, es hat wirklich schöne Diagramme hier, alles
00:05:44ist ordentlich angeordnet, es verwendet ein gutes Farbschema, und um ehrlich zu sein, gibt es nicht viel,
00:05:48was ich selbst daran verbessern würde; es hat einen fantastischen Job auf der UI-Seite gemacht.
00:05:53Und es hat auch all die einzelnen Seiten, nach denen ich gefragt habe; wir können alle unsere Konten sehen,
00:05:57wir können unsere Transaktionen und unsere Budgets sehen. Wir können momentan keine neuen Budgets hinzufügen,
00:06:02das scheint keine Funktion zu sein, und das Gleiche gilt für die Ziele, aber wir können
00:06:05hier in unsere Ziele einzahlen, und die Zahlen steigen, und es aktualisiert auch die Backend-API,
00:06:10die es gebaut hat, und dasselbe gilt, wenn wir Geld an Leute senden. Wenn ich also
00:06:14nur teste, für mein Claude-Code-Abo zu bezahlen, sollte das erfolgreich gesendet werden, und ich
00:06:17sehe, dass es gesendet wurde, und zurück auf dem Dashboard wurde mein Nettovermögen mit dieser Transaktion aktualisiert,
00:06:22also funktioniert dort alles, und es verwendet eine Datenbank im Backend, und wir sehen es auch
00:06:26in unseren letzten Transaktionen erscheinen. Wenn man sich den generierten Code ansieht, sieht alles
00:06:30ziemlich gut aus; es hat React und Vite für mein Frontend verwendet, also genau das, was ich auch
00:06:34gemacht hätte, und es hat auch React Router verwendet; vielleicht hätte ich TanStack genommen, aber das
00:06:38spielt keine Rolle, beides sind ziemlich gute Optionen. In all dem sieht man, dass alles ordentlich
00:06:42aufgebaut ist; wir haben all unsere einzelnen UI-Komponenten, insgesamt ist das Frontend einfach ziemlich
00:06:46gut gemacht. Wo ich Abzüge geben würde, ist das Backend, weil wir einen Express-Server
00:06:51verwenden; daran ist nichts wirklich falsch, aber ich wäre eher für so etwas wie Bun
00:06:54oder Hono gegangen, einfach wegen der Einfachheit dieser App, und auch die Art und Weise, wie es
00:06:59diese Daten speichert, ist alles im Arbeitsspeicher. Wenn ich also jetzt den Backend-Dienst herunterfahre und
00:07:04wieder starte, wird es die Daten aus diesem Seed-Skript laden, und das sind nur lokale
00:07:08Arrays; es gab keine Datenbank, um das zu sichern. Weiter zu dem, was Opus 4.6 geliefert hat:
00:07:13Ich muss sofort sagen, Opus 4.7 hat definitiv einen besseren Job beim UI-Design gemacht.
00:07:18Es gibt einfach etwas an dieser UI, das mir nicht ganz gefällt; ich weiß nicht, ob es ein
00:07:21bisschen zu viel Padding hat oder ob es daran liegt, dass es im Light-Mode ist, während das andere
00:07:24im Dark-Mode war; ich bevorzuge definitiv das von Opus 4.7. Insgesamt hat es aber ziemlich ähnliche Komponenten,
00:07:29wie man sieht: Wir haben die Karten mit unserem Nettovermögen, wir haben eine Trendgrafik,
00:07:33letzte Transaktionen und unsere finanziellen Ziele, und wir haben auch die einzelnen Seiten, um diese
00:07:38zu verfolgen. Neben der UI können wir auch einige Funktionen testen, also füge ich hier eine neue
00:07:42Transaktion hinzu; diese wird 150 Dollar für Lebensmittel sein. Es sieht so aus,
00:07:46als bekämen wir hier ein Update, und auch zurück auf dem Dashboard hat sich mein Nettovermögen aktualisiert,
00:07:50es scheint dort also zu funktionieren. Ein Punkt, an dem Opus 4.6 Opus 4.7 im
00:07:54einzelnen Prompt vielleicht geschlagen hat, ist, dass ich hier Konten hinzufügen kann; ich habe gerade dieses Konto hinzugefügt,
00:07:58und das Gleiche gilt für die Ziele und das Budget; ich habe also auch das Bildungsbudget hinzugefügt,
00:08:03es scheint also, als hätte Opus 4.6 ein paar mehr Funktionen eingebaut, aber um ehrlich zu sein, hätte ich
00:08:07Opus 4.7 einfach bitten können, sie für mich hinzuzufügen; normalerweise würde man das ja nicht in einem einzigen Prompt machen.
00:08:12Beim Blick in den Code hat Opus 4.6 einen ähnlichen Weg mit einer Vite-React-Anwendung gewählt, aber
00:08:16eine interessante Sache, die mir gerade aufgefallen ist, ist, dass dies React 19 und React Router
00:08:20DOM 7 verwendet, während Opus 4.7 React 18 und auch React Router 6 gewählt hat, obwohl ich mir
00:08:27ziemlich sicher bin, dass Opus 4.7 den neueren Wissensstand hat. Davon abgesehen ist ein weiterer Sieg für Opus 4.6,
00:08:32dass es eine Datenbank für das Backend verwendet hat, es wird also dauerhaft gespeichert; man sieht, dass es
00:08:36eine SQLite-Datenbank verwendet, und wir haben einige der Datenbankdateien, das ist also definitiv ein Gewinn, aber wo
00:08:40es verliert, ist, dass es anscheinend JavaScript für das ganze Projekt verwendet hat, während Opus 4.7 korrekterweise
00:08:45TypeScript verwendet hat. Als Nächstes haben wir das Ergebnis von GPT 5.4, und um ehrlich zu sein, habe ich keine
00:08:50Ahnung, was es hier macht; das ist keine brauchbare UI, es sieht meiner Meinung nach wirklich schlecht aus, alles
00:08:55ist total überladen; ich mag die Schriftart nicht, und ja, ich werde hier nicht
00:08:59viel Zeit investieren; das sieht einfach viel schlechter aus als die von Claude. Ich kann allerdings bestätigen,
00:09:03dass es funktioniert, wenn wir etwas Geld hinzufügen, außer dass es dabei die gesamte Seite neu lädt.
00:09:07Im Code wird es auch nicht viel besser; anscheinend wollte GPT 5.4 hierfür kein
00:09:11vollständiges Projekt starten, also hat es einen sehr einfachen Ansatz gewählt, bei dem wir nur
00:09:14unsere index.html, unsere JavaScript-Datei und unsere Styles haben, und für die Datenbank ist es auch nur
00:09:19ein einzelnes JavaScript-Skript; es verwendet keine echte Datenbank, sondern macht alles
00:09:23im Arbeitsspeicher wie Opus 4.7, und auch hier wurde JavaScript für alles anstatt
00:09:28TypeScript verwendet. Was Gemini 3.1 angeht: Ich sag's ganz ehrlich, ich hatte viele Probleme damit,
00:09:32diese App zum Laufen zu bringen, und musste tatsächlich mehrere Follow-up-Prompts senden, einfach weil ich neugierig war,
00:09:36wie das eigentlich aussah, und es sieht irgendwie genau wie das von Opus 4.6 aus; ich weiß
00:09:41nicht, ob sie die gleichen Trainingsdaten für die UI hatten, aber es ist sehr ähnlich,
00:09:45und keine dieser Funktionen funktioniert tatsächlich, und kein Tab lässt sich anklicken. Gemini 3.1
00:09:50hat wahrscheinlich am schlechtesten abgeschnitten, auch wenn 5.4 nah dran ist, einfach wegen der Art, wie es
00:09:54die App erstellt hat. Ich muss sagen, Gemini 3.1 hat tatsächlich versucht, einen guten Ansatz zu wählen, es
00:09:59hat nämlich Next.js anstatt React Router verwendet, was eine ziemlich gute Idee ist, weil man dann
00:10:02die API-Server-Routes nutzen kann, und das war eine ziemlich einfache App, also habe ich nichts dagegen,
00:10:07das so zu machen; aber ich muss sagen, es hat Prisma verwendet, wo ich so etwas wie Drizzle bevorzugt hätte.
00:10:10Diese Tests haben mich ehrlich überrascht, denn bisher war ich ein ziemlich starker Codex-Nutzer
00:10:15und hatte mich von Claude Code abgewandt, aber Opus 4.7 könnte mich zurückholen, weil es
00:10:19ein wirklich schönes UI-Design hatte und der Großteil der App zu funktionieren schien. Offensichtlich kommt es
00:10:24auf die Qualität des Promptings an, und ich habe einen ziemlich vagen Prompt zum Stack gegeben; normalerweise würde ich
00:10:28genau die Dinge prompten, die ich will; aber trotzdem bin ich ziemlich beeindruckt von dem Ergebnis,
00:10:32das wir hier bekommen haben. Ich bin gespannt, was du denkst; was ist dein Modell der Wahl im Moment? Lass es
00:10:36mich unten in der Beschreibung wissen, wenn du schon da bist, abonniere, und wie immer: Wir sehen uns
00:10:49beim nächsten Mal.

Key Takeaway

Opus 4.7 bietet signifikante Fortschritte in der UI-Gestaltung und Aufgabenbewältigung durch wörtliche Befolgung von Anweisungen, erkauft dies jedoch durch einen bis zu 35 % höheren Tokenverbrauch und eine schlechtere Leistung bei extrem langem Kontext.

Highlights

Opus 4.7 erzielt im SWE Bench Pro einen Leistungszuwachs von 10 % gegenüber der Version 4.6.

Der neue Tokenizer von Opus 4.7 führt dazu, dass identische Eingabeprompts bis zu 35 % mehr Token verbrauchen.

Die multimodale Unterstützung ermöglicht nun die Verarbeitung von Bildern mit einer dreifach höheren Auflösung.

Opus 4.7 verwendet standardmäßig TypeScript und React 18 für Webprojekte, während GPT 5.4 auf einfaches JavaScript ohne Framework-Struktur zurückfällt.

Eine neue Aufwandstufe für extra hohen Aufwand in Claude Code verbraucht etwa so viele Token wie die maximale Stufe von Opus 4.6.

In einem UI-Design-Test liefert Gemini 3.1 das visuell ansprechendste Ergebnis mit fixierten Hintergründen, während GPT 5.4 durch überladene Karten-Designs abfällt.

Timeline

Leistungsdaten und neue Sicherheitsmaßnahmen

  • Opus 4.7 steigert die Ergebnisse im SWE Bench Pro um 10 % und im Verified-Benchmark um 7 %.
  • Neue Cyber-Schutzmaßnahmen blockieren gezielt hochriskante Sicherheitsanfragen.
  • Die Cybersicherheits-Scores sinken künstlich durch die Implementierung dieser restriktiven Filter.

Die Benchmarks zeigen eine stetige Verbesserung der Modellintelligenz bei Programmieraufgaben. Ein noch leistungsfähigeres Modell namens Mythos existiert bereits intern bei Anthropic, wird aber aufgrund von Sicherheitsbedenken noch nicht öffentlich freigegeben. Die Erkenntnisse aus den aktuellen Schutzmaßnahmen von Opus 4.7 dienen als Vorbereitung für die Veröffentlichung der Mythos-Klasse.

Funktionale Upgrades und Token-Ökonomie

  • Die wörtliche Interpretation von Anweisungen erfordert die Anpassung bestehender Prompts.
  • Der aktualisierte Tokenizer erhöht die Kosten pro Prompt um bis zu 35 %.
  • Verbesserter dateisystembasierter Speicher reduziert die Notwendigkeit für umfangreichen Kontext in langen Sitzungen.

Die Leistung bei langen Kontexten im 'Needle in a Haystack'-Test ist im Vergleich zu Version 4.6 gesunken. Die neue Stufe für hohen Aufwand in Opus 4.7 ist effizienter als die maximale Stufe des Vorgängers, da sie bessere Ergebnisse bei geringerem Tokenverbrauch liefert. Nutzer müssen ihre Strategien für das Prompting anpassen, da das Modell weniger Spielraum für lockere Interpretationen lässt.

Vergleichstest im UI-Design

  • Opus 4.7 erstellt responsive Café-Websites mit passenden Schriftarten und Unsplash-Integration.
  • Gemini 3.1 gewinnt den visuellen Vergleich durch überlegene Design-Elemente wie fixierte Hintergründe.
  • GPT 5.4 liefert im Design-Bereich das schwächste Ergebnis mit einer überladenen und generischen Benutzeroberfläche.

Beim Erstellen einer einfachen HTML-Seite zeigt Opus 4.7 ein besseres Gespür für Ästhetik als Version 4.6, insbesondere durch den Verzicht auf unschöne Farbverläufe. Gemini 3.1 überzeugt durch moderne Web-Design-Techniken. GPT 5.4 hingegen verwendet ein repetitives Karten-Layout, das nicht zum Kontext einer Café-Website passt.

Anwendungsentwicklung und Code-Qualität

  • Opus 4.7 erstellt in 20 Minuten ein funktionsfähiges Finanz-Dashboard mit React, Vite und TypeScript.
  • Das Modell nutzt korrekterweise TypeScript, während Konkurrenzmodelle oft auf einfaches JavaScript ausweichen.
  • Opus 4.6 integriert im Gegensatz zur Version 4.7 eine SQLite-Datenbank für dauerhafte Speicherung.

In einem komplexen Test für ein Finanz-Dashboard liefert Opus 4.7 eine saubere Dark-Mode-UI mit funktionsfähigen Diagrammen und API-Aktualisierungen. Ein Mangel besteht in der rein arbeitsspeicherbasierten Datenspeicherung, die bei einem Serverneustart verloren geht. Gemini 3.1 wählt mit Next.js zwar einen modernen technologischen Ansatz, scheitert aber an der Bereitstellung einer funktionierenden Benutzeroberfläche.

Community Posts

View all posts