00:00:00Das neue beste Modell ist da, Opus 4.7. Es sieht nach einem ziemlich guten Upgrade aus, offensichtlich
00:00:05ist es besser im Coden, aber es hat auch verbessertes Sehen, Selbstverifizierung und es ist angeblich
00:00:09besser darin, UIs geschmackvoller und kreativer zu gestalten.
00:00:12Der Nachteil ist jedoch, dass sich zwar die Kosten nicht geändert haben, aber der Tokenizer, sodass derselbe
00:00:17Eingabeprompt jetzt bis zu 35 % mehr Token verbrauchen könnte, und es denkt auch mehr, also noch
00:00:22mehr Token zum Verbrennen. Es gibt definitiv einige wirklich interessante Details in diesem Release
00:00:26und wahrscheinlich eine Änderung, die du jetzt an Claude Code vornehmen willst. Also springen wir direkt rein, schauen wir,
00:00:30was neu ist, und testen es aus.
00:00:31Ich werde eigentlich mit den Benchmarks beginnen, weil ich vorhin ein bisschen gelogen habe, als ich sagte, dies
00:00:40sei das neue beste Modell. Es ist das beste öffentlich verfügbare, aber diese Benchmarks enthalten auch
00:00:44Mythos, das Modell, das so mächtig ist, dass wir es noch nicht benutzen dürfen.
00:00:47Laut Anthropic testet Opus 4.7 tatsächlich neue Cyber-Schutzmaßnahmen, um Anfragen zu blockieren,
00:00:52die auf verbotene oder hochriskante Cybersicherheits-Nutzung hindeuten, und was sie daraus lernen, wird
00:00:56ihnen helfen, auf eine breite Veröffentlichung der Mythos-Klasse-Modelle hinzuarbeiten, also hoffentlich in der Zukunft
00:01:00kann ich ein Video über den Mythos-Release machen und wie es das Ende der Softwareentwicklung bedeutet,
00:01:03wie wir sie kennen. Also abonniere, wenn du das nicht verpassen willst.
00:01:06Für den Moment werde ich Mythos ignorieren und mich auf das konzentrieren, das wir tatsächlich benutzen können,
00:01:10nämlich Opus 4.7, und dieses hat bei den Benchmarks tatsächlich große Fortschritte gemacht.
00:01:13Ich werde hier nicht zu sehr ins Detail gehen, und du kannst den Bildschirm anhalten, wenn du
00:01:16die einzelnen Werte lesen willst. Du siehst bei Benchmarks wie SWE Bench Pro einen Sprung von 10 %
00:01:21gegenüber Opus 4.6, und bei Verified sind es 7 %, und dieses Muster setzt sich so ziemlich
00:01:26für den Rest der Benchmarks fort, außer in der Cybersicherheit, wo es eigentlich leicht zurückging, was anscheinend
00:01:30mit den Sicherheitsmaßnahmen zusammenhängt, die ich vorhin erwähnt habe; es scheint, als würde man diesen
00:01:34Score künstlich niedrig halten, um die Welt zu retten oder so.
00:01:37Ich habe auch einen wirklich interessanten Benchmark in dieser Systemkarte gefunden, wo es scheint, dass die
00:01:40Leistung bei langem Kontext im Vergleich zu Opus 4.6 anscheinend einen Sturzflug gemacht hat,
00:01:45wenn man den "Needle in a Haystack"-Test verwendet, also bin ich gespannt, wie sich das auf die tatsächliche Nutzung
00:01:50mit der Zeit auswirkt. Abgesehen von den Benchmarks gibt es auch einige andere bemerkenswerte Verbesserungen,
00:01:54die vielleicht sogar die Art und Weise ändern, wie du Claude benutzt. Die erste ist die bessere Befolgung von Anweisungen,
00:01:58was eigentlich bedeutet, dass du unerwartete Ergebnisse bei Prompts haben könntest, die du bereits zuvor
00:02:01verwendet hast, da ältere Modelle Anweisungen locker interpretierten oder Teile übersprangen, während Opus 4.7
00:02:07wirklich darauf fokussiert ist, Anweisungen wörtlich zu nehmen, also musst du vielleicht einige Prompts anpassen.
00:02:11Als Nächstes hat es eine verbesserte multimodale Unterstützung, es kann also Bilder mit dreimal höherer
00:02:16Auflösung als die älteren Modelle akzeptieren, was es besser machen sollte bei Aufgaben wie der Computersteuerung
00:02:20und Datenextraktion. Auch die Speichernutzung wurde verbessert, Opus 4.7 sollte also besser darin sein, dateisystembasierten
00:02:25Speicher zu nutzen, wo es sich an wichtige Notizen über lange Sitzungen hinweg erinnert und diese
00:02:30nutzt, um zu neuen Aufgaben überzugehen, die dadurch weniger Kontext vorab benötigen. Vielleicht
00:02:34spart mir das ein paar Token, was jetzt ziemlich wichtig ist, da die nächste Änderung den Tokenizer
00:02:39und das Denken betrifft. Opus 4.7 verwendet einen aktualisierten Tokenizer, der verbessert, wie das Modell Text verarbeitet,
00:02:45aber es bedeutet auch, dass derselbe Eingabeprompt bis zu 35 % mehr Token kosten kann, und wenn man
00:02:49dies mit der Tatsache kombiniert, dass Opus 4.7 bei höheren Aufwandstufen mehr denkt, wird dieses Modell
00:02:54wirklich einige Token verbrennen. Um es noch schlimmer zu machen, gibt es auch eine neue Stufe für
00:02:58extra hohen Aufwand, und sie ist in Claude Code sogar als Standard eingestellt. Ich empfehle dir daher dringend,
00:03:02die verschiedenen Aufwandstufen auszutesten und diejenige zu finden, die am besten zu dir passt, um zu sehen,
00:03:05ob du sie eventuell herabstufen kannst, ohne Auswirkungen zu bemerken. Zum Vergleich: Die neue
00:03:09Stufe für extra hohen Aufwand verbraucht etwa die gleiche Menge an Token wie die maximale Aufwandstufe von Opus 4.6,
00:03:14und die Stufe für hohen Aufwand von Opus 4.7 schneidet sogar besser ab als die maximale Stufe von Opus 4.6,
00:03:19bei weniger verbrauchten Token. Wenn du also mit dem zufrieden bist, was du vorher hattest, würde ich diese Tabelle
00:03:24zum Vergleich heranziehen, denn ich weiß für mich, dass ich dies in den meisten Fällen wahrscheinlich auf
00:03:27die Stufe für hohen Aufwand umstellen werde. Nachdem die Zusammenfassung der Neuerungen erledigt ist, werde ich
00:03:31meine Credits verbrauchen und das Ganze testen. Das Erste, was ich prüfe: Ist es besser im UI-Design?
00:03:35Also gab ich ihm einen sehr einfachen Prompt, eine Café-Website nur mit einer index.html zu erstellen,
00:03:40und ich verwende die maximale Aufwandstufe bei allen Modellen, die ich teste. Ich werde dies also
00:03:43in Opus 4.7, 4.6, Gemini 3.1 und GPT 5.4 ausprobieren. Das ist das Ergebnis, das ich von Opus 4.7 zurückbekam,
00:03:51und ich finde, es sieht ziemlich gut aus; es hat so ein schönes Café-Gefühl, es wurde eine
00:03:55schöne Schriftart verwendet, und Bilder von Unsplash wurden hier eingebunden. Insgesamt kann ich mich nicht beschweren,
00:03:59es ist eine ziemlich einfache Website, hat einen schönen Menübereich, alles ist tatsächlich responsiv und insgesamt
00:04:04würde ich sagen, ja, es sieht ziemlich gut aus. Wenn wir das mit dem vergleichen, was Opus 4.6 mir geliefert hat,
00:04:09sieht man, dass es einen etwas anderen Stil gewählt hat, aber es hat eine ähnliche Schriftart und einen ähnlichen Menübereich,
00:04:12und insgesamt ist es ein kleines bisschen schlechter, würde ich sagen, nur weil es keinen schönen
00:04:16Hintergrund hier verwendet hat und dieser Farbverlauf überhaupt kein schöner Übergang ist, aber trotzdem,
00:04:20man kann sich nicht zu sehr beschweren; ich würde sagen, Opus 4.7 ist nur eine kleine Stufe darüber. Gemini 3.1
00:04:25auf der anderen Seite hat mir, glaube ich, mein bestes Ergebnis geliefert, zumindest ist dieses hier mein Favorit.
00:04:29Lass mich in den Kommentaren wissen, welches deins ist. Ich mag es einfach sehr, dass dieser Hintergrund
00:04:33sich nicht mitbewegt, wenn wir scrollen; ich finde, das ist mit diesem Bildbereich hier im "Unsere Geschichte"-Bereich
00:04:36wirklich gut gemacht. Das Menü sieht den anderen ähnlich, aber auch hier finde ich es schön
00:04:40gestaltet, genauso wie der Footer, also gewinnt 3.1 hier für mich. Auf dem
00:04:45letzten Platz landet allerdings definitiv GPT 5.4; das hat einfach so einen GPT-Look-and-Feel,
00:04:50es liebt diese Art von Karten mit einer schönen Unschärfe, und es ist einfach keine gute
00:04:55Café-Website meiner Meinung nach; es sieht aus wie jede andere GPT-App, die ich je gesehen habe. Also,
00:04:59Opus 4.7 ist definitiv gut in UI und wird es wahrscheinlich mit mehr Anweisungen noch besser handhaben.
00:05:04Momentan führt in der Design-Arena Opus 4.6 bei Websites, also
00:05:09erwarte ich, dass 4.7 seinen Platz einnehmen wird. Nun, offensichtlich war dieser Test ein ziemlich
00:05:13einfacher, also gebe ich ihnen als Nächstes allen eine fortgeschrittenere Aufgabe. Wie du hier in Claude Code sehen kannst,
00:05:17bitte ich Opus 4.6 um ein Dashboard für persönliches Finanzmanagement, das einen detaillierten
00:05:21Überblick über die finanzielle Gesundheit einer Person bietet, mit einer Menge Funktionen, die ich im
00:05:25Prompt hier habe, und ich gebe keinen Hinweis auf den Stack, den es verwenden soll; es wird
00:05:30das alles selbst auswählen und von Grund auf neu anfangen. Zuerst haben wir das Ergebnis von Opus 4.7, und
00:05:34es hat das alles mit einem einzigen Prompt in etwa 20 Minuten erledigt, und meine erste Reaktion ist einfach
00:05:39nur: Wow, das sieht wirklich gut aus; die UI ist sehr sauber, es hat wirklich schöne Diagramme hier, alles
00:05:44ist ordentlich angeordnet, es verwendet ein gutes Farbschema, und um ehrlich zu sein, gibt es nicht viel,
00:05:48was ich selbst daran verbessern würde; es hat einen fantastischen Job auf der UI-Seite gemacht.
00:05:53Und es hat auch all die einzelnen Seiten, nach denen ich gefragt habe; wir können alle unsere Konten sehen,
00:05:57wir können unsere Transaktionen und unsere Budgets sehen. Wir können momentan keine neuen Budgets hinzufügen,
00:06:02das scheint keine Funktion zu sein, und das Gleiche gilt für die Ziele, aber wir können
00:06:05hier in unsere Ziele einzahlen, und die Zahlen steigen, und es aktualisiert auch die Backend-API,
00:06:10die es gebaut hat, und dasselbe gilt, wenn wir Geld an Leute senden. Wenn ich also
00:06:14nur teste, für mein Claude-Code-Abo zu bezahlen, sollte das erfolgreich gesendet werden, und ich
00:06:17sehe, dass es gesendet wurde, und zurück auf dem Dashboard wurde mein Nettovermögen mit dieser Transaktion aktualisiert,
00:06:22also funktioniert dort alles, und es verwendet eine Datenbank im Backend, und wir sehen es auch
00:06:26in unseren letzten Transaktionen erscheinen. Wenn man sich den generierten Code ansieht, sieht alles
00:06:30ziemlich gut aus; es hat React und Vite für mein Frontend verwendet, also genau das, was ich auch
00:06:34gemacht hätte, und es hat auch React Router verwendet; vielleicht hätte ich TanStack genommen, aber das
00:06:38spielt keine Rolle, beides sind ziemlich gute Optionen. In all dem sieht man, dass alles ordentlich
00:06:42aufgebaut ist; wir haben all unsere einzelnen UI-Komponenten, insgesamt ist das Frontend einfach ziemlich
00:06:46gut gemacht. Wo ich Abzüge geben würde, ist das Backend, weil wir einen Express-Server
00:06:51verwenden; daran ist nichts wirklich falsch, aber ich wäre eher für so etwas wie Bun
00:06:54oder Hono gegangen, einfach wegen der Einfachheit dieser App, und auch die Art und Weise, wie es
00:06:59diese Daten speichert, ist alles im Arbeitsspeicher. Wenn ich also jetzt den Backend-Dienst herunterfahre und
00:07:04wieder starte, wird es die Daten aus diesem Seed-Skript laden, und das sind nur lokale
00:07:08Arrays; es gab keine Datenbank, um das zu sichern. Weiter zu dem, was Opus 4.6 geliefert hat:
00:07:13Ich muss sofort sagen, Opus 4.7 hat definitiv einen besseren Job beim UI-Design gemacht.
00:07:18Es gibt einfach etwas an dieser UI, das mir nicht ganz gefällt; ich weiß nicht, ob es ein
00:07:21bisschen zu viel Padding hat oder ob es daran liegt, dass es im Light-Mode ist, während das andere
00:07:24im Dark-Mode war; ich bevorzuge definitiv das von Opus 4.7. Insgesamt hat es aber ziemlich ähnliche Komponenten,
00:07:29wie man sieht: Wir haben die Karten mit unserem Nettovermögen, wir haben eine Trendgrafik,
00:07:33letzte Transaktionen und unsere finanziellen Ziele, und wir haben auch die einzelnen Seiten, um diese
00:07:38zu verfolgen. Neben der UI können wir auch einige Funktionen testen, also füge ich hier eine neue
00:07:42Transaktion hinzu; diese wird 150 Dollar für Lebensmittel sein. Es sieht so aus,
00:07:46als bekämen wir hier ein Update, und auch zurück auf dem Dashboard hat sich mein Nettovermögen aktualisiert,
00:07:50es scheint dort also zu funktionieren. Ein Punkt, an dem Opus 4.6 Opus 4.7 im
00:07:54einzelnen Prompt vielleicht geschlagen hat, ist, dass ich hier Konten hinzufügen kann; ich habe gerade dieses Konto hinzugefügt,
00:07:58und das Gleiche gilt für die Ziele und das Budget; ich habe also auch das Bildungsbudget hinzugefügt,
00:08:03es scheint also, als hätte Opus 4.6 ein paar mehr Funktionen eingebaut, aber um ehrlich zu sein, hätte ich
00:08:07Opus 4.7 einfach bitten können, sie für mich hinzuzufügen; normalerweise würde man das ja nicht in einem einzigen Prompt machen.
00:08:12Beim Blick in den Code hat Opus 4.6 einen ähnlichen Weg mit einer Vite-React-Anwendung gewählt, aber
00:08:16eine interessante Sache, die mir gerade aufgefallen ist, ist, dass dies React 19 und React Router
00:08:20DOM 7 verwendet, während Opus 4.7 React 18 und auch React Router 6 gewählt hat, obwohl ich mir
00:08:27ziemlich sicher bin, dass Opus 4.7 den neueren Wissensstand hat. Davon abgesehen ist ein weiterer Sieg für Opus 4.6,
00:08:32dass es eine Datenbank für das Backend verwendet hat, es wird also dauerhaft gespeichert; man sieht, dass es
00:08:36eine SQLite-Datenbank verwendet, und wir haben einige der Datenbankdateien, das ist also definitiv ein Gewinn, aber wo
00:08:40es verliert, ist, dass es anscheinend JavaScript für das ganze Projekt verwendet hat, während Opus 4.7 korrekterweise
00:08:45TypeScript verwendet hat. Als Nächstes haben wir das Ergebnis von GPT 5.4, und um ehrlich zu sein, habe ich keine
00:08:50Ahnung, was es hier macht; das ist keine brauchbare UI, es sieht meiner Meinung nach wirklich schlecht aus, alles
00:08:55ist total überladen; ich mag die Schriftart nicht, und ja, ich werde hier nicht
00:08:59viel Zeit investieren; das sieht einfach viel schlechter aus als die von Claude. Ich kann allerdings bestätigen,
00:09:03dass es funktioniert, wenn wir etwas Geld hinzufügen, außer dass es dabei die gesamte Seite neu lädt.
00:09:07Im Code wird es auch nicht viel besser; anscheinend wollte GPT 5.4 hierfür kein
00:09:11vollständiges Projekt starten, also hat es einen sehr einfachen Ansatz gewählt, bei dem wir nur
00:09:14unsere index.html, unsere JavaScript-Datei und unsere Styles haben, und für die Datenbank ist es auch nur
00:09:19ein einzelnes JavaScript-Skript; es verwendet keine echte Datenbank, sondern macht alles
00:09:23im Arbeitsspeicher wie Opus 4.7, und auch hier wurde JavaScript für alles anstatt
00:09:28TypeScript verwendet. Was Gemini 3.1 angeht: Ich sag's ganz ehrlich, ich hatte viele Probleme damit,
00:09:32diese App zum Laufen zu bringen, und musste tatsächlich mehrere Follow-up-Prompts senden, einfach weil ich neugierig war,
00:09:36wie das eigentlich aussah, und es sieht irgendwie genau wie das von Opus 4.6 aus; ich weiß
00:09:41nicht, ob sie die gleichen Trainingsdaten für die UI hatten, aber es ist sehr ähnlich,
00:09:45und keine dieser Funktionen funktioniert tatsächlich, und kein Tab lässt sich anklicken. Gemini 3.1
00:09:50hat wahrscheinlich am schlechtesten abgeschnitten, auch wenn 5.4 nah dran ist, einfach wegen der Art, wie es
00:09:54die App erstellt hat. Ich muss sagen, Gemini 3.1 hat tatsächlich versucht, einen guten Ansatz zu wählen, es
00:09:59hat nämlich Next.js anstatt React Router verwendet, was eine ziemlich gute Idee ist, weil man dann
00:10:02die API-Server-Routes nutzen kann, und das war eine ziemlich einfache App, also habe ich nichts dagegen,
00:10:07das so zu machen; aber ich muss sagen, es hat Prisma verwendet, wo ich so etwas wie Drizzle bevorzugt hätte.
00:10:10Diese Tests haben mich ehrlich überrascht, denn bisher war ich ein ziemlich starker Codex-Nutzer
00:10:15und hatte mich von Claude Code abgewandt, aber Opus 4.7 könnte mich zurückholen, weil es
00:10:19ein wirklich schönes UI-Design hatte und der Großteil der App zu funktionieren schien. Offensichtlich kommt es
00:10:24auf die Qualität des Promptings an, und ich habe einen ziemlich vagen Prompt zum Stack gegeben; normalerweise würde ich
00:10:28genau die Dinge prompten, die ich will; aber trotzdem bin ich ziemlich beeindruckt von dem Ergebnis,
00:10:32das wir hier bekommen haben. Ich bin gespannt, was du denkst; was ist dein Modell der Wahl im Moment? Lass es
00:10:36mich unten in der Beschreibung wissen, wenn du schon da bist, abonniere, und wie immer: Wir sehen uns
00:10:49beim nächsten Mal.