00:00:00Anthropic hat gerade Claude Opus 4.6 veröffentlicht und es erzielt die höchste Punktzahl auf Terminal Bench 2.0 von allen Modellen.
00:00:06Tut mir leid, dass ich eure Programmierung hier kurz unterbreche,
00:00:10aber wie sich herausstellt, sind gerade die GPT 5.3 Codecs erschienen, und die schlagen Opus 4.6 auf dem Terminal Bench um über 10 %.
00:00:16Es scheint also, als hätte Anthropic nur für ein paar Minuten regiert. Der Wettbewerb zwischen den beiden heizt sich gerade richtig auf.
00:00:23Ich bin also super gespannt, was es Neues in diesen Modellen gibt und welches sich am besten anfühlt, denn in letzter Zeit
00:00:29war es tatsächlich GPT 5.2, das sich für mich besser anfühlte.
00:00:31Ich will also sehen, ob Claude sich den Vorsprung zurückholen kann oder ob OpenAI mit den GPT 5.3 Codecs direkt bereitstand.
00:00:37Zuerst ein schnelles TL;DR zu den Neuerungen, da wir alle wissen, dass sie im Benchmark besser sein werden als ihre Vorgänger.
00:00:48Das zeige ich euch am Ende, aber hat sich sonst eigentlich noch etwas an den Modellen geändert?
00:00:52Nun, was Opus betrifft:
00:00:53Sie behaupten, dass es sorgfältiger planen kann, agentische Aufgaben länger durchhält und in größeren Codebasen zuverlässiger arbeitet mit besserer
00:01:00Code-Review und Debugging-Fähigkeiten, um eigene Fehler zu finden.
00:01:02Das sind tatsächlich einige der Punkte, in denen Opus meiner Erfahrung nach im Vergleich zu GPT 5.2 am schwächsten war.
00:01:08Es fing normalerweise schneller an zu coden, machte aber meistens auch ein paar mehr Fehler.
00:01:12GPT 5.2 hingegen brauchte etwas länger zum Coden, verstand aber den Kontext des Repositories besser.
00:01:17Hoffentlich verbessern diese Änderungen Opus hier, und es wird wahrscheinlich auch von seinem neuen Kontextfenster von insgesamt 1 Million
00:01:23Token profitieren.
00:01:24Es wird allerdings erwähnt, dass dies noch in der Beta-Phase ist und – ähnlich wie bei anderen Anbietern –
00:01:27zusätzlich kostet: Prompts über 200.000 Token kosten 10 $ pro Million Input-Token und
00:01:3337,50 $ für eine Million Output-Token. Weiter geht's mit Codecs 5.3.
00:01:38OpenAI gibt an, dass dieses Modell die Coding-Leistung von GPT 5.2 Codecs und die Reasoning- sowie Fachkenntnisse
00:01:45von GPT 5.2 in einem Modell vereint, welches zudem 25 % schneller ist.
00:01:51Das sollte es befähigen, langwierige Aufgaben zu übernehmen, die Recherche, Tool-Nutzung und komplexe Ausführungen beinhalten.
00:01:57Es scheint also wirklich, dass sie dieses Modell zu einem Allrounder mit dem Wissen von GPT 5.2 und verbesserten Coding-Fähigkeiten gemacht haben.
00:02:03Aber das ist alles nur Marketing-Gerede.
00:02:05Lassen wir die Modelle also in echten Tests antreten. Zuerst habe ich versucht, ein Convex-Agent-Paket auf das AI SDK v6 zu aktualisieren.
00:02:11Ich mag Convex als Datenbank in letzter Zeit sehr, und dieses Paket hilft im Grunde dabei, das AI SDK mit der Datenbank zu verknüpfen.
00:02:19So bekommt man eine richtig gute Performance, aber das Problem war, dass es noch nicht auf die neueste Version aktualisiert wurde.
00:02:23Man sieht hier in der Dokumentation, dass die Migration von v5 auf v6 nicht gerade einfach ist.
00:02:28Es gab viele Breaking Changes und viele Typen wurden geändert.
00:02:32Ich habe also eine einfache Chat-App in Convex erstellt, die mit dem Agent-Paket funktionierte.
00:02:36Dann habe ich die Pakete auf v6 aktualisiert und prompt einen Haufen Build- und Typfehler bekommen.
00:02:40Ich habe die Modelle einfach gebeten, diese zu beheben. Hier sieht man den Prompt, den ich in Codecs verwendet habe.
00:02:44Ich sagte, ich baue eine Chat-App mit Convex und hatte eine funktionierende Version,
00:02:46habe dann aber auf v6 aktualisiert und muss nun die Typ- und Build-Fehler beheben.
00:02:50Ich habe den Migrationsleitfaden als Kontext mitgegeben und gesagt, dass ich möchte, dass alle Tests
00:02:55bestehen und TypeScript-Hacks wie "as any" vermieden werden sollen, wo immer es möglich ist, da Modelle das oft machen.
00:02:59Das wollte ich explizit ausschließen, da es im AI SDK mittlerweile ziemlich komplexe Typen gibt.
00:03:03Da wir schon bei Codecs sind, schauen wir uns an, wie 5.3 Codecs abgeschnitten hat. Es begann damit,
00:03:09das Repo zu verstehen. Es erkannte, dass es ein Monorepo mit dem Ordner "packages/agent" war. Dann identifizierte es einige
00:03:15Fehlerursachen sowie Pakete, die aktualisiert werden mussten, und listete genau auf, wie es die Aufgabe abarbeiten würde.
00:03:22Danach fing es einfach an zu coden, machte Änderungen, ließ hin und wieder einen Build laufen und arbeitete sich durch
00:03:27die Behebung all dieser Typfehler. Insgesamt lief es etwa 40 Minuten lang völlig unterbrechungsfrei,
00:03:32was mich super beeindruckt hat. Man sieht, dass es 545 Zeilen Code hinzugefügt und 111 entfernt hat. Nun zu Claude Code:
00:03:39Ich gab ihm eine Kopie desselben Projekts und denselben Prompt. Auch hier wurde etwa 40 Minuten an der Aufgabe gearbeitet,
00:03:44aber es gab noch ein paar Build-Fehler, als ich versuchte, es zu starten.
00:03:48Ich musste also noch einen weiteren Prompt senden, damit Opus mir eine funktionierende Version des Codes lieferte.
00:03:53Aber ansonsten war es eine recht ähnliche Erfahrung wie bei Codecs.
00:03:56Allerdings muss ich sagen, dass mir das UI von Codecs wirklich gut gefällt. Ich bevorzuge es gegenüber einem Terminal-UI, sorry!
00:04:02Jedenfalls kann ich bestätigen: Nach einem Prompt bei Codecs 5.3 und zwei Prompts bei Opus 4.6
00:04:06haben es beide geschafft, das Agent-Paket auf die neue Version des AI SDK zu aktualisieren – ohne Typfehler,
00:04:11ohne Build-Fehler und mit allen bestandenen Tests. Aber sie haben es auf unterschiedliche Weise gelöst.
00:04:16Hier habe ich links Codecs und rechts die Änderungen von Opus.
00:04:19Man sieht, dass Opus im Vergleich zu Codecs ein paar mehr Änderungen am Projekt vorgenommen hat.
00:04:23Sie haben einige Features etwas unterschiedlich gehandhabt.
00:04:25Was Codecs sehr gut gemacht hat, ist diese Logik für Werkzeug-Genehmigungsanfragen hier.
00:04:30Das war neu im AI SDK v6. Bei Opus konnte ich dazu keinerlei Erwähnung finden.
00:04:35Es scheint, als hätte es das einfach übergangen und nicht in den Code eingebaut.
00:04:40Aber eine Sache, die Codecs meiner Meinung nach schlecht gelöst hat, war bei den UI-Nachrichten: Es hat dort eine
00:04:46komplett eigene Funktion hinzugefügt, um eine UI-Nachricht in eine Modell-Nachricht umzuwandeln.
00:04:50Falls ihr es nicht wisst: Das AI SDK hat bereits eine Funktion dafür, und die sollte man definitiv stattdessen nutzen.
00:04:57Im direkten Vergleich sieht man, dass Opus das richtig gemacht hat.
00:05:00Es hat einfach die "convert to model messages"-Funktion aus dem AI SDK verwendet.
00:05:04Das bedeutet für die Zukunft: Wenn das Paket aktualisiert wird,
00:05:07muss ich mir keine Sorgen um Änderungen an meiner eigenen Version hier machen, da ich die aus dem Paket nutze.
00:05:14Das war ein wenig nervig und für mich ein Warnsignal, als ich mir den Code ansah.
00:05:19Um eine zweite Meinung für mein Code-Review einzuholen,
00:05:20habe ich den Code zurück an Codecs 5.3 gegeben und um eine gemeinsame Überprüfung gebeten. Man sieht, dass es die
00:05:26Vor- und Nachteile der jeweiligen Ansätze aufgelistet hat.
00:05:29Aber ganz unten gab es ein Fazit, und Codecs 5.3 bevorzugt tatsächlich die Opus-Chat-Version wegen der besseren Migrations-Architektur.
00:05:36Wenn es eine Basis wählen müsste, um sicher zu releasen,
00:05:39würde es Opus Chat wählen und dann die Genehmigungs- und Ablehnungslogik von Codecs Chat dazuholen.
00:05:43Also diese zusätzliche Funktion für die Werkzeug-Genehmigungsanfrage.
00:05:46Es sagt im Grunde: Nimm das aus der Codecs-Version und füge es der Opus-Version hinzu, dann hast du eine bessere Migration.
00:05:51Es ist zumindest schön zu sehen, dass Codecs 5.3 hier nicht voreingenommen ist und sich nicht selbst gewählt hat.
00:05:55Aber ich muss zugeben, dass die Art und Weise, wie beide die Migration gehandhabt haben, sehr ähnlich war und ich sie wahrscheinlich in die richtige Richtung steuern könnte.
00:06:01Aber ein Test reicht nicht aus.
00:06:03Für den nächsten Test – ein wenig weniger ernsthaft – habe ich beide gefragt, ob sie mir einen Club-Penguin-Klon
00:06:08mit Three.js erstellen können. Ich verrate euch noch nicht, wer wer ist, aber das hier ist das erste Spiel, das wir bekommen haben.
00:06:13Man sieht hier das Menü "Erstelle deinen Pinguin" und der Avatar oben verändert sich.
00:06:17Ich kann verschiedene Hüte hinzufügen: einen Partyhut, eine Propellermütze, eine Krone.
00:06:21Ich wähle die Propellermütze und klicke auf Play. Wenn ihr Club Penguin kennt,
00:06:26würde ich sagen, das hat einen ordentlichen Job gemacht, das Stadtzentrum nachzubilden, auch wenn die Pizzeria hier nicht ist.
00:06:32Normalerweise ist hier eine Disco, und man kann keines der Gebäude betreten.
00:06:35Man sieht, dass die Objekte noch nicht solide sind.
00:06:37Aber was es gut gemacht hat: Über die Karte können wir verschiedene Zonen besuchen.
00:06:41Hier ist das Skidorf. Wenn ich klicke und mich bewege,
00:06:44finde ich, dass mein Pinguin für etwas in Three.js, für das ich keine Assets vorgegeben habe, ganz okay aussieht.
00:06:49Es hat das alles aus seinem Training heraus gemacht. Wir können sogar das Sled-Racing-Spiel spielen,
00:06:54was mein absoluter Favorit bei Club Penguin war. Es fehlen definitiv ein paar Dinge,
00:06:59das muss ich zugeben, aber für den ersten Versuch mit einem einzigen Prompt ist es ziemlich gut.
00:07:04Ich kann sogar bestätigen, dass diese Version einen Versuch des Cart-Surfer-Spiels enthält,
00:07:07was ebenfalls ein Favorit von mir war, aber das hier scheint etwas kaputt zu sein.
00:07:11Man kann nur von Seite zu Seite gleiten und jetzt bin ich wohl unter der Karte. Es ist auch plötzlich sehr dunkel.
00:07:15Das hier hat mir das andere Modell geliefert. Schreibt mal in die Kommentare,
00:07:18welches Modell eurer Meinung nach einen besseren Job gemacht hat und ob ihr erraten könnt, welches Modell welche Version erstellt hat.
00:07:22Ich verrate es euch am Ende des Tests. Wie ihr seht,
00:07:25haben wir hier die gleichen Farbwähler, die im Prompt standen.
00:07:27Wir haben auch Hüte und Accessoires. Ich nehme diesmal die Krone und wir klicken auf "Erkundung starten".
00:07:31Der Pinguin ist in dieser Version etwas pummeliger. Er sieht lustiger aus, aber wie gesagt, ich habe keine Assets geliefert.
00:07:36Das ist alles von Grund auf in Three.js erstellt.
00:07:38Es hat das gleiche Problem, dass man durch Gebäude laufen kann,
00:07:41aber wir haben die Karte und all die verschiedenen Zonen.
00:07:44Wenn ich also zum Skidorf rübergehe,
00:07:46sollte ich das Spiel spielen können. Ich kann hier Sled-Racing spielen und um ehrlich zu sein,
00:07:50ist das ziemlich ähnlich zur anderen Version des Sled-Racing-Spiels.
00:07:53Man sieht, wie in der Ferne ein paar Bäume auftauchen.
00:07:56Wir haben drei Leben und der Lebenszähler funktioniert tatsächlich.
00:07:58Aber es scheint, als könne man in dieser Version nicht springen.
00:08:01Dieses Modell hat mir allerdings auch eine Version des Cart-Surfer-Spiels geliefert,
00:08:04aber auch die ist etwas seltsam.
00:08:06Obwohl sie vielleicht funktionaler ist, weil man hier wenigstens etwas sieht und springen kann, aber...
00:08:11ich bin mir nicht sicher, wo ich da eigentlich surfe. Es gibt keine Schiene und insgesamt ist es nicht das Cart-Surfer-Spiel,
00:08:17das ich von Club Penguin in Erinnerung habe. Aber insgesamt
00:08:19bin ich immer beeindruckt, was diese Modelle mit einem einzigen Prompt leisten können, besonders mit Three.js. Und falls ihr euch fragt:
00:08:25Das erste war Opus 4.6 und das zweite war Codecs 5.3 – und ich glaube, ich bevorzuge das erste.
00:08:30Opus 4.6 gewinnt also meinen Club-Penguin-Test. Der finale Test,
00:08:34den ich mit diesen Modellen gemacht habe, sollte zeigen, wie gut sie im UI-Design sind. Darin werden sie ja immer besser.
00:08:38Ich habe beiden den Prompt gegeben, mir eine Landingpage für eine AI-only Social-Media-Seite zu bauen.
00:08:42So ähnlich wie Mybook, und die Seite sollte bissig sein, die Zukunft betonen, nur für KI sein und alles in einer einzigen HTML-Datei.
00:08:49Das ist das Ergebnis, das ich für beide bekommen habe, und ich muss zugeben, ich bin von Codecs hier sehr beeindruckt.
00:08:55Wir haben Codecs 5.3 links und Opus 4.6 rechts, und mir gefällt einfach der Stil,
00:09:00den Codecs 5.3 für diese Seite gewählt hat.
00:09:01Es hat sich für ein Neo-Brutalismus-Design entschieden, das ein bisschen mehr Spaß macht als diese typischen "Vibe-coded"-Seiten.
00:09:06Opus 4.6 sieht zwar auch gut aus, wirkt aber wie eine typische Vibe-App. Es ist handwerklich sehr gut gemacht,
00:09:13das muss ich zugeben, aber
00:09:14diese lila Farbverläufe und alles daran schreit förmlich nach "Vibe-coded", während die Codecs 5.3 Version
00:09:20so aussieht, als hätte jemand mehr manuellen Input gegeben, obwohl ich denselben Prompt genutzt habe.
00:09:27Das Einzige, was Opus 4.6 etwas besser gemacht hat, ist die Funktionalität der Seite.
00:09:32Wir haben hier diesen Trending-Tab, Regeln, Top-Modelle der Woche,
00:09:36beliebte Subreddits und einen Feed, während die Codecs 5.3 Version etwas kahler ist.
00:09:41Da haben wir im Grunde nur diesen Trending-Tab und das war's.
00:09:44Ich bin definitiv gespannt, wie sie in der Design Arena abschneiden, da sie gerade erst erschienen sind.
00:09:47Sie sind noch nicht gerankt, momentan führt GLM 4.7 das Feld an.
00:09:51Ich will sehen, ob 5.3 Codecs oder Opus 4.6 sich die Krone holen können.
00:09:55Insgesamt sind beide Modelle extrem fähig und es ist schwer zu sagen, welches am Ende das beste sein wird.
00:09:59Persönlich tendiere ich wohl eher zu 5.3 Codecs,
00:10:03einfach weil ich die Codecs-App mag und die allgemeine Erfahrung mit OpenAI-Prompts schätze. Wenn wir sie jedoch
00:10:09anhand der Benchmarks vergleichen, wie eingangs erwähnt, hat Codecs einen massiven Vorteil bei Terminal Bench 2.0.
00:10:15Das ist ein wirklich unglaublicher Sprung und im Grunde der einzige Benchmark, den wir aktuell vergleichen können, da ich glaube,
00:10:21dass Anthropic noch nicht damit gerechnet hat, dass OpenAI dieses Modell jetzt schon veröffentlicht. Ärgerlicherweise nutzen sie in ihren Blogposts nicht dieselben Benchmarks.
00:10:28Ich habe bei Artificial Analysis nachgesehen: Bisher wurde Opus 4.6 nur für Coding benchmarked – und zwar nur die Version ohne Reasoning.
00:10:35Aber es ist schon beeindruckend, dass die Version von 4.6 ohne Reasoning so gut abschneidet wie die Reasoning-Version von Opus 4.5.
00:10:42Mein persönliches Gefühl ist aktuell, dass der Sprung von Opus 4.5 auf 4.6 etwas geringer ausfällt als der von 5.2 Codecs auf 5.3.
00:10:49Aber ich werde beide im Alltag testen müssen, um zu sehen, wie sie sich wirklich anfühlen.
00:10:53Es gibt noch ein paar Extras in beiden Releases.
00:10:55Eines der coolsten Features ist, dass beide Modelle anscheinend verbesserte Cybersecurity-Fähigkeiten haben. OpenAI sagt, dass GPT
00:11:015.3 Codecs das erste Modell ist, das sie als hochgradig fähig für Cybersecurity-Aufgaben einstufen und das erste, das direkt darauf trainiert wurde, Software-Schwachstellen zu finden.
00:11:09Anthropic schreibt im Grunde dasselbe in ihrem langen Blogpost. Ein Feature von Codecs, auf das ich mich besonders freue,
00:11:16ist die Steuerbarkeit während der Arbeit. Man sagt, anstatt auf das Endergebnis zu warten,
00:11:21kann man in Echtzeit interagieren, Fragen stellen, Ansätze diskutieren und das Modell zur Lösung lenken.
00:11:27Diesen Ansatz finde ich viel besser, da ich oft überlege, ob ich das Modell erst fertig machen lassen soll oder
00:11:32ob ich es unterbrechen soll, wenn ich eine Änderung möchte.
00:11:35Gerade bei Aufgaben, die jetzt deutlich länger laufen können,
00:11:40wird das eine viel angenehmere User-Experience sein: Wir können einfach mit ihm reden, während es arbeitet.
00:11:44Schließlich gibt es auch für Claude ein paar neue Funktionen. Die erste ist "Claude Code".
00:11:48Man kann jetzt Agent-Teams nutzen, um Aufgaben gemeinsam zu bearbeiten, also Sub-Agenten. Richard hat dazu Anfang der Woche ein Video gemacht,
00:11:55schaut euch das also an, wenn ihr mehr wissen wollt. Es gab auch coole API-Features, wie zum Beispiel eine Compaction-Funktion,
00:12:01die direkt in die API eingebaut ist, um den Kontext zusammenzufassen und länger laufende Aufgaben zu bewältigen.
00:12:06Und es gibt einen neuen "Adaptive Thinking"-Modus.
00:12:08Dabei erkennt das Modell anhand von Kontext-Hinweisen selbst, wie intensiv es sein "Extended Thinking" nutzen sollte.
00:12:13Da haben wir's: Coding-Modelle haben in kürzester Zeit einen riesigen Sprung gemacht.
00:12:16Falls ihr es nicht wusstet: Es ist noch nicht mal ein Jahr her, seit Claude Code veröffentlicht wurde.
00:12:20Lasst mich in den Kommentaren wissen, was ihr von diesen Modellen haltet, abonniert den Kanal und wie immer: Bis zum nächsten Mal!
00:12:31(Gute-Laune-Musik)