OpenAI gewinnt... (Opus 4.6 + Codex 5.3)

BBetter Stack
Computing/SoftwareBusiness NewsVideo & Computer GamesInternet Technology

Transcript

00:00:00Anthropic hat gerade Claude Opus 4.6 veröffentlicht und es erzielt die höchste Punktzahl auf Terminal Bench 2.0 von allen Modellen.
00:00:06Tut mir leid, dass ich eure Programmierung hier kurz unterbreche,
00:00:10aber wie sich herausstellt, sind gerade die GPT 5.3 Codecs erschienen, und die schlagen Opus 4.6 auf dem Terminal Bench um über 10 %.
00:00:16Es scheint also, als hätte Anthropic nur für ein paar Minuten regiert. Der Wettbewerb zwischen den beiden heizt sich gerade richtig auf.
00:00:23Ich bin also super gespannt, was es Neues in diesen Modellen gibt und welches sich am besten anfühlt, denn in letzter Zeit
00:00:29war es tatsächlich GPT 5.2, das sich für mich besser anfühlte.
00:00:31Ich will also sehen, ob Claude sich den Vorsprung zurückholen kann oder ob OpenAI mit den GPT 5.3 Codecs direkt bereitstand.
00:00:37Zuerst ein schnelles TL;DR zu den Neuerungen, da wir alle wissen, dass sie im Benchmark besser sein werden als ihre Vorgänger.
00:00:48Das zeige ich euch am Ende, aber hat sich sonst eigentlich noch etwas an den Modellen geändert?
00:00:52Nun, was Opus betrifft:
00:00:53Sie behaupten, dass es sorgfältiger planen kann, agentische Aufgaben länger durchhält und in größeren Codebasen zuverlässiger arbeitet mit besserer
00:01:00Code-Review und Debugging-Fähigkeiten, um eigene Fehler zu finden.
00:01:02Das sind tatsächlich einige der Punkte, in denen Opus meiner Erfahrung nach im Vergleich zu GPT 5.2 am schwächsten war.
00:01:08Es fing normalerweise schneller an zu coden, machte aber meistens auch ein paar mehr Fehler.
00:01:12GPT 5.2 hingegen brauchte etwas länger zum Coden, verstand aber den Kontext des Repositories besser.
00:01:17Hoffentlich verbessern diese Änderungen Opus hier, und es wird wahrscheinlich auch von seinem neuen Kontextfenster von insgesamt 1 Million
00:01:23Token profitieren.
00:01:24Es wird allerdings erwähnt, dass dies noch in der Beta-Phase ist und – ähnlich wie bei anderen Anbietern –
00:01:27zusätzlich kostet: Prompts über 200.000 Token kosten 10 $ pro Million Input-Token und
00:01:3337,50 $ für eine Million Output-Token. Weiter geht's mit Codecs 5.3.
00:01:38OpenAI gibt an, dass dieses Modell die Coding-Leistung von GPT 5.2 Codecs und die Reasoning- sowie Fachkenntnisse
00:01:45von GPT 5.2 in einem Modell vereint, welches zudem 25 % schneller ist.
00:01:51Das sollte es befähigen, langwierige Aufgaben zu übernehmen, die Recherche, Tool-Nutzung und komplexe Ausführungen beinhalten.
00:01:57Es scheint also wirklich, dass sie dieses Modell zu einem Allrounder mit dem Wissen von GPT 5.2 und verbesserten Coding-Fähigkeiten gemacht haben.
00:02:03Aber das ist alles nur Marketing-Gerede.
00:02:05Lassen wir die Modelle also in echten Tests antreten. Zuerst habe ich versucht, ein Convex-Agent-Paket auf das AI SDK v6 zu aktualisieren.
00:02:11Ich mag Convex als Datenbank in letzter Zeit sehr, und dieses Paket hilft im Grunde dabei, das AI SDK mit der Datenbank zu verknüpfen.
00:02:19So bekommt man eine richtig gute Performance, aber das Problem war, dass es noch nicht auf die neueste Version aktualisiert wurde.
00:02:23Man sieht hier in der Dokumentation, dass die Migration von v5 auf v6 nicht gerade einfach ist.
00:02:28Es gab viele Breaking Changes und viele Typen wurden geändert.
00:02:32Ich habe also eine einfache Chat-App in Convex erstellt, die mit dem Agent-Paket funktionierte.
00:02:36Dann habe ich die Pakete auf v6 aktualisiert und prompt einen Haufen Build- und Typfehler bekommen.
00:02:40Ich habe die Modelle einfach gebeten, diese zu beheben. Hier sieht man den Prompt, den ich in Codecs verwendet habe.
00:02:44Ich sagte, ich baue eine Chat-App mit Convex und hatte eine funktionierende Version,
00:02:46habe dann aber auf v6 aktualisiert und muss nun die Typ- und Build-Fehler beheben.
00:02:50Ich habe den Migrationsleitfaden als Kontext mitgegeben und gesagt, dass ich möchte, dass alle Tests
00:02:55bestehen und TypeScript-Hacks wie "as any" vermieden werden sollen, wo immer es möglich ist, da Modelle das oft machen.
00:02:59Das wollte ich explizit ausschließen, da es im AI SDK mittlerweile ziemlich komplexe Typen gibt.
00:03:03Da wir schon bei Codecs sind, schauen wir uns an, wie 5.3 Codecs abgeschnitten hat. Es begann damit,
00:03:09das Repo zu verstehen. Es erkannte, dass es ein Monorepo mit dem Ordner "packages/agent" war. Dann identifizierte es einige
00:03:15Fehlerursachen sowie Pakete, die aktualisiert werden mussten, und listete genau auf, wie es die Aufgabe abarbeiten würde.
00:03:22Danach fing es einfach an zu coden, machte Änderungen, ließ hin und wieder einen Build laufen und arbeitete sich durch
00:03:27die Behebung all dieser Typfehler. Insgesamt lief es etwa 40 Minuten lang völlig unterbrechungsfrei,
00:03:32was mich super beeindruckt hat. Man sieht, dass es 545 Zeilen Code hinzugefügt und 111 entfernt hat. Nun zu Claude Code:
00:03:39Ich gab ihm eine Kopie desselben Projekts und denselben Prompt. Auch hier wurde etwa 40 Minuten an der Aufgabe gearbeitet,
00:03:44aber es gab noch ein paar Build-Fehler, als ich versuchte, es zu starten.
00:03:48Ich musste also noch einen weiteren Prompt senden, damit Opus mir eine funktionierende Version des Codes lieferte.
00:03:53Aber ansonsten war es eine recht ähnliche Erfahrung wie bei Codecs.
00:03:56Allerdings muss ich sagen, dass mir das UI von Codecs wirklich gut gefällt. Ich bevorzuge es gegenüber einem Terminal-UI, sorry!
00:04:02Jedenfalls kann ich bestätigen: Nach einem Prompt bei Codecs 5.3 und zwei Prompts bei Opus 4.6
00:04:06haben es beide geschafft, das Agent-Paket auf die neue Version des AI SDK zu aktualisieren – ohne Typfehler,
00:04:11ohne Build-Fehler und mit allen bestandenen Tests. Aber sie haben es auf unterschiedliche Weise gelöst.
00:04:16Hier habe ich links Codecs und rechts die Änderungen von Opus.
00:04:19Man sieht, dass Opus im Vergleich zu Codecs ein paar mehr Änderungen am Projekt vorgenommen hat.
00:04:23Sie haben einige Features etwas unterschiedlich gehandhabt.
00:04:25Was Codecs sehr gut gemacht hat, ist diese Logik für Werkzeug-Genehmigungsanfragen hier.
00:04:30Das war neu im AI SDK v6. Bei Opus konnte ich dazu keinerlei Erwähnung finden.
00:04:35Es scheint, als hätte es das einfach übergangen und nicht in den Code eingebaut.
00:04:40Aber eine Sache, die Codecs meiner Meinung nach schlecht gelöst hat, war bei den UI-Nachrichten: Es hat dort eine
00:04:46komplett eigene Funktion hinzugefügt, um eine UI-Nachricht in eine Modell-Nachricht umzuwandeln.
00:04:50Falls ihr es nicht wisst: Das AI SDK hat bereits eine Funktion dafür, und die sollte man definitiv stattdessen nutzen.
00:04:57Im direkten Vergleich sieht man, dass Opus das richtig gemacht hat.
00:05:00Es hat einfach die "convert to model messages"-Funktion aus dem AI SDK verwendet.
00:05:04Das bedeutet für die Zukunft: Wenn das Paket aktualisiert wird,
00:05:07muss ich mir keine Sorgen um Änderungen an meiner eigenen Version hier machen, da ich die aus dem Paket nutze.
00:05:14Das war ein wenig nervig und für mich ein Warnsignal, als ich mir den Code ansah.
00:05:19Um eine zweite Meinung für mein Code-Review einzuholen,
00:05:20habe ich den Code zurück an Codecs 5.3 gegeben und um eine gemeinsame Überprüfung gebeten. Man sieht, dass es die
00:05:26Vor- und Nachteile der jeweiligen Ansätze aufgelistet hat.
00:05:29Aber ganz unten gab es ein Fazit, und Codecs 5.3 bevorzugt tatsächlich die Opus-Chat-Version wegen der besseren Migrations-Architektur.
00:05:36Wenn es eine Basis wählen müsste, um sicher zu releasen,
00:05:39würde es Opus Chat wählen und dann die Genehmigungs- und Ablehnungslogik von Codecs Chat dazuholen.
00:05:43Also diese zusätzliche Funktion für die Werkzeug-Genehmigungsanfrage.
00:05:46Es sagt im Grunde: Nimm das aus der Codecs-Version und füge es der Opus-Version hinzu, dann hast du eine bessere Migration.
00:05:51Es ist zumindest schön zu sehen, dass Codecs 5.3 hier nicht voreingenommen ist und sich nicht selbst gewählt hat.
00:05:55Aber ich muss zugeben, dass die Art und Weise, wie beide die Migration gehandhabt haben, sehr ähnlich war und ich sie wahrscheinlich in die richtige Richtung steuern könnte.
00:06:01Aber ein Test reicht nicht aus.
00:06:03Für den nächsten Test – ein wenig weniger ernsthaft – habe ich beide gefragt, ob sie mir einen Club-Penguin-Klon
00:06:08mit Three.js erstellen können. Ich verrate euch noch nicht, wer wer ist, aber das hier ist das erste Spiel, das wir bekommen haben.
00:06:13Man sieht hier das Menü "Erstelle deinen Pinguin" und der Avatar oben verändert sich.
00:06:17Ich kann verschiedene Hüte hinzufügen: einen Partyhut, eine Propellermütze, eine Krone.
00:06:21Ich wähle die Propellermütze und klicke auf Play. Wenn ihr Club Penguin kennt,
00:06:26würde ich sagen, das hat einen ordentlichen Job gemacht, das Stadtzentrum nachzubilden, auch wenn die Pizzeria hier nicht ist.
00:06:32Normalerweise ist hier eine Disco, und man kann keines der Gebäude betreten.
00:06:35Man sieht, dass die Objekte noch nicht solide sind.
00:06:37Aber was es gut gemacht hat: Über die Karte können wir verschiedene Zonen besuchen.
00:06:41Hier ist das Skidorf. Wenn ich klicke und mich bewege,
00:06:44finde ich, dass mein Pinguin für etwas in Three.js, für das ich keine Assets vorgegeben habe, ganz okay aussieht.
00:06:49Es hat das alles aus seinem Training heraus gemacht. Wir können sogar das Sled-Racing-Spiel spielen,
00:06:54was mein absoluter Favorit bei Club Penguin war. Es fehlen definitiv ein paar Dinge,
00:06:59das muss ich zugeben, aber für den ersten Versuch mit einem einzigen Prompt ist es ziemlich gut.
00:07:04Ich kann sogar bestätigen, dass diese Version einen Versuch des Cart-Surfer-Spiels enthält,
00:07:07was ebenfalls ein Favorit von mir war, aber das hier scheint etwas kaputt zu sein.
00:07:11Man kann nur von Seite zu Seite gleiten und jetzt bin ich wohl unter der Karte. Es ist auch plötzlich sehr dunkel.
00:07:15Das hier hat mir das andere Modell geliefert. Schreibt mal in die Kommentare,
00:07:18welches Modell eurer Meinung nach einen besseren Job gemacht hat und ob ihr erraten könnt, welches Modell welche Version erstellt hat.
00:07:22Ich verrate es euch am Ende des Tests. Wie ihr seht,
00:07:25haben wir hier die gleichen Farbwähler, die im Prompt standen.
00:07:27Wir haben auch Hüte und Accessoires. Ich nehme diesmal die Krone und wir klicken auf "Erkundung starten".
00:07:31Der Pinguin ist in dieser Version etwas pummeliger. Er sieht lustiger aus, aber wie gesagt, ich habe keine Assets geliefert.
00:07:36Das ist alles von Grund auf in Three.js erstellt.
00:07:38Es hat das gleiche Problem, dass man durch Gebäude laufen kann,
00:07:41aber wir haben die Karte und all die verschiedenen Zonen.
00:07:44Wenn ich also zum Skidorf rübergehe,
00:07:46sollte ich das Spiel spielen können. Ich kann hier Sled-Racing spielen und um ehrlich zu sein,
00:07:50ist das ziemlich ähnlich zur anderen Version des Sled-Racing-Spiels.
00:07:53Man sieht, wie in der Ferne ein paar Bäume auftauchen.
00:07:56Wir haben drei Leben und der Lebenszähler funktioniert tatsächlich.
00:07:58Aber es scheint, als könne man in dieser Version nicht springen.
00:08:01Dieses Modell hat mir allerdings auch eine Version des Cart-Surfer-Spiels geliefert,
00:08:04aber auch die ist etwas seltsam.
00:08:06Obwohl sie vielleicht funktionaler ist, weil man hier wenigstens etwas sieht und springen kann, aber...
00:08:11ich bin mir nicht sicher, wo ich da eigentlich surfe. Es gibt keine Schiene und insgesamt ist es nicht das Cart-Surfer-Spiel,
00:08:17das ich von Club Penguin in Erinnerung habe. Aber insgesamt
00:08:19bin ich immer beeindruckt, was diese Modelle mit einem einzigen Prompt leisten können, besonders mit Three.js. Und falls ihr euch fragt:
00:08:25Das erste war Opus 4.6 und das zweite war Codecs 5.3 – und ich glaube, ich bevorzuge das erste.
00:08:30Opus 4.6 gewinnt also meinen Club-Penguin-Test. Der finale Test,
00:08:34den ich mit diesen Modellen gemacht habe, sollte zeigen, wie gut sie im UI-Design sind. Darin werden sie ja immer besser.
00:08:38Ich habe beiden den Prompt gegeben, mir eine Landingpage für eine AI-only Social-Media-Seite zu bauen.
00:08:42So ähnlich wie Mybook, und die Seite sollte bissig sein, die Zukunft betonen, nur für KI sein und alles in einer einzigen HTML-Datei.
00:08:49Das ist das Ergebnis, das ich für beide bekommen habe, und ich muss zugeben, ich bin von Codecs hier sehr beeindruckt.
00:08:55Wir haben Codecs 5.3 links und Opus 4.6 rechts, und mir gefällt einfach der Stil,
00:09:00den Codecs 5.3 für diese Seite gewählt hat.
00:09:01Es hat sich für ein Neo-Brutalismus-Design entschieden, das ein bisschen mehr Spaß macht als diese typischen "Vibe-coded"-Seiten.
00:09:06Opus 4.6 sieht zwar auch gut aus, wirkt aber wie eine typische Vibe-App. Es ist handwerklich sehr gut gemacht,
00:09:13das muss ich zugeben, aber
00:09:14diese lila Farbverläufe und alles daran schreit förmlich nach "Vibe-coded", während die Codecs 5.3 Version
00:09:20so aussieht, als hätte jemand mehr manuellen Input gegeben, obwohl ich denselben Prompt genutzt habe.
00:09:27Das Einzige, was Opus 4.6 etwas besser gemacht hat, ist die Funktionalität der Seite.
00:09:32Wir haben hier diesen Trending-Tab, Regeln, Top-Modelle der Woche,
00:09:36beliebte Subreddits und einen Feed, während die Codecs 5.3 Version etwas kahler ist.
00:09:41Da haben wir im Grunde nur diesen Trending-Tab und das war's.
00:09:44Ich bin definitiv gespannt, wie sie in der Design Arena abschneiden, da sie gerade erst erschienen sind.
00:09:47Sie sind noch nicht gerankt, momentan führt GLM 4.7 das Feld an.
00:09:51Ich will sehen, ob 5.3 Codecs oder Opus 4.6 sich die Krone holen können.
00:09:55Insgesamt sind beide Modelle extrem fähig und es ist schwer zu sagen, welches am Ende das beste sein wird.
00:09:59Persönlich tendiere ich wohl eher zu 5.3 Codecs,
00:10:03einfach weil ich die Codecs-App mag und die allgemeine Erfahrung mit OpenAI-Prompts schätze. Wenn wir sie jedoch
00:10:09anhand der Benchmarks vergleichen, wie eingangs erwähnt, hat Codecs einen massiven Vorteil bei Terminal Bench 2.0.
00:10:15Das ist ein wirklich unglaublicher Sprung und im Grunde der einzige Benchmark, den wir aktuell vergleichen können, da ich glaube,
00:10:21dass Anthropic noch nicht damit gerechnet hat, dass OpenAI dieses Modell jetzt schon veröffentlicht. Ärgerlicherweise nutzen sie in ihren Blogposts nicht dieselben Benchmarks.
00:10:28Ich habe bei Artificial Analysis nachgesehen: Bisher wurde Opus 4.6 nur für Coding benchmarked – und zwar nur die Version ohne Reasoning.
00:10:35Aber es ist schon beeindruckend, dass die Version von 4.6 ohne Reasoning so gut abschneidet wie die Reasoning-Version von Opus 4.5.
00:10:42Mein persönliches Gefühl ist aktuell, dass der Sprung von Opus 4.5 auf 4.6 etwas geringer ausfällt als der von 5.2 Codecs auf 5.3.
00:10:49Aber ich werde beide im Alltag testen müssen, um zu sehen, wie sie sich wirklich anfühlen.
00:10:53Es gibt noch ein paar Extras in beiden Releases.
00:10:55Eines der coolsten Features ist, dass beide Modelle anscheinend verbesserte Cybersecurity-Fähigkeiten haben. OpenAI sagt, dass GPT
00:11:015.3 Codecs das erste Modell ist, das sie als hochgradig fähig für Cybersecurity-Aufgaben einstufen und das erste, das direkt darauf trainiert wurde, Software-Schwachstellen zu finden.
00:11:09Anthropic schreibt im Grunde dasselbe in ihrem langen Blogpost. Ein Feature von Codecs, auf das ich mich besonders freue,
00:11:16ist die Steuerbarkeit während der Arbeit. Man sagt, anstatt auf das Endergebnis zu warten,
00:11:21kann man in Echtzeit interagieren, Fragen stellen, Ansätze diskutieren und das Modell zur Lösung lenken.
00:11:27Diesen Ansatz finde ich viel besser, da ich oft überlege, ob ich das Modell erst fertig machen lassen soll oder
00:11:32ob ich es unterbrechen soll, wenn ich eine Änderung möchte.
00:11:35Gerade bei Aufgaben, die jetzt deutlich länger laufen können,
00:11:40wird das eine viel angenehmere User-Experience sein: Wir können einfach mit ihm reden, während es arbeitet.
00:11:44Schließlich gibt es auch für Claude ein paar neue Funktionen. Die erste ist "Claude Code".
00:11:48Man kann jetzt Agent-Teams nutzen, um Aufgaben gemeinsam zu bearbeiten, also Sub-Agenten. Richard hat dazu Anfang der Woche ein Video gemacht,
00:11:55schaut euch das also an, wenn ihr mehr wissen wollt. Es gab auch coole API-Features, wie zum Beispiel eine Compaction-Funktion,
00:12:01die direkt in die API eingebaut ist, um den Kontext zusammenzufassen und länger laufende Aufgaben zu bewältigen.
00:12:06Und es gibt einen neuen "Adaptive Thinking"-Modus.
00:12:08Dabei erkennt das Modell anhand von Kontext-Hinweisen selbst, wie intensiv es sein "Extended Thinking" nutzen sollte.
00:12:13Da haben wir's: Coding-Modelle haben in kürzester Zeit einen riesigen Sprung gemacht.
00:12:16Falls ihr es nicht wusstet: Es ist noch nicht mal ein Jahr her, seit Claude Code veröffentlicht wurde.
00:12:20Lasst mich in den Kommentaren wissen, was ihr von diesen Modellen haltet, abonniert den Kanal und wie immer: Bis zum nächsten Mal!
00:12:31(Gute-Laune-Musik)

Key Takeaway

Das Video analysiert den intensiven Wettbewerb zwischen OpenAI und Anthropic, wobei GPT 5.3 Codecs aktuell die Benchmark-Führung übernimmt, während Claude Opus 4.6 durch architektonische Präzision und ein massives Kontextfenster überzeugt.

Highlights

OpenAI hat GPT 5.3 Codecs veröffentlicht, das Anthropic's Claude Opus 4.6 im Terminal Bench 2.0 um über 10 % übertrifft.

Claude Opus 4.6 bietet ein neues Kontextfenster von 1 Million Token (Beta), mit verbesserter Planung und agentischen Fähigkeiten.

Codecs 5.3 vereint Coding-Leistung mit Reasoning-Fähigkeiten und arbeitet dabei 25 % schneller als sein Vorgänger.

Im Praxistest bei einer SDK-Migration zeigte Opus 4.6 eine bessere Architektur, während Codecs 5.3 bei der Integration neuer Features punktete.

Beide Modelle zeigen signifikante Fortschritte in der Cybersecurity und können Software-Schwachstellen proaktiv identifizieren.

Codecs 5.3 ermöglicht nun Echtzeit-Interaktion und Steuerbarkeit während des Generierungsprozesses.

Timeline

Einführung und Benchmark-Überraschung

Das Video beginnt mit der Nachricht, dass Anthropic's Claude Opus 4.6 kurzzeitig den Spitzenplatz im Terminal Bench 2.0 einnahm, bevor OpenAI GPT 5.3 Codecs veröffentlichte. Die neue OpenAI-Version schlägt die Konkurrenz bereits nach wenigen Minuten um mehr als 10 %. Der Sprecher zeigt sich fasziniert von der Geschwindigkeit, mit der sich der Wettbewerb zwischen den beiden KI-Giganten aufheizt. Es wird die Frage aufgeworfen, ob Claude den Vorsprung zurückgewinnen kann oder ob OpenAI die Führung dauerhaft festigt. Dieser Abschnitt verdeutlicht die enorme Dynamik im Bereich der Large Language Models.

Neuerungen bei Opus 4.6 und Codecs 5.3

Hier werden die spezifischen technischen Verbesserungen beider Modelle detailliert gegenübergestellt. Opus 4.6 verspricht bessere Planung, Zuverlässigkeit in großen Codebasen und ein Kontextfenster von bis zu 1 Million Token, was jedoch zusätzliche Kosten verursacht. Im Gegensatz dazu kombiniert Codecs 5.3 die Reasoning-Fähigkeiten von GPT 5.2 mit optimierter Tool-Nutzung und einer Geschwindigkeitssteigerung von 25 %. Der Sprecher erläutert, dass OpenAI das Modell als Allrounder für komplexe, langwierige Aufgaben positioniert. Diese Details sind entscheidend für Entwickler, die zwischen agentischen Fähigkeiten und reiner Geschwindigkeit abwägen müssen.

Praxistest: SDK-Migration

In einem realen Test müssen beide Modelle ein Convex-Agent-Paket auf das AI SDK v6 aktualisieren, was viele Breaking Changes beinhaltet. Codecs 5.3 beeindruckt durch eine 40-minütige, fehlerfreie Bearbeitung in einem einzigen Durchgang, während Opus 4.6 zwei Anläufe für ein funktionierendes Ergebnis benötigt. Interessanterweise bevorzugt das Code-Review von Codecs 5.3 letztlich die Lösung von Opus aufgrund einer saubereren Migrations-Architektur. Es wird deutlich, dass Codecs zwar spezifische neue SDK-Features besser erkennt, Opus aber nachhaltigeren Code schreibt. Dieser Vergleich zeigt, dass Benchmarks allein nicht die ganze Wahrheit über die Code-Qualität aussagen.

Kreativtest: Club Penguin in Three.js

Der Sprecher lässt beide Modelle einen 'Club Penguin'-Klon mithilfe von Three.js erstellen, ohne externe Assets vorzugeben. Beide KIs generieren beeindruckende 3D-Umgebungen mit funktionierenden Minispielen wie Sled-Racing und Cart-Surfer. Während Codecs 5.3 im UI-Design des Charakter-Editors punktet, gewinnt Opus 4.6 diesen Test aufgrund der besseren Spielmechanik und Atmosphäre. Der Test beweist, wie weit die Modelle in der Lage sind, komplexe Web-Applikationen aus dem Training heraus zu erschaffen. Am Ende zeigt sich, dass subjektive Präferenzen beim Design eine große Rolle spielen.

UI-Design und Arena-Ranking

Beim Entwurf einer Landingpage für ein fiktives soziales Medium zeigt Codecs 5.3 eine Vorliebe für Neo-Brutalismus, während Opus 4.6 ein klassisches 'Vibe-coded' Design mit lila Verläufen wählt. Codecs wirkt hier innovativer im Design, obwohl Opus funktional mehr Details wie Trending-Tabs und Feeds integriert. Der Sprecher verweist auf die Design Arena, in der aktuell noch das Modell GLM 4.7 führt, erwartet aber baldige Top-Platzierungen für die neuen Modelle. Es wird festgehalten, dass OpenAI durch die Codecs-App und die allgemeine Prompt-Erfahrung derzeit leicht vorne liegt. Dennoch bleibt die Entscheidung zwischen den Modellen eine Frage des individuellen Anwendungsfalls.

Cybersecurity und neue API-Features

Zum Abschluss werden fortgeschrittene Funktionen wie verbesserte Cybersecurity-Fähigkeiten zur Identifizierung von Software-Schwachstellen hervorgehoben. Besonders innovativ ist die neue Steuerbarkeit von Codecs 5.3, die es erlaubt, während der Code-Generierung in Echtzeit einzugreifen und Fragen zu stellen. Claude kontert mit 'Claude Code', Agent-Teams für Sub-Aufgaben und einem 'Adaptive Thinking'-Modus, der die Rechenintensität automatisch anpasst. Der Sprecher betont, wie unglaublich der Fortschritt innerhalb nur eines Jahres seit der ersten Claude-Code-Veröffentlichung ist. Das Video endet mit einem Aufruf zur Diskussion über die bevorzugten Modelle der Zuschauer.

Community Posts

View all posts