00:00:00Sie können den Zähler für die Tage seit dem letzten Update zurücksetzen, denn es gibt ein neues bestes Modell.
00:00:03Diesmal ist es GPT 5.4. Ich habe es getestet und zeige euch hier, was ihr wissen müsst,
00:00:07sowie die Vor- und Nachteile in 5 Minuten und 40 Sekunden.
00:00:11Hier sind die wichtigsten Punkte.
00:00:17GPT 5.4 ist besser in Wissensarbeit und Web-Suche und verfügt über native Computer-Nutzungsfunktionen.
00:00:22Es gibt eine neue Werkzeugsuche, die ich gleich erkläre; zudem lässt es sich während der Antwort steuern.
00:00:26Es gibt einen neuen Schnellmodus und ein Kontextfenster von einer Million Token.
00:00:30Anscheinend war das Ziel bei 5.4, die Programmierfähigkeiten von Codex 5.3 mit dem Wissen,
00:00:34der Web-Suche und den beruflichen Fähigkeiten von GPT 5.2 zu kombinieren, um 5.4 zum Allrounder
00:00:40unter den Modellen zu machen.
00:00:41Laut den Benchmarks von Artificial Analysis haben sie dieses Ziel tatsächlich
00:00:45erreicht.
00:00:46Es wird als bestes Programmier- und Agenten-Modell geführt und liegt gleichauf mit
00:00:49Gemini als intelligentestes Modell.
00:00:51Schauen wir uns aber den Punkt an, den ich am interessantesten fand: die
00:00:55native Computer-Nutzung.
00:00:56OpenAI hat dies offenbar als ihr erstes Allzweckmodell mit eingebauten Computer-Nutzungsfunktionen
00:01:00konzipiert. Es sollte also exzellent Code schreiben können, um Computer über Bibliotheken wie
00:01:04Playwright zu steuern sowie Maus- und Tastaturbefehle basierend auf Screenshots auszugeben.
00:01:08Sie haben eine experimentelle Playwright-Funktion veröffentlicht, die ich ausprobiert habe.
00:01:12In Codex habe ich mit 5.4 und hoher logischer Tiefe den Auftrag gegeben, ein interaktives 3D-Erlebnis
00:01:16der Tower Bridge in London zu erstellen.
00:01:18Dabei nutzte ich die neue Funktion sowie eine Bildgenerierung, damit das Modell eigene
00:01:22Assets als Texturen erstellen kann.
00:01:24Das Erlebnis selbst war ziemlich ähnlich wie bei Codex 5.3, was bisher mein
00:01:29Lieblingsmodell war.
00:01:30Nach etwa 20 Minuten Arbeit an der Aufgabe begann es, die neue
00:01:33Playwright-Funktion zu nutzen, und diese Erfahrung war ziemlich gut.
00:01:37Es öffnete den Browser, klickte herum, navigierte durch die Szene und erkannte visuelle Probleme,
00:01:41die behoben werden mussten – wie diesen Hintergrund, der nicht zur Szene passte. Dann sprang es
00:01:45zurück in den Code, fixte es und wiederholte den Vorgang. Alles fühlte sich sehr flüssig und natürlich an.
00:01:50Die erste Iteration dieses Projekts dauerte etwa 30 Minuten, basierend auf
00:01:54diesem einen Prompt. Danach schickte ich Follow-ups für weitere Details
00:01:58und Korrekturen, etwa für seitlich liegende Boote oder Texturfehler auf der Straße.
00:02:03Es arbeitete pro Prompt wieder etwa 30 Minuten lang autark, öffnete
00:02:07Chrome, verifizierte und änderte Dinge. Die finale Version stand nach anderthalb Stunden
00:02:11und drei Prompts fest. Es ist keineswegs perfekt, aber für eine komplett
00:02:16automatisierte Entwicklung finde ich es nicht schlecht. Für Fans von 5.3 Codex
00:02:20ist dieses Modell ein absolutes Pflicht-Upgrade.
00:02:24Lustigerweise wies mich das System nach zwei Stunden Nutzung darauf hin,
00:02:27dass ich eine Stunde hätte sparen können, wenn ich den neuen Schnellmodus genutzt hätte.
00:02:31Es ist exakt dasselbe Modell mit derselben Intelligenz, es liefert die
00:02:35Token nur bis zu 1,5-mal schneller, kostet aber doppelt so viel. Es ist also
00:02:41einfach eine Prioritätsstufe und kein anderes Modell.
00:02:44Ein weiterer Punkt, den ich bei diesem Release besonders interessant fand, war die Werkzeugsuche.
00:02:48Das löst das Problem, dass alle Werkzeugdefinitionen vorab in den System-Prompt
00:02:52geladen werden müssen. Bei zu vielen Tools und MCP-Servern verschwendet man Token
00:02:56und bläht den Kontext auf, was die Ausgabequalität beeinträchtigen kann.
00:03:00Bei GPT 5.4 enthält der Prompt stattdessen eine leichtgewichtige Liste der verfügbaren Tools.
00:03:05Das Modell kann bei Bedarf einfach die Definition suchen
00:03:09und sie genau dann zur Konversation hinzufügen, wenn sie gebraucht wird.
00:03:13OpenAI gibt an, dass dies den Token-Verbrauch um bis zu 47 % senkt. In einem Benchmark
00:03:18mit 36 MCP-Servern blieb die Genauigkeit dabei gleich.
00:03:22Abgesehen von diesen Features liegt der Fokus des Modells darauf, Werkzeuge zu verbessern –
00:03:26sowohl wie das Modell sie nutzt, als auch wann es sie auswählt.
00:03:30Das hat sich in den Benchmarks ausgezahlt, aber ehrlich gesagt gibt es sonst
00:03:34nicht viel Neues, außer: Ja, das Modell ist besser als der Vorgänger.
00:03:38Die Vorteile lassen sich so zusammenfassen: Es ist smarter, läuft länger
00:03:42und nutzt Tools besser, wodurch es schwierigere Aufgaben als das letzte Modell bewältigen kann.
00:03:47Keine Überraschung also, dass die neue Version besser ist. Kommen wir nun
00:03:51zu den Nachteilen.
00:03:52Am auffälligsten war für mich die Geschwindigkeit.
00:03:54Ich mag es zwar, wenn Modelle etwas länger nachdenken, aber manchmal scheint GPT 5.4
00:03:59es zu übertreiben, oder es ist einfach langsam beim Denken. Damit bin ich
00:04:04definitiv nicht allein.
00:04:05Ergebnisse von Artificial Analysis zeigen, dass GPT 5.4 mit deutlichem Abstand
00:04:09am längsten für die Rückgabe eines Tokens braucht. Das Gleiche gilt für die Zeit,
00:04:14bis die ersten 500 Token ausgegeben werden.
00:04:15Ich bin nicht sicher, ob das am Modell oder am Provider liegt. Vielleicht
00:04:19verbessert sich das noch, aber pessimistisch betrachtet könnte es auch Absicht sein,
00:04:24damit man den neuen Schnellmodus nutzt.
00:04:26Ein weiterer Nachteil ist der Preisanstieg für alle, die die API nutzen.
00:04:29Das Basismodell kostet 2,50 $pro Million Input-Token und 15$ pro Million Output-Token.
00:04:34Aber das Pro-Modell ist richtig teuer.
00:04:37Es werden 30 $pro Million Input-Token und 180$ pro Million Output-Token fällig.
00:04:43Schlimmer noch: Wenn man das neue Kontextfenster von einer Million Token nutzt,
00:04:47wird alles über 272.000 Token zum doppelten Satz berechnet.
00:04:52Ich würde also empfehlen, den Kontext vorerst kompakt zu halten.
00:04:55Der letzte Kritikpunkt betrifft das UI-Design. Auch wenn das subjektiv ist,
00:04:59habe ich Opus 4.6 und GPT 5.4 gebeten, eine Café-Website zu erstellen. Opus gefällt mir hier besser,
00:05:05obwohl mich keines von beiden wirklich umgehauen hat.
00:05:07Mein Hauptproblem mit GPT 5.4 und anderen GPT-Modellen ist,
00:05:11dass sie alle ein sehr ähnliches User Interface zu haben scheinen.
00:05:14Es liebt diesen „Frosted Glass“-Look mit Karten und natürlich Farbverläufe.
00:05:19Das war zwar nur ein Test, aber auch in der Design Arena schneidet das Modell
00:05:23nicht besonders gut ab. Das ist momentan einfach keine Stärke von OpenAI.
00:05:27Insgesamt werde ich das Modell aber täglich nutzen, da ich ein Codex-Fan bin.
00:05:32Mich würde aber eure Meinung interessieren.
00:05:33Welches Modell ist euer Favorit?
00:05:34Schreibt es mir in die Kommentare, abonniert den Kanal und wie immer:
00:05:37Wir sehen uns im nächsten Video.