Das neue beste Modell ist da (GPT-5.4)

BBetter Stack
Computing/SoftwareSmall Business/StartupsBusiness NewsInternet Technology

Transcript

00:00:00Sie können den Zähler für die Tage seit dem letzten Update zurücksetzen, denn es gibt ein neues bestes Modell.
00:00:03Diesmal ist es GPT 5.4. Ich habe es getestet und zeige euch hier, was ihr wissen müsst,
00:00:07sowie die Vor- und Nachteile in 5 Minuten und 40 Sekunden.
00:00:11Hier sind die wichtigsten Punkte.
00:00:17GPT 5.4 ist besser in Wissensarbeit und Web-Suche und verfügt über native Computer-Nutzungsfunktionen.
00:00:22Es gibt eine neue Werkzeugsuche, die ich gleich erkläre; zudem lässt es sich während der Antwort steuern.
00:00:26Es gibt einen neuen Schnellmodus und ein Kontextfenster von einer Million Token.
00:00:30Anscheinend war das Ziel bei 5.4, die Programmierfähigkeiten von Codex 5.3 mit dem Wissen,
00:00:34der Web-Suche und den beruflichen Fähigkeiten von GPT 5.2 zu kombinieren, um 5.4 zum Allrounder
00:00:40unter den Modellen zu machen.
00:00:41Laut den Benchmarks von Artificial Analysis haben sie dieses Ziel tatsächlich
00:00:45erreicht.
00:00:46Es wird als bestes Programmier- und Agenten-Modell geführt und liegt gleichauf mit
00:00:49Gemini als intelligentestes Modell.
00:00:51Schauen wir uns aber den Punkt an, den ich am interessantesten fand: die
00:00:55native Computer-Nutzung.
00:00:56OpenAI hat dies offenbar als ihr erstes Allzweckmodell mit eingebauten Computer-Nutzungsfunktionen
00:01:00konzipiert. Es sollte also exzellent Code schreiben können, um Computer über Bibliotheken wie
00:01:04Playwright zu steuern sowie Maus- und Tastaturbefehle basierend auf Screenshots auszugeben.
00:01:08Sie haben eine experimentelle Playwright-Funktion veröffentlicht, die ich ausprobiert habe.
00:01:12In Codex habe ich mit 5.4 und hoher logischer Tiefe den Auftrag gegeben, ein interaktives 3D-Erlebnis
00:01:16der Tower Bridge in London zu erstellen.
00:01:18Dabei nutzte ich die neue Funktion sowie eine Bildgenerierung, damit das Modell eigene
00:01:22Assets als Texturen erstellen kann.
00:01:24Das Erlebnis selbst war ziemlich ähnlich wie bei Codex 5.3, was bisher mein
00:01:29Lieblingsmodell war.
00:01:30Nach etwa 20 Minuten Arbeit an der Aufgabe begann es, die neue
00:01:33Playwright-Funktion zu nutzen, und diese Erfahrung war ziemlich gut.
00:01:37Es öffnete den Browser, klickte herum, navigierte durch die Szene und erkannte visuelle Probleme,
00:01:41die behoben werden mussten – wie diesen Hintergrund, der nicht zur Szene passte. Dann sprang es
00:01:45zurück in den Code, fixte es und wiederholte den Vorgang. Alles fühlte sich sehr flüssig und natürlich an.
00:01:50Die erste Iteration dieses Projekts dauerte etwa 30 Minuten, basierend auf
00:01:54diesem einen Prompt. Danach schickte ich Follow-ups für weitere Details
00:01:58und Korrekturen, etwa für seitlich liegende Boote oder Texturfehler auf der Straße.
00:02:03Es arbeitete pro Prompt wieder etwa 30 Minuten lang autark, öffnete
00:02:07Chrome, verifizierte und änderte Dinge. Die finale Version stand nach anderthalb Stunden
00:02:11und drei Prompts fest. Es ist keineswegs perfekt, aber für eine komplett
00:02:16automatisierte Entwicklung finde ich es nicht schlecht. Für Fans von 5.3 Codex
00:02:20ist dieses Modell ein absolutes Pflicht-Upgrade.
00:02:24Lustigerweise wies mich das System nach zwei Stunden Nutzung darauf hin,
00:02:27dass ich eine Stunde hätte sparen können, wenn ich den neuen Schnellmodus genutzt hätte.
00:02:31Es ist exakt dasselbe Modell mit derselben Intelligenz, es liefert die
00:02:35Token nur bis zu 1,5-mal schneller, kostet aber doppelt so viel. Es ist also
00:02:41einfach eine Prioritätsstufe und kein anderes Modell.
00:02:44Ein weiterer Punkt, den ich bei diesem Release besonders interessant fand, war die Werkzeugsuche.
00:02:48Das löst das Problem, dass alle Werkzeugdefinitionen vorab in den System-Prompt
00:02:52geladen werden müssen. Bei zu vielen Tools und MCP-Servern verschwendet man Token
00:02:56und bläht den Kontext auf, was die Ausgabequalität beeinträchtigen kann.
00:03:00Bei GPT 5.4 enthält der Prompt stattdessen eine leichtgewichtige Liste der verfügbaren Tools.
00:03:05Das Modell kann bei Bedarf einfach die Definition suchen
00:03:09und sie genau dann zur Konversation hinzufügen, wenn sie gebraucht wird.
00:03:13OpenAI gibt an, dass dies den Token-Verbrauch um bis zu 47 % senkt. In einem Benchmark
00:03:18mit 36 MCP-Servern blieb die Genauigkeit dabei gleich.
00:03:22Abgesehen von diesen Features liegt der Fokus des Modells darauf, Werkzeuge zu verbessern –
00:03:26sowohl wie das Modell sie nutzt, als auch wann es sie auswählt.
00:03:30Das hat sich in den Benchmarks ausgezahlt, aber ehrlich gesagt gibt es sonst
00:03:34nicht viel Neues, außer: Ja, das Modell ist besser als der Vorgänger.
00:03:38Die Vorteile lassen sich so zusammenfassen: Es ist smarter, läuft länger
00:03:42und nutzt Tools besser, wodurch es schwierigere Aufgaben als das letzte Modell bewältigen kann.
00:03:47Keine Überraschung also, dass die neue Version besser ist. Kommen wir nun
00:03:51zu den Nachteilen.
00:03:52Am auffälligsten war für mich die Geschwindigkeit.
00:03:54Ich mag es zwar, wenn Modelle etwas länger nachdenken, aber manchmal scheint GPT 5.4
00:03:59es zu übertreiben, oder es ist einfach langsam beim Denken. Damit bin ich
00:04:04definitiv nicht allein.
00:04:05Ergebnisse von Artificial Analysis zeigen, dass GPT 5.4 mit deutlichem Abstand
00:04:09am längsten für die Rückgabe eines Tokens braucht. Das Gleiche gilt für die Zeit,
00:04:14bis die ersten 500 Token ausgegeben werden.
00:04:15Ich bin nicht sicher, ob das am Modell oder am Provider liegt. Vielleicht
00:04:19verbessert sich das noch, aber pessimistisch betrachtet könnte es auch Absicht sein,
00:04:24damit man den neuen Schnellmodus nutzt.
00:04:26Ein weiterer Nachteil ist der Preisanstieg für alle, die die API nutzen.
00:04:29Das Basismodell kostet 2,50 $pro Million Input-Token und 15$ pro Million Output-Token.
00:04:34Aber das Pro-Modell ist richtig teuer.
00:04:37Es werden 30 $pro Million Input-Token und 180$ pro Million Output-Token fällig.
00:04:43Schlimmer noch: Wenn man das neue Kontextfenster von einer Million Token nutzt,
00:04:47wird alles über 272.000 Token zum doppelten Satz berechnet.
00:04:52Ich würde also empfehlen, den Kontext vorerst kompakt zu halten.
00:04:55Der letzte Kritikpunkt betrifft das UI-Design. Auch wenn das subjektiv ist,
00:04:59habe ich Opus 4.6 und GPT 5.4 gebeten, eine Café-Website zu erstellen. Opus gefällt mir hier besser,
00:05:05obwohl mich keines von beiden wirklich umgehauen hat.
00:05:07Mein Hauptproblem mit GPT 5.4 und anderen GPT-Modellen ist,
00:05:11dass sie alle ein sehr ähnliches User Interface zu haben scheinen.
00:05:14Es liebt diesen „Frosted Glass“-Look mit Karten und natürlich Farbverläufe.
00:05:19Das war zwar nur ein Test, aber auch in der Design Arena schneidet das Modell
00:05:23nicht besonders gut ab. Das ist momentan einfach keine Stärke von OpenAI.
00:05:27Insgesamt werde ich das Modell aber täglich nutzen, da ich ein Codex-Fan bin.
00:05:32Mich würde aber eure Meinung interessieren.
00:05:33Welches Modell ist euer Favorit?
00:05:34Schreibt es mir in die Kommentare, abonniert den Kanal und wie immer:
00:05:37Wir sehen uns im nächsten Video.

Key Takeaway

GPT 5.4 positioniert sich als leistungsstarkes Allzweckmodell für Agenten und Programmierung, erkauft diese Intelligenz jedoch durch hohe Latenzzeiten und eine komplexe Preisstruktur.

Highlights

GPT 5.4 kombiniert die Programmierstärke von Codex 5.3 mit der Websuche von GPT 5.2

Einführung nativer Computer-Nutzungsfunktionen zur Steuerung von Browsern und Mausbefehlen

Neuer Schnellmodus bietet 1,5-mal höhere Geschwindigkeit bei verdoppelten Kosten

Innovative Werkzeugsuche reduziert den Token-Verbrauch um bis zu 47 %

Kontextfenster von einer Million Token mit spezieller Preisstaffelung ab 272.000 Token

Kritik an langsamen Reaktionszeiten und hohen API-Preisen für das Pro-Modell

Schwächen im UI-Design durch repetitive Nutzung von Farbverläufen und Karten-Layouts

Timeline

Einführung und Positionierung von GPT 5.4

Der Sprecher kündigt GPT 5.4 als das neue führende KI-Modell an, das bestehende Benchmarks anführt. Das primäre Ziel der Entwicklung war die Verschmelzung der Programmierfähigkeiten von Codex mit der Wissensbasis früherer Versionen. Laut Artificial Analysis erreicht das Modell Spitzenwerte und liegt bei der Intelligenz gleichauf mit Googles Gemini. Diese Einleitung unterstreicht die Bedeutung des Updates für professionelle Wissensarbeiter. Besonders hervorgehoben wird das massive Kontextfenster von einer Million Token.

Native Computer-Nutzung und Praxisbeispiel

In diesem Abschnitt wird die Fähigkeit des Modells erläutert, Computer direkt über Bibliotheken wie Playwright zu steuern. Der Ersteller demonstriert dies anhand der Erstellung eines 3D-Erlebnisses der Tower Bridge in London. Das Modell navigiert dabei selbstständig im Browser, erkennt visuelle Fehler in der Szene und korrigiert den zugrunde liegenden Code eigenständig. Dieser automatisierte Entwicklungsprozess dauerte für die finale Version etwa anderthalb Stunden und erforderte nur drei Prompts. Es wird deutlich, dass GPT 5.4 ein essenzielles Upgrade für Nutzer ist, die auf autonome Agenten setzen.

Schnellmodus und effiziente Werkzeugsuche

Der Sprecher stellt den neuen Schnellmodus vor, der die Token-Ausgabe signifikant beschleunigt, jedoch die Kosten verdoppelt. Ein technisches Highlight ist die neue Werkzeugsuche, die das Problem überladener System-Prompts löst. Statt alle Tools vorab zu laden, ruft das Modell Definitionen erst bei Bedarf ab, was den Token-Verbrauch um fast die Hälfte senkt. Diese Effizienzsteigerung ist besonders für komplexe Workflows mit vielen MCP-Servern von Bedeutung. Dennoch bleibt die fundamentale Intelligenz zwischen dem Standard- und dem Schnellmodus identisch.

Analyse der Nachteile: Latenz und Kosten

Trotz der technologischen Sprünge gibt es deutliche Kritik an der Verarbeitungsgeschwindigkeit von GPT 5.4. Daten von Artificial Analysis belegen, dass das Modell im Vergleich zur Konkurrenz am längsten für die erste Token-Ausgabe benötigt. Zudem wird die aggressive Preispolitik bei der API-Nutzung kritisiert, insbesondere die hohen Aufschläge für das Pro-Modell. Wer das volle Kontextfenster nutzt, muss ab einer Grenze von 272.000 Token mit doppelten Gebühren rechnen. Dies macht das Modell für großflächige Anwendungen derzeit sehr kostspielig.

Design-Schwächen und abschließendes Fazit

Zum Abschluss wird die ästhetische Leistung des Modells im Bereich Webdesign bewertet. Im direkten Vergleich mit Opus 4.6 zeigt GPT 5.4 Schwächen und verlässt sich zu sehr auf standardisierte Design-Elemente wie "Frosted Glass" und Farbverläufe. Der Sprecher empfiehlt das Modell dennoch für den täglichen Einsatz, primär aufgrund der überlegenen Coding-Fähigkeiten. Das Video endet mit einem Aufruf an die Community, eigene Favoriten in den Kommentaren zu teilen. Insgesamt bleibt GPT 5.4 ein Werkzeug für Spezialisten, die höchste Funktionalität über Design und Kosten stellen.

Community Posts

View all posts