Es ist kaputt… Die Debatte „Claude Code vs. Codex“ ist endlich vorbei

AAI LABS
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Lange Zeit war Claude das Standardmodell für die Programmierung.
00:00:03Nicht nur, weil es gut abschnitt, sondern weil es keine anderen Optionen auf demselben Niveau gab.
00:00:07Dann holten die GPT-Modelle auf und schlossen die Lücke, besonders mit der Veröffentlichung von GPT 5.5,
00:00:12die den Unterschied fast vollständig verschwinden ließ.
00:00:14Um die beiden zu vergleichen, mussten wir sie in den Umgebungen testen, für die sie am besten geeignet sind,
00:00:18also in ihren eigenen CLIs.
00:00:19Wir lassen Opus 4.7 und GPT 5.5 gegeneinander antreten, um zu sehen, wie sie im Vergleich
00:00:25zueinander abschneiden.
00:00:26Wir testen sie in 9 Kategorien, um herauszufinden, wer wirklich die Nase vorn hat,
00:00:29damit Sie am Ende wissen, welches Modell einen Platz in Ihrem Workflow verdient.
00:00:33Bei der Benutzerfreundlichkeit beginnt Claude Code für uns zu schwächeln.
00:00:36Wir haben es für die meisten Aufgaben genutzt, ob Programmierung oder nicht, aber es war nur
00:00:40bis zum Update 2.1.0 wirklich gut.
00:00:43Danach ging es mit Claude Code bergab.
00:00:46Die Benutzeroberfläche ist der frustrierendste Teil, da sie den größten Einfluss auf das Erlebnis hat.
00:00:50Das Terminal ruckelt, das Rendering bricht ab, und vieles, was sich früher ausgereift anfühlte, wirkt jetzt
00:00:55fehlerhaft.
00:00:56Es war einmal eines der besten TUIs, aber nur bis es anfing, unsauber programmiert zu werden.
00:00:59Jetzt fühlt es sich kaputter an, mit zahlreichen Fehlern wie Rendering-Problemen und Cache-Leaks,
00:01:03über die nicht nur wir uns beschwert haben.
00:01:05Das größere Problem ist, dass der Modus zum Überspringen von Berechtigungen entfernt
00:01:09und standardmäßig durch den Auto-Modus ersetzt wurde.
00:01:11Früher haben wir für die meisten Aufgaben den Bypass-Modus genutzt, mit Hooks für Dateien,
00:01:15die Claude nicht anrühren sollte.
00:01:17Jetzt fragt er selbst in diesem Modus nach Berechtigungen; als wir Claude baten, Skills zu erstellen,
00:01:22wechselten wir zu einer anderen Sitzung und merkten erst später, dass die Skill-Erstellung
00:01:27die ganze Zeit durch eine Abfrage für den .claude-Ordner blockiert war.
00:01:32Wir kamen zurück und erwarteten fertige Skills, aber das Programm wartete einfach nur.
00:01:36Codex macht das besser, weil sein YOLO-Modus keine Berechtigungen abfragt,
00:01:40so wie es der Auto-Modus von Claude Code tut.
00:01:42Das CLI basiert auf Rust, daher ist die UI viel flüssiger als das React-basierte Setup von Claude Code,
00:01:47und selbst nach einer langen Sitzung geht nichts kaputt.
00:01:49Auch bei der Konfiguration der Persönlichkeit zieht Codex vorbei.
00:01:53Wir können die Persönlichkeit auf eine direktere und prägnantere Sprache einstellen.
00:01:56Das liegt daran, dass GPT 5.5 deutlich unterwürfiger ist und jeder Eingabe eher zustimmt
00:02:02als Opus 4.7.
00:02:04Deshalb verhindert das Ändern der Persönlichkeit in Codex dieses Standardverhalten des Modells.
00:02:08Um Opus 4.7 direkt zu machen, müssen wir Anweisungen in der Claude.md nutzen, während Codex
00:02:14dies mit einer einfachen Einstellung erledigt.
00:02:16Vorinstallierte Skills sind ein weiterer Unterschied.
00:02:18Codex wird mit vielen Skills geliefert, die Claude Code fehlen, darunter der Agent-Browser-Skill.
00:02:22Das ist wichtig für App-Entwickler, da wir in Codex MCPs nicht explizit
00:02:26für die Browser-Verifizierung verbinden müssen.
00:02:29Er erledigt das nach der Implementierung eines Features automatisch.
00:02:31Er hat auch einen integrierten Skill-Creator; wenn wir einen neuen Skill wollen, erstellt er
00:02:35einen vollständigen Skill mit der richtigen Struktur und den Referenzdateien.
00:02:38In Claude müssten wir den Skill-Creator separat installieren, um einen ordentlich strukturierten
00:02:42Skill zu erhalten.
00:02:43Andernfalls schreibt er nur eine MD-Datei.
00:02:45Es gibt jedoch noch zwei Dinge, die Claude Code besser macht.
00:02:47Codex bietet kein Zurückspulen an – ein Feature, das wir am häufigsten nutzen, daher ist das Fehlen
00:02:51ein echter Nachteil.
00:02:52Claude Code lässt uns zudem seine Gedankengänge mit Strg+O einsehen, was Codex
00:02:57nicht gut beherrscht.
00:02:58Die Logik zu sehen ist hilfreich, da wir den Ansatz korrigieren können, anstatt
00:03:02bis zum Ende der Implementierung zu warten, um sie dann neu zu machen.
00:03:05Da sich die Benutzererfahrung von Claude Code mit jedem Update verschlechtert, geht der Punkt
00:03:10für die Usability an Codex.
00:03:11Was die Kosten angeht, ist Claude Code mit großem Abstand das teurere Werkzeug.
00:03:15Nicht bei den Preisen an sich, sondern bei der Nutzbarkeit zum gleichen Preis.
00:03:19Claude Code ist in der kostenlosen Version gar nicht verfügbar und erst ab
00:03:23den Pro- und Max-Plänen nutzbar.
00:03:24Die Pläne haben nahezu identische Preise.
00:03:26Der Pro-Plan ist für größere Anwendungen praktisch unbrauchbar, da er schon nach
00:03:30wenigen Aufgaben an seine Grenzen stößt.
00:03:32Wir können Opus 4.7 im Pro-Plan für keine anspruchsvolle Aufgabe vernünftig nutzen.
00:03:36Selbst im Max-Plan, den wir nutzen, sind die Limits sehr schnell erreicht.
00:03:39Codex ist hier von Anfang an in einer besseren Position.
00:03:41Es ist sogar im kostenlosen Plan mit eingeschränkter Nutzung verfügbar.
00:03:44Beide nutzen ein ähnliches 5-Stunden-Fenster; um zu sehen, wer mehr schafft,
00:03:49haben wir sie mit Aufgaben gleichen Umfangs getestet.
00:03:51Claude Code hat bereits einen Kontext-Befehl, der anzeigt, wie viele Token verbraucht wurden,
00:03:56aber Codex fehlt ein Äquivalent, also mussten wir für den Vergleich einen Umweg finden.
00:04:00Beide Tools speichern Sitzungen als JSON-Dateien, nur unterschiedlich organisiert.
00:04:04Wir haben ein kleines Tool gebaut, das diese liest und die Token pro Sitzung zählt.
00:04:08Bei derselben App und ähnlichem Debugging-Aufwand verbrauchte Opus 4.7 173.000 Token,
00:04:15während GPT 5.5 nur 82.000 benötigte.
00:04:18Das liegt daran, dass GPT 5.5 die Arbeit mit weniger Token und weit weniger Versuchen erledigt.
00:04:23Codex hielt also deutlich länger durch und war bei gleicher Arbeit viel kosteneffizienter.
00:04:28Aber bevor wir weitermachen, ein Wort von unserem Sponsor, Stream.
00:04:32Sie bauen eine App und Ihre Nutzer müssen chatten, streamen und sich vernetzen.
00:04:35Wenn Sie das selbst machen, debuggen Sie nach 3 Monaten immer noch, statt zu veröffentlichen.
00:04:39Stream überspringt das alles.
00:04:40Stream bietet alles sofort einsatzbereit: von In-App-Chat und Videoanrufen bis hin zu
00:04:44Aktivitäts-Feeds und KI-Moderation, damit Sie Features liefern, statt Infrastruktur zu bauen.
00:04:49Wir sprechen von Messaging wie WhatsApp, Videoanrufen wie Zoom und Feeds wie Instagram.
00:04:55Was wirklich heraussticht, ist das neue Produkt von Stream: Vision Agents.
00:04:58Sie können intelligente KI-Agenten bauen, die Live-Video und Audio sehen, hören und darauf reagieren –
00:05:02in Python mit nur wenigen Zeilen Code.
00:05:05Alles läuft über ein globales Edge-Netzwerk für niedrige Latenzzeiten überall.
00:05:08Von Startups bis zu großen Apps vertrauen führende Plattformen in den Bereichen Social und Fitness
00:05:13auf Stream, um über eine Milliarde Endnutzer zu bedienen.
00:05:16Wenn Sie Entwickler sind, skaliert Stream vom ersten Tag an mit Ihnen.
00:05:20Starten Sie kostenlos auf getstream.io, Links finden Sie im fixierten Kommentar.
00:05:24Der wahre Test für die Modelle ist die Art und Weise, wie sie Produkte bauen.
00:05:27Wie gesagt, GPT 5.5 ist schneller, verbraucht weniger Token und liefert Apps zügiger.
00:05:33Opus 4.7 verbraucht mehr Token für das Nachdenken, plant tiefer und iteriert an allen
00:05:38Aspekten der App gleichzeitig.
00:05:40Die Planung war das Erste, was wir testen wollten.
00:05:42Wir nutzen den Planungsmodus von Claude Code schon lange.
00:05:45Er deckt das meiste ab, hat einige Schwächen, ist aber durchaus brauchbar.
00:05:48Wir wollten sehen, wie GPT 5.5 plant, da OpenAI behauptet, dass es Planungsaufgaben
00:05:53und deren Ausführung besser beherrscht.
00:05:55Wir aktivierten den Planungsmodus in einem Ordner, der bereits ein Backend für eine App enthielt –
00:06:00eine API mit FastAPI – und baten es, das Frontend dafür zu bauen.
00:06:04Es untersuchte das Projekt gründlich und stellte ein paar Fragen, die jedoch recht
00:06:08einfach waren.
00:06:09Es hätte tiefer darauf eingehen können, wie das Frontend aussehen soll, denn für Frontend-Arbeit
00:06:13ist das entscheidend.
00:06:14Der erstellte Plan war sehr simpel.
00:06:16Er enthielt eine Zusammenfassung des Ablaufs, wichtige Änderungen, neue Seiten und Testmethoden.
00:06:20Positiv war, dass es seine Annahmen klar trennte, sodass wir genau wussten, was es
00:06:21voraussetzte.
00:06:25Wir gaben das Startsignal, und es war in etwa 8 Minuten fertig.
00:06:26Dieselbe Aufgabe dauerte bei Claude Code 24 Minuten.
00:06:28Aber der Plan von Opus 4.7 war viel tiefgründiger, berücksichtigte mehr Aspekte
00:06:31und nutzte sogar shadcn/ui, um die Benutzererfahrung zu verbessern.
00:06:36Opus 4.7 ist also bei der Planung überlegen.
00:06:39Als Nächstes wollten wir beide Modelle an einer komplett neuen App testen.
00:06:42Beide erhielten den Auftrag, ein Monorepo mit Python-Flask-Backend und
00:06:45Next.js-Frontend zu erstellen, inklusive Pipeline und Kernanforderungen an die Funktion.
00:06:50Claude Code wechselte aufgrund seines Designs von selbst in den Planungsmodus.
00:06:55Codex tat dies nicht und begann sofort mit der Implementierung.
00:06:56Er war viel schneller fertig als Claude Code, der wegen der Planung
00:06:59etwa 16 Minuten brauchte.
00:07:04Die GPT 5.5-Version der App hatte eine simplere UI und konzentrierte sich primär darauf,
00:07:08dass sie funktioniert.
00:07:09Zu Beginn lief sie nicht perfekt, also haben wir sie schrittweise debuggt.
00:07:14Dabei bemerkten wir, dass die Interview-Prompts hartcodiert waren, da wir keinen API-Key
00:07:15bereitgestellt hatten.
00:07:17Der Prompt verlangte die Gemini-API als Backend, aber da kein Key da war,
00:07:22implementierte er ein Fallback, damit die App nicht komplett abstürzt.
00:07:23Codex hatte ohne explizite Aufforderung lokale Folgefragen genutzt.
00:07:27Das gefällt uns, da solche Fallback-Mechanismen in der Produktion Abstürze verhindern.
00:07:30Nach einigen Iterationen und dem Hinzufügen des Keys funktionierte der Ablauf,
00:07:35auch wenn die UI schlicht blieb.
00:07:39GPT 5.5 hat also Randfälle bedacht und Lücken proaktiv gefüllt.
00:07:40Opus 4.7 hingegen verlangte den API-Key, bevor er mit der Arbeit begann,
00:07:44und baute die gesamte App darauf auf.
00:07:46Im Gegensatz zu GPT 5.5 hat Opus 4.7 keine Fallbacks vorbereitet und alles vorab benötigt.
00:07:51Daher gab die App ohne die API nur eine Fehlermeldung aus.
00:07:57Claude Code achtet jedoch auf UX und Funktionalität gleichermaßen, weshalb die Umsetzung
00:07:59realistischer wirkte.
00:08:05Hier zeigt sich die Stärke von Opus 4.7 im UI-Bereich, die wir schon im letzten Video
00:08:06erwähnt haben; aber auch seine Implementierung hatte Mängel.
00:08:10Stattdessen stellte es uns Fragen zur möglichen Ursache und verließ sich
00:08:15Stattdessen stellte er uns Fragen zur Ursache und verließ sich auf unsere Tests.
00:08:16Er fügte Debug-Punkte wie UI-Indikatoren und Konsolen-Logs hinzu und bat uns,
00:08:21Zustände zu prüfen und Bericht zu erstatten.
00:08:26Nach einigem Hin und Her wurde das Problem gelöst und das Interview-Feature lief.
00:08:31Uns gefiel besser, wie Codex den Agent-Browser nutzte, um eigenständig zu debuggen.
00:08:35Beim autonomen Arbeiten war Codex besser, bei der Benutzererfahrung Claude Code.
00:08:36Wir wollten auch testen, wie beide mit dem init-Befehl umgehen.
00:08:41Das init von Claude Code läuft ab, ohne den Prompt inline zu erweitern.
00:08:42Es erstellt eine Claude.md mit etwa 90 Zeilen, die Architektur, Ablauf,
00:08:46Struktur und alle nötigen Befehle enthält.
00:08:49Viele dieser Infos sind redundant und helfen dem Agenten nicht wirklich weiter,
00:08:53Viele dieser Informationen sind redundant und nützen dem Agenten nicht wirklich, was
00:08:56der Grund ist, warum es nicht immer notwendig ist, alles davon zu behalten.
00:08:59Das Setup von Codex war raffinierter.
00:09:02hielt aber den Abschnitt zur Projektstruktur kurz statt ihn zu überladen.
00:09:08Keiner war perfekt, aber Codex hat die agents.md besser gelöst.
00:09:12Nun wollten wir wissen, wie beide beim Code-Review abschneiden.
00:09:15Wir gaben beiden denselben Prompt für ein Review der Zuverlässigkeit,
00:09:18wobei sie die Ergebnisse in separaten Dateien in derselben Codebasis dokumentieren sollten.
00:09:20Danach baten wir Claude in einer neuen Sitzung, einen Diff der Dateien zu erstellen.
00:09:24Claudes Review war viel detaillierter.
00:09:28Es ordnete Funde nach Priorität und enthielt Komponenten sowie die exakten Code-Schnipsel
00:09:32zu den Problemen.
00:09:35Der Bericht von Codex nannte Zeilennummern, verzichtete aber auf die Schnipsel.
00:09:40Beide Berichte waren gründlich; sie teilten viele Funde, aber jeder fand auch Dinge,
00:09:44die dem anderen entgingen.
00:09:48Claude Code meldete zudem Sicherheitsmängel wie einen geleakten API-Key.
00:09:51Die Aufgabe war ein Zuverlässigkeits-Review, also lagen diese Themen außerhalb des Fokus.
00:09:53Claude Code meldete jedes Problem, auf das er stieß, während Codex strikt beim Auftrag blieb.
00:09:57Der Bericht von Codex entsprach eher der Anfrage, während der von Claude breiter,
00:09:59aber weniger fokussiert war.
00:10:03Wenn man beide beim Bauen beschreibt, wirkt GPT 5.5 wie ein Backend-Entwickler,
00:10:07der primär die Funktionalität liefern will, während Opus 4.7 eher wie ein Fullstack-Entwickler
00:10:08wirkt, der Funktionalität und UX ausbalanciert.
00:10:12Beim Kontext-Management schnitt Codex viel besser ab als Claude Code.
00:10:17Claude Code bietet eine Kontext-Bearbeitung in der Sitzung an, die Tool-Aufrufe
00:10:21und Logikschritte entfernt, die für das Gespräch nicht mehr wichtig sind.
00:10:22Es bereinigt redundante Informationen, um ein Aufblähen der Sitzung zu verhindern.
00:10:27Die Komprimierung ist nicht perfekt, aber sie behält zumindest keine unnötigen Teile bei.
00:10:29Codex bearbeitet den Kontext nicht.
00:10:34Er komprimiert das gesamte Gespräch so, wie es stattgefunden hat.
00:10:40Was er jedoch besser macht, ist das Speichern der letzten 20.000 Token im Speicher,
00:10:45ohne diesen Teil zu komprimieren.
00:10:48Das verhindert einen Leistungsabfall nach der Komprimierung in Codex, sodass
00:10:53das Gespräch ab dem nächsten Prompt flüssig weiterlaufen kann.
00:10:55Wir haben die Leistung getestet, und Codex schnitt nach der Komprimierung besser ab als Claude Code.
00:10:58Obwohl Claude Code einen detaillierteren Prozess nutzt, sorgt der erhaltene Rest
00:11:02bei Codex in der Praxis für eine höhere Nützlichkeit des Agenten.
00:11:03Das Gedächtnis funktioniert bei beiden unterschiedlich.
00:11:05Das System von Claude Code ist über Sitzungen hinweg meist zustandslos, jede Sitzung
00:11:08beginnt also ohne den Kontext der vorherigen.
00:11:13Es gibt nun eine Memory-Funktion, die dauerhafte Vorlieben oder Anweisungen speichert.
00:11:14Wenn wir ihm sagen, dass er etwas auf eine bestimmte Weise vermeiden soll, merkt er sich das
00:11:18und wendet es später im selben Projekt wieder an.
00:11:21Wir haben die Leistung getestet, und Codex schnitt nach der Kompaktierung besser ab als Claude Code.
00:11:25Obwohl Claude Code einen detaillierteren, mehrstufigen Kompaktierungsprozess nutzt, sorgt der
00:11:30erhaltene Endteil bei Codex dafür, dass der Agent in der Praxis nützlicher bleibt.
00:11:33Die Speichernutzung unterscheidet sich bei beiden Modellen.
00:11:35Das System von Claude Code ist über Sitzungen hinweg weitgehend zustandslos, was bedeutet,
00:11:39dass jede Sitzung ohne Kontext aus der vorherigen beginnt.
00:11:41Es gibt nun eine Speicherfunktion, die dauerhafte Präferenzen oder Anweisungen speichern kann.
00:11:46Wenn wir ihm also sagen, dass es etwas auf eine bestimmte Weise vermeiden soll, speichert es das
00:11:50und wendet es später innerhalb desselben Projekts wieder an.
00:11:52Das ist hilfreich, wenn man wiederholt an einem einzelnen Projekt arbeitet.
00:11:54Aber der Speicher ist projektbezogen; beim Projektwechsel geht dieses gespeicherte Verhalten verloren.
00:11:58Codex wählt den entgegengesetzten Weg.
00:12:00Es konsolidiert Informationen aus mehreren Sitzungen über die Zeit und baut einen globalen Speicher
00:12:05über Interaktionen auf, um Muster über ein einzelnes Projekt hinaus zu behalten.
00:12:08Das kann die Konsistenz bei verschiedenen Aufgaben unterstützen.
00:12:11Kurz gesagt: Claude Code hält den Speicher stärker innerhalb eines Projekts begrenzt, während Codex
00:12:15einen sitzungs- und projektübergreifenden Ansatz verfolgt, was die jeweilige Anpassung
00:12:19über die Zeit verändert.
00:12:20Da Claude Code schon länger existiert und ständig zur Verbesserung der Entwicklererfahrung
00:12:24optimiert wird, hat es im Vergleich zu Codex mehr zu bieten.
00:12:27Claude Code besitzt ein Hook-System, mit dem wir eigene Skripte an bestimmten Punkten im
00:12:32Lebenszyklus des Agenten ausführen können, etwa vor oder nach einem Tool-Einsatz, um Dinge
00:12:36wie unsichere Befehle zu blockieren oder Formatierer auszuführen.
00:12:39Wir können auch Sub-Agenten in einem eigenen Arbeitsverzeichnis ausführen, damit ihre
00:12:43Leistung sich nicht gegenseitig beeinflusst.
00:12:44Wir können die Anstrengung der Modelle steuern und sogar Schlüsselwörter wie "Ultra-Think" nutzen,
00:12:48um die logische Schlussfolgerung bei einer spezifischen Aufgabe zu maximieren.
00:12:51Nichts davon hat derzeit eine Entsprechung in Codex.
00:12:54Das Ökosystem ist der andere klare Vorteil für Claude Code.
00:12:56Wir können Sitzungen über die Claude-Desktop-App starten und Aufgaben von der mobilen App delegieren.
00:13:01Mit Claude Code, der Desktop-App, Web-App und Browser-Erweiterungen ist die Reichweite viel
00:13:06größer als bei Codex, das hauptsächlich aus einer Web-App und einer erst kürzlich veröffentlichten
00:13:11Desktop-App besteht, die sich zum Testzeitpunkt noch nicht so ausgereift anfühlte.
00:13:14Sitzungen lassen sich bei Claude Code zudem leichter zwischen Umgebungen verschieben, was
00:13:18das Arbeiten über verschiedene Schnittstellen hinweg komfortabler macht.
00:13:20Auch Codex hat viele interessante Funktionen.
00:13:22In der Cloud gibt es ein Versuchs-Flag, das dieselbe Aufgabe n-mal ausführt.
00:13:26Es erstellt mehrere Implementierungen und wählt die beste aus.
00:13:29Claude Code kann Ähnliches tun, aber nur über Konfigurationen und Anweisungen, nicht
00:13:33als direktes Flag.
00:13:34Die andere Codex-exklusive Funktion, die es abhebt, ist die Integration mit den
00:13:38Bildmodellen von OpenAI.
00:13:39Es kann diese direkt im CLI nutzen, um Bilder für die Websites zu generieren, an denen es arbeitet.
00:13:44Claude verlässt sich bei Grafiken meist auf SVG-basierte Generierung, was qualitativ nicht
00:13:49konkurrenzfähig ist, da es noch über kein eigenes Bildmodell verfügt.
00:13:52Wenn wir eine UI bauen, die echte Bilder benötigt, ist Codex das einzige der beiden,
00:13:56das dies tut, ohne dass man es ihm explizit sagen muss.
00:13:58Übrigens: Wenn Ihnen unsere Inhalte gefallen, drücken Sie gerne den Hype-Button, da es uns hilft,
00:14:03mehr solcher Inhalte zu erstellen und mehr Menschen zu erreichen.
00:14:06Beide nutzen Sub-Agenten, auch wenn das Konzept zuerst von Claude eingeführt wurde.
00:14:10Da es bei Claude Code zuerst kam, ist die Integration dort reifer, da man dort schon viel länger
00:14:15agentenzentriert gearbeitet und sich auf das Coding-Erlebnis konzentriert hat als bei OpenAI.
00:14:19Es unterstützt Agenten, die über Remote-Sitzungen orchestriert werden können, während Codex
00:14:23hauptsächlich Multi-Agenten-Workflows innerhalb der Terminal-Umgebung unterstützt.
00:14:27Der größte Unterschied liegt darin, wie die Sub-Agenten jeweils aufgerufen werden.
00:14:29Claude Code kann Agenten ohne expliziten Aufruf starten, während Codex einen Agenten nur
00:14:35erstellt, wenn wir im Prompt explizit danach fragen.
00:14:37Wenn Codex Agenten startet, benennt es sie und übergibt ihnen auch einen passenden Prompt.
00:14:41In der Programmierleistung sind beide recht ähnlich, aber die Designentscheidungen dahinter variieren.
00:14:46Claude Codes Sub-Agenten nutzen eine explizite Allow-Liste; der Haupt-Agent legt also genau fest,
00:14:51auf welche Tools der Sub-Agent zugreifen darf, während Codex-Sub-Agenten standardmäßig
00:14:55den Tool-Zugriff vom Haupt-Agenten erben.
00:14:57Claude Code gibt zudem jedem Sub-Agenten ein komplett frisches Kontextfenster.
00:15:01Ein Sub-Agent hat keinen Zugriff auf den bisherigen Gesprächsverlauf und sieht nur den Prompt,
00:15:06den System-Prompt und globale Regeln, da Claude auf Kontext-Isolierung setzt.
00:15:10Das Codex CLI macht das Gegenteil.
00:15:12Es kopiert den gesamten Verlauf in die Sub-Agent-Sitzung, ergänzt um den Prompt des Haupt-Agenten.
00:15:17Codex-Agenten behalten mehr Kontext über das bereits Besprochene, was tatsächlich hilft,
00:15:22ihre Leistung zu steigern.
00:15:23In der Praxis hat die strikte Isolierung von Claude Code unseren Forschungs-Sub-Agenten geschadet.
00:15:27Als wir sie einsetzten, waren die Ergebnisse nicht gut genug, weil sie nur den unmittelbaren
00:15:30Prompt sahen und über keinerlei vorherigen Kontext verfügten.
00:15:33Codex-Agenten erhalten den gesamten Verlauf, können effektiver iterieren und schneiden besser
00:15:38bei Aufgaben ab, bei denen Kontinuität wichtig ist.
00:15:39Damit sind wir am Ende dieses Videos angelangt.
00:15:41Wenn Sie den Kanal unterstützen und uns helfen möchten, weiterhin Videos wie dieses zu machen,
00:15:45können Sie das über den Super Thanks Button unten tun.
00:15:48Wie immer vielen Dank fürs Zuschauen, und wir sehen uns im nächsten Video.

Key Takeaway

Während Claude Code durch tiefgründige Planung und UX-Fokus überzeugt, dominiert Codex die Debatte durch eine 50% höhere Token-Effizienz, ein stabileres Rust-CLI und eine überlegene Kontext-Weitergabe an Sub-Agenten.

Highlights

  • GPT 5.5 verbrauchte in einem Debugging-Test 82.000 Token, während Opus 4.7 für dieselbe Aufgabe 173.000 Token benötigte.

  • Das Rust-basierte CLI von Codex bietet eine stabilere Benutzeroberfläche als das React-basierte Setup von Claude Code.

  • Opus 4.7 benötigt im Gegensatz zu GPT 5.5 zwingend API-Schlüssel vor dem Start der Implementierung und bietet keine automatischen Fallback-Mechanismen.

  • Claude Code isoliert Sub-Agenten vollständig ohne vorherigen Gesprächskontext, während Codex den gesamten Verlauf an Sub-Agenten übergibt.

  • Die Planung einer Frontend-App dauerte bei Claude Code 24 Minuten, während Codex dieselbe Aufgabe in 8 Minuten abschloss.

  • Codex integriert Bildmodelle von OpenAI direkt im CLI zur Generierung von Website-Grafiken.

Timeline

Vergleich der Benutzeroberflächen und Usability

  • Claude Code verliert durch Rendering-Fehler und Cache-Leaks ab Version 2.1.0 an Stabilität.
  • Das Rust-basierte CLI von Codex arbeitet flüssiger als das React-Backend von Claude Code.
  • Codex ermöglicht eine prägnante Persönlichkeitssteuerung über einfache Einstellungen statt komplexer Markdown-Anweisungen.

Die technische Basis der Tools beeinflusst die tägliche Arbeit massiv. Claude Code erzwingt mittlerweile Berechtigungsabfragen im Auto-Modus, die automatisierte Prozesse blockieren können. Codex bietet hingegen einen YOLO-Modus ohne Abfragen und liefert integrierte Skills wie den Agent-Browser direkt mit.

Kosteneffizienz und Token-Verbrauch

  • GPT 5.5 erledigt identische Debugging-Aufgaben mit weniger als der Hälfte der Token von Opus 4.7.
  • Codex ist bereits in einem kostenlosen Plan verfügbar, während Claude Code Pro- oder Max-Pläne voraussetzt.
  • Niedrigere Token-Limits im Pro-Plan von Claude machen ihn für komplexe Anwendungen unbrauchbar.

Ein direkter Vergleich zeigt signifikante Unterschiede in der Effizienz. Während Opus 4.7 173.000 Token für eine App-Entwicklung verbraucht, benötigt GPT 5.5 nur 82.000 Token. Diese Ersparnis resultiert aus präziseren Antworten und weniger notwendigen Korrekturschleifen innerhalb des 5-Stunden-Fensters.

Planungsqualität und Implementierungsgeschwindigkeit

  • Opus 4.7 erstellt detailliertere Pläne unter Berücksichtigung von Bibliotheken wie shadcn/ui.
  • GPT 5.5 implementiert eigenständig Fallback-Mechanismen für fehlende API-Schlüssel.
  • Codex priorisiert die funktionale Fertigstellung des Backends gegenüber der visuellen Gestaltung.

Bei der Erstellung eines Frontends für eine FastAPI-Struktur arbeitete Codex dreimal schneller als Claude Code. Dennoch bietet Claude Code eine realistischere Umsetzung der Benutzeroberfläche und achtet stärker auf die Verzahnung von Logik und UX. Codex agiert proaktiver bei der Fehlervermeidung in Produktionsumgebungen durch lokale Folgefragen.

Code-Reviews und System-Initialisierung

  • Claude Code liefert im Review exakte Code-Schnipsel zu den Fehlern, während Codex primär Zeilennummern nennt.
  • Das Initialisierungs-Tool von Codex erzeugt eine effizientere Projektstruktur ohne redundante Informationen.
  • Opus 4.7 identifiziert Sicherheitsmängel wie geleakte API-Schlüssel auch außerhalb des angeforderten Fokus.

In Zuverlässigkeits-Reviews zeigt Claude Code eine größere Detailtiefe und deckt auch fachfremde Probleme wie Sicherheit auf. Codex bleibt strikter am ursprünglichen Auftrag und vermeidet dadurch unnötiges Aufblähen der Berichte. Die Initialisierung von Projekten erfolgt bei Codex durch eine besser strukturierte agents.md Datei.

Kontext-Management und Speicherstrategien

  • Codex hält die letzten 20.000 Token unkomprimiert im Speicher für konstante Leistung.
  • Das Gedächtnis von Claude Code ist auf einzelne Projekte begrenzt und beim Wechsel zustandslos.
  • GPT 5.5 baut einen globalen Speicher über mehrere Sitzungen hinweg auf.

Die Art der Datenhaltung unterscheidet beide Modelle grundlegend. Claude Code versucht, den Kontext durch das Entfernen von Tool-Aufrufen sauber zu halten, was jedoch die Leistung beeinträchtigen kann. Codex setzt auf Kontinuität und speichert Muster über verschiedene Projekte hinweg, um die Benutzererfahrung langfristig zu personalisieren.

Ökosystem und Multi-Agenten-Workflows

  • Claude Code bietet eine breitere Plattform-Unterstützung inklusive Mobil- und Desktop-App.
  • Codex-Sub-Agenten profitieren vom Zugriff auf den gesamten bisherigen Gesprächsverlauf.
  • Das Hook-System in Claude Code erlaubt die Ausführung eigener Skripte im Lebenszyklus des Agenten.

Claude Code verfügt über fortgeschrittene Funktionen wie 'Ultra-Think' und ein ausgereiftes Hook-System zur Blockierung unsicherer Befehle. Codex kontert dies durch eine bessere Integration der Sub-Agenten, die durch den geteilten Kontext effektiver iterieren können. Zudem ermöglicht die OpenAI-Anbindung die direkte Nutzung von Bildmodellen für UI-Designs.

Community Posts

View all posts