Es ist kaputt… Die Debatte „Claude Code vs. Codex“ ist endlich vorbei

Deutschالعربية English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Lange Zeit war Claude das Standardmodell für die Programmierung.

00:00:03Nicht nur, weil es gut abschnitt, sondern weil es keine anderen Optionen auf demselben Niveau gab.

00:00:07Dann holten die GPT-Modelle auf und schlossen die Lücke, besonders mit der Veröffentlichung von GPT 5.5,

00:00:12die den Unterschied fast vollständig verschwinden ließ.

00:00:14Um die beiden zu vergleichen, mussten wir sie in den Umgebungen testen, für die sie am besten geeignet sind,

00:00:18also in ihren eigenen CLIs.

00:00:19Wir lassen Opus 4.7 und GPT 5.5 gegeneinander antreten, um zu sehen, wie sie im Vergleich

00:00:25zueinander abschneiden.

00:00:26Wir testen sie in 9 Kategorien, um herauszufinden, wer wirklich die Nase vorn hat,

00:00:29damit Sie am Ende wissen, welches Modell einen Platz in Ihrem Workflow verdient.

00:00:33Bei der Benutzerfreundlichkeit beginnt Claude Code für uns zu schwächeln.

00:00:36Wir haben es für die meisten Aufgaben genutzt, ob Programmierung oder nicht, aber es war nur

00:00:40bis zum Update 2.1.0 wirklich gut.

00:00:43Danach ging es mit Claude Code bergab.

00:00:46Die Benutzeroberfläche ist der frustrierendste Teil, da sie den größten Einfluss auf das Erlebnis hat.

00:00:50Das Terminal ruckelt, das Rendering bricht ab, und vieles, was sich früher ausgereift anfühlte, wirkt jetzt

00:00:55fehlerhaft.

00:00:56Es war einmal eines der besten TUIs, aber nur bis es anfing, unsauber programmiert zu werden.

00:00:59Jetzt fühlt es sich kaputter an, mit zahlreichen Fehlern wie Rendering-Problemen und Cache-Leaks,

00:01:03über die nicht nur wir uns beschwert haben.

00:01:05Das größere Problem ist, dass der Modus zum Überspringen von Berechtigungen entfernt

00:01:09und standardmäßig durch den Auto-Modus ersetzt wurde.

00:01:11Früher haben wir für die meisten Aufgaben den Bypass-Modus genutzt, mit Hooks für Dateien,

00:01:15die Claude nicht anrühren sollte.

00:01:17Jetzt fragt er selbst in diesem Modus nach Berechtigungen; als wir Claude baten, Skills zu erstellen,

00:01:22wechselten wir zu einer anderen Sitzung und merkten erst später, dass die Skill-Erstellung

00:01:27die ganze Zeit durch eine Abfrage für den .claude-Ordner blockiert war.

00:01:32Wir kamen zurück und erwarteten fertige Skills, aber das Programm wartete einfach nur.

00:01:36Codex macht das besser, weil sein YOLO-Modus keine Berechtigungen abfragt,

00:01:40so wie es der Auto-Modus von Claude Code tut.

00:01:42Das CLI basiert auf Rust, daher ist die UI viel flüssiger als das React-basierte Setup von Claude Code,

00:01:47und selbst nach einer langen Sitzung geht nichts kaputt.

00:01:49Auch bei der Konfiguration der Persönlichkeit zieht Codex vorbei.

00:01:53Wir können die Persönlichkeit auf eine direktere und prägnantere Sprache einstellen.

00:01:56Das liegt daran, dass GPT 5.5 deutlich unterwürfiger ist und jeder Eingabe eher zustimmt

00:02:02als Opus 4.7.

00:02:04Deshalb verhindert das Ändern der Persönlichkeit in Codex dieses Standardverhalten des Modells.

00:02:08Um Opus 4.7 direkt zu machen, müssen wir Anweisungen in der Claude.md nutzen, während Codex

00:02:14dies mit einer einfachen Einstellung erledigt.

00:02:16Vorinstallierte Skills sind ein weiterer Unterschied.

00:02:18Codex wird mit vielen Skills geliefert, die Claude Code fehlen, darunter der Agent-Browser-Skill.

00:02:22Das ist wichtig für App-Entwickler, da wir in Codex MCPs nicht explizit

00:02:26für die Browser-Verifizierung verbinden müssen.

00:02:29Er erledigt das nach der Implementierung eines Features automatisch.

00:02:31Er hat auch einen integrierten Skill-Creator; wenn wir einen neuen Skill wollen, erstellt er

00:02:35einen vollständigen Skill mit der richtigen Struktur und den Referenzdateien.

00:02:38In Claude müssten wir den Skill-Creator separat installieren, um einen ordentlich strukturierten

00:02:42Skill zu erhalten.

00:02:43Andernfalls schreibt er nur eine MD-Datei.

00:02:45Es gibt jedoch noch zwei Dinge, die Claude Code besser macht.

00:02:47Codex bietet kein Zurückspulen an – ein Feature, das wir am häufigsten nutzen, daher ist das Fehlen

00:02:51ein echter Nachteil.

00:02:52Claude Code lässt uns zudem seine Gedankengänge mit Strg+O einsehen, was Codex

00:02:57nicht gut beherrscht.

00:02:58Die Logik zu sehen ist hilfreich, da wir den Ansatz korrigieren können, anstatt

00:03:02bis zum Ende der Implementierung zu warten, um sie dann neu zu machen.

00:03:05Da sich die Benutzererfahrung von Claude Code mit jedem Update verschlechtert, geht der Punkt

00:03:10für die Usability an Codex.

00:03:11Was die Kosten angeht, ist Claude Code mit großem Abstand das teurere Werkzeug.

00:03:15Nicht bei den Preisen an sich, sondern bei der Nutzbarkeit zum gleichen Preis.

00:03:19Claude Code ist in der kostenlosen Version gar nicht verfügbar und erst ab

00:03:23den Pro- und Max-Plänen nutzbar.

00:03:24Die Pläne haben nahezu identische Preise.

00:03:26Der Pro-Plan ist für größere Anwendungen praktisch unbrauchbar, da er schon nach

00:03:30wenigen Aufgaben an seine Grenzen stößt.

00:03:32Wir können Opus 4.7 im Pro-Plan für keine anspruchsvolle Aufgabe vernünftig nutzen.

00:03:36Selbst im Max-Plan, den wir nutzen, sind die Limits sehr schnell erreicht.

00:03:39Codex ist hier von Anfang an in einer besseren Position.

00:03:41Es ist sogar im kostenlosen Plan mit eingeschränkter Nutzung verfügbar.

00:03:44Beide nutzen ein ähnliches 5-Stunden-Fenster; um zu sehen, wer mehr schafft,

00:03:49haben wir sie mit Aufgaben gleichen Umfangs getestet.

00:03:51Claude Code hat bereits einen Kontext-Befehl, der anzeigt, wie viele Token verbraucht wurden,

00:03:56aber Codex fehlt ein Äquivalent, also mussten wir für den Vergleich einen Umweg finden.

00:04:00Beide Tools speichern Sitzungen als JSON-Dateien, nur unterschiedlich organisiert.

00:04:04Wir haben ein kleines Tool gebaut, das diese liest und die Token pro Sitzung zählt.

00:04:08Bei derselben App und ähnlichem Debugging-Aufwand verbrauchte Opus 4.7 173.000 Token,

00:04:15während GPT 5.5 nur 82.000 benötigte.

00:04:18Das liegt daran, dass GPT 5.5 die Arbeit mit weniger Token und weit weniger Versuchen erledigt.

00:04:23Codex hielt also deutlich länger durch und war bei gleicher Arbeit viel kosteneffizienter.

00:04:28Aber bevor wir weitermachen, ein Wort von unserem Sponsor, Stream.

00:04:32Sie bauen eine App und Ihre Nutzer müssen chatten, streamen und sich vernetzen.

00:04:35Wenn Sie das selbst machen, debuggen Sie nach 3 Monaten immer noch, statt zu veröffentlichen.

00:04:39Stream überspringt das alles.

00:04:40Stream bietet alles sofort einsatzbereit: von In-App-Chat und Videoanrufen bis hin zu

00:04:44Aktivitäts-Feeds und KI-Moderation, damit Sie Features liefern, statt Infrastruktur zu bauen.

00:04:49Wir sprechen von Messaging wie WhatsApp, Videoanrufen wie Zoom und Feeds wie Instagram.

00:04:55Was wirklich heraussticht, ist das neue Produkt von Stream: Vision Agents.

00:04:58Sie können intelligente KI-Agenten bauen, die Live-Video und Audio sehen, hören und darauf reagieren –

00:05:02in Python mit nur wenigen Zeilen Code.

00:05:05Alles läuft über ein globales Edge-Netzwerk für niedrige Latenzzeiten überall.

00:05:08Von Startups bis zu großen Apps vertrauen führende Plattformen in den Bereichen Social und Fitness

00:05:13auf Stream, um über eine Milliarde Endnutzer zu bedienen.

00:05:16Wenn Sie Entwickler sind, skaliert Stream vom ersten Tag an mit Ihnen.

00:05:20Starten Sie kostenlos auf getstream.io, Links finden Sie im fixierten Kommentar.

00:05:24Der wahre Test für die Modelle ist die Art und Weise, wie sie Produkte bauen.

00:05:27Wie gesagt, GPT 5.5 ist schneller, verbraucht weniger Token und liefert Apps zügiger.

00:05:33Opus 4.7 verbraucht mehr Token für das Nachdenken, plant tiefer und iteriert an allen

00:05:38Aspekten der App gleichzeitig.

00:05:40Die Planung war das Erste, was wir testen wollten.

00:05:42Wir nutzen den Planungsmodus von Claude Code schon lange.

00:05:45Er deckt das meiste ab, hat einige Schwächen, ist aber durchaus brauchbar.

00:05:48Wir wollten sehen, wie GPT 5.5 plant, da OpenAI behauptet, dass es Planungsaufgaben

00:05:53und deren Ausführung besser beherrscht.

00:05:55Wir aktivierten den Planungsmodus in einem Ordner, der bereits ein Backend für eine App enthielt –

00:06:00eine API mit FastAPI – und baten es, das Frontend dafür zu bauen.

00:06:04Es untersuchte das Projekt gründlich und stellte ein paar Fragen, die jedoch recht

00:06:08einfach waren.

00:06:09Es hätte tiefer darauf eingehen können, wie das Frontend aussehen soll, denn für Frontend-Arbeit

00:06:13ist das entscheidend.

00:06:14Der erstellte Plan war sehr simpel.

00:06:16Er enthielt eine Zusammenfassung des Ablaufs, wichtige Änderungen, neue Seiten und Testmethoden.

00:06:20Positiv war, dass es seine Annahmen klar trennte, sodass wir genau wussten, was es

00:06:21voraussetzte.

00:06:25Wir gaben das Startsignal, und es war in etwa 8 Minuten fertig.

00:06:26Dieselbe Aufgabe dauerte bei Claude Code 24 Minuten.

00:06:28Aber der Plan von Opus 4.7 war viel tiefgründiger, berücksichtigte mehr Aspekte

00:06:31und nutzte sogar shadcn/ui, um die Benutzererfahrung zu verbessern.

00:06:36Opus 4.7 ist also bei der Planung überlegen.

00:06:39Als Nächstes wollten wir beide Modelle an einer komplett neuen App testen.

00:06:42Beide erhielten den Auftrag, ein Monorepo mit Python-Flask-Backend und

00:06:45Next.js-Frontend zu erstellen, inklusive Pipeline und Kernanforderungen an die Funktion.

00:06:50Claude Code wechselte aufgrund seines Designs von selbst in den Planungsmodus.

00:06:55Codex tat dies nicht und begann sofort mit der Implementierung.

00:06:56Er war viel schneller fertig als Claude Code, der wegen der Planung

00:06:59etwa 16 Minuten brauchte.

00:07:04Die GPT 5.5-Version der App hatte eine simplere UI und konzentrierte sich primär darauf,

00:07:08dass sie funktioniert.

00:07:09Zu Beginn lief sie nicht perfekt, also haben wir sie schrittweise debuggt.

00:07:14Dabei bemerkten wir, dass die Interview-Prompts hartcodiert waren, da wir keinen API-Key

00:07:15bereitgestellt hatten.

00:07:17Der Prompt verlangte die Gemini-API als Backend, aber da kein Key da war,

00:07:22implementierte er ein Fallback, damit die App nicht komplett abstürzt.

00:07:23Codex hatte ohne explizite Aufforderung lokale Folgefragen genutzt.

00:07:27Das gefällt uns, da solche Fallback-Mechanismen in der Produktion Abstürze verhindern.

00:07:30Nach einigen Iterationen und dem Hinzufügen des Keys funktionierte der Ablauf,

00:07:35auch wenn die UI schlicht blieb.

00:07:39GPT 5.5 hat also Randfälle bedacht und Lücken proaktiv gefüllt.

00:07:40Opus 4.7 hingegen verlangte den API-Key, bevor er mit der Arbeit begann,

00:07:44und baute die gesamte App darauf auf.

00:07:46Im Gegensatz zu GPT 5.5 hat Opus 4.7 keine Fallbacks vorbereitet und alles vorab benötigt.

00:07:51Daher gab die App ohne die API nur eine Fehlermeldung aus.

00:07:57Claude Code achtet jedoch auf UX und Funktionalität gleichermaßen, weshalb die Umsetzung

00:07:59realistischer wirkte.

00:08:05Hier zeigt sich die Stärke von Opus 4.7 im UI-Bereich, die wir schon im letzten Video

00:08:06erwähnt haben; aber auch seine Implementierung hatte Mängel.

00:08:10Stattdessen stellte es uns Fragen zur möglichen Ursache und verließ sich

00:08:15Stattdessen stellte er uns Fragen zur Ursache und verließ sich auf unsere Tests.

00:08:16Er fügte Debug-Punkte wie UI-Indikatoren und Konsolen-Logs hinzu und bat uns,

00:08:21Zustände zu prüfen und Bericht zu erstatten.

00:08:26Nach einigem Hin und Her wurde das Problem gelöst und das Interview-Feature lief.

00:08:31Uns gefiel besser, wie Codex den Agent-Browser nutzte, um eigenständig zu debuggen.

00:08:35Beim autonomen Arbeiten war Codex besser, bei der Benutzererfahrung Claude Code.

00:08:36Wir wollten auch testen, wie beide mit dem init-Befehl umgehen.

00:08:41Das init von Claude Code läuft ab, ohne den Prompt inline zu erweitern.

00:08:42Es erstellt eine Claude.md mit etwa 90 Zeilen, die Architektur, Ablauf,

00:08:46Struktur und alle nötigen Befehle enthält.

00:08:49Viele dieser Infos sind redundant und helfen dem Agenten nicht wirklich weiter,

00:08:53Viele dieser Informationen sind redundant und nützen dem Agenten nicht wirklich, was

00:08:56der Grund ist, warum es nicht immer notwendig ist, alles davon zu behalten.

00:08:59Das Setup von Codex war raffinierter.

00:09:02hielt aber den Abschnitt zur Projektstruktur kurz statt ihn zu überladen.

00:09:08Keiner war perfekt, aber Codex hat die agents.md besser gelöst.

00:09:12Nun wollten wir wissen, wie beide beim Code-Review abschneiden.

00:09:15Wir gaben beiden denselben Prompt für ein Review der Zuverlässigkeit,

00:09:18wobei sie die Ergebnisse in separaten Dateien in derselben Codebasis dokumentieren sollten.

00:09:20Danach baten wir Claude in einer neuen Sitzung, einen Diff der Dateien zu erstellen.

00:09:24Claudes Review war viel detaillierter.

00:09:28Es ordnete Funde nach Priorität und enthielt Komponenten sowie die exakten Code-Schnipsel

00:09:32zu den Problemen.

00:09:35Der Bericht von Codex nannte Zeilennummern, verzichtete aber auf die Schnipsel.

00:09:40Beide Berichte waren gründlich; sie teilten viele Funde, aber jeder fand auch Dinge,

00:09:44die dem anderen entgingen.

00:09:48Claude Code meldete zudem Sicherheitsmängel wie einen geleakten API-Key.

00:09:51Die Aufgabe war ein Zuverlässigkeits-Review, also lagen diese Themen außerhalb des Fokus.

00:09:53Claude Code meldete jedes Problem, auf das er stieß, während Codex strikt beim Auftrag blieb.

00:09:57Der Bericht von Codex entsprach eher der Anfrage, während der von Claude breiter,

00:09:59aber weniger fokussiert war.

00:10:03Wenn man beide beim Bauen beschreibt, wirkt GPT 5.5 wie ein Backend-Entwickler,

00:10:07der primär die Funktionalität liefern will, während Opus 4.7 eher wie ein Fullstack-Entwickler

00:10:08wirkt, der Funktionalität und UX ausbalanciert.

00:10:12Beim Kontext-Management schnitt Codex viel besser ab als Claude Code.

00:10:17Claude Code bietet eine Kontext-Bearbeitung in der Sitzung an, die Tool-Aufrufe

00:10:21und Logikschritte entfernt, die für das Gespräch nicht mehr wichtig sind.

00:10:22Es bereinigt redundante Informationen, um ein Aufblähen der Sitzung zu verhindern.

00:10:27Die Komprimierung ist nicht perfekt, aber sie behält zumindest keine unnötigen Teile bei.

00:10:29Codex bearbeitet den Kontext nicht.

00:10:34Er komprimiert das gesamte Gespräch so, wie es stattgefunden hat.

00:10:40Was er jedoch besser macht, ist das Speichern der letzten 20.000 Token im Speicher,

00:10:45ohne diesen Teil zu komprimieren.

00:10:48Das verhindert einen Leistungsabfall nach der Komprimierung in Codex, sodass

00:10:53das Gespräch ab dem nächsten Prompt flüssig weiterlaufen kann.

00:10:55Wir haben die Leistung getestet, und Codex schnitt nach der Komprimierung besser ab als Claude Code.

00:10:58Obwohl Claude Code einen detaillierteren Prozess nutzt, sorgt der erhaltene Rest

00:11:02bei Codex in der Praxis für eine höhere Nützlichkeit des Agenten.

00:11:03Das Gedächtnis funktioniert bei beiden unterschiedlich.

00:11:05Das System von Claude Code ist über Sitzungen hinweg meist zustandslos, jede Sitzung

00:11:08beginnt also ohne den Kontext der vorherigen.

00:11:13Es gibt nun eine Memory-Funktion, die dauerhafte Vorlieben oder Anweisungen speichert.

00:11:14Wenn wir ihm sagen, dass er etwas auf eine bestimmte Weise vermeiden soll, merkt er sich das

00:11:18und wendet es später im selben Projekt wieder an.

00:11:21Wir haben die Leistung getestet, und Codex schnitt nach der Kompaktierung besser ab als Claude Code.

00:11:25Obwohl Claude Code einen detaillierteren, mehrstufigen Kompaktierungsprozess nutzt, sorgt der

00:11:30erhaltene Endteil bei Codex dafür, dass der Agent in der Praxis nützlicher bleibt.

00:11:33Die Speichernutzung unterscheidet sich bei beiden Modellen.

00:11:35Das System von Claude Code ist über Sitzungen hinweg weitgehend zustandslos, was bedeutet,

00:11:39dass jede Sitzung ohne Kontext aus der vorherigen beginnt.

00:11:41Es gibt nun eine Speicherfunktion, die dauerhafte Präferenzen oder Anweisungen speichern kann.

00:11:46Wenn wir ihm also sagen, dass es etwas auf eine bestimmte Weise vermeiden soll, speichert es das

00:11:50und wendet es später innerhalb desselben Projekts wieder an.

00:11:52Das ist hilfreich, wenn man wiederholt an einem einzelnen Projekt arbeitet.

00:11:54Aber der Speicher ist projektbezogen; beim Projektwechsel geht dieses gespeicherte Verhalten verloren.

00:11:58Codex wählt den entgegengesetzten Weg.

00:12:00Es konsolidiert Informationen aus mehreren Sitzungen über die Zeit und baut einen globalen Speicher

00:12:05über Interaktionen auf, um Muster über ein einzelnes Projekt hinaus zu behalten.

00:12:08Das kann die Konsistenz bei verschiedenen Aufgaben unterstützen.

00:12:11Kurz gesagt: Claude Code hält den Speicher stärker innerhalb eines Projekts begrenzt, während Codex

00:12:15einen sitzungs- und projektübergreifenden Ansatz verfolgt, was die jeweilige Anpassung

00:12:19über die Zeit verändert.

00:12:20Da Claude Code schon länger existiert und ständig zur Verbesserung der Entwicklererfahrung

00:12:24optimiert wird, hat es im Vergleich zu Codex mehr zu bieten.

00:12:27Claude Code besitzt ein Hook-System, mit dem wir eigene Skripte an bestimmten Punkten im

00:12:32Lebenszyklus des Agenten ausführen können, etwa vor oder nach einem Tool-Einsatz, um Dinge

00:12:36wie unsichere Befehle zu blockieren oder Formatierer auszuführen.

00:12:39Wir können auch Sub-Agenten in einem eigenen Arbeitsverzeichnis ausführen, damit ihre

00:12:43Leistung sich nicht gegenseitig beeinflusst.

00:12:44Wir können die Anstrengung der Modelle steuern und sogar Schlüsselwörter wie "Ultra-Think" nutzen,

00:12:48um die logische Schlussfolgerung bei einer spezifischen Aufgabe zu maximieren.

00:12:51Nichts davon hat derzeit eine Entsprechung in Codex.

00:12:54Das Ökosystem ist der andere klare Vorteil für Claude Code.

00:12:56Wir können Sitzungen über die Claude-Desktop-App starten und Aufgaben von der mobilen App delegieren.

00:13:01Mit Claude Code, der Desktop-App, Web-App und Browser-Erweiterungen ist die Reichweite viel

00:13:06größer als bei Codex, das hauptsächlich aus einer Web-App und einer erst kürzlich veröffentlichten

00:13:11Desktop-App besteht, die sich zum Testzeitpunkt noch nicht so ausgereift anfühlte.

00:13:14Sitzungen lassen sich bei Claude Code zudem leichter zwischen Umgebungen verschieben, was

00:13:18das Arbeiten über verschiedene Schnittstellen hinweg komfortabler macht.

00:13:20Auch Codex hat viele interessante Funktionen.

00:13:22In der Cloud gibt es ein Versuchs-Flag, das dieselbe Aufgabe n-mal ausführt.

00:13:26Es erstellt mehrere Implementierungen und wählt die beste aus.

00:13:29Claude Code kann Ähnliches tun, aber nur über Konfigurationen und Anweisungen, nicht

00:13:33als direktes Flag.

00:13:34Die andere Codex-exklusive Funktion, die es abhebt, ist die Integration mit den

00:13:38Bildmodellen von OpenAI.

00:13:39Es kann diese direkt im CLI nutzen, um Bilder für die Websites zu generieren, an denen es arbeitet.

00:13:44Claude verlässt sich bei Grafiken meist auf SVG-basierte Generierung, was qualitativ nicht

00:13:49konkurrenzfähig ist, da es noch über kein eigenes Bildmodell verfügt.

00:13:52Wenn wir eine UI bauen, die echte Bilder benötigt, ist Codex das einzige der beiden,

00:13:56das dies tut, ohne dass man es ihm explizit sagen muss.

00:13:58Übrigens: Wenn Ihnen unsere Inhalte gefallen, drücken Sie gerne den Hype-Button, da es uns hilft,

00:14:03mehr solcher Inhalte zu erstellen und mehr Menschen zu erreichen.

00:14:06Beide nutzen Sub-Agenten, auch wenn das Konzept zuerst von Claude eingeführt wurde.

00:14:10Da es bei Claude Code zuerst kam, ist die Integration dort reifer, da man dort schon viel länger

00:14:15agentenzentriert gearbeitet und sich auf das Coding-Erlebnis konzentriert hat als bei OpenAI.

00:14:19Es unterstützt Agenten, die über Remote-Sitzungen orchestriert werden können, während Codex

00:14:23hauptsächlich Multi-Agenten-Workflows innerhalb der Terminal-Umgebung unterstützt.

00:14:27Der größte Unterschied liegt darin, wie die Sub-Agenten jeweils aufgerufen werden.

00:14:29Claude Code kann Agenten ohne expliziten Aufruf starten, während Codex einen Agenten nur

00:14:35erstellt, wenn wir im Prompt explizit danach fragen.

00:14:37Wenn Codex Agenten startet, benennt es sie und übergibt ihnen auch einen passenden Prompt.

00:14:41In der Programmierleistung sind beide recht ähnlich, aber die Designentscheidungen dahinter variieren.

00:14:46Claude Codes Sub-Agenten nutzen eine explizite Allow-Liste; der Haupt-Agent legt also genau fest,

00:14:51auf welche Tools der Sub-Agent zugreifen darf, während Codex-Sub-Agenten standardmäßig

00:14:55den Tool-Zugriff vom Haupt-Agenten erben.

00:14:57Claude Code gibt zudem jedem Sub-Agenten ein komplett frisches Kontextfenster.

00:15:01Ein Sub-Agent hat keinen Zugriff auf den bisherigen Gesprächsverlauf und sieht nur den Prompt,

00:15:06den System-Prompt und globale Regeln, da Claude auf Kontext-Isolierung setzt.

00:15:10Das Codex CLI macht das Gegenteil.

00:15:12Es kopiert den gesamten Verlauf in die Sub-Agent-Sitzung, ergänzt um den Prompt des Haupt-Agenten.

00:15:17Codex-Agenten behalten mehr Kontext über das bereits Besprochene, was tatsächlich hilft,

00:15:22ihre Leistung zu steigern.

00:15:23In der Praxis hat die strikte Isolierung von Claude Code unseren Forschungs-Sub-Agenten geschadet.

00:15:27Als wir sie einsetzten, waren die Ergebnisse nicht gut genug, weil sie nur den unmittelbaren

00:15:30Prompt sahen und über keinerlei vorherigen Kontext verfügten.

00:15:33Codex-Agenten erhalten den gesamten Verlauf, können effektiver iterieren und schneiden besser

00:15:38bei Aufgaben ab, bei denen Kontinuität wichtig ist.

00:15:39Damit sind wir am Ende dieses Videos angelangt.

00:15:41Wenn Sie den Kanal unterstützen und uns helfen möchten, weiterhin Videos wie dieses zu machen,

00:15:45können Sie das über den Super Thanks Button unten tun.

00:15:48Wie immer vielen Dank fürs Zuschauen, und wir sehen uns im nächsten Video.

Key Takeaway

Während Claude Code durch tiefgründige Planung und UX-Fokus überzeugt, dominiert Codex die Debatte durch eine 50% höhere Token-Effizienz, ein stabileres Rust-CLI und eine überlegene Kontext-Weitergabe an Sub-Agenten.

Highlights

GPT 5.5 verbrauchte in einem Debugging-Test 82.000 Token, während Opus 4.7 für dieselbe Aufgabe 173.000 Token benötigte.
Das Rust-basierte CLI von Codex bietet eine stabilere Benutzeroberfläche als das React-basierte Setup von Claude Code.
Opus 4.7 benötigt im Gegensatz zu GPT 5.5 zwingend API-Schlüssel vor dem Start der Implementierung und bietet keine automatischen Fallback-Mechanismen.
Claude Code isoliert Sub-Agenten vollständig ohne vorherigen Gesprächskontext, während Codex den gesamten Verlauf an Sub-Agenten übergibt.
Die Planung einer Frontend-App dauerte bei Claude Code 24 Minuten, während Codex dieselbe Aufgabe in 8 Minuten abschloss.
Codex integriert Bildmodelle von OpenAI direkt im CLI zur Generierung von Website-Grafiken.

Timeline

Vergleich der Benutzeroberflächen und Usability

Claude Code verliert durch Rendering-Fehler und Cache-Leaks ab Version 2.1.0 an Stabilität.
Das Rust-basierte CLI von Codex arbeitet flüssiger als das React-Backend von Claude Code.
Codex ermöglicht eine prägnante Persönlichkeitssteuerung über einfache Einstellungen statt komplexer Markdown-Anweisungen.

Die technische Basis der Tools beeinflusst die tägliche Arbeit massiv. Claude Code erzwingt mittlerweile Berechtigungsabfragen im Auto-Modus, die automatisierte Prozesse blockieren können. Codex bietet hingegen einen YOLO-Modus ohne Abfragen und liefert integrierte Skills wie den Agent-Browser direkt mit.

Kosteneffizienz und Token-Verbrauch

GPT 5.5 erledigt identische Debugging-Aufgaben mit weniger als der Hälfte der Token von Opus 4.7.
Codex ist bereits in einem kostenlosen Plan verfügbar, während Claude Code Pro- oder Max-Pläne voraussetzt.
Niedrigere Token-Limits im Pro-Plan von Claude machen ihn für komplexe Anwendungen unbrauchbar.

Ein direkter Vergleich zeigt signifikante Unterschiede in der Effizienz. Während Opus 4.7 173.000 Token für eine App-Entwicklung verbraucht, benötigt GPT 5.5 nur 82.000 Token. Diese Ersparnis resultiert aus präziseren Antworten und weniger notwendigen Korrekturschleifen innerhalb des 5-Stunden-Fensters.

Planungsqualität und Implementierungsgeschwindigkeit

Opus 4.7 erstellt detailliertere Pläne unter Berücksichtigung von Bibliotheken wie shadcn/ui.
GPT 5.5 implementiert eigenständig Fallback-Mechanismen für fehlende API-Schlüssel.
Codex priorisiert die funktionale Fertigstellung des Backends gegenüber der visuellen Gestaltung.

Bei der Erstellung eines Frontends für eine FastAPI-Struktur arbeitete Codex dreimal schneller als Claude Code. Dennoch bietet Claude Code eine realistischere Umsetzung der Benutzeroberfläche und achtet stärker auf die Verzahnung von Logik und UX. Codex agiert proaktiver bei der Fehlervermeidung in Produktionsumgebungen durch lokale Folgefragen.

Code-Reviews und System-Initialisierung

Claude Code liefert im Review exakte Code-Schnipsel zu den Fehlern, während Codex primär Zeilennummern nennt.
Das Initialisierungs-Tool von Codex erzeugt eine effizientere Projektstruktur ohne redundante Informationen.
Opus 4.7 identifiziert Sicherheitsmängel wie geleakte API-Schlüssel auch außerhalb des angeforderten Fokus.

In Zuverlässigkeits-Reviews zeigt Claude Code eine größere Detailtiefe und deckt auch fachfremde Probleme wie Sicherheit auf. Codex bleibt strikter am ursprünglichen Auftrag und vermeidet dadurch unnötiges Aufblähen der Berichte. Die Initialisierung von Projekten erfolgt bei Codex durch eine besser strukturierte agents.md Datei.

Kontext-Management und Speicherstrategien

Codex hält die letzten 20.000 Token unkomprimiert im Speicher für konstante Leistung.
Das Gedächtnis von Claude Code ist auf einzelne Projekte begrenzt und beim Wechsel zustandslos.
GPT 5.5 baut einen globalen Speicher über mehrere Sitzungen hinweg auf.

Die Art der Datenhaltung unterscheidet beide Modelle grundlegend. Claude Code versucht, den Kontext durch das Entfernen von Tool-Aufrufen sauber zu halten, was jedoch die Leistung beeinträchtigen kann. Codex setzt auf Kontinuität und speichert Muster über verschiedene Projekte hinweg, um die Benutzererfahrung langfristig zu personalisieren.

Ökosystem und Multi-Agenten-Workflows

Claude Code bietet eine breitere Plattform-Unterstützung inklusive Mobil- und Desktop-App.
Codex-Sub-Agenten profitieren vom Zugriff auf den gesamten bisherigen Gesprächsverlauf.
Das Hook-System in Claude Code erlaubt die Ausführung eigener Skripte im Lebenszyklus des Agenten.

Claude Code verfügt über fortgeschrittene Funktionen wie 'Ultra-Think' und ein ausgereiftes Hook-System zur Blockierung unsicherer Befehle. Codex kontert dies durch eine bessere Integration der Sub-Agenten, die durch den geteilten Kontext effektiver iterieren können. Zudem ermöglicht die OpenAI-Anbindung die direkte Nutzung von Bildmodellen für UI-Designs.

Community Posts

Write about this video