Es ist kaputt… Die Debatte „Claude Code vs. Codex“ ist endlich vorbei
AAI LABS
Computing/SoftwareSmall Business/StartupsInternet Technology
Transcript
00:00:00Lange Zeit war Claude das Standardmodell für die Programmierung.
00:00:03Nicht nur, weil es gut abschnitt, sondern weil es keine anderen Optionen auf demselben Niveau gab.
00:00:07Dann holten die GPT-Modelle auf und schlossen die Lücke, besonders mit der Veröffentlichung von GPT 5.5,
00:00:12die den Unterschied fast vollständig verschwinden ließ.
00:00:14Um die beiden zu vergleichen, mussten wir sie in den Umgebungen testen, für die sie am besten geeignet sind,
00:00:18also in ihren eigenen CLIs.
00:00:19Wir lassen Opus 4.7 und GPT 5.5 gegeneinander antreten, um zu sehen, wie sie im Vergleich
00:00:25zueinander abschneiden.
00:00:26Wir testen sie in 9 Kategorien, um herauszufinden, wer wirklich die Nase vorn hat,
00:00:29damit Sie am Ende wissen, welches Modell einen Platz in Ihrem Workflow verdient.
00:00:33Bei der Benutzerfreundlichkeit beginnt Claude Code für uns zu schwächeln.
00:00:36Wir haben es für die meisten Aufgaben genutzt, ob Programmierung oder nicht, aber es war nur
00:00:40bis zum Update 2.1.0 wirklich gut.
00:00:43Danach ging es mit Claude Code bergab.
00:00:46Die Benutzeroberfläche ist der frustrierendste Teil, da sie den größten Einfluss auf das Erlebnis hat.
00:00:50Das Terminal ruckelt, das Rendering bricht ab, und vieles, was sich früher ausgereift anfühlte, wirkt jetzt
00:00:55fehlerhaft.
00:00:56Es war einmal eines der besten TUIs, aber nur bis es anfing, unsauber programmiert zu werden.
00:00:59Jetzt fühlt es sich kaputter an, mit zahlreichen Fehlern wie Rendering-Problemen und Cache-Leaks,
00:01:03über die nicht nur wir uns beschwert haben.
00:01:05Das größere Problem ist, dass der Modus zum Überspringen von Berechtigungen entfernt
00:01:09und standardmäßig durch den Auto-Modus ersetzt wurde.
00:01:11Früher haben wir für die meisten Aufgaben den Bypass-Modus genutzt, mit Hooks für Dateien,
00:01:15die Claude nicht anrühren sollte.
00:01:17Jetzt fragt er selbst in diesem Modus nach Berechtigungen; als wir Claude baten, Skills zu erstellen,
00:01:22wechselten wir zu einer anderen Sitzung und merkten erst später, dass die Skill-Erstellung
00:01:27die ganze Zeit durch eine Abfrage für den .claude-Ordner blockiert war.
00:01:32Wir kamen zurück und erwarteten fertige Skills, aber das Programm wartete einfach nur.
00:01:36Codex macht das besser, weil sein YOLO-Modus keine Berechtigungen abfragt,
00:01:40so wie es der Auto-Modus von Claude Code tut.
00:01:42Das CLI basiert auf Rust, daher ist die UI viel flüssiger als das React-basierte Setup von Claude Code,
00:01:47und selbst nach einer langen Sitzung geht nichts kaputt.
00:01:49Auch bei der Konfiguration der Persönlichkeit zieht Codex vorbei.
00:01:53Wir können die Persönlichkeit auf eine direktere und prägnantere Sprache einstellen.
00:01:56Das liegt daran, dass GPT 5.5 deutlich unterwürfiger ist und jeder Eingabe eher zustimmt
00:02:02als Opus 4.7.
00:02:04Deshalb verhindert das Ändern der Persönlichkeit in Codex dieses Standardverhalten des Modells.
00:02:08Um Opus 4.7 direkt zu machen, müssen wir Anweisungen in der Claude.md nutzen, während Codex
00:02:14dies mit einer einfachen Einstellung erledigt.
00:02:16Vorinstallierte Skills sind ein weiterer Unterschied.
00:02:18Codex wird mit vielen Skills geliefert, die Claude Code fehlen, darunter der Agent-Browser-Skill.
00:02:22Das ist wichtig für App-Entwickler, da wir in Codex MCPs nicht explizit
00:02:26für die Browser-Verifizierung verbinden müssen.
00:02:29Er erledigt das nach der Implementierung eines Features automatisch.
00:02:31Er hat auch einen integrierten Skill-Creator; wenn wir einen neuen Skill wollen, erstellt er
00:02:35einen vollständigen Skill mit der richtigen Struktur und den Referenzdateien.
00:02:38In Claude müssten wir den Skill-Creator separat installieren, um einen ordentlich strukturierten
00:02:42Skill zu erhalten.
00:02:43Andernfalls schreibt er nur eine MD-Datei.
00:02:45Es gibt jedoch noch zwei Dinge, die Claude Code besser macht.
00:02:47Codex bietet kein Zurückspulen an – ein Feature, das wir am häufigsten nutzen, daher ist das Fehlen
00:02:51ein echter Nachteil.
00:02:52Claude Code lässt uns zudem seine Gedankengänge mit Strg+O einsehen, was Codex
00:02:57nicht gut beherrscht.
00:02:58Die Logik zu sehen ist hilfreich, da wir den Ansatz korrigieren können, anstatt
00:03:02bis zum Ende der Implementierung zu warten, um sie dann neu zu machen.
00:03:05Da sich die Benutzererfahrung von Claude Code mit jedem Update verschlechtert, geht der Punkt
00:03:10für die Usability an Codex.
00:03:11Was die Kosten angeht, ist Claude Code mit großem Abstand das teurere Werkzeug.
00:03:15Nicht bei den Preisen an sich, sondern bei der Nutzbarkeit zum gleichen Preis.
00:03:19Claude Code ist in der kostenlosen Version gar nicht verfügbar und erst ab
00:03:23den Pro- und Max-Plänen nutzbar.
00:03:24Die Pläne haben nahezu identische Preise.
00:03:26Der Pro-Plan ist für größere Anwendungen praktisch unbrauchbar, da er schon nach
00:03:30wenigen Aufgaben an seine Grenzen stößt.
00:03:32Wir können Opus 4.7 im Pro-Plan für keine anspruchsvolle Aufgabe vernünftig nutzen.
00:03:36Selbst im Max-Plan, den wir nutzen, sind die Limits sehr schnell erreicht.
00:03:39Codex ist hier von Anfang an in einer besseren Position.
00:03:41Es ist sogar im kostenlosen Plan mit eingeschränkter Nutzung verfügbar.
00:03:44Beide nutzen ein ähnliches 5-Stunden-Fenster; um zu sehen, wer mehr schafft,
00:03:49haben wir sie mit Aufgaben gleichen Umfangs getestet.
00:03:51Claude Code hat bereits einen Kontext-Befehl, der anzeigt, wie viele Token verbraucht wurden,
00:03:56aber Codex fehlt ein Äquivalent, also mussten wir für den Vergleich einen Umweg finden.
00:04:00Beide Tools speichern Sitzungen als JSON-Dateien, nur unterschiedlich organisiert.
00:04:04Wir haben ein kleines Tool gebaut, das diese liest und die Token pro Sitzung zählt.
00:04:08Bei derselben App und ähnlichem Debugging-Aufwand verbrauchte Opus 4.7 173.000 Token,
00:04:15während GPT 5.5 nur 82.000 benötigte.
00:04:18Das liegt daran, dass GPT 5.5 die Arbeit mit weniger Token und weit weniger Versuchen erledigt.
00:04:23Codex hielt also deutlich länger durch und war bei gleicher Arbeit viel kosteneffizienter.
00:04:28Aber bevor wir weitermachen, ein Wort von unserem Sponsor, Stream.
00:04:32Sie bauen eine App und Ihre Nutzer müssen chatten, streamen und sich vernetzen.
00:04:35Wenn Sie das selbst machen, debuggen Sie nach 3 Monaten immer noch, statt zu veröffentlichen.
00:04:39Stream überspringt das alles.
00:04:40Stream bietet alles sofort einsatzbereit: von In-App-Chat und Videoanrufen bis hin zu
00:04:44Aktivitäts-Feeds und KI-Moderation, damit Sie Features liefern, statt Infrastruktur zu bauen.
00:04:49Wir sprechen von Messaging wie WhatsApp, Videoanrufen wie Zoom und Feeds wie Instagram.
00:04:55Was wirklich heraussticht, ist das neue Produkt von Stream: Vision Agents.
00:04:58Sie können intelligente KI-Agenten bauen, die Live-Video und Audio sehen, hören und darauf reagieren –
00:05:02in Python mit nur wenigen Zeilen Code.
00:05:05Alles läuft über ein globales Edge-Netzwerk für niedrige Latenzzeiten überall.
00:05:08Von Startups bis zu großen Apps vertrauen führende Plattformen in den Bereichen Social und Fitness
00:05:13auf Stream, um über eine Milliarde Endnutzer zu bedienen.
00:05:16Wenn Sie Entwickler sind, skaliert Stream vom ersten Tag an mit Ihnen.
00:05:20Starten Sie kostenlos auf getstream.io, Links finden Sie im fixierten Kommentar.
00:05:24Der wahre Test für die Modelle ist die Art und Weise, wie sie Produkte bauen.
00:05:27Wie gesagt, GPT 5.5 ist schneller, verbraucht weniger Token und liefert Apps zügiger.
00:05:33Opus 4.7 verbraucht mehr Token für das Nachdenken, plant tiefer und iteriert an allen
00:05:38Aspekten der App gleichzeitig.
00:05:40Die Planung war das Erste, was wir testen wollten.
00:05:42Wir nutzen den Planungsmodus von Claude Code schon lange.
00:05:45Er deckt das meiste ab, hat einige Schwächen, ist aber durchaus brauchbar.
00:05:48Wir wollten sehen, wie GPT 5.5 plant, da OpenAI behauptet, dass es Planungsaufgaben
00:05:53und deren Ausführung besser beherrscht.
00:05:55Wir aktivierten den Planungsmodus in einem Ordner, der bereits ein Backend für eine App enthielt –
00:06:00eine API mit FastAPI – und baten es, das Frontend dafür zu bauen.
00:06:04Es untersuchte das Projekt gründlich und stellte ein paar Fragen, die jedoch recht
00:06:08einfach waren.
00:06:09Es hätte tiefer darauf eingehen können, wie das Frontend aussehen soll, denn für Frontend-Arbeit
00:06:13ist das entscheidend.
00:06:14Der erstellte Plan war sehr simpel.
00:06:16Er enthielt eine Zusammenfassung des Ablaufs, wichtige Änderungen, neue Seiten und Testmethoden.
00:06:20Positiv war, dass es seine Annahmen klar trennte, sodass wir genau wussten, was es
00:06:21voraussetzte.
00:06:25Wir gaben das Startsignal, und es war in etwa 8 Minuten fertig.
00:06:26Dieselbe Aufgabe dauerte bei Claude Code 24 Minuten.
00:06:28Aber der Plan von Opus 4.7 war viel tiefgründiger, berücksichtigte mehr Aspekte
00:06:31und nutzte sogar shadcn/ui, um die Benutzererfahrung zu verbessern.
00:06:36Opus 4.7 ist also bei der Planung überlegen.
00:06:39Als Nächstes wollten wir beide Modelle an einer komplett neuen App testen.
00:06:42Beide erhielten den Auftrag, ein Monorepo mit Python-Flask-Backend und
00:06:45Next.js-Frontend zu erstellen, inklusive Pipeline und Kernanforderungen an die Funktion.
00:06:50Claude Code wechselte aufgrund seines Designs von selbst in den Planungsmodus.
00:06:55Codex tat dies nicht und begann sofort mit der Implementierung.
00:06:56Er war viel schneller fertig als Claude Code, der wegen der Planung
00:06:59etwa 16 Minuten brauchte.
00:07:04Die GPT 5.5-Version der App hatte eine simplere UI und konzentrierte sich primär darauf,
00:07:08dass sie funktioniert.
00:07:09Zu Beginn lief sie nicht perfekt, also haben wir sie schrittweise debuggt.
00:07:14Dabei bemerkten wir, dass die Interview-Prompts hartcodiert waren, da wir keinen API-Key
00:07:15bereitgestellt hatten.
00:07:17Der Prompt verlangte die Gemini-API als Backend, aber da kein Key da war,
00:07:22implementierte er ein Fallback, damit die App nicht komplett abstürzt.
00:07:23Codex hatte ohne explizite Aufforderung lokale Folgefragen genutzt.
00:07:27Das gefällt uns, da solche Fallback-Mechanismen in der Produktion Abstürze verhindern.
00:07:30Nach einigen Iterationen und dem Hinzufügen des Keys funktionierte der Ablauf,
00:07:35auch wenn die UI schlicht blieb.
00:07:39GPT 5.5 hat also Randfälle bedacht und Lücken proaktiv gefüllt.
00:07:40Opus 4.7 hingegen verlangte den API-Key, bevor er mit der Arbeit begann,
00:07:44und baute die gesamte App darauf auf.
00:07:46Im Gegensatz zu GPT 5.5 hat Opus 4.7 keine Fallbacks vorbereitet und alles vorab benötigt.
00:07:51Daher gab die App ohne die API nur eine Fehlermeldung aus.
00:07:57Claude Code achtet jedoch auf UX und Funktionalität gleichermaßen, weshalb die Umsetzung
00:07:59realistischer wirkte.
00:08:05Hier zeigt sich die Stärke von Opus 4.7 im UI-Bereich, die wir schon im letzten Video
00:08:06erwähnt haben; aber auch seine Implementierung hatte Mängel.
00:08:10Stattdessen stellte es uns Fragen zur möglichen Ursache und verließ sich
00:08:15Stattdessen stellte er uns Fragen zur Ursache und verließ sich auf unsere Tests.
00:08:16Er fügte Debug-Punkte wie UI-Indikatoren und Konsolen-Logs hinzu und bat uns,
00:08:21Zustände zu prüfen und Bericht zu erstatten.
00:08:26Nach einigem Hin und Her wurde das Problem gelöst und das Interview-Feature lief.
00:08:31Uns gefiel besser, wie Codex den Agent-Browser nutzte, um eigenständig zu debuggen.
00:08:35Beim autonomen Arbeiten war Codex besser, bei der Benutzererfahrung Claude Code.
00:08:36Wir wollten auch testen, wie beide mit dem init-Befehl umgehen.
00:08:41Das init von Claude Code läuft ab, ohne den Prompt inline zu erweitern.
00:08:42Es erstellt eine Claude.md mit etwa 90 Zeilen, die Architektur, Ablauf,
00:08:46Struktur und alle nötigen Befehle enthält.
00:08:49Viele dieser Infos sind redundant und helfen dem Agenten nicht wirklich weiter,
00:08:53Viele dieser Informationen sind redundant und nützen dem Agenten nicht wirklich, was
00:08:56der Grund ist, warum es nicht immer notwendig ist, alles davon zu behalten.
00:08:59Das Setup von Codex war raffinierter.
00:09:02hielt aber den Abschnitt zur Projektstruktur kurz statt ihn zu überladen.
00:09:08Keiner war perfekt, aber Codex hat die agents.md besser gelöst.
00:09:12Nun wollten wir wissen, wie beide beim Code-Review abschneiden.
00:09:15Wir gaben beiden denselben Prompt für ein Review der Zuverlässigkeit,
00:09:18wobei sie die Ergebnisse in separaten Dateien in derselben Codebasis dokumentieren sollten.
00:09:20Danach baten wir Claude in einer neuen Sitzung, einen Diff der Dateien zu erstellen.
00:09:24Claudes Review war viel detaillierter.
00:09:28Es ordnete Funde nach Priorität und enthielt Komponenten sowie die exakten Code-Schnipsel
00:09:32zu den Problemen.
00:09:35Der Bericht von Codex nannte Zeilennummern, verzichtete aber auf die Schnipsel.
00:09:40Beide Berichte waren gründlich; sie teilten viele Funde, aber jeder fand auch Dinge,
00:09:44die dem anderen entgingen.
00:09:48Claude Code meldete zudem Sicherheitsmängel wie einen geleakten API-Key.
00:09:51Die Aufgabe war ein Zuverlässigkeits-Review, also lagen diese Themen außerhalb des Fokus.
00:09:53Claude Code meldete jedes Problem, auf das er stieß, während Codex strikt beim Auftrag blieb.
00:09:57Der Bericht von Codex entsprach eher der Anfrage, während der von Claude breiter,
00:09:59aber weniger fokussiert war.
00:10:03Wenn man beide beim Bauen beschreibt, wirkt GPT 5.5 wie ein Backend-Entwickler,
00:10:07der primär die Funktionalität liefern will, während Opus 4.7 eher wie ein Fullstack-Entwickler
00:10:08wirkt, der Funktionalität und UX ausbalanciert.
00:10:12Beim Kontext-Management schnitt Codex viel besser ab als Claude Code.
00:10:17Claude Code bietet eine Kontext-Bearbeitung in der Sitzung an, die Tool-Aufrufe
00:10:21und Logikschritte entfernt, die für das Gespräch nicht mehr wichtig sind.
00:10:22Es bereinigt redundante Informationen, um ein Aufblähen der Sitzung zu verhindern.
00:10:27Die Komprimierung ist nicht perfekt, aber sie behält zumindest keine unnötigen Teile bei.
00:10:29Codex bearbeitet den Kontext nicht.
00:10:34Er komprimiert das gesamte Gespräch so, wie es stattgefunden hat.
00:10:40Was er jedoch besser macht, ist das Speichern der letzten 20.000 Token im Speicher,
00:10:45ohne diesen Teil zu komprimieren.
00:10:48Das verhindert einen Leistungsabfall nach der Komprimierung in Codex, sodass
00:10:53das Gespräch ab dem nächsten Prompt flüssig weiterlaufen kann.
00:10:55Wir haben die Leistung getestet, und Codex schnitt nach der Komprimierung besser ab als Claude Code.
00:10:58Obwohl Claude Code einen detaillierteren Prozess nutzt, sorgt der erhaltene Rest
00:11:02bei Codex in der Praxis für eine höhere Nützlichkeit des Agenten.
00:11:03Das Gedächtnis funktioniert bei beiden unterschiedlich.
00:11:05Das System von Claude Code ist über Sitzungen hinweg meist zustandslos, jede Sitzung
00:11:08beginnt also ohne den Kontext der vorherigen.
00:11:13Es gibt nun eine Memory-Funktion, die dauerhafte Vorlieben oder Anweisungen speichert.
00:11:14Wenn wir ihm sagen, dass er etwas auf eine bestimmte Weise vermeiden soll, merkt er sich das
00:11:18und wendet es später im selben Projekt wieder an.
00:11:21Wir haben die Leistung getestet, und Codex schnitt nach der Kompaktierung besser ab als Claude Code.
00:11:25Obwohl Claude Code einen detaillierteren, mehrstufigen Kompaktierungsprozess nutzt, sorgt der
00:11:30erhaltene Endteil bei Codex dafür, dass der Agent in der Praxis nützlicher bleibt.
00:11:33Die Speichernutzung unterscheidet sich bei beiden Modellen.
00:11:35Das System von Claude Code ist über Sitzungen hinweg weitgehend zustandslos, was bedeutet,
00:11:39dass jede Sitzung ohne Kontext aus der vorherigen beginnt.
00:11:41Es gibt nun eine Speicherfunktion, die dauerhafte Präferenzen oder Anweisungen speichern kann.
00:11:46Wenn wir ihm also sagen, dass es etwas auf eine bestimmte Weise vermeiden soll, speichert es das
00:11:50und wendet es später innerhalb desselben Projekts wieder an.
00:11:52Das ist hilfreich, wenn man wiederholt an einem einzelnen Projekt arbeitet.
00:11:54Aber der Speicher ist projektbezogen; beim Projektwechsel geht dieses gespeicherte Verhalten verloren.
00:11:58Codex wählt den entgegengesetzten Weg.
00:12:00Es konsolidiert Informationen aus mehreren Sitzungen über die Zeit und baut einen globalen Speicher
00:12:05über Interaktionen auf, um Muster über ein einzelnes Projekt hinaus zu behalten.
00:12:08Das kann die Konsistenz bei verschiedenen Aufgaben unterstützen.
00:12:11Kurz gesagt: Claude Code hält den Speicher stärker innerhalb eines Projekts begrenzt, während Codex
00:12:15einen sitzungs- und projektübergreifenden Ansatz verfolgt, was die jeweilige Anpassung
00:12:19über die Zeit verändert.
00:12:20Da Claude Code schon länger existiert und ständig zur Verbesserung der Entwicklererfahrung
00:12:24optimiert wird, hat es im Vergleich zu Codex mehr zu bieten.
00:12:27Claude Code besitzt ein Hook-System, mit dem wir eigene Skripte an bestimmten Punkten im
00:12:32Lebenszyklus des Agenten ausführen können, etwa vor oder nach einem Tool-Einsatz, um Dinge
00:12:36wie unsichere Befehle zu blockieren oder Formatierer auszuführen.
00:12:39Wir können auch Sub-Agenten in einem eigenen Arbeitsverzeichnis ausführen, damit ihre
00:12:43Leistung sich nicht gegenseitig beeinflusst.
00:12:44Wir können die Anstrengung der Modelle steuern und sogar Schlüsselwörter wie "Ultra-Think" nutzen,
00:12:48um die logische Schlussfolgerung bei einer spezifischen Aufgabe zu maximieren.
00:12:51Nichts davon hat derzeit eine Entsprechung in Codex.
00:12:54Das Ökosystem ist der andere klare Vorteil für Claude Code.
00:12:56Wir können Sitzungen über die Claude-Desktop-App starten und Aufgaben von der mobilen App delegieren.
00:13:01Mit Claude Code, der Desktop-App, Web-App und Browser-Erweiterungen ist die Reichweite viel
00:13:06größer als bei Codex, das hauptsächlich aus einer Web-App und einer erst kürzlich veröffentlichten
00:13:11Desktop-App besteht, die sich zum Testzeitpunkt noch nicht so ausgereift anfühlte.
00:13:14Sitzungen lassen sich bei Claude Code zudem leichter zwischen Umgebungen verschieben, was
00:13:18das Arbeiten über verschiedene Schnittstellen hinweg komfortabler macht.
00:13:20Auch Codex hat viele interessante Funktionen.
00:13:22In der Cloud gibt es ein Versuchs-Flag, das dieselbe Aufgabe n-mal ausführt.
00:13:26Es erstellt mehrere Implementierungen und wählt die beste aus.
00:13:29Claude Code kann Ähnliches tun, aber nur über Konfigurationen und Anweisungen, nicht
00:13:33als direktes Flag.
00:13:34Die andere Codex-exklusive Funktion, die es abhebt, ist die Integration mit den
00:13:38Bildmodellen von OpenAI.
00:13:39Es kann diese direkt im CLI nutzen, um Bilder für die Websites zu generieren, an denen es arbeitet.
00:13:44Claude verlässt sich bei Grafiken meist auf SVG-basierte Generierung, was qualitativ nicht
00:13:49konkurrenzfähig ist, da es noch über kein eigenes Bildmodell verfügt.
00:13:52Wenn wir eine UI bauen, die echte Bilder benötigt, ist Codex das einzige der beiden,
00:13:56das dies tut, ohne dass man es ihm explizit sagen muss.
00:13:58Übrigens: Wenn Ihnen unsere Inhalte gefallen, drücken Sie gerne den Hype-Button, da es uns hilft,
00:14:03mehr solcher Inhalte zu erstellen und mehr Menschen zu erreichen.
00:14:06Beide nutzen Sub-Agenten, auch wenn das Konzept zuerst von Claude eingeführt wurde.
00:14:10Da es bei Claude Code zuerst kam, ist die Integration dort reifer, da man dort schon viel länger
00:14:15agentenzentriert gearbeitet und sich auf das Coding-Erlebnis konzentriert hat als bei OpenAI.
00:14:19Es unterstützt Agenten, die über Remote-Sitzungen orchestriert werden können, während Codex
00:14:23hauptsächlich Multi-Agenten-Workflows innerhalb der Terminal-Umgebung unterstützt.
00:14:27Der größte Unterschied liegt darin, wie die Sub-Agenten jeweils aufgerufen werden.
00:14:29Claude Code kann Agenten ohne expliziten Aufruf starten, während Codex einen Agenten nur
00:14:35erstellt, wenn wir im Prompt explizit danach fragen.
00:14:37Wenn Codex Agenten startet, benennt es sie und übergibt ihnen auch einen passenden Prompt.
00:14:41In der Programmierleistung sind beide recht ähnlich, aber die Designentscheidungen dahinter variieren.
00:14:46Claude Codes Sub-Agenten nutzen eine explizite Allow-Liste; der Haupt-Agent legt also genau fest,
00:14:51auf welche Tools der Sub-Agent zugreifen darf, während Codex-Sub-Agenten standardmäßig
00:14:55den Tool-Zugriff vom Haupt-Agenten erben.
00:14:57Claude Code gibt zudem jedem Sub-Agenten ein komplett frisches Kontextfenster.
00:15:01Ein Sub-Agent hat keinen Zugriff auf den bisherigen Gesprächsverlauf und sieht nur den Prompt,
00:15:06den System-Prompt und globale Regeln, da Claude auf Kontext-Isolierung setzt.
00:15:10Das Codex CLI macht das Gegenteil.
00:15:12Es kopiert den gesamten Verlauf in die Sub-Agent-Sitzung, ergänzt um den Prompt des Haupt-Agenten.
00:15:17Codex-Agenten behalten mehr Kontext über das bereits Besprochene, was tatsächlich hilft,
00:15:22ihre Leistung zu steigern.
00:15:23In der Praxis hat die strikte Isolierung von Claude Code unseren Forschungs-Sub-Agenten geschadet.
00:15:27Als wir sie einsetzten, waren die Ergebnisse nicht gut genug, weil sie nur den unmittelbaren
00:15:30Prompt sahen und über keinerlei vorherigen Kontext verfügten.
00:15:33Codex-Agenten erhalten den gesamten Verlauf, können effektiver iterieren und schneiden besser
00:15:38bei Aufgaben ab, bei denen Kontinuität wichtig ist.
00:15:39Damit sind wir am Ende dieses Videos angelangt.
00:15:41Wenn Sie den Kanal unterstützen und uns helfen möchten, weiterhin Videos wie dieses zu machen,
00:15:45können Sie das über den Super Thanks Button unten tun.
00:15:48Wie immer vielen Dank fürs Zuschauen, und wir sehen uns im nächsten Video.