Claude Code + Codex = AI-GOTT

CChase AI
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Wir können Codex jetzt innerhalb von Claude Code nutzen.
00:00:03OpenAI hat es möglich gemacht.
00:00:04Der größte Konkurrent von Opus 4.6
00:00:08ist nun etwas, das man
00:00:09innerhalb des Anthropic-Ökosystems verwenden kann.
00:00:11Das sind großartige Neuigkeiten für alle Claude Code-Nutzer,
00:00:15besonders wenn Sie jemand sind, der mit den
00:00:18Nutzungsraten zu kämpfen hatte, denn ehrlich gesagt
00:00:20bietet Codex ein viel besseres Preis-Leistungs-Verhältnis
00:00:23in Bezug auf Dollar pro Credits oder Token.
00:00:26In diesem Video zeige ich Ihnen, wie man es einrichtet,
00:00:28und wir schauen uns an, was Codex eigentlich
00:00:31mit dem Claude Code-Gerüst darüber leisten kann.
00:00:33Und was noch wichtiger ist: Was können wir mit Claude Code
00:00:38mit Opus 4.6 und Codex zusammen erreichen?
00:00:40Wie können wir diese beiden Modelle gegeneinander ausspielen,
00:00:43um ein Ergebnis zu erzielen, das größer ist als die Summe ihrer Teile?
00:00:46Bevor wir mit der Installation beginnen, geben wir einen kurzen Überblick
00:00:48darüber, was das Claude Code-Plugin uns bringt,
00:00:50denn es gibt da ein paar Dinge.
00:00:51Die zwei wichtigsten Dinge sind meiner Meinung nach
00:00:54die Code-Reviews, richtig?
00:00:56Die Fähigkeit, es im Grunde einen Blick
00:00:58auf etwas werfen zu lassen, das Opus geschrieben hat.
00:00:59Und das geschieht in Etappen.
00:01:01Zuerst haben wir den Standard-Codex-Review,
00:01:03was einfach eine Art neutraler Review ist.
00:01:06Es schaut es sich an, es ist nur lesend.
00:01:08Der zweite ist der adversary Review, den ich liebe.
00:01:12Dabei sagt man Codex im Grunde:
00:01:13"Hey, schau dir an, was Opus gebaut hat
00:01:15oder was irgendein Coding-Agent gebaut hat,
00:01:17aber mit einem sehr kritischen Auge."
00:01:20Man geht quasi davon aus, dass sie es vermasselt haben,
00:01:22und findet heraus, was wir besser machen können.
00:01:25Das ist ein fantastischer Weg, um unsere Ergebnisse wirklich zu verbessern,
00:01:28denn eines der Probleme bei Opus
00:01:31und eigentlich bei vielen KI-Modellen im Allgemeinen ist,
00:01:33dass sie ihren eigenen Code oft schlecht bewerten können.
00:01:36Das ist etwas, worüber Anthropic
00:01:38letzte Woche in ihrem Engineering-Blog geschrieben hat.
00:01:40Sowas wie der adversary Review ist also perfekt, ich liebe das.
00:01:44Darüber hinaus können wir auch Codex Rescue nutzen,
00:01:46was es Codex ermöglicht, ganz allein etwas zu erstellen,
00:01:49genau wie man es mit Opus in Claude Code tun würde.
00:01:52Und dann gibt es noch ein paar Status-Dinge,
00:01:54wie zu sehen, an welcher Stelle eines Auftrags es sich befindet.
00:01:58Tauchen wir also ein und schauen uns die Installation an.
00:02:01Die Installation ist ziemlich einfach.
00:02:02Sie führen einfach diesen Befehl aus,
00:02:04um es zum Marketplace hinzuzufügen.
00:02:06Ich werde all diese Befehle unten in die Beschreibung setzen.
00:02:08Dann führen Sie diesen Plugin-Befehl aus, um es zu installieren:
00:02:11codex@openai-codex.
00:02:13Wie üblich wird gefragt, wo Sie es installieren möchten.
00:02:14Ich wähle den User-Scope.
00:02:16Dann müssen wir nur die Plugins neu laden,
00:02:17damit es läuft.
00:02:18Und schließlich wollen wir codex:setup ausführen.
00:02:21Falls Sie es nicht wussten, es gibt auch ein GitHub-Repo
00:02:24dafür, das alle Installationsbefehle enthält.
00:02:27Ich werde das ebenfalls in der Beschreibung verlinken.
00:02:29Die Nutzungsraten sind an Ihr ChatGPT-Konto gebunden,
00:02:32anscheinend sogar wenn Sie den kostenlosen Account nutzen.
00:02:34Verstehen Sie also, dass es von Ihrem
00:02:36Codex-Guthaben abgezogen wird.
00:02:37Es wird gefragt, ob Sie Codex installieren wollen – ja.
00:02:39Dazu loggen Sie sich ein, was Sie zum Browser weiterleitet,
00:02:42wo der Authentifizierungsprozess abläuft.
00:02:44Es gibt wirklich zwei offensichtliche Anwendungsfälle
00:02:47für dieses Codex-Tool innerhalb von Claude Code.
00:02:49Der erste betrifft den Umgang mit den Nutzungslimits
00:02:52innerhalb von Claude Code.
00:02:53Normalerweise, wenn Sie den Pro-Plan bei Anthropic haben
00:02:55oder das 5-fache Maximum, erreicht man diese Limits sehr schnell,
00:02:58besonders bei einigen CLI-Bugs,
00:03:00die wir in der letzten Woche gesehen haben.
00:03:02In diesem Fall möchten Sie vielleicht
00:03:03Opus 4.6 zum Planen und Codex zum Ausführen nutzen.
00:03:07Und das geht wieder ganz einfach.
00:03:09Sie führen einfach codex rescue aus.
00:03:11Und von dort aus geben Sie den Prompt ein.
00:03:14Sie können auch eine ganze Reihe von Dingen spezifizieren.
00:03:16Man sieht hier all die Flags,
00:03:18einschließlich des Effort-Levels und so weiter.
00:03:20Und denken Sie daran: Das Codex-Modell ist sehr solide.
00:03:24Und auch hier sind die Kosten nicht mal annähernd
00:03:26so hoch wie das, was Anthropic verlangt.
00:03:27Aber ich denke, der interessantere Anwendungsfall
00:03:28ist das, was ich vorhin erwähnt habe:
00:03:29der adversary Review.
00:03:30Stellen wir das also auf die Probe.
00:03:32Ich lasse es einen Blick auf meinen
00:03:33Twitter-Engagement/Research-Bot werfen.
00:03:37Das ist die Web-App, die ich mit Claude Code gebaut habe.
00:03:39Im Grunde scannt sie alle 30 bis 45 Minuten
00:03:43Tweets im Bereich KI.
00:03:45Sie hat einen Qualitätsfilter.
00:03:47Sie hat Scoring-Signale,
00:03:48die auf verschiedenen Parametern basieren.
00:03:50Sie ist mit Supabase verbunden,
00:03:51um sicherzustellen, dass Tweets nicht wiederholt werden.
00:03:53Sie hat ein Scoring-System und integriert Softmax-Picks.
00:03:56Alles wird an Telegram weitergeleitet.
00:03:58Ich habe auch KI-Funktionen eingebaut, die bei Antworten helfen.
00:04:00Es passiert also eine ganze Menge.
00:04:02Und obendrein
00:04:03trackt es auch alle meine Antworten,
00:04:06sodass wir eine Art Feedback-Schleife haben.
00:04:07Das ist also ein relativ – nicht super kompliziert,
00:04:10aber das ist keine einfache Landingpage, die wir hier betrachten.
00:04:13Wir werden sehen, was Codex zurückliefert,
00:04:16wenn wir einen adversary Review auf den Code machen, oder?
00:04:20Mal sehen, wie es abschneidet.
00:04:22Wir lassen die Interpretation ziemlich offen.
00:04:23Wir sagen Codex also:
00:04:24"Schau dir die Codebasis an und sag mir, was du denkst."
00:04:27Als Erstes teilt es uns mit:
00:04:28"Hey, wir schätzen die Größe des Reviews,
00:04:30um den besten Modus zu bestimmen."
00:04:32Dann fragt es:
00:04:33"Möchtest du es im Hintergrund laufen lassen
00:04:34oder willst du auf die Ergebnisse warten?"
00:04:35Wir warten einfach auf die Ergebnisse.
00:04:37Es sagt uns, der Review-Umfang umfasst die gesamte Codebasis
00:04:39plus neun Änderungen im Arbeitsverzeichnis, eine geänderte Datei,
00:04:42acht nicht verfolgte Dateien.
00:04:43Es weiß also, dass es da
00:04:44eine Menge gibt, das es sich ansehen muss.
00:04:46Während das läuft,
00:04:47reden wir darüber, wie der adversary Review eigentlich funktioniert.
00:04:49Wir haben gerade die ersten vier Teile gesehen, oder?
00:04:52Es hat die Argumente analysiert.
00:04:54Wir haben keine Flags übergeben,
00:04:55also nutzt es die Standardeinstellungen.
00:04:57Dann hat es die Review-Größe geschätzt,
00:04:59das Ziel aufgelöst und Kontext gesammelt.
00:05:01Das war all der Text über,
00:05:03"Hey, wir haben diese nicht verfolgten Änderungen
00:05:04und das wird eine Weile dauern."
00:05:05Nach diesen ersten vier Schritten
00:05:06wird es den adversarial Prompt erstellen,
00:05:09und es gibt sieben Angriffsflächen,
00:05:11auf die es besonderes Augenmerk legen wird.
00:05:13Das sind Authentifizierung, Datenverlust, Rollbacks,
00:05:17Race Conditions, degradierte Abhängigkeiten,
00:05:20Versionsabweichungen und Observability-Lücken, richtig?
00:05:23Also sieben Dinge, die eher unter der Oberfläche liegen,
00:05:26die uns wirklich schaden könnten,
00:05:27wenn wir das in die Produktion schieben
00:05:29und wir sie nicht im Griff haben.
00:05:30Von dort aus werden alle Informationen
00:05:31an den OpenAI-Server gesendet, damit Codex sie prüfen kann.
00:05:34Dann erhalten wir unsere strukturierte JSON-Ausgabe,
00:05:37und wir können erwarten, dass sie etwa so aussieht.
00:05:41Es wird uns den Schweregrad seiner Funde angeben,
00:05:43unterteilt in kritisch, hoch, mittel und niedrig,
00:05:46sowie Empfehlungen und nächste Schritte.
00:05:48Man muss also nur in Claude Code sitzen
00:05:51und auf die Antwort warten.
00:05:52Codex kam mit vier Problemen in unserer Codebasis zurück,
00:05:54und alle hatten einen hohen Schweregrad.
00:05:57Ich habe das nach Excalidraw kopiert,
00:05:58damit wir es einfacher durchgehen können.
00:06:00Für jedes Problem wird der Schweregrad angegeben,
00:06:02der Bereich, das eigentliche Problem, die Dateien
00:06:06sowie die tatsächlichen Codezeilen,
00:06:08die wir uns ansehen müssen.
00:06:09Und wichtig: Was ist die tatsächliche Auswirkung hier
00:06:12und wie sieht der Fix aus?
00:06:13Erstens sagt es, wir hätten ein Problem
00:06:15mit unserer Deduplizierungs-Logik.
00:06:16Zweitens war es die Art, wie wir mit Telegram-Polling umgehen.
00:06:19Drittens war unser Schema-Drift.
00:06:21Und schließlich unser eigentlicher Dashboard-Build.
00:06:24Das sind also tatsächlich relativ wichtige Dinge,
00:06:27und glücklicherweise sieht es nicht so aus,
00:06:29als wären die Fixes zu schwierig zu implementieren.
00:06:31Aber was mich interessiert, ist:
00:06:33Okay, das ist es, was Codex uns geliefert hat.
00:06:35Was würde Claude uns liefern, wenn wir nach einem ähnlichen
00:06:40adversary Review seiner eigenen Codebasis fragen würden?
00:06:43Weil ich denke, das wäre ziemlich aufschlussreich,
00:06:45sie im direkten Vergleich zu sehen,
00:06:46und was Codex wirklich anders macht als der andere.
00:06:48Denn vielleicht sind sie ja genau gleich,
00:06:50und das ganze Video wäre sinnlos gewesen.
00:06:52Ich lasse Opus jetzt denselben
00:06:55adversarial Code-Review durchführen.
00:06:56Ich habe Codex einen speziellen Prompt erstellen lassen.
00:06:59Im Grunde besagt dieser:
00:07:00"Hey, ich möchte, dass du die Implementierung
00:07:02und die Designentscheidungen hinterfragst."
00:07:04Hier sind einige Dinge, die du bewerten sollst.
00:07:05Und hier ist das gewünschte Ausgabeformat.
00:07:07Schauen wir also mal, was dabei herauskommt.
00:07:09Hier sind die Ergebnisse im Detail.
00:07:11Zunächst einmal hatten sie einen gemeinsamen Befund.
00:07:13Beide waren sich einig, dass das Telegram-Thema ein Problem ist.
00:07:17Das war das eine Problem, das beide gefunden haben
00:07:20und dass sie entweder als hoch oder kritisch eingestuft wurden.
00:07:23Codex sagte, es sei nur hoch,
00:07:24und Opus sagte, es sei kritisch.
00:07:26Opus selbst fand sieben weitere zusätzliche Probleme,
00:07:30die als hoch oder kritisch eingestuft wurden und die Codex nicht fand.
00:07:32Nun sagen wir nicht, dass nur aufgrund der Tatsache,
00:07:36dass es mehr Probleme gibt, Opus
00:07:37unbedingt besser war als Codex.
00:07:39Ich weise nur darauf hin, dass es sieben Dinge gefunden hat,
00:07:41die wir uns vielleicht ansehen sollten und die Codex nicht gefunden hat.
00:07:43Auf der anderen Seite haben wir dann natürlich
00:07:45drei Probleme bei Codex gefunden, die Opus übersehen hat.
00:07:48Was bedeutet das also,
00:07:49wenn wir uns das in der Gesamtheit ansehen?
00:07:50Bedeutet das, dass Opus besser ist als Codex,
00:07:51weil es mehr gefunden hat, oder dass Codex besser ist als Opus,
00:07:54weil es sich auf vier beschränkt hat
00:07:56und uns nicht auf einen seltsamen Pfad geführt hat?
00:07:58Ich denke, was man daraus zieht,
00:07:59ist irgendwie das, was auch immer man daraus ziehen möchte.
00:08:01Und das ist wahrscheinlich, dass es eine Art Wert hat,
00:08:04diese zwei Systeme zu haben.
00:08:05Schauen Sie es sich an, oder?
00:08:06Ein zweites Paar Augen, anstatt dass Opus ständig Opus bewertet.
00:08:09Die ganze Zeit.
00:08:10Ich denke, es gibt einen fundamentalen Fehler dabei,
00:08:13dasselbe KI-System die Planung,
00:08:16die Erstellung und die Bewertung machen zu lassen.
00:08:17Und wenn wir in der Lage sind, Codex sehr einfach einzubinden,
00:08:20besonders bei seinem Preis-Leistungs-Verhältnis,
00:08:22um auch nur solche Dinge zu tun,
00:08:24wie eine gegnerische Überprüfung,
00:08:25dann ist das wieder einer dieser großartigen KI-Codierungsvorteile,
00:08:28wo man sich fragt: Warum eigentlich nicht?
00:08:30Wenn du bereits für ChatGPT bezahlst,
00:08:34wenn du schon die 20 Dollar im Monat ausgibst,
00:08:35und ich jetzt das hier einbinden kann, damit Codex
00:08:37einfach mal über alles drüberschaut,
00:08:38was ist dann eigentlich noch der Nachteil dabei?
00:08:43Ich glaube zwar nicht, dass solche kurzen Tests
00:08:47uns definitive Antworten liefern wie:
00:08:48„Oh, Codex ist besser als Opus“.
00:08:50Und ich denke, diese ganze Diskussion
00:08:51geht irgendwie am eigentlichen Punkt vorbei.
00:08:52Dies ist einfach ein weiteres Werkzeug in unserem Kasten,
00:08:54das wir nun nutzen können.
00:08:55Ich finde das also großartig.
00:08:56Jetzt können wir auch bei der
00:08:58gegnerischen Prüfung viel spezifischer werden,
00:09:00denn unser Prompt war ziemlich offen formuliert,
00:09:03und er konnte auf viele Arten interpretiert werden,
00:09:06aber allein basierend auf den GitHub-Beispielen,
00:09:08kann man nun sehr genau festlegen,
00:09:09was Codex sich ansehen soll.
00:09:11Insgesamt ist das eine tolle Ergänzung
00:09:13für das Cloud Code-Ökosystem.
00:09:14Je mehr Tools, desto besser,
00:09:15besonders wenn man entweder A,
00:09:17sowieso schon für ChatGPT bezahlt,
00:09:19oder B, das Anthropic Pro-Abo nutzt.
00:09:22Falls man dann noch ChatGPT dazu nimmt,
00:09:23könnten 100 Dollar im Monat etwas viel sein,
00:09:25und 200 Dollar sind definitiv zu viel.
00:09:28Das hier bietet uns quasi diesen Mittelweg
00:09:30zwischen dem 20-Dollar- und dem 100-Dollar-Abo,
00:09:33weil Codex wirklich ein Preis-Leistungs-Knaller ist.
00:09:36Schaut es euch definitiv an, die Einrichtung ist superleicht.
00:09:39Lasst mich wissen, was ihr davon haltet,
00:09:41und wie immer, wir sehen uns!

Key Takeaway

Die Kombination von Claude Opus 4.6 zur Planung und OpenAI Codex zur Ausführung und kritischen Überprüfung minimiert durch unterschiedliche Modell-Perspektiven blinde Flecken in der Softwareentwicklung.

Highlights

Die Integration von OpenAI Codex in das Anthropic Claude Code-Ökosystem ermöglicht kosteneffiziente Code-Reviews und automatische Fehlerbehebungen.

Der Adversary Review prüft Code gezielt auf sieben Schwachstellen: Authentifizierung, Datenverlust, Rollbacks, Race Conditions, Abhängigkeiten, Versionierung und Observability.

Codex identifizierte in einem Test vier schwerwiegende Probleme in einer Bot-Codebasis, darunter Fehler in der Deduplizierungs-Logik und beim Telegram-Polling.

Ein Vergleich zeigt, dass Claude Opus 4.6 sieben zusätzliche Probleme fand, während Codex drei spezifische Fehler aufdeckte, die Opus übersah.

Die Installation erfolgt über den Marketplace-Befehl und das Plugin codex@openai-codex im User-Scope.

Die Nutzungskosten für das Plugin sind direkt an das vorhandene ChatGPT-Guthaben oder das Kontolimit gebunden.

Timeline

Vorteile der Codex-Integration in Claude Code

  • Codex bietet ein besseres Preis-Leistungs-Verhältnis pro Token im Vergleich zu nativen Anthropic-Modellen.
  • Zwei unterschiedliche Review-Modi ermöglichen entweder eine neutrale Analyse oder eine bewusst kritische Fehlersuche.
  • KI-Modelle bewerten von ihnen selbst generierten Code oft unzureichend, was externe Prüfinstanzen notwendig macht.

Die Nutzung von Codex innerhalb der Claude-Umgebung löst primär Probleme mit Nutzungslimits und hohen Kosten. Der neutrale Review dient der reinen Lesekontrolle, während der Adversary Review gezielt nach Fehlern in der Logik sucht. Anthropic selbst bestätigt in Engineering-Blogs, dass Modelle Schwierigkeiten haben, eigene Fehler objektiv zu erkennen.

Installation und technische Einrichtung

  • Der Installationsprozess erfordert die Befehle zur Marketplace-Erweiterung und die Installation des Plugins codex@openai-codex.
  • Die Authentifizierung erfolgt über eine Weiterleitung zum Browser und ist mit dem ChatGPT-Konto verknüpft.
  • Ein dediziertes GitHub-Repository stellt alle notwendigen Setup-Befehle und Dokumentationen bereit.

Die Einrichtung findet direkt in der Kommandozeile statt, wobei der User-Scope als Installationsort empfohlen wird. Nach der Installation der Plugin-Dateien aktiviert der Befehl codex:setup die Verbindung zum OpenAI-Server. Nutzer des kostenlosen ChatGPT-Accounts können das Tool ebenfalls verwenden, sofern Guthaben vorhanden ist.

Praxis-Szenarien und Fehlerbehebung

  • Die Funktion codex rescue erlaubt es dem Modell, eigenständig Code-Fixes basierend auf Prompts oder Flags durchzuführen.
  • Ein Test an einer komplexen Twitter-Bot-Applikation mit Supabase- und Telegram-Anbindung demonstriert die Analysetiefe.
  • Strukturierte JSON-Ausgaben liefern klare Informationen zu Schweregrad, betroffenen Codezeilen und konkreten Fix-Vorschlägen.

In Situationen mit erschöpften Anthropic-Quoten übernimmt Codex die Ausführung von Aufgaben, während Opus die strategische Planung behält. Der Adversary Review konzentriert sich auf unter der Oberfläche liegende Risiken wie Race Conditions oder Datenverlust. Im Praxistest lieferte das System vier kritische Befunde zu einer realen Codebasis inklusive der exakten Zeilenangaben.

Direktvergleich: Codex gegen Claude Opus 4.6

  • Beide Systeme identifizierten übereinstimmend kritische Mängel in der Telegram-Implementierung.
  • Die Nutzung beider Modelle reduziert das Risiko fundamentaler Fehler durch das Vier-Augen-Prinzip unterschiedlicher KI-Architekturen.
  • Codex dient als kostengünstiger Mittelweg zwischen den Standard-Abonnements für 20 Dollar und teuren Enterprise-Lösungen.

Ein direkter Vergleich der Review-Ergebnisse zeigt, dass kein Modell perfekt ist, da Opus zusätzliche Fehler fand, aber auch drei Punkte von Codex übersehen wurden. Die gezielte Steuerung des Review-Umfangs durch spezifische Prompts in den GitHub-Beispielen erhöht die Relevanz der Ergebnisse. Die Integration stellt somit eine strategische Erweiterung des Werkzeugkastens für Entwickler dar, die bereits im KI-Ökosystem investiert sind.

Community Posts

View all posts