00:00:00Wir können Codex jetzt innerhalb von Claude Code nutzen.
00:00:03OpenAI hat es möglich gemacht.
00:00:04Der größte Konkurrent von Opus 4.6
00:00:08ist nun etwas, das man
00:00:09innerhalb des Anthropic-Ökosystems verwenden kann.
00:00:11Das sind großartige Neuigkeiten für alle Claude Code-Nutzer,
00:00:15besonders wenn Sie jemand sind, der mit den
00:00:18Nutzungsraten zu kämpfen hatte, denn ehrlich gesagt
00:00:20bietet Codex ein viel besseres Preis-Leistungs-Verhältnis
00:00:23in Bezug auf Dollar pro Credits oder Token.
00:00:26In diesem Video zeige ich Ihnen, wie man es einrichtet,
00:00:28und wir schauen uns an, was Codex eigentlich
00:00:31mit dem Claude Code-Gerüst darüber leisten kann.
00:00:33Und was noch wichtiger ist: Was können wir mit Claude Code
00:00:38mit Opus 4.6 und Codex zusammen erreichen?
00:00:40Wie können wir diese beiden Modelle gegeneinander ausspielen,
00:00:43um ein Ergebnis zu erzielen, das größer ist als die Summe ihrer Teile?
00:00:46Bevor wir mit der Installation beginnen, geben wir einen kurzen Überblick
00:00:48darüber, was das Claude Code-Plugin uns bringt,
00:00:50denn es gibt da ein paar Dinge.
00:00:51Die zwei wichtigsten Dinge sind meiner Meinung nach
00:00:54die Code-Reviews, richtig?
00:00:56Die Fähigkeit, es im Grunde einen Blick
00:00:58auf etwas werfen zu lassen, das Opus geschrieben hat.
00:00:59Und das geschieht in Etappen.
00:01:01Zuerst haben wir den Standard-Codex-Review,
00:01:03was einfach eine Art neutraler Review ist.
00:01:06Es schaut es sich an, es ist nur lesend.
00:01:08Der zweite ist der adversary Review, den ich liebe.
00:01:12Dabei sagt man Codex im Grunde:
00:01:13"Hey, schau dir an, was Opus gebaut hat
00:01:15oder was irgendein Coding-Agent gebaut hat,
00:01:17aber mit einem sehr kritischen Auge."
00:01:20Man geht quasi davon aus, dass sie es vermasselt haben,
00:01:22und findet heraus, was wir besser machen können.
00:01:25Das ist ein fantastischer Weg, um unsere Ergebnisse wirklich zu verbessern,
00:01:28denn eines der Probleme bei Opus
00:01:31und eigentlich bei vielen KI-Modellen im Allgemeinen ist,
00:01:33dass sie ihren eigenen Code oft schlecht bewerten können.
00:01:36Das ist etwas, worüber Anthropic
00:01:38letzte Woche in ihrem Engineering-Blog geschrieben hat.
00:01:40Sowas wie der adversary Review ist also perfekt, ich liebe das.
00:01:44Darüber hinaus können wir auch Codex Rescue nutzen,
00:01:46was es Codex ermöglicht, ganz allein etwas zu erstellen,
00:01:49genau wie man es mit Opus in Claude Code tun würde.
00:01:52Und dann gibt es noch ein paar Status-Dinge,
00:01:54wie zu sehen, an welcher Stelle eines Auftrags es sich befindet.
00:01:58Tauchen wir also ein und schauen uns die Installation an.
00:02:01Die Installation ist ziemlich einfach.
00:02:02Sie führen einfach diesen Befehl aus,
00:02:04um es zum Marketplace hinzuzufügen.
00:02:06Ich werde all diese Befehle unten in die Beschreibung setzen.
00:02:08Dann führen Sie diesen Plugin-Befehl aus, um es zu installieren:
00:02:11codex@openai-codex.
00:02:13Wie üblich wird gefragt, wo Sie es installieren möchten.
00:02:14Ich wähle den User-Scope.
00:02:16Dann müssen wir nur die Plugins neu laden,
00:02:17damit es läuft.
00:02:18Und schließlich wollen wir codex:setup ausführen.
00:02:21Falls Sie es nicht wussten, es gibt auch ein GitHub-Repo
00:02:24dafür, das alle Installationsbefehle enthält.
00:02:27Ich werde das ebenfalls in der Beschreibung verlinken.
00:02:29Die Nutzungsraten sind an Ihr ChatGPT-Konto gebunden,
00:02:32anscheinend sogar wenn Sie den kostenlosen Account nutzen.
00:02:34Verstehen Sie also, dass es von Ihrem
00:02:36Codex-Guthaben abgezogen wird.
00:02:37Es wird gefragt, ob Sie Codex installieren wollen – ja.
00:02:39Dazu loggen Sie sich ein, was Sie zum Browser weiterleitet,
00:02:42wo der Authentifizierungsprozess abläuft.
00:02:44Es gibt wirklich zwei offensichtliche Anwendungsfälle
00:02:47für dieses Codex-Tool innerhalb von Claude Code.
00:02:49Der erste betrifft den Umgang mit den Nutzungslimits
00:02:52innerhalb von Claude Code.
00:02:53Normalerweise, wenn Sie den Pro-Plan bei Anthropic haben
00:02:55oder das 5-fache Maximum, erreicht man diese Limits sehr schnell,
00:02:58besonders bei einigen CLI-Bugs,
00:03:00die wir in der letzten Woche gesehen haben.
00:03:02In diesem Fall möchten Sie vielleicht
00:03:03Opus 4.6 zum Planen und Codex zum Ausführen nutzen.
00:03:07Und das geht wieder ganz einfach.
00:03:09Sie führen einfach codex rescue aus.
00:03:11Und von dort aus geben Sie den Prompt ein.
00:03:14Sie können auch eine ganze Reihe von Dingen spezifizieren.
00:03:16Man sieht hier all die Flags,
00:03:18einschließlich des Effort-Levels und so weiter.
00:03:20Und denken Sie daran: Das Codex-Modell ist sehr solide.
00:03:24Und auch hier sind die Kosten nicht mal annähernd
00:03:26so hoch wie das, was Anthropic verlangt.
00:03:27Aber ich denke, der interessantere Anwendungsfall
00:03:28ist das, was ich vorhin erwähnt habe:
00:03:29der adversary Review.
00:03:30Stellen wir das also auf die Probe.
00:03:32Ich lasse es einen Blick auf meinen
00:03:33Twitter-Engagement/Research-Bot werfen.
00:03:37Das ist die Web-App, die ich mit Claude Code gebaut habe.
00:03:39Im Grunde scannt sie alle 30 bis 45 Minuten
00:03:43Tweets im Bereich KI.
00:03:45Sie hat einen Qualitätsfilter.
00:03:47Sie hat Scoring-Signale,
00:03:48die auf verschiedenen Parametern basieren.
00:03:50Sie ist mit Supabase verbunden,
00:03:51um sicherzustellen, dass Tweets nicht wiederholt werden.
00:03:53Sie hat ein Scoring-System und integriert Softmax-Picks.
00:03:56Alles wird an Telegram weitergeleitet.
00:03:58Ich habe auch KI-Funktionen eingebaut, die bei Antworten helfen.
00:04:00Es passiert also eine ganze Menge.
00:04:02Und obendrein
00:04:03trackt es auch alle meine Antworten,
00:04:06sodass wir eine Art Feedback-Schleife haben.
00:04:07Das ist also ein relativ – nicht super kompliziert,
00:04:10aber das ist keine einfache Landingpage, die wir hier betrachten.
00:04:13Wir werden sehen, was Codex zurückliefert,
00:04:16wenn wir einen adversary Review auf den Code machen, oder?
00:04:20Mal sehen, wie es abschneidet.
00:04:22Wir lassen die Interpretation ziemlich offen.
00:04:23Wir sagen Codex also:
00:04:24"Schau dir die Codebasis an und sag mir, was du denkst."
00:04:27Als Erstes teilt es uns mit:
00:04:28"Hey, wir schätzen die Größe des Reviews,
00:04:30um den besten Modus zu bestimmen."
00:04:32Dann fragt es:
00:04:33"Möchtest du es im Hintergrund laufen lassen
00:04:34oder willst du auf die Ergebnisse warten?"
00:04:35Wir warten einfach auf die Ergebnisse.
00:04:37Es sagt uns, der Review-Umfang umfasst die gesamte Codebasis
00:04:39plus neun Änderungen im Arbeitsverzeichnis, eine geänderte Datei,
00:04:42acht nicht verfolgte Dateien.
00:04:43Es weiß also, dass es da
00:04:44eine Menge gibt, das es sich ansehen muss.
00:04:46Während das läuft,
00:04:47reden wir darüber, wie der adversary Review eigentlich funktioniert.
00:04:49Wir haben gerade die ersten vier Teile gesehen, oder?
00:04:52Es hat die Argumente analysiert.
00:04:54Wir haben keine Flags übergeben,
00:04:55also nutzt es die Standardeinstellungen.
00:04:57Dann hat es die Review-Größe geschätzt,
00:04:59das Ziel aufgelöst und Kontext gesammelt.
00:05:01Das war all der Text über,
00:05:03"Hey, wir haben diese nicht verfolgten Änderungen
00:05:04und das wird eine Weile dauern."
00:05:05Nach diesen ersten vier Schritten
00:05:06wird es den adversarial Prompt erstellen,
00:05:09und es gibt sieben Angriffsflächen,
00:05:11auf die es besonderes Augenmerk legen wird.
00:05:13Das sind Authentifizierung, Datenverlust, Rollbacks,
00:05:17Race Conditions, degradierte Abhängigkeiten,
00:05:20Versionsabweichungen und Observability-Lücken, richtig?
00:05:23Also sieben Dinge, die eher unter der Oberfläche liegen,
00:05:26die uns wirklich schaden könnten,
00:05:27wenn wir das in die Produktion schieben
00:05:29und wir sie nicht im Griff haben.
00:05:30Von dort aus werden alle Informationen
00:05:31an den OpenAI-Server gesendet, damit Codex sie prüfen kann.
00:05:34Dann erhalten wir unsere strukturierte JSON-Ausgabe,
00:05:37und wir können erwarten, dass sie etwa so aussieht.
00:05:41Es wird uns den Schweregrad seiner Funde angeben,
00:05:43unterteilt in kritisch, hoch, mittel und niedrig,
00:05:46sowie Empfehlungen und nächste Schritte.
00:05:48Man muss also nur in Claude Code sitzen
00:05:51und auf die Antwort warten.
00:05:52Codex kam mit vier Problemen in unserer Codebasis zurück,
00:05:54und alle hatten einen hohen Schweregrad.
00:05:57Ich habe das nach Excalidraw kopiert,
00:05:58damit wir es einfacher durchgehen können.
00:06:00Für jedes Problem wird der Schweregrad angegeben,
00:06:02der Bereich, das eigentliche Problem, die Dateien
00:06:06sowie die tatsächlichen Codezeilen,
00:06:08die wir uns ansehen müssen.
00:06:09Und wichtig: Was ist die tatsächliche Auswirkung hier
00:06:12und wie sieht der Fix aus?
00:06:13Erstens sagt es, wir hätten ein Problem
00:06:15mit unserer Deduplizierungs-Logik.
00:06:16Zweitens war es die Art, wie wir mit Telegram-Polling umgehen.
00:06:19Drittens war unser Schema-Drift.
00:06:21Und schließlich unser eigentlicher Dashboard-Build.
00:06:24Das sind also tatsächlich relativ wichtige Dinge,
00:06:27und glücklicherweise sieht es nicht so aus,
00:06:29als wären die Fixes zu schwierig zu implementieren.
00:06:31Aber was mich interessiert, ist:
00:06:33Okay, das ist es, was Codex uns geliefert hat.
00:06:35Was würde Claude uns liefern, wenn wir nach einem ähnlichen
00:06:40adversary Review seiner eigenen Codebasis fragen würden?
00:06:43Weil ich denke, das wäre ziemlich aufschlussreich,
00:06:45sie im direkten Vergleich zu sehen,
00:06:46und was Codex wirklich anders macht als der andere.
00:06:48Denn vielleicht sind sie ja genau gleich,
00:06:50und das ganze Video wäre sinnlos gewesen.
00:06:52Ich lasse Opus jetzt denselben
00:06:55adversarial Code-Review durchführen.
00:06:56Ich habe Codex einen speziellen Prompt erstellen lassen.
00:06:59Im Grunde besagt dieser:
00:07:00"Hey, ich möchte, dass du die Implementierung
00:07:02und die Designentscheidungen hinterfragst."
00:07:04Hier sind einige Dinge, die du bewerten sollst.
00:07:05Und hier ist das gewünschte Ausgabeformat.
00:07:07Schauen wir also mal, was dabei herauskommt.
00:07:09Hier sind die Ergebnisse im Detail.
00:07:11Zunächst einmal hatten sie einen gemeinsamen Befund.
00:07:13Beide waren sich einig, dass das Telegram-Thema ein Problem ist.
00:07:17Das war das eine Problem, das beide gefunden haben
00:07:20und dass sie entweder als hoch oder kritisch eingestuft wurden.
00:07:23Codex sagte, es sei nur hoch,
00:07:24und Opus sagte, es sei kritisch.
00:07:26Opus selbst fand sieben weitere zusätzliche Probleme,
00:07:30die als hoch oder kritisch eingestuft wurden und die Codex nicht fand.
00:07:32Nun sagen wir nicht, dass nur aufgrund der Tatsache,
00:07:36dass es mehr Probleme gibt, Opus
00:07:37unbedingt besser war als Codex.
00:07:39Ich weise nur darauf hin, dass es sieben Dinge gefunden hat,
00:07:41die wir uns vielleicht ansehen sollten und die Codex nicht gefunden hat.
00:07:43Auf der anderen Seite haben wir dann natürlich
00:07:45drei Probleme bei Codex gefunden, die Opus übersehen hat.
00:07:48Was bedeutet das also,
00:07:49wenn wir uns das in der Gesamtheit ansehen?
00:07:50Bedeutet das, dass Opus besser ist als Codex,
00:07:51weil es mehr gefunden hat, oder dass Codex besser ist als Opus,
00:07:54weil es sich auf vier beschränkt hat
00:07:56und uns nicht auf einen seltsamen Pfad geführt hat?
00:07:58Ich denke, was man daraus zieht,
00:07:59ist irgendwie das, was auch immer man daraus ziehen möchte.
00:08:01Und das ist wahrscheinlich, dass es eine Art Wert hat,
00:08:04diese zwei Systeme zu haben.
00:08:05Schauen Sie es sich an, oder?
00:08:06Ein zweites Paar Augen, anstatt dass Opus ständig Opus bewertet.
00:08:09Die ganze Zeit.
00:08:10Ich denke, es gibt einen fundamentalen Fehler dabei,
00:08:13dasselbe KI-System die Planung,
00:08:16die Erstellung und die Bewertung machen zu lassen.
00:08:17Und wenn wir in der Lage sind, Codex sehr einfach einzubinden,
00:08:20besonders bei seinem Preis-Leistungs-Verhältnis,
00:08:22um auch nur solche Dinge zu tun,
00:08:24wie eine gegnerische Überprüfung,
00:08:25dann ist das wieder einer dieser großartigen KI-Codierungsvorteile,
00:08:28wo man sich fragt: Warum eigentlich nicht?
00:08:30Wenn du bereits für ChatGPT bezahlst,
00:08:34wenn du schon die 20 Dollar im Monat ausgibst,
00:08:35und ich jetzt das hier einbinden kann, damit Codex
00:08:37einfach mal über alles drüberschaut,
00:08:38was ist dann eigentlich noch der Nachteil dabei?
00:08:43Ich glaube zwar nicht, dass solche kurzen Tests
00:08:47uns definitive Antworten liefern wie:
00:08:48„Oh, Codex ist besser als Opus“.
00:08:50Und ich denke, diese ganze Diskussion
00:08:51geht irgendwie am eigentlichen Punkt vorbei.
00:08:52Dies ist einfach ein weiteres Werkzeug in unserem Kasten,
00:08:54das wir nun nutzen können.
00:08:55Ich finde das also großartig.
00:08:56Jetzt können wir auch bei der
00:08:58gegnerischen Prüfung viel spezifischer werden,
00:09:00denn unser Prompt war ziemlich offen formuliert,
00:09:03und er konnte auf viele Arten interpretiert werden,
00:09:06aber allein basierend auf den GitHub-Beispielen,
00:09:08kann man nun sehr genau festlegen,
00:09:09was Codex sich ansehen soll.
00:09:11Insgesamt ist das eine tolle Ergänzung
00:09:13für das Cloud Code-Ökosystem.
00:09:14Je mehr Tools, desto besser,
00:09:15besonders wenn man entweder A,
00:09:17sowieso schon für ChatGPT bezahlt,
00:09:19oder B, das Anthropic Pro-Abo nutzt.
00:09:22Falls man dann noch ChatGPT dazu nimmt,
00:09:23könnten 100 Dollar im Monat etwas viel sein,
00:09:25und 200 Dollar sind definitiv zu viel.
00:09:28Das hier bietet uns quasi diesen Mittelweg
00:09:30zwischen dem 20-Dollar- und dem 100-Dollar-Abo,
00:09:33weil Codex wirklich ein Preis-Leistungs-Knaller ist.
00:09:36Schaut es euch definitiv an, die Einrichtung ist superleicht.
00:09:39Lasst mich wissen, was ihr davon haltet,
00:09:41und wie immer, wir sehen uns!