Ich habe /grill-me aktualisiert und Claude Code gelöst

CChase AI
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Der Planungsmodus reicht nicht aus. Fähigkeiten wie Matt Pococks “Grill Me” oder noch größere Orchestrierungsebenen wie
00:00:06GSD oder Superpowers versuchen alle, dasselbe Problem zu lösen. Nimm diese vage Idee in deinem Kopf
00:00:11und verwandle sie in etwas, das Claude Code tatsächlich bauen kann. Aber egal, welchen Weg du
00:00:16einschlägst oder welche Fähigkeit du wählst, sie stoßen alle auf genau das gleiche Problem. Du verlässt dich auf ein einziges
00:00:21Modell, um nicht nur zu planen und zu bauen, sondern du verlässt dich auf ein einziges Modell, um seine eigene Arbeit zu bewerten.
00:00:26Wenn du also Claude fragst: “Hey, war das der optimale Weg nach vorne?”, was wird es sagen? Nun,
00:00:31es wird sagen, dass es großartig war, egal was du getan hast. Und das ist ein Problem, denn wenn du nicht
00:00:35aus einem technischen Hintergrund kommst, weißt du eigentlich nicht, ob das, was Claude geschrieben hat, wirklich Sinn ergibt.
00:00:41Aber in diesem Video zeige ich dir, wie du das beheben kannst. Wir bauen auf Matt Pococks
00:00:45Grill Me-Skill aufbauen und wir werden eine gegnerische Code-Überprüfung von Codex hinzufügen. Aber es ist ein
00:00:51Code-Überprüfung, die weit über das Codex-Plugin hinausgeht, das du bisher gesehen hast. Diese Code-Überprüfung ist
00:00:55iterativ. Claude Code und Codex werden in mehreren Runden miteinander kommunizieren,
00:01:00um dich an einen Punkt zu bringen, an dem beide führenden KI-Tools deinen Plan absegnen. Damit du wirklich
00:01:07zuversichtlich sein kannst, dass das, was Claude Code entwickelt hat, tatsächlich Sinn ergibt. Und mit dieser Fähigkeit wirst du in der Lage sein,
00:01:12jedes Projekt mit zwei Dingen zu beginnen. Erstens: ein Plan, den du tatsächlich verstehst. Und zweitens,
00:01:18ein Plan, den mehrere KI-Tools abgesegnet haben. Was du heute also bekommst, sind zwei Fähigkeiten von mir.
00:01:23Und beide Fähigkeiten basieren auf dem, was Matt Pocock uns hier in seinem GitHub-Repo zur Verfügung stellt.
00:01:28Er hat zwei Fähigkeiten: Grill Me und Grill with Docs. Die zwei Fähigkeiten, die ich dir geben werde, sind Grill Me Codex
00:01:35und Grill with Docs Codex. Was passiert also? Nun, Grill Me und Grill with Docs sind im Grunde ein
00:01:41Planungsmodus auf Steroiden. Genau wie GSD, genau wie Superpowers, geht es einen Schritt weiter. Die Fragen, die es stellt, sind
00:01:48tiefergehend. Es gibt dir einen besseren Einblick in das, was du eigentlich bauen willst, denn egal,
00:01:53ob du es zugeben willst oder nicht, wahrscheinlich kannst du nicht wirklich gut artikulieren, was du willst. Und wenn du
00:01:57Claude Code zu Beginn nicht sagen kannst, was du willst, wirst du eine Menge
00:02:01Annahmen auf KI-Seite haben, die am Ende zu einem mittelmäßigen Produkt führen. Deshalb geben dir Grill Me und Grill with
00:02:07Docs bessere Ergebnisse, indem sie in der Planungsphase tiefer graben, um sicherzustellen, dass ihr alle auf demselben
00:02:12Stand seid. Was meine Fähigkeiten dir geben, ist eine zweite Phase dazu, in der, nachdem du und Claude
00:02:19Codex auf demselben Stand seid, Codex kommt und sagt: “Hey, das ergibt Sinn. Das nicht, repariere
00:02:24dies, repariere das.” Und dann gehen Claude Code und Codex hin und her. Und ich denke, das ist wichtig, weil
00:02:28Dinge wie Grill Me, GSD und Superpowers diese Lücke hier identifiziert haben, diese Lücke zwischen dir
00:02:34und Claude Code, wo du eine Idee hast, du sie artikulieren kannst, wir werden hin und
00:02:38her gehen, wir werden auf denselben Stand kommen, oder? Grill Me, weißt du, GM ist perfekt dafür.
00:02:44Das Problem ist, selbst wenn du und Claude Codex auf demselben Stand seid, bedeutet das, dass wir automatisch
00:02:51auf dem Weg zu diesem optimalen Code sind, wo das ist, was tatsächlich gebaut werden sollte? Vielleicht, vielleicht
00:02:57nicht, wer kann das sagen? Du wahrscheinlich nicht, bist du ein erfahrener Softwareentwickler? Vielleicht bist du es,
00:03:03aber ich würde vermuten, dass die meisten Leute, die das hier sehen, nicht in diese Kategorie fallen.
00:03:08Und Dinge wie Matt Pococks Sache, so großartig sie ist, ich meine, es sind Fähigkeiten für echte Ingenieure.
00:03:13Bist du ein echter Ingenieur? Wahrscheinlich nicht. Vielleicht bist du es. Wenn nicht, wirst du in das Problem fallen,
00:03:19dass du nicht einmal bewerten kannst, was Claude Codex geschrieben hat? Selbst wenn ihr auf demselben Stand seid,
00:03:23könnte es Müll sein, es könnte fantastisch sein, wer weiß? Und das andere Problem ist, du kannst es nicht beurteilen,
00:03:28und Claude Codex kann das auch nicht, denn Claude Codex – und das ist etwas, das Anthropic selbst gesagt hat –
00:03:34ist sehr nett und spricht sehr gut über den Code, den es geschrieben hat, oder? Du bittest Claude Codex, zu beurteilen,
00:03:40was es geschrieben hat, es ist so: “Oh ja, super, Note A+.” Sind sie also in diesem Fall ein zuverlässiger Erzähler und ein zuverlässiger
00:03:46Bewerter? Nein, das sind sie nicht. Wenn du also nicht weißt, was vor sich geht, und wir nicht
00:03:50unbedingt Claude Codex vertrauen können, wo lässt uns das? Nun, wir haben diese Lücke hier, oder?
00:03:56Wir haben diese Lücke zwischen Claude Code und sogenanntem optimalen Code. Die offensichtliche Lösung ist also,
00:04:02lass uns eine dritte Partei hinzuziehen, eine neutrale dritte Partei, die sich unseren Plan ansieht. Hier kommt Codex ins Spiel.
00:04:09Und diese Codex-Überprüfung ist das, was ich zu Pococks Fähigkeiten hinzugefügt habe, und es ist das, was ich dir heute geben werde.
00:04:16Die erste Hälfte ist also genau dieselbe wie bei GrillMe. Fragen hin und her, wir erstellen diesen Plan
00:04:21gemeinsam, alles ist schön und ordentlich genau hier. Und sobald wir den Plan in Stein gemeißelt haben, nun,
00:04:27dann kommt Codex hinzu, sieht sich an, was Claude Codex entwickelt hat, und sagt:
00:04:32“Das sieht gut aus, das sieht schlecht aus, was denkst du?” Claude Code wird sich das ansehen und sagen:
00:04:36“Oh, das ergibt Sinn, lass uns das reparieren, hier ist, was ich getan habe, schau es dir nochmal an, Codex.” Und es wird
00:04:41einen Zyklus von, naja, es ist auf fünf Runden begrenzt, das kannst du leicht bearbeiten, aber es wird
00:04:48fünf Hin-und-Her-Runden geben, was ein wenig anders ist als das standardmäßige gegnerische
00:04:52Codex-Plugin, weil es iterativer ist. Und die Idee ist, wenn sie oft genug
00:04:57hin und her gehen, kommen wir irgendwann, hoffentlich schon vor fünf Runden, an einen Punkt, an dem beide sagen:
00:05:01“Hey, Daumen hoch, es ist bereit, mach weiter.” Das alles bedeutet nur, dass das, was ich dir heute gebe,
00:05:09dazu gedacht ist, diese Lücke hier zu schließen. Diese Lücke zwischen Claude Code und dem optimalen Code, die du
00:05:16und ich nur schwer identifizieren können, weil wir keine Experten-Softwareentwickler sind und Claude Code nicht
00:05:21immer vertraut werden kann, dies zu tun. Also, das behandeln wir. Und jetzt sind wir alle auf demselben Stand.
00:05:28Aber bevor wir in die Demo einsteigen, ein kurzes Wort von unserem heutigen Sponsor: mir. Wie ihr wisst,
00:05:33Chase AI Plus ist die Heimat meiner Claude-Code-Masterclass. Und es ist der Nummer-Eins-Weg,
00:05:37um vom Nullpunkt zum KI-Entwickler zu werden, besonders wenn du keinen technischen Hintergrund hast. Wir konzentrieren uns auf echte Anwendungsfälle.
00:05:42Und ich habe kürzlich auch die Claude-OS-Masterclass hinzugefügt. Wenn du also sagst: “Hey, ich möchte auch
00:05:49lernen, wie man Dinge wie Obsidian integriert und ein vollständiges Kontrollzentrum erstellt”, ist das der richtige Ort für
00:05:54dich. Du findest einen Link dazu im angepinnten Kommentar. Für die heutige Demo werden wir eine neue Seite
00:05:59zu unserer Website hinzufügen. Das ist also die Website für meine KI-Agentur. Und die neue Seite wird Leuten
00:06:05Zugang zu einigen exklusiven Fähigkeiten geben. Und um Zugang zu dieser Seite zu erhalten, müssen sie,
00:06:11wenn sie darauf klicken, ihre E-Mail-Adresse angeben. Es ist also irgendwie geschützt, wir erfassen ihre E-Mail, dann haben sie Zugriff auf die
00:06:16Dinge, die sie herunterladen können. Nun, die E-Mail muss dann von unserer Datenbank verarbeitet werden, die bereits existiert.
00:06:22Wir erstellen also nicht nur ein Feature aus dem Nichts, es muss einen Blick auf die Codebasis werfen, die
00:06:27bereits existiert, und sie kohärent machen. Das ist also der Prompt, den ich Claude Code gebe: run grill me codex.
00:06:32Ich möchte ein E-Mail-Erfassungs-Gate zur Website hinzufügen, das die Grill-Me-Codex-Claude-Code-Fähigkeit freischaltet.
00:06:38Wenn ein Besucher auf einer Seite landet, auf der der Skill-Download hinter einem Overlay verschwommen ist,
00:06:42geben sie ihre E-Mail ein, um sie freizuschalten, und ihre E-Mail wird gespeichert. Und dann habe ich ihm einige zusätzliche Kontextinformationen gegeben.
00:06:49Der erste Teil wird also die Grill-Me-Fähigkeit sein. Es ist genau derselbe Grill-Me-Teil wie
00:06:56Matt Pococks, der, auf dem wir sozusagen aufbauen. Dieser Teil ist also derselbe.
00:07:00Und sobald wir alle Fragen durchgegangen sind, kommt Codex hinzu. Nachdem ich mir also
00:07:03die Codebasis angesehen habe, stellt es mir nun die erste Frage und sagt: “Wie echt ist dieses Gate
00:07:07in Bezug auf die Unschärfe? Ist es eine kosmetische Sache oder wird es tatsächlich durchgesetzt?”
00:07:11Und genau wie bei Grill Me, wann immer es dir eine Frage stellt und dir einige potenzielle Antworten gibt,
00:07:16gibt es auch seine Empfehlung und das Warum. Also, in diesem Fall wird es nur kosmetisch sein.
00:07:21Es ist eine kostenlose Fähigkeit. Das Ziel hier ist nur, die E-Mail zu erfassen. Also sagen wir einfach:
00:07:25Kosmetisch ist in Ordnung. Die Datei ist sowieso kostenlos. Als nächstes fragt es danach, wo die Assets liegen
00:07:30und welches Format. Und wieder, für die Zwecke dieser Demo, wähle ich einfach die empfohlene
00:07:36Option. Und ich werde dir den Rest dieser Fragen nicht zeigen, weil dies nicht als
00:07:40Grill-Me-Video gedacht ist. Verstehe einfach, falls du es vorher noch nicht gesehen hast, dass dies der allgemeine Ablauf ist.
00:07:44Es stellt dir eine Reihe von Fragen, gibt dir potenzielle Antworten und eine Empfehlung.
00:07:48Sehr ähnlich wie der Planungsmodus, nur Planungsmodus auf Steroiden. Also kannst du hier sehen,
00:07:51wir sind am Ende 10 Fragen auf der Grill-Me-Seite durchgegangen und dann sind wir zum Codex-
00:07:56Teil übergegangen. Nun, der Codex-Teil wird zwei Markdown-Dateien für uns erstellen. Wir haben die plan.md
00:08:02und dann das plan review log. Also die plan.md ist die Quelle der Wahrheit für das, was wir erstellen werden.
00:08:10Das ist unser endgültiges Ergebnis. Das plan review log.md ist der Ort, wo
00:08:16Claude Code und Codex sich messen werden. Codex wird sich die ursprüngliche plan.md ansehen und
00:08:21sich die gesamte Sache ansehen, die Claude Code erstellt hat. Und im plan review log wird Codex
00:08:28sagen: “Hey, das ist Mist. Das nicht”, usw. Dies gibt uns auch ein Protokoll ihres Hin- und
00:08:33Her-Gehens durch alle Zyklen. Und am Ende dieses Hin- und Her-Gehens mit Codex und Claude Code
00:08:38werden wir eine aktualisierte plan.md haben. Die plan.md ist also das Endergebnis. Darauf wird alles
00:08:46aufgebaut. Das plan review log ist das Hin- und Her und der Ort, an dem die Wurst tatsächlich gemacht wird. Ein weiterer
00:08:52Hinweis während dieser gegnerischen Überprüfung ist, dass wir Codex zwar den Session-ID geben, obwohl es kopflos ist.
00:08:59Es ist also nicht so, dass es ein völlig unbeschriebenes Blatt auf Codex-Seite ist, bei Iteration eins gegenüber Iteration
00:09:05zwei gegenüber Iteration drei. Es hat immer eine Erinnerung an das gesamte Hin- und Her mit Claude Code. Wir
00:09:12können also hier in Runde eins sehen, dass Codex 11 Dinge gefunden hat, die es als Probleme betrachtete. Und wir können auch
00:09:18sehen, dass Claude Code die plan.md auf der Grundlage der Erkenntnisse aktualisiert hat, die es akzeptiert hat und die es
00:09:25als gültig erachtet hat. In Runde zwei hat es vier zusätzliche Erkenntnisse gefunden. Wir sind von 11 auf vier gekommen. Und wieder
00:09:31wurde der Plan aktualisiert. Und hier in Runde drei sehen wir, dass das Urteil nun genehmigt lautet. Es ist an diesem
00:09:35Punkt, dass Codex und Claude Code nun auf demselben Stand sind. Codex hat zwar noch ein paar Dinge markiert,
00:09:40aber das sind nur drei kleine Details. Also keine Blocker. Und das wird hier am Ende
00:09:45wiederholt, wo es sagt, es ist genehmigt, Runde drei von fünf, sagt uns, wie der endgültige Plan aussieht,
00:09:50was die zwei Akte uns gebracht haben und speziell in Bezug auf Akt zwei, das sind Runde eins und Runde
00:09:56zwei, in denen Codex und Claude Code sich messen. Weißt du, wir haben echte Sicherheits- und Korrektheitslöcher gefunden.
00:10:01Es gab einen ungebremsten Client-Skill-Slug, einen Case-insensitive Dedupe-Bypass, einen relativen E-Mail-Link,
00:10:06einen Raw-List-Bombing-Vektor und ein Ratenlimit für das Tabellen-Scannen. Und in der zweiten Runde hat es die falschen
00:10:12Korrekturen entdeckt. Also, Runde eins, Codex sagte: “Hey, hier sind die Probleme.” Claude Code versuchte, sie zu beheben. Und in der
00:10:18zweiten Iteration ist Codex so: “Das sind keine echten Korrekturen, oder?” Also bemerkte es, dass das Double-Opt-in
00:10:24behauptet wurde, aber nicht verdrahtet war, den Expressions-Index-Dedupe, den Superbase-JS nicht ansteuern kann,
00:10:30und das away vor der Antwort, das immer noch das Entsperren blockierte, wurde nach danach verschoben. Also nur drei Runden,
00:10:38aber das ist ein großer Zeitsparer im Vergleich dazu, den ersten Plan auszuführen, den Claude Code
00:10:44erstellt hatte, und dann den ganzen Fehlerbehebungsprozess durchzugehen. Am Ende bringt es auch einige offene
00:10:49Punkte auf, hauptsächlich wie die SQL-Migration und so weiter. Aber das ist auch Claude Code, der faul ist, weil es
00:10:54das selbst tun kann. Also zurück auf der Website oben haben wir die kostenlose Fähigkeit. Ich klicke darauf. Jetzt bittet es
00:10:58mich um meine E-Mail. Und cool. Jetzt habe ich hier die Fähigkeit, die ich in einer .zip-Datei herunterladen kann.
00:11:08Natürlich, was würde ich in der Realität tun wollen? Nun, ich würde wahrscheinlich wollen, dass der Text und
00:11:12alles andere tatsächlich zum Rest der Website passt, aber du kannst sehen, dass es das erstellt hat, was wir uns vorgenommen hatten.
00:11:18Der Punkt dieses Videos war nicht die spezifische Demo, sondern nur, dir diese Fähigkeit in Aktion zu zeigen. Was die
00:11:23Frage angeht, wie du diese Fähigkeiten selbst bekommst, ich werde sie unten im Kommentar anpinnen, um es dir einfach zu machen.
00:11:27Aber abgesehen davon, das ist eigentlich alles, was ich habe. Dinge, die du dafür wissen musst, sind natürlich,
00:11:31hey, wir nutzen Codex. Du wirst also ein OpenAI-Konto benötigen. Du musst Codex
00:11:35herunterladen, was relativ einfach ist. Und es gibt keinen Grund, warum du etwas über den
00:11:3920-Dollar-im-Monat-OpenAI-Plan hinaus benötigen würdest, um viel daraus zu bekommen. Dieses System, das wir erstellt haben, ist auch etwas,
00:11:45das du leicht gegen ein lokales Modell austauschen könntest. Wenn du also sagst: “Hey, ich möchte nicht
00:11:50OpenAI 20 Dollar im Monat zahlen. Ich würde lieber etwas wie DeepSeek oder was auch immer, jedes lokale oder günstigere Modell
00:11:55nutzen, das du hast, das ist wirklich einfach zu machen. Wie gesagt, die Grundlagen sind da. Ich würde einfach die Fähigkeit nehmen, die ich erstellt habe,
00:12:00in Claude Code bringen und sagen: “Hey, können wir Codex gegen – füge ein, welches Modell auch immer du versuchst zu nutzen – austauschen?”
00:12:07Es ist wirklich so einfach. Es ist sehr, sehr flexibel. Es gibt also vieles, was man mit ihm
00:12:12tun kann. Und ich denke, die Grundlagen davon machen für diejenigen von uns, die sich nicht als
00:12:16Experten-Programmierer betrachten, die schnell und effizient einen Blick darauf werfen können, was Claude Code getan hat, und sagen:
00:12:22“Das ergibt Sinn. Das nicht.” Es gehört einfach nicht zum Repertoire vieler Leute,
00:12:26und das muss es auch nicht. Offen gesagt haben wir Werkzeuge, die das für uns tun können. Also, wie immer,
00:12:32lass mich wissen, was du denkst. Stelle sicher, dass du dir Chase AI Plus ansiehst, wenn du deine Hände an
00:12:35die Claude-Code-Masterclass bekommen willst,
00:12:37und wir sehen uns.

Key Takeaway

Die Kombination von Claude Code mit einer iterativen, gegnerischen Validierung durch Codex verbessert die Softwareentwicklung durch eine automatisierte technische Prüfung, die über die Selbsteinschätzung einzelner KI-Modelle hinausgeht.

Highlights

  • Die alleinige Nutzung von Claude Code birgt das Risiko, dass das Modell seine eigene Arbeit unkritisch als optimal bewertet.

  • Die Integration einer iterativen, gegnerischen Code-Überprüfung durch Codex schließt die Lücke zwischen initialem Entwurf und technischer Korrektheit.

  • Der Prozess umfasst bis zu fünf Feedback-Runden zwischen Claude Code und Codex, um die Code-Qualität und Sicherheit zu verifizieren.

  • Sicherheitslücken wie ungeschützte Client-Skill-Slugs oder fehlerhafte Deduplizierungs-Logiken werden durch den iterativen Vergleich automatisch identifiziert.

  • Die Methode basiert auf dem 'Grill Me'-Konzept von Matt Pocock und erweitert dieses um eine dedizierte Validierungsphase für technische Projekte.

  • Das System bleibt flexibel und lässt sich von der Nutzung von OpenAI-Modellen auf günstigere oder lokale Alternativen umstellen.

Timeline

Das Problem der einseitigen KI-Bewertung

  • KI-gestützte Planungstools wie 'Grill Me' verlassen sich oft auf ein einzelnes Modell für Planung, Umsetzung und Bewertung.
  • Modelle wie Claude neigen dazu, ihre eigene Arbeit übermäßig positiv zu bewerten, was besonders für nicht-technische Nutzer ein Risiko darstellt.
  • Die Lücke zwischen einer vagen Nutzeridee und optimalem Code bleibt bestehen, wenn keine neutrale Instanz die Ergebnisse validiert.

Planungsmodi und spezialisierte Fähigkeiten bieten zwar bessere Einblicke als die Standardanwendung, leiden jedoch unter dem Fehlen eines objektiven Korrektivs. Wenn Nutzer keine fundierten Programmierkenntnisse besitzen, können sie die Qualität des generierten Codes nicht beurteilen. Da KI-Modelle bei direkter Nachfrage dazu tendieren, ihren eigenen Code mit 'A+' zu bewerten, ist eine externe Instanz notwendig.

Implementierung der gegnerischen Überprüfung

  • Codex agiert als neutrale dritte Partei, die den Plan von Claude Code iterativ prüft und korrigiert.
  • Der Prozess nutzt zwei Dateien: 'plan.md' als finale Quelle der Wahrheit und 'plan review log.md' für das gegnerische Feedback.
  • Die Interaktion ist auf maximal fünf Runden begrenzt, um den Code schrittweise zu optimieren und Fehler zu beseitigen.

Dieses System erweitert existierende Ansätze durch eine Phase, in der Claude Code und Codex in einen Dialog treten. Codex analysiert den Entwurf und identifiziert Schwachstellen, woraufhin Claude Code den Plan anpasst. Dieses Hin-und-Her dokumentiert den gesamten Prozess und stellt sicher, dass beide KI-Tools dem finalen Plan zustimmen, bevor die Umsetzung beginnt.

Anwendung und Ergebnisse der Validierung

  • In der Demo wurden Sicherheitslücken wie ungeschützte API-Vektoren und logische Fehler wie fehlerhafte Double-Opt-in-Verfahren durch Codex entdeckt.
  • Die automatisierte Validierung reduziert die Zeit für manuelle Fehlerbehebung erheblich.
  • Das System ist modellunabhängig und kann auf lokale oder kostengünstigere KI-Modelle übertragen werden.

Die praktische Demonstration zeigt die Fehlerkorrektur bei einer E-Mail-Erfassungsfunktion. Codex deckte in Runde eins elf Probleme und in Runde zwei weitere Unstimmigkeiten auf, die von Claude Code korrigiert wurden. Dies zeigt, dass selbst für Laien eine qualitativ hochwertige Softwareentwicklung möglich ist, wenn das System technisches Feedback automatisiert in den Entwicklungsprozess integriert.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video