/grill-meをアップデートしてClaude Codeの課題を解決した

CChase AI
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00プランモードだけでは不十分です。Matt Pocockの「Grill Me」のようなスキルや、さらに大規模な
00:00:06GSDやスーパーパワーのようなオーケストレーション層も、すべて同じ問題を解決しようとしています。頭の中の曖昧なアイデアを
00:00:11Claude Codeが実際に構築できるものに変えることです。しかし、どんな道を選ぼうとも、
00:00:16どんなスキルを選ぼうとも、すべて同じ問題に直面します。それは、単一の
00:00:21モデルに依存していることです。計画や構築だけでなく、その出来栄えの評価まで
00:00:26単一のモデルに任せているのです。だからClaudeに「ねえ、これが最適な進め方だった?」と聞いても、
00:00:31何をやっても「最高だったよ」と答えるでしょう。これが問題なんです。もしあなたが
00:00:35技術的な背景を持っていないなら、Claudeが書いたコードが本当に妥当かどうか判断できませんよね。
00:00:41しかし、この動画でその解決策をお見せします。Matt Pocockの
00:00:45「Grill Me」スキルをベースに、Codexによる対抗的なコードレビューを組み込みます。ただし、これは
00:00:51これまで見てきたCodexプラグインをはるかに超えるコードレビューです。このコードレビューは
00:00:55反復的です。Claude CodeとCodexが何度も対話を重ね、
00:01:00主要なAIツール双方があなたの計画に納得する地点まで持っていきます。だからこそ、
00:01:07Claude Codeの提案が本当に理にかなっていると確信を持てるのです。このスキルがあれば、
00:01:12あらゆるプロジェクトを2つの要素から始められます。1つは、あなたがちゃんと理解できる計画。そして2つ目は、
00:01:18複数のAIツールが承認した計画です。今日皆さんに提供するのは、私による2つのスキルです。
00:01:23どちらのスキルも、Matt PocockがGitHubリポジトリで提供してくれているものをベースにしています。
00:01:28彼には「Grill Me」と「Grill with Docs」という2つのスキルがあります。私が提供するのは「Grill Me Codex」
00:01:35と「Grill with Docs Codex」です。何が起きているのか?「Grill Me」と「Grill with Docs」は本質的に
00:01:41強化版プランモードです。GSDやスーパーパワーと同様、さらに一歩進んだものです。質問は
00:01:48より深く、構築したいものに対するより良い洞察を与えてくれます。なぜなら、認めようが認めまいが、
00:01:53あなたは自分の望みをうまく言語化できていない可能性が高いからです。もし最初から
00:01:57Claude Codeに対して自分の望みを明確に伝えられなければ、AI側で多くの
00:02:01思い込みが発生し、最終的に平凡な成果物しか得られません。だから「Grill Me」と「Grill with
00:02:07Docs」を使うと、計画段階でより深掘りできるため、双方の認識をしっかり合わせることができ、
00:02:12より良い結果を得られるのです。私のスキルが提供するのは、その後の第2フェーズです。Claudeと
00:02:19Codexの認識が合致した後、Codexが介入して「ここが納得できる、あそこを修正せよ」と
00:02:24指摘し、Claude CodeとCodexでやり取りを行うのです。これは重要です。なぜなら
00:02:28「Grill Me」やGSD、スーパーパワーは、まさにこのギャップ、つまりあなた
00:02:34とClaude Codeの間のギャップに注目したからです。アイデアがあり、それを言語化し、
00:02:38認識を合わせる。素晴らしいですよね。「Grill Me」は完璧です。
00:02:44問題は、ClaudeやCodexと意思疎通ができたとしても、それが自動的に
00:02:51「最適なコード」への道のりにあるのか、これを作るべきだと断言できるのか?そうかもしれませんし、
00:02:57そうではないかもしれません。誰が断言できるでしょうか?あなたはエキスパートエンジニアですか?そうかもしれないけれど、
00:03:03この動画を見ているほとんどの人はそうではないと推測します。
00:03:08Matt Pocockのものは素晴らしいですが、本物のエンジニアのためのスキルです。
00:03:13あなたは本物のエンジニアですか?おそらく違いますよね。違うなら、ClaudeとCodexが書いたコードを
00:03:19評価できないという問題に陥りませんか?認識が合致していても、
00:03:23ゴミかもしれないし、素晴らしいかもしれない。どちらなのか誰にもわからない。そしてもう一つの問題は、あなたも判断できないし、
00:03:28Claude Codexも判断できないということです。Anthropic自身も言っているように、
00:03:34Claude Codexは非常に物腰が柔らかく、自分が書いたコードを褒めすぎる傾向があるのです。Claude Codexに
00:03:40自分のコードを評価させると「最高だよ、A+だ!」という具合です。彼らは信頼できる語り手であり、
00:03:46信頼できる評価者でしょうか?いいえ、違います。状況が把握できず、
00:03:50Claude Codexを必ずしも信頼できないとなると、どこに立ち返ればいいのでしょうか?ここにギャップが生じますね。
00:03:56Claude Codeと「最適なコード」の間にギャップがあるのです。その明白な解決策は、
00:04:02第三者、中立な第三者を連れてきて計画を見てもらうことです。そこでCodexの登場です。
00:04:09このCodexによるレビューこそが、私がPocockのスキルに追加したものであり、今日提供するものです。
00:04:16前半は「GrillMe」とまったく同じです。質問を重ねて、皆で計画を
00:04:21作り上げていきます。すべてが整ったところで、
00:04:27Codexが介入して、Claude Codexが提案したものを見て、
00:04:32「ここが良い、ここが悪い、どう思う?」と問いかけます。Claude Codeはそれを見て「なるほど、
00:04:36修正しよう、こう直した、Codex、もう一度見てくれ」とやり取りします。これが
00:04:415ターンまで繰り返されます。上限は簡単に変更できますが、
00:04:485回のやり取りを行います。これは標準的な対抗的な
00:04:52Codexプラグインとは少し異なります。なぜなら、より反復的だからです。彼らが十分な回数
00:04:57やり取りを行えば、5ターン以内により早く、
00:05:01双方が「よし、これでいこう」と合意できる地点に到達できるでしょう。つまり、私が今日提供するものは
00:05:09このギャップを埋めるためのものです。Claude Codeと、
00:05:16私たちには判断が難しい最適なコードとの間のギャップです。Claude Codeを
00:05:21完全には信頼できませんからね。それが今回の内容です。さて、認識が合致しました。
00:05:28デモに入る前に、今日のスポンサーを紹介します。私です。ご存知の通り、
00:05:33「Chase AI Plus」は私のClaude Codeマスタークラスの拠点です。
00:05:37ゼロからAI開発者になるためのNo.1の方法です。特に技術的な背景がない方には最適です。リアルな
00:05:42ユースケースに焦点を当てています。最近、Claude OSのマスタークラスも追加しました。「Obsidianを統合して
00:05:49完全なコマンドセンターを作りたい」という方には最適です。
00:05:54固定されたコメント欄からリンクを見つけられます。では本日のデモですが、ウェブサイトに新しいページを追加します。
00:05:59これは私のAIエージェンシーのウェブサイトです。この新しいページでは、人々が
00:06:05特別なスキルにアクセスできるようにします。このページにアクセスすると、
00:06:11メールアドレスを入力する必要があります。ゲートを作って、メールを取得し、それから
00:06:16ダウンロードできるようにします。そのメールアドレスを既存のデータベースで処理する必要があります。
00:06:22ですから、ゼロから機能を作るのではなく、既存のコードベースと照らし合わせて
00:06:27整合性をとる必要があります。これがClaude Codeへのプロンプトです。「grill me codexを実行せよ」
00:06:32「サイトにメールキャプチャゲートを追加し、Grill Me Codex Claude Codeスキルをアンロックする。
00:06:38訪問者がスキルダウンロードがオーバーレイでぼかされているページに着地したら、
00:06:42メールを入力してアンロックし、メールが保存されるようにする」。追加のコンテキストも与えました。
00:06:49最初の部分は「Grill Me」スキルになります。Matt Pocockのものと
00:06:56まったく同じです。ベースにしているものと同じです。
00:07:00すべての質問を終えると、Codexが介入します。コードベースを見た後、
00:07:03最初の質問が来ました。「このゲートはどれくらいリアルにする必要があるか?
00:07:07ぼかしは単なる見せかけか、それとも実際に強制するものか?」
00:07:11「Grill Me」と同様、質問と回答の選択肢、
00:07:16そして推奨とその理由が提示されます。今回は見せかけでいいです。
00:07:21無料のスキルですから。目的はメールのキャプチャだけなので、
00:07:25「見た目だけで十分」と答えます。次もどこに
00:07:30アセットを置くか、どんな形式かという質問ですが、デモのために
00:07:36推奨オプションを選びます。残りの質問は省略します。
00:07:40「Grill Me」動画ではないですから。見たことがない方のために、これが
00:07:44全体の流れです。質問を重ね、回答と推奨を提示する。
00:07:48プランモードとよく似ていますが、強化版です。
00:07:51ここで「Grill Me」側で10個の質問を終え、Codex
00:07:56フェーズへ移行しました。CodexフェーズではMarkdownファイルが2つ作成されます。「plan.md」
00:08:02と「plan review log」です。「plan.md」は、私たちが作成するものの信頼できる情報源です。
00:08:10最終的な成果物です。「plan review log.md」は、
00:08:16Claude CodeとCodexがぶつかり合う場所です。Codexはオリジナルのplan.mdを
00:08:21見直し、Claude Codeが作成した全体的な内容を確認します。plan review logの中でCodexが
00:08:28「これはダメ、あれはダメ」と言います。ここには
00:08:33彼らのやり取りのログも残ります。CodexとClaude Codeの
00:08:38やり取りの最後に、更新されたplan.mdが手に入ります。plan.mdが最終成果物であり、
00:08:46これに基づいてすべてが構築されます。plan review logはやり取りの記録です。
00:08:52この対抗的レビューにおいて、ヘッドレスではありますが、CodexにセッションIDを与えています。
00:08:59つまり、Codexにとって最初のイテレーションと2回目、3回目の
00:09:05間に記憶が失われることはありません。常にやり取りのすべてを記憶しています。
00:09:12ラウンド1でCodexは11個の問題を見つけました。Claude Codeが
00:09:18受け入れた findings に基づいてplan.mdを更新したのがわかります。
00:09:25ラウンド2では、さらに4つの問題が見つかりました。11から4へ減りました。再び
00:09:31計画は更新されました。ラウンド3では「承認」という判定が出ました。
00:09:35ここでようやく認識が合致しました。Codexはまだいくつか指摘していますが、
00:09:40ごく軽微なものなので、進行の妨げにはなりません。
00:09:45全5ラウンド中3ラウンドで承認され、最終計画が完成しました。
00:09:50第2幕で得られたものは、CodexとClaude Codeの
00:09:56激しいやり取りの結果、セキュリティと正確性の欠陥を実際に発見できたことです。
00:10:01無制限のクライアントスキル、大文字小文字を区別しない重複排除のバイパス、相対パスのメールリンク、
00:10:06リスト爆撃ベクトル、テーブルスキャンのレート制限などです。2ラウンド目には、
00:10:12誤った修正も見抜きました。ラウンド1でCodexが指摘し、Claude Codeが修正を試みたものを、
00:10:18ラウンド2でCodexが「それは本当の修正ではない」と
00:10:24指摘したのです。二重オプトインが接続されていないこと、supabase JSがターゲットできない
00:10:30式インデックスなどです。たった3ラウンドでしたが、最初の計画を実行して
00:10:38トラブルシューティングを繰り返すよりずっと時間の節約になります。
00:10:44最後にいくつかのオープンアイテムも提示されますが、これはClaude Codeの
00:10:49怠け心でもあります。自分でできることです。
00:10:54さて、サイトに戻ります。無料スキルをクリックすると、メール入力が求められます。
00:10:58zipファイルをダウンロードできました。
00:11:08実際には、テキストやすべてをウェブサイトのデザインに合わせたいと思うでしょうが、
00:11:12私たちが目指したものを作成できたことがわかります。
00:11:18この動画の目的はデモ自体ではなく、このスキルの動作を示すことでした。
00:11:23このスキルの入手方法はコメント欄に書いておきます。
00:11:27他に知っておくべきことは、Codexを使っているという点です。
00:11:31OpenAIのアカウントが必要です。Codexのダウンロードは
00:11:35比較的簡単です。月額20ドルのプランがあれば十分です。
00:11:39このシステムは、何らかのローカルモデルに簡単に
00:11:45置き換えることも可能です。もしOpenAIに月20ドル払いたくないなら、
00:11:50DeepSeekやその他のローカル・安価なモデルを使ってください。
00:11:55骨組みは同じです。私が作成したスキルをClaude Codeに持ってきて、
00:12:00「Codexを別のモデルに置き換えて」と言えばいいのです。とても柔軟です。
00:12:07多くのことができます。
00:12:12専門的なコーダーではない私たちにとって、Claude Codeが行ったことを
00:12:16効率的に確認し「これは理にかなっている、これはダメだ」と判断するのは
00:12:22多くの人には馴染みのない作業かもしれませんが、
00:12:26そもそも自分でする必要はないのです。ツールがありますから。
00:12:32どう思ったか教えてください。Claude Codeマスタークラスを手にしたい方は
00:12:35Chase AI Plusをチェックしてください。
00:12:37ではまた。

Key Takeaway

Claude Codeの提案に対し、Codexを用いた反復的な対抗的レビューを組み込むことで、専門的な技術知識がなくても開発の正確性とセキュリティを自動的に検証できる。

Highlights

  • Claude Code単体での開発は、モデルが自ら作成したコードを過剰に評価する傾向があり、客観的な信頼性に欠ける。

  • 「Grill Me Codex」スキルは、Claude Codeが作成した計画に対し、Codexが対抗的なレビューを行うことで、認識のズレを解消する。

  • 反復的なレビュープロセスにより、最大5ターンの対話を通じて双方のAIが合意可能な計画に到達する。

  • 実際のテストケースにおいて、セキュリティと正確性の欠陥(無制限のクライアントスキル、相対パスのメールリンクなど)が開発段階で特定された。

  • レビュープロセスで作成されるplan.mdとplan review log.mdにより、最終成果物の信頼性が担保される。

Timeline

単一AIモデル依存の限界

  • Claude Code単体では計画から構築、評価までを同一モデルが行うため客観的な判断ができない。
  • AIは自己作成したコードを過剰に肯定する傾向があり、技術的背景がないユーザーは妥当性を判断できない。

多くのオーケストレーション層やプランモードは、ユーザーの曖昧なアイデアをコードに落とし込むが、評価まで同一モデルに依存している。そのため、Claudeに最適性を尋ねても常に肯定的な回答しか得られないという問題がある。

Codexによる反復的コードレビューの導入

  • Matt PocockのGrill Meスキルを拡張し、第三者としてCodexによるレビューを統合した。
  • Claude CodeとCodexの間で最大5ターンの対話を行い、計画の不備を反復的に修正する。

中立的な第三者としてCodexを介入させることで、計画のギャップを埋める。単純なレビューではなく、お互いの提案に対して修正を要求し合う対抗的なプロセスを通じて、確実な合意形成を目指す。

ウェブサイト実装の実践デモ

  • メールキャプチャゲートの追加タスクにおいて、3ラウンドのレビューで計画の承認に至った。
  • セキュリティと正確性の欠陥をレビュー過程で発見し、誤った修正案も見抜いた。

AIエージェンシーサイトにメール入力でスキルを解除する機能を追加する際、Codexは初期計画における11個の問題を特定した。反復的なやり取りを経て、セキュリティホールや重複排除の不備などが修正された。

システムの柔軟性と運用

  • レビューに使用するモデルはOpenAIのCodex以外にも、安価なローカルモデルへ容易に置き換え可能である。
  • 技術者ではないユーザーでも、自動的なレビュープロセスを活用することで精度の高い開発が可能になる。

本システムは、ユーザーがOpenAIへの月額費用を支払いたくない場合、DeepSeek等の安価なモデルで代替できる設計になっている。スキルの核となる反復的な確認プロセスを導入することが、コーディングの品質向上に直結する。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video