00:00:00これで Claude Code 内で Codex を
00:00:03利用できるようになりました。 OpenAI 製です。
00:00:04Opus 4.6 の最大の競合モデルが
00:00:08今では Anthropic のエコシステム内で
00:00:09使用できるようになったのです。
00:00:11これはすべての Claude Code ユーザー、
00:00:15特に利用制限に
00:00:18苦労してきた人にとっては朗報です。
00:00:20正直なところ Codex の方が、
00:00:23コストパフォーマンスが圧倒的に高いからです。
00:00:26この動画では そのセットアップ方法と、
00:00:28Claude Code の仕組みの上で Codex が
00:00:31実際に何ができるのかを解説します。
00:00:33さらに重要なのは、Claude Code を使って
00:00:38Opus 4.6 と Codex を併用する方法です。
00:00:40これら 2 つのモデルをどう組み合わせれば
00:00:43単体以上の成果を引き出せるのでしょうか?
00:00:46インストールの前に Claude Code プラグインが
00:00:48もたらす機能の概要を
00:00:50簡単におさらいしておきましょう。
00:00:51最も重要な機能は 2 つ、
00:00:54まずは「コードレビュー」です。
00:00:56Opus が書いたものを
00:00:58チェックさせることができます。
00:00:59これには段階があります。
00:01:011 つ目は標準的な Codex レビューで、
00:01:03いわば中立的な視点での
00:01:06読み取り専用のチェックです。
00:01:082 つ目は 私のお気に入り「敵対的レビュー」です。
00:01:12これは Codex に対して、
00:01:13「Opus や他のエージェントが作ったものを
00:01:15非常に厳しい目で見てくれ」
00:01:17と指示するものです。
00:01:20「相手が失敗したと仮定して、
00:01:22改善点を見つけ出せ」というわけです。
00:01:25これは出力を向上させる素晴らしい方法です。
00:01:28なぜなら Opus を含む
00:01:31多くの AI モデルが抱える問題として、
00:01:33自分の書いたコードの評価が苦手という点があります。
00:01:36これは Anthropic が先週公開した
00:01:38エンジニアリングブログでも触れられていました。
00:01:40ですから 敵対的レビューは最高なんです。
00:01:44他にも「Codex Rescue」という機能があり、
00:01:46Claude Code 内で Opus を使うのと同様に、
00:01:49Codex 単体で何かを作成させることもできます。
00:01:52あとは ステータス確認など、
00:01:54タスクの進行状況を把握する機能もあります。
00:01:58では さっそくインストールを見ていきましょう。
00:02:01インストールは非常に簡単です。
00:02:02まず マーケットプレイスに追加するために
00:02:04このコマンドを実行します。
00:02:06コマンドはすべて概要欄に記載しておきます。
00:02:08次に 実際にインストールするための
00:02:11プラグインコマンド codex@openai-codex を実行します。
00:02:13いつものように インストール先を聞かれるので、
00:02:14私はユーザー・スコアを選択します。
00:02:16あとは プラグインをリロードすれば
00:02:17準備完了です。
00:02:18最後に codex:setup を実行します。
00:02:21ちなみに GitHub リポジトリもあり、
00:02:24そこにもすべてのインストール手順が載っています。
00:02:27そちらも概要欄にリンクを貼っておきます。
00:02:29利用料金は ChatGPT アカウントに紐付いており、
00:02:32無料プランでも利用できるようです。
00:02:34つまり Codex の使用枠から
00:02:36消費されることを理解しておいてください。
00:02:37Codex をインストールするか聞かれるので「はい」を選びます。
00:02:39ログインするとブラウザが開き、
00:02:42認証プロセスが実行されます。
00:02:44Claude Code 内で Codex を使う上での
00:02:47主なユースケースは 2 つあります。
00:02:491 つ目は Claude Code の
00:02:52利用制限への対処です。
00:02:53通常 Anthropic のプロプランや 5倍プランでも、
00:02:55制限にすぐ達してしまうことがあります。
00:02:58特に先週発生していたような
00:03:00CLI のバグがある場合はなおさらです。
00:03:02その場合 Opus 4.6 で「計画」を立て、
00:03:03Codex で「実行」させるのが良いでしょう。
00:03:07やり方は非常にシンプルで、
00:03:09codex rescue を実行するだけです。
00:03:11そこから プロンプトを入力します。
00:03:14様々な指定も可能です。
00:03:16ここにあるフラグのように、
00:03:18エフォートレベル(注力度)なども設定できます。
00:03:20Codex は非常に堅実なモデルです。
00:03:24そして繰り返しになりますが 料金は
00:03:26Anthropic の設定額よりずっと安上がりです。
00:03:27しかし より興味深いユースケースは、
00:03:28先ほど話した
00:03:29「敵対的レビュー」の方です。
00:03:30実際にテストしてみましょう。
00:03:32私が作った「Twitter 婚約・調査ボット」を
00:03:33チェックさせてみます。
00:03:37これは Claude Code に作らせたウェブアプリです。
00:03:39基本的には AI 分野のツイートを
00:03:4330分から45分おきにスキャンします。
00:03:45品質フィルターや、
00:03:47多くのパラメータに基づいた
00:03:48スコアリング機能があります。
00:03:50Supabase と連携して
00:03:51ツイートの重複を防いでいます。
00:03:53スコアシステムがあり、Softmax や PIX も統合しています。
00:03:56すべて Telegram にプッシュされます。
00:03:58返信を補助する AI 機能も組み込んであります。
00:04:00かなりの処理が動いています。
00:04:02さらに その上、
00:04:03私のすべての返信も追跡しており、
00:04:06フィードバックループを回せるようにしています。
00:04:07超複雑というわけではありませんが、
00:04:10単なるランディングページよりは複雑な構成です。
00:04:13これに対して Codex が
00:04:16どんな敵対的レビューを返すか見てみましょう。
00:04:20楽しみですね。
00:04:22解釈の幅を広げるため、
00:04:23「コードベースを見て、
00:04:24意見を聞かせてくれ」とだけ伝えます。
00:04:27すると 最初に Codex は、
00:04:28「最適なモードを決定するために
00:04:30レビューの規模を見積もります」と言います。
00:04:32続いて「バックグラウンドで
00:04:33実行しますか? それとも
00:04:34結果を待ちますか?」と聞いてきます。
00:04:35ここではそのまま待ちます。
00:04:37全コードベースに加え 9つの変更、
00:04:391つの修正ファイル、8つの未追跡ファイルが
00:04:42レビュー対象だと表示されています。
00:04:43見るべき箇所が
00:04:44たくさんあることを認識していますね。
00:04:46実行を待っている間に、
00:04:47敵対的レビューの仕組みについて説明します。
00:04:49今 最初の 4つの工程を見ましたね。
00:04:52まず引数を解析しました。
00:04:54フラグは渡していないので
00:04:55デフォルト設定で動いています。
00:04:57次に規模を見積もり、
00:04:59ターゲットを特定してコンテキストを収集しました。
00:05:01「未追跡の変更があり、
00:05:03時間がかかります」という
00:05:04テキストが出ていた部分です。
00:05:05この 4ステップの後に、
00:05:06敵対的なプロンプトを構築します。
00:05:09そこでは 7つの攻撃面(脆弱な箇所)に
00:05:11重点を置いてチェックします。
00:05:13認証、データ損失、ロールバック、
00:05:17レースコンディション、依存関係の劣化、
00:05:20バージョンの不一致、観測性の欠如です。
00:05:23表面化しにくいけれど、
00:05:26把握せずに本番環境へ
00:05:27プッシュしてしまうと、
00:05:29大きな問題になりかねない 7項目です。
00:05:30それから全情報を OpenAI のサーバーに送り、
00:05:31Codex が内容を精査します。
00:05:34すると 構造化された JSON 形式で
00:05:37このような出力が返ってきます。
00:05:41検出された問題の深刻度が、
00:05:43致命的、高、中、低で示され、
00:05:46推奨される解決策や次のステップも提示されます。
00:05:48ユーザーは Claude Code 内で
00:05:51ただ結果を待つだけです。
00:05:52Codex は 4つの問題を指摘してきました。
00:05:54すべて深刻度は「高」でした。
00:05:57分かりやすいように
00:05:58Excalidraw に貼り付けて見ていきましょう。
00:06:00それぞれについて 深刻度、対象エリア、
00:06:02具体的な問題、ファイル名、
00:06:06さらには修正すべき
00:06:08該当行まで示してくれます。
00:06:09そして重要なのが 実際の影響と
00:06:12その修正方法です。
00:06:131つ目は 重複削除(de-dup)のロジックに
00:06:15問題があるとのこと。
00:06:162つ目は Telegram のポーリング処理について。
00:06:193つ目は スキーマの不整合(drift)。
00:06:21最後は ダッシュボードのビルドに関してでした。
00:06:24これらは 実際かなり重要な指摘であり、
00:06:27幸いなことに 修正自体は
00:06:29それほど難しくなさそうです。
00:06:31ここで気になるのは、
00:06:33「これが Codex の出した結果なら、
00:06:35Claude 自身に同じコードベースに対して
00:06:40敵対的レビューをさせたらどうなるか」です。
00:06:43両者を直接比較して、
00:06:45Codex の特異点を見極めるのは
00:06:46非常に啓発的だと思います。
00:06:48もし結果が全く同じなら、
00:06:50この動画自体の意味がなくなってしまいますからね。
00:06:52そこで今 Opus にも同様の
00:06:55敵対的コードレビューを実行させています。
00:06:56Codex に作らせた特定のプロンプトを使います。
00:06:59内容は「実装や設計の選択を
00:07:00徹底的に問い直してくれ」
00:07:02というようなものです。
00:07:04評価してほしい項目と、
00:07:05出力形式を指定しました。
00:07:07さて どんな結果になるでしょうか。
00:07:09結果を詳しく見てみましょう。
00:07:11まず 共通の指摘事項が 1つありました。
00:07:13両者とも Telegram の問題を指摘したのです。
00:07:17これが 両者が一致して見つけた、
00:07:20そして、その問題が「高」または「緊急」であると指摘しました。
00:07:23Codexは単に「高」レベルだと評価しましたが、
00:07:24Opusは「緊急」レベルだと評価しました。
00:07:26Opus自身は、さらに7つの追加の問題を
00:07:30「高」または「緊急」として発見しましたが、Codexは見逃していました。
00:07:32ここで言いたいのは、単に発見した問題が多いからといって、
00:07:36Opusが必ずしも
00:07:37Codexより優れているということではありません。
00:07:39ただ、Codexが見つけられなかった、検討すべき7つの項目を
00:07:41Opusが見つけ出したという点です。
00:07:43逆に、その反対の側面として、
00:07:45Codexが発見し、Opusが見逃した問題も3つありました。
00:07:48全体として見たとき、
00:07:49これらは何を意味するのでしょうか?
00:07:50発見数が多いからOpusの方が優れているのか、
00:07:51あるいは、4つに絞り込み、
00:07:54余計な方向に誘導しなかったCodexの方が優れているのか。
00:07:56それは考え方次第だと思います。
00:07:58ここから導き出せる結論は、
00:07:59人それぞれでしょうが、
00:08:01おそらく、これら2つのシステムを併用することに
00:08:04価値があるということです。
00:08:05「第2の目」を持つということですね。
00:08:06常にOpusにOpus自身を評価させるのではなく。
00:08:09同じAIシステムに
00:08:10計画、生成、評価のすべてを
00:08:13任せることには、根本的な欠陥があると感じています。
00:08:16もしCodexを簡単に導入できるのであれば、
00:08:17特にこの価格帯で、
00:08:20今回のような敵対的レビュー(アドバーサリアル・レビュー)を
00:08:22実行させるためだけに使うとしても、
00:08:24それはAIコーディングにおける
00:08:25非常に有効な手段の一つと言えるでしょう。
00:08:28「やらない手はない」という話です。
00:08:30すでにChatGPTにお金を払っているなら、
00:08:34月額20ドルを支払っているなら、
00:08:35これも取り入れて、Codexにあらゆるものを
00:08:37チェックさせてみるだけでいいのです。
00:08:38これに一体どんなデメリットがあるでしょうか?
00:08:43このような簡単なテストだけで、
00:08:47「Codexの方がOpusより優れている」といった
00:08:48決定的な答えが出るわけではありません。
00:08:50そもそも、そういった議論自体が
00:08:51本質を見失っているように思います。
00:08:52これは道具箱の中のツールの1つが増えたということであり、
00:08:54今やそれを使えるようになったのです。
00:08:55これは素晴らしいことです。
00:08:56今後は敵対的レビューについても、
00:08:58より具体的に指定できるようになるでしょう。
00:09:00今回のプロンプトはかなりオープンで漠然としていましたが、
00:09:03それでも多様な解釈をしてくれました。
00:09:06GitHubの例を見てもわかる通り、
00:09:08Codexに何をチェックしてほしいのか、
00:09:09かなり詳細に指定することが可能です。
00:09:11全体として、Cloud Codeのエコシステムにおいて
00:09:13素晴らしい機能追加だと思います。
00:09:14ツールは多ければ多いほど良いです。
00:09:15特に、すでにChatGPTを契約している人や、
00:09:17AnthropicのProプランを利用している人には最適です。
00:09:19ChatGPTにも並行して月額100ドル払うのは多いかもしれませんし、
00:09:22200ドルとなれば、確実に高すぎます。
00:09:23この機能は、20ドルのサブスクと
00:09:25100ドルのサブスクの中間地点を提供してくれます。
00:09:28Codexは本当に価値の高い選択肢だからです。
00:09:30セットアップも非常に簡単なので、ぜひチェックしてみてください。
00:09:33感想があれば教えてください。
00:09:36それでは、また次回の動画でお会いしましょう。
00:09:39ご視聴ありがとうございました。
00:09:41ではまた。