Claude Code + Codex = 最強のAI誕生

日本語العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 한국어 Русский 中文

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00これで Claude Code 内で Codex を

00:00:03利用できるようになりました。 OpenAI 製です。

00:00:04Opus 4.6 の最大の競合モデルが

00:00:08今では Anthropic のエコシステム内で

00:00:09使用できるようになったのです。

00:00:11これはすべての Claude Code ユーザー、

00:00:15特に利用制限に

00:00:18苦労してきた人にとっては朗報です。

00:00:20正直なところ Codex の方が、

00:00:23コストパフォーマンスが圧倒的に高いからです。

00:00:26この動画ではそのセットアップ方法と、

00:00:28Claude Code の仕組みの上で Codex が

00:00:31実際に何ができるのかを解説します。

00:00:33さらに重要なのは、Claude Code を使って

00:00:38Opus 4.6 と Codex を併用する方法です。

00:00:40これら 2 つのモデルをどう組み合わせれば

00:00:43単体以上の成果を引き出せるのでしょうか？

00:00:46インストールの前に Claude Code プラグインが

00:00:48もたらす機能の概要を

00:00:50簡単におさらいしておきましょう。

00:00:51最も重要な機能は 2 つ、

00:00:54まずは「コードレビュー」です。

00:00:56Opus が書いたものを

00:00:58チェックさせることができます。

00:00:59これには段階があります。

00:01:011 つ目は標準的な Codex レビューで、

00:01:03いわば中立的な視点での

00:01:06読み取り専用のチェックです。

00:01:082 つ目は私のお気に入り「敵対的レビュー」です。

00:01:12これは Codex に対して、

00:01:13「Opus や他のエージェントが作ったものを

00:01:15非常に厳しい目で見てくれ」

00:01:17と指示するものです。

00:01:20「相手が失敗したと仮定して、

00:01:22改善点を見つけ出せ」というわけです。

00:01:25これは出力を向上させる素晴らしい方法です。

00:01:28なぜなら Opus を含む

00:01:31多くの AI モデルが抱える問題として、

00:01:33自分の書いたコードの評価が苦手という点があります。

00:01:36これは Anthropic が先週公開した

00:01:38エンジニアリングブログでも触れられていました。

00:01:40ですから敵対的レビューは最高なんです。

00:01:44他にも「Codex Rescue」という機能があり、

00:01:46Claude Code 内で Opus を使うのと同様に、

00:01:49Codex 単体で何かを作成させることもできます。

00:01:52あとはステータス確認など、

00:01:54タスクの進行状況を把握する機能もあります。

00:01:58ではさっそくインストールを見ていきましょう。

00:02:01インストールは非常に簡単です。

00:02:02まずマーケットプレイスに追加するために

00:02:04このコマンドを実行します。

00:02:06コマンドはすべて概要欄に記載しておきます。

00:02:08次に実際にインストールするための

00:02:11プラグインコマンド codex@openai-codex を実行します。

00:02:13いつものようにインストール先を聞かれるので、

00:02:14私はユーザー・スコアを選択します。

00:02:16あとはプラグインをリロードすれば

00:02:17準備完了です。

00:02:18最後に codex:setup を実行します。

00:02:21ちなみに GitHub リポジトリもあり、

00:02:24そこにもすべてのインストール手順が載っています。

00:02:27そちらも概要欄にリンクを貼っておきます。

00:02:29利用料金は ChatGPT アカウントに紐付いており、

00:02:32無料プランでも利用できるようです。

00:02:34つまり Codex の使用枠から

00:02:36消費されることを理解しておいてください。

00:02:37Codex をインストールするか聞かれるので「はい」を選びます。

00:02:39ログインするとブラウザが開き、

00:02:42認証プロセスが実行されます。

00:02:44Claude Code 内で Codex を使う上での

00:02:47主なユースケースは 2 つあります。

00:02:491 つ目は Claude Code の

00:02:52利用制限への対処です。

00:02:53通常 Anthropic のプロプランや 5倍プランでも、

00:02:55制限にすぐ達してしまうことがあります。

00:02:58特に先週発生していたような

00:03:00CLI のバグがある場合はなおさらです。

00:03:02その場合 Opus 4.6 で「計画」を立て、

00:03:03Codex で「実行」させるのが良いでしょう。

00:03:07やり方は非常にシンプルで、

00:03:09codex rescue を実行するだけです。

00:03:11そこからプロンプトを入力します。

00:03:14様々な指定も可能です。

00:03:16ここにあるフラグのように、

00:03:18エフォートレベル（注力度）なども設定できます。

00:03:20Codex は非常に堅実なモデルです。

00:03:24そして繰り返しになりますが料金は

00:03:26Anthropic の設定額よりずっと安上がりです。

00:03:27しかしより興味深いユースケースは、

00:03:28先ほど話した

00:03:29「敵対的レビュー」の方です。

00:03:30実際にテストしてみましょう。

00:03:32私が作った「Twitter 婚約・調査ボット」を

00:03:33チェックさせてみます。

00:03:37これは Claude Code に作らせたウェブアプリです。

00:03:39基本的には AI 分野のツイートを

00:03:4330分から45分おきにスキャンします。

00:03:45品質フィルターや、

00:03:47多くのパラメータに基づいた

00:03:48スコアリング機能があります。

00:03:50Supabase と連携して

00:03:51ツイートの重複を防いでいます。

00:03:53スコアシステムがあり、Softmax や PIX も統合しています。

00:03:56すべて Telegram にプッシュされます。

00:03:58返信を補助する AI 機能も組み込んであります。

00:04:00かなりの処理が動いています。

00:04:02さらにその上、

00:04:03私のすべての返信も追跡しており、

00:04:06フィードバックループを回せるようにしています。

00:04:07超複雑というわけではありませんが、

00:04:10単なるランディングページよりは複雑な構成です。

00:04:13これに対して Codex が

00:04:16どんな敵対的レビューを返すか見てみましょう。

00:04:20楽しみですね。

00:04:22解釈の幅を広げるため、

00:04:23「コードベースを見て、

00:04:24意見を聞かせてくれ」とだけ伝えます。

00:04:27すると最初に Codex は、

00:04:28「最適なモードを決定するために

00:04:30レビューの規模を見積もります」と言います。

00:04:32続いて「バックグラウンドで

00:04:33実行しますか？それとも

00:04:34結果を待ちますか？」と聞いてきます。

00:04:35ここではそのまま待ちます。

00:04:37全コードベースに加え 9つの変更、

00:04:391つの修正ファイル、8つの未追跡ファイルが

00:04:42レビュー対象だと表示されています。

00:04:43見るべき箇所が

00:04:44たくさんあることを認識していますね。

00:04:46実行を待っている間に、

00:04:47敵対的レビューの仕組みについて説明します。

00:04:49今最初の 4つの工程を見ましたね。

00:04:52まず引数を解析しました。

00:04:54フラグは渡していないので

00:04:55デフォルト設定で動いています。

00:04:57次に規模を見積もり、

00:04:59ターゲットを特定してコンテキストを収集しました。

00:05:01「未追跡の変更があり、

00:05:03時間がかかります」という

00:05:04テキストが出ていた部分です。

00:05:05この 4ステップの後に、

00:05:06敵対的なプロンプトを構築します。

00:05:09そこでは 7つの攻撃面（脆弱な箇所）に

00:05:11重点を置いてチェックします。

00:05:13認証、データ損失、ロールバック、

00:05:17レースコンディション、依存関係の劣化、

00:05:20バージョンの不一致、観測性の欠如です。

00:05:23表面化しにくいけれど、

00:05:26把握せずに本番環境へ

00:05:27プッシュしてしまうと、

00:05:29大きな問題になりかねない 7項目です。

00:05:30それから全情報を OpenAI のサーバーに送り、

00:05:31Codex が内容を精査します。

00:05:34すると構造化された JSON 形式で

00:05:37このような出力が返ってきます。

00:05:41検出された問題の深刻度が、

00:05:43致命的、高、中、低で示され、

00:05:46推奨される解決策や次のステップも提示されます。

00:05:48ユーザーは Claude Code 内で

00:05:51ただ結果を待つだけです。

00:05:52Codex は 4つの問題を指摘してきました。

00:05:54すべて深刻度は「高」でした。

00:05:57分かりやすいように

00:05:58Excalidraw に貼り付けて見ていきましょう。

00:06:00それぞれについて深刻度、対象エリア、

00:06:02具体的な問題、ファイル名、

00:06:06さらには修正すべき

00:06:08該当行まで示してくれます。

00:06:09そして重要なのが実際の影響と

00:06:12その修正方法です。

00:06:131つ目は重複削除（de-dup）のロジックに

00:06:15問題があるとのこと。

00:06:162つ目は Telegram のポーリング処理について。

00:06:193つ目はスキーマの不整合（drift）。

00:06:21最後はダッシュボードのビルドに関してでした。

00:06:24これらは実際かなり重要な指摘であり、

00:06:27幸いなことに修正自体は

00:06:29それほど難しくなさそうです。

00:06:31ここで気になるのは、

00:06:33「これが Codex の出した結果なら、

00:06:35Claude 自身に同じコードベースに対して

00:06:40敵対的レビューをさせたらどうなるか」です。

00:06:43両者を直接比較して、

00:06:45Codex の特異点を見極めるのは

00:06:46非常に啓発的だと思います。

00:06:48もし結果が全く同じなら、

00:06:50この動画自体の意味がなくなってしまいますからね。

00:06:52そこで今 Opus にも同様の

00:06:55敵対的コードレビューを実行させています。

00:06:56Codex に作らせた特定のプロンプトを使います。

00:06:59内容は「実装や設計の選択を

00:07:00徹底的に問い直してくれ」

00:07:02というようなものです。

00:07:04評価してほしい項目と、

00:07:05出力形式を指定しました。

00:07:07さてどんな結果になるでしょうか。

00:07:09結果を詳しく見てみましょう。

00:07:11まず共通の指摘事項が 1つありました。

00:07:13両者とも Telegram の問題を指摘したのです。

00:07:17これが両者が一致して見つけた、

00:07:20そして、その問題が「高」または「緊急」であると指摘しました。

00:07:23Codexは単に「高」レベルだと評価しましたが、

00:07:24Opusは「緊急」レベルだと評価しました。

00:07:26Opus自身は、さらに7つの追加の問題を

00:07:30「高」または「緊急」として発見しましたが、Codexは見逃していました。

00:07:32ここで言いたいのは、単に発見した問題が多いからといって、

00:07:36Opusが必ずしも

00:07:37Codexより優れているということではありません。

00:07:39ただ、Codexが見つけられなかった、検討すべき7つの項目を

00:07:41Opusが見つけ出したという点です。

00:07:43逆に、その反対の側面として、

00:07:45Codexが発見し、Opusが見逃した問題も3つありました。

00:07:48全体として見たとき、

00:07:49これらは何を意味するのでしょうか？

00:07:50発見数が多いからOpusの方が優れているのか、

00:07:51あるいは、4つに絞り込み、

00:07:54余計な方向に誘導しなかったCodexの方が優れているのか。

00:07:56それは考え方次第だと思います。

00:07:58ここから導き出せる結論は、

00:07:59人それぞれでしょうが、

00:08:01おそらく、これら2つのシステムを併用することに

00:08:04価値があるということです。

00:08:05「第2の目」を持つということですね。

00:08:06常にOpusにOpus自身を評価させるのではなく。

00:08:09同じAIシステムに

00:08:10計画、生成、評価のすべてを

00:08:13任せることには、根本的な欠陥があると感じています。

00:08:16もしCodexを簡単に導入できるのであれば、

00:08:17特にこの価格帯で、

00:08:20今回のような敵対的レビュー（アドバーサリアル・レビュー）を

00:08:22実行させるためだけに使うとしても、

00:08:24それはAIコーディングにおける

00:08:25非常に有効な手段の一つと言えるでしょう。

00:08:28「やらない手はない」という話です。

00:08:30すでにChatGPTにお金を払っているなら、

00:08:34月額20ドルを支払っているなら、

00:08:35これも取り入れて、Codexにあらゆるものを

00:08:37チェックさせてみるだけでいいのです。

00:08:38これに一体どんなデメリットがあるでしょうか？

00:08:43このような簡単なテストだけで、

00:08:47「Codexの方がOpusより優れている」といった

00:08:48決定的な答えが出るわけではありません。

00:08:50そもそも、そういった議論自体が

00:08:51本質を見失っているように思います。

00:08:52これは道具箱の中のツールの1つが増えたということであり、

00:08:54今やそれを使えるようになったのです。

00:08:55これは素晴らしいことです。

00:08:56今後は敵対的レビューについても、

00:08:58より具体的に指定できるようになるでしょう。

00:09:00今回のプロンプトはかなりオープンで漠然としていましたが、

00:09:03それでも多様な解釈をしてくれました。

00:09:06GitHubの例を見てもわかる通り、

00:09:08Codexに何をチェックしてほしいのか、

00:09:09かなり詳細に指定することが可能です。

00:09:11全体として、Cloud Codeのエコシステムにおいて

00:09:13素晴らしい機能追加だと思います。

00:09:14ツールは多ければ多いほど良いです。

00:09:15特に、すでにChatGPTを契約している人や、

00:09:17AnthropicのProプランを利用している人には最適です。

00:09:19ChatGPTにも並行して月額100ドル払うのは多いかもしれませんし、

00:09:22200ドルとなれば、確実に高すぎます。

00:09:23この機能は、20ドルのサブスクと

00:09:25100ドルのサブスクの中間地点を提供してくれます。

00:09:28Codexは本当に価値の高い選択肢だからです。

00:09:30セットアップも非常に簡単なので、ぜひチェックしてみてください。

00:09:33感想があれば教えてください。

00:09:36それでは、また次回の動画でお会いしましょう。

00:09:39ご視聴ありがとうございました。

00:09:41ではまた。

Key Takeaway

Claude CodeにCodexを統合し、Opus 4.6と相互に「敵対的レビュー」を行わせることで、単一モデルでは見落とされる脆弱性を補完し、低コストでコードの品質と堅牢性を最大化できる。

Highlights

AnthropicのClaude Codeエコシステム内でOpenAIのCodexモデルが利用可能になり、Opus 4.6と併用できる。

Codexの「敵対的レビュー（Adversarial Review）」機能は、認証、データ損失、レースコンディションなど7つの脆弱な攻撃面に焦点を当ててコードを検証する。

Opus 4.6で開発計画を立て、よりコストパフォーマンスの高いCodexで実行（codex rescue）させることで、Anthropicの利用制限を回避できる。

同一の複雑なウェブアプリに対する検証で、Opusが見逃した3つの問題をCodexが発見し、逆にCodexが見逃した7つの問題をOpusが特定した。

Codexの診断結果は構造化されたJSON形式で出力され、致命的、高、中、低の4段階の深刻度と具体的な修正行が提示される。

ChatGPTの月額20ドルのサブスクリプションに含まれる枠内でCodexを利用できるため、追加コストを抑えた「第2の目」として機能する。

Timeline

Claude CodeにおけるCodex統合の利点と機能概要

Anthropicのエコシステム内で競合であるOpenAIのCodexが直接利用可能になった。
「敵対的レビュー」は他者が書いたコードに対して失敗を仮定し、極めて厳しい基準で改善点を探し出すモードである。
「Codex Rescue」機能により、Opusの利用制限に達した際でもCodex単体でコード生成を継続できる。

多くのAIモデルは自らが生成したコードの客観的な評価を苦手としており、外部モデルによる検証が精度の向上に直結する。特にCodexはコストパフォーマンスが高く、Opus 4.6の強力な補完ツールとして機能する。タスクの進行状況を把握するステータス確認機能なども備わっている。

Codexプラグインのインストールとセットアップ手順

特定のコマンド実行とcodex@openai-codexプラグインの導入により、ユーザー・スコアへのインストールが完了する。
利用料金は既存のChatGPTアカウントに紐付いており、無料プランの枠内でも利用できる。
セットアップの最終工程であるcodex:setupを実行すると、ブラウザ経由での認証プロセスが開始される。

インストールプロセスは簡略化されており、マーケットプレイスへの追加から認証まで数ステップで完了する。GitHubリポジトリには詳細な手順が公開されている。ChatGPTのサブスクリプションを利用しているユーザーは、既存のコスト内でこの高度な連携機能を利用できる。

利用制限の回避と敵対的レビューの実践

Opus 4.6で「計画」を策定し、Codexで「実行」を担うことでAnthropicのAPI制限を効率的に管理できる。
敵対的レビューは、引数の解析からコンテキスト収集を経て、7つの特定の攻撃面を重点的にチェックする。
検証結果は深刻度別に分類され、修正が必要なファイル名、該当行、具体的な修正方法が提示される。

Twitterの調査ボットという複雑な構成のアプリを用いて検証が行われた。Codexは、重複削除ロジック、Telegramのポーリング処理、スキーマの不整合、ダッシュボードのビルドという4つの「高」レベルの問題を特定した。手動では見落としがちな本番環境での致命的なトラブルを未然に防ぐ仕組みが構築されている。

Opus 4.6とCodexの性能比較と併用の結論

OpusとCodexを同じコードベースで比較した結果、両者が共通して指摘したのは1項目のみであった。
OpusはCodexが見逃した7つの問題を特定し、CodexはOpusが見逃した3つの問題を特定した。
同一システムに計画、生成、評価の全工程を任せることには根本的な欠陥がある。

発見した問題の数だけでモデルの優劣を決めるのではなく、異なる視点を持つ「第2の目」として両者を併用することに価値がある。Codexは詳細なチェック項目の指定が可能であり、道具箱のツールを増やす感覚で導入できる。月額20ドルの投資で、より高額なプランに匹敵する、あるいはそれ以上の堅牢な開発環境が手に入る。

Community Posts

個人開発者のための Claude Code と Codex 交差検証：決済事故のない SaaS デプロイシステム

makedreamhace 22 días6150

Write about this video