DeepSeek V4 vs Claude Code vs Codexを徹底比較！

日本語العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 한국어 Português Русский 中文

Computing/SoftwareInternet Technology

Transcript

00:00:00過去24時間で、とてつもないアップデートが

00:00:02世界最大級のAIモデル2つにもたらされました。

00:00:04まず1つ目は、GPT 5.5のリリースです。

00:00:07このモデルは、あるベンチマークスコアにおいて

00:00:10ClaudeのMythosを上回る結果を誇っています。

00:00:122つ目は、DeepSeek V4のリリースです。

00:00:15これはオープンソース、オープンウェイトのモデルで、

00:00:18最前線にいる大手プレイヤーに匹敵するベンチマークを持っています。

00:00:22これほど新しいモデルが選択肢にある中で、

00:00:24私たち平均的なユーザーは何をすべきなのでしょうか？

00:00:27今日はその疑問にお答えします。

00:00:29Opus 4.7、GPT 5.5、

00:00:33そしてDeepSeek V4を比較して、

00:00:36どれが自分にとって本当に有益なのかを見極めます。

00:00:39この直接対決を始める前に、

00:00:41Codecs内のGPT 5.5、

00:00:45Open Code内のDeepSeek V4、

00:00:47そしてClaude Code内のOpus 4.7、

00:00:51まずはベンチマークをざっと見ていきましょう。

00:00:53特にこの24時間で公開された最新の2つのモデルは

00:00:54要チェックです。

00:00:56まずはコストの話から始めます。

00:00:58DeepSeek V4はご存知の通り、

00:01:00オープンソース、オープンウェイトモデルですが、

00:01:01だからといって自分のPCで動かせるわけではありません。

00:01:04なにしろ巨大ですから。

00:01:051兆6000億ものパラメータがあるんです。

00:01:08動かすには本格的なハードウェアが必要です。

00:01:10ですから結局、お金はかかります。

00:01:11依然としてAPIを使う必要があるわけですが、

00:01:13競合他社より圧倒的に安いです。

00:01:15約8倍も安いんですよ。

00:01:18そして3つのモデルのうち、

00:01:19真新しいGPT 5.5が実は最も高価です。

00:01:22これは少し驚きです。なぜなら全体として、

00:01:24OpenAIはAnthropicの競合製品より安かったからです。

00:01:28コスト面で見ると、

00:01:30出力100万トークンあたりの料金は、

00:01:32GPT 5.5が30ドルとなります。

00:01:35Anthropicは25ドルです。

00:01:38そしてDeepSeekは3.48ドルです。

00:01:41では入力トークンについて話すと、

00:01:44これは全体の小さな割合ですが、

00:01:46GPT 5.5とOpus 5.7は同額です。

00:01:49100万入力トークンあたり5ドルになります。

00:01:53DeepSeekの場合は約1.70ドルです。

00:01:57つまり、入力も出力もはるかに安いのです。

00:02:01ただし、5.5に関しては、

00:02:03これは5.4の2倍の価格です。

00:02:06しかしOpenAIは、その性能ゆえに、

00:02:10使用トークン数が大幅に減ると主張しています。

00:02:115.4の2倍の価格とはいえ、

00:02:14実際のトークン消費と実際のコストという点では、

00:02:17同じタスクをこなした場合、最終的には20%程度

00:02:20高くなるだけだということです。

00:02:21その点は念頭に置いておいてください。

00:02:24さて、コストについて話しました。

00:02:25次はベンチマークについてです。

00:02:26紙の上の性能はどれほど優れているのでしょうか？

00:02:27皆さんベンチマークには慣れっこだと思います。

00:02:31話半分に聞く必要がありますが、

00:02:32それでも見る価値はあります。

00:02:33特に、各プレイヤーが同じベンチマークで

00:02:36報告している数字を見るときはなおさらです。

00:02:39コーディングカテゴリーには3つ、

00:02:42すべてのプレイヤーが数字を報告したものがあります。

00:02:43SWE bench verified、SWE bench pro、

00:02:46そしてTerminal bench 2.0です。

00:02:48SWE bench verifiedとSWE bench proでは、

00:02:50Opusが勝者でした。

00:02:52Terminal bench 2.0では、GPTが87.2で圧勝しました。

00:02:56ちなみにこの数字は、

00:02:59AnthropicがMythosで報告した数字より高いです。

00:03:02あ、Mythosでしたね、失礼。

00:03:03驚くべきことですが、

00:03:05彼らがリリースできない超極秘モデルが、

00:03:07どうやらTerminal bench 2でGPT 5.5に負けているようです。

00:03:10Terminal bench 2.0はここでの最大の異常値です。

00:03:13Opus 4.7とV4 Proは大きく引き離されていますが、

00:03:16Opus 4.7とV4 Proを比較してみてください。

00:03:208倍の価格差がありながら、2ポイント以下の差しかありません。

00:03:23SWE bench verifiedとSWE bench proでも

00:03:24同じような状況が見て取れます。

00:03:26確かにOpusが勝ちます。

00:03:28しかし、2位と3位を比較すると

00:03:31（そしてV4は常に3位なのですが）、

00:03:33予想していたほどの大きな差はありません。

00:03:36SWE bench verifiedで85対86、5ポイントの差は

00:03:38決して小さくはありませんが。

00:03:41それでも8倍安くてオープンソース。

00:03:45最高性能が必要でないのなら、

00:03:46選ぶべき現実的な妥協点があるということです。

00:03:49もう一つ面白いのは

00:03:51ロングコンテキストで、Opus 4.7が驚くほど悪いことです。

00:03:55数字上、4.6よりかなり悪く、

00:03:58理解に苦しみます。

00:04:0050万から100万トークンという

00:04:01ロングコンテキストにおいて

00:04:03情報を取得しようとする場合、

00:04:064.7は正直ひどい出来です。

00:04:08DeepSeekやGPT 5.5よりはるかに劣ります。

00:04:12そもそも、なぜ50万から100万トークンの範囲に

00:04:14いる必要があるのかという議論はできます。

00:04:17実際にそこで作業している人がどれだけいるでしょうか。

00:04:20どのモデルを使おうが、その範囲では

00:04:22コンテキストの劣化（コンテキスト・ロット）が発生しますから。

00:04:24ですが興味深いのは、何らかの理由で

00:04:26Anthropicモデルにおいて回帰現象が見られることです。

00:04:27しかし全体像として、

00:04:295.5が非常に強力であることは間違いありません。

00:04:32一部の指標ではOpus 4.7を上回り、

00:04:33一部では負けていますが、

00:04:36非常に堅牢なモデルです。

00:04:37その上、V4 Proは、まあ、

00:04:39概ね後塵を拝してはいますが、

00:04:42無限に安いことを考えれば十分な射程範囲内です。

00:04:45これもまた、平均的なユーザーにとっては素晴らしい選択肢です。

00:04:48現在、オープンソース側で競争できるモデルの選択肢は

00:04:52多くないと感じていますから。

00:04:54では、これら3つのモデルで実際に直接対決を行いましょう。

00:04:56それぞれにハーネスを使用します。

00:04:595.5にはCodecs、

00:05:00Opus 4.7にはClaude Code、

00:05:02DeepSeek V4 ProにはOpen Codeを使います。

00:05:04最初のテストとして、

00:05:07ブラウザ上で動作するフライトシミュレーターを

00:05:103JSで作成させます。

00:05:11プロンプトはここにあります。

00:05:14気持ちよく飛べて、重みを感じられること、

00:05:17強力なビジュアルであること、

00:05:18そして適切だと思う構造やツールを使用すること。

00:05:20モデルが何をすべきか分かっているはずですし、

00:05:21同時にモデルごとの違いを見極める余地も十分あります。

00:05:25ワンショットでどれだけできるかだけでなく、

00:05:27複数の反復を経て追跡プロンプトを与えていきます。

00:05:30ワンショットの出来を見るのもクールですが、

00:05:33実生活での作業とは違いますよね。

00:05:34追跡プロンプトでどう反応し、

00:05:36どれだけ早く満足できるものに仕上げられるかを見たいのです。

00:05:38これら3つを比較する上で、4つの点に着目します。

00:05:40時間。構築にどれくらいかかるか。

00:05:44コスト。どれだけトークンを使うか。

00:05:46品質。どれだけ良い出来か。

00:05:49そして4つ目は「バイブス（雰囲気）」です。

00:05:52これは品質に繋がる主観的なものですが、

00:05:54どちらをより気に入るか。

00:05:55また、すべてのモデル、ハーネスは

00:05:57全く同じスキルを使用しています。

00:05:58まずはDeepSeekからです。

00:06:01どのような飛行モデルが良いか尋ねてきました。

00:06:02フルシミュレーションにします。

00:06:04地形には海と島を推奨してきました。それでいきます。

00:06:06カメラの設定を求めてきました。両方しましょう。

00:06:06一人称と三人称を切り替えられるか試します。

00:06:09推奨されたツール設定に従います。

00:06:11機体とビジュアルにはローポリゴンモデルを使います。

00:06:13Codecsに移ります。同様の質問ですが、

00:06:163つしか聞いてきません。

00:06:18どんな飛行を最適化するか。ハードシミュレーションにします。

00:06:20ブラウザで何が重要か。島の離着陸ループにします。

00:06:22みんな同じようなものですね。

00:06:23カメラと機体のプレゼンテーションは

00:06:25同様に切り替え式にします。

00:06:26Claude Codeは、感覚、海と島の入力で

00:06:27研究用シミュレーション学習を行います。

00:06:29入力はキーボードとマウスにしましょう。

00:06:32これで実行させます。

00:06:33プランニングに関しては、3つとも非常に似ています。

00:06:35物理設定や地形、カメラアングルなど、

00:06:38大きな違いはありません。

00:06:40どのようなプランが戻ってくるか見てみましょう。

00:06:42プランが出揃いました。

00:06:44では、違いを簡単に確認しましょう。

00:06:48まずはDeepSeekです。

00:06:50非常にシンプルな構成になっています。

00:06:52プロジェクト構造を提示し、

00:06:54飛行物理、環境、カメラ、HUDオーバーレイについて

00:06:56箇条書きですぐに説明を終えています。

00:06:58一方でCodecs内のGPT 5.5は、

00:07:02要約、主な変更点、実装詳細、テスト計画、

00:07:04そして前提条件まで全て明確にしています。

00:07:05そしてClaude Codeですが、

00:07:09時間が最もかかりました。約5分です。

00:07:11しかし最も丁寧です。コンテキストとスタック、

00:07:12レイアウト、飛行モデルについて。

00:07:13失速や失速ブザーといった

00:07:15具体的な瞬間についても触れています。

00:07:17細部まで作り込んでいますね。

00:07:19コントロール、世界観、モジュール、

00:07:20そして...

00:07:22...

00:07:24本当に数個の箇条書きだけなんです。

00:07:26...

00:07:29...

00:07:31...

00:07:33...

00:07:35...

00:07:37...

00:07:40...

00:07:43...

00:07:46そして前提条件ですね

00:07:47これらすべてを明確にしてくれます

00:07:49そしてClaude Codeの計画ですが、これが最も時間がかかりました

00:07:505分ほどかかりましたが、断然最も徹底しています

00:07:53コンテキストやスタックが含まれているからです

00:07:55レイアウトでは飛行モデルについて語られています

00:07:57実際の様々なモーメントについて詳細に触れています

00:08:00ストールやストールブザーなどについてです

00:08:02非常に、非常に詳細です

00:08:03コントロール、世界、MODについても言及しています

00:08:06実際に使用する航空機、パフォーマンスなど

00:08:08ただ延々と続いていきます

00:08:10非常に詳細ですね

00:08:11さて、3つすべてに計画を実行してもらいます

00:08:14最終的な結果がどうなるか見てみましょう

00:08:15GPT 5.5 in Codecsが最初に完了しました

00:08:19どんなものか見てみましょう

00:08:20これが提供されたフライトシミュレーターです

00:08:22空にはいくつかの雲があります

00:08:26上の方にはAOAインジケーターのようなものがあります

00:08:31下の方には速度計があります

00:08:34実際にこれを離陸させられるか

00:08:35見てみましょう

00:08:36滑走路のような場所がどこにもないことに注目してください

00:08:38ただ真っ直ぐな草地があるだけです

00:08:39島のようなものになるはずだったのですが

00:08:42カメラが少しスパイクした時に

00:08:45一瞬だけ下に滑走路が見えます

00:08:48よし、失速して、そのまま

00:08:50離陸すらできませんね

00:08:51これは正直、少し

00:08:54実際にかなり難しいです

00:08:55そこで私がやることは

00:09:00もう少し簡単に飛ばせるようにと

00:09:032回目のプロンプトを送ります。いろいろ詰め込みすぎているので

00:09:05これは厳しいです

00:09:06そこで「本当に操縦が難しい」と書きました

00:09:08もっと簡単に操作できるようにできますか？

00:09:10いわゆる少しアーケードっぽく

00:09:12それにグラフィックも改善が必要ですね

00:09:15ではどうなるか見てみましょう

00:09:16ちなみに、5.5が最初のパスを作成するのに約7分かかりました

00:09:21かかりました

00:09:23そして63,000トークンを消費しました

00:09:26よし、少し飛ばしやすくして

00:09:28グラフィックを更新したと言っています

00:09:292回目のパスがどんなものか見てみましょう

00:09:32手に入れたのはこれです

00:09:32グラフィックは間違いなく良くなっています

00:09:34しかし、今度は滑走路から

00:09:36離陸できるか確認しましょう

00:09:37さて、スロットルは100%

00:09:4150、60、70

00:09:43セスナの回転速度はどれくらいだ？

00:09:46よし、70、80、90

00:09:49これで離陸できるはずだ

00:09:51よし、違う

00:09:53行け、離陸してくれ、離陸してくれ

00:09:56いや、これじゃまた失速するだろう？

00:09:58ああ、失速だ

00:09:59よし、これはまだ修正が必要ですね

00:10:02ではCodexにもう一度チャンスを与えましょう

00:10:055.5にもう一度チャンスを

00:10:07実際にプレイできるようにしてもらいましょう

00:10:08飛行機を離陸させることすらできないと伝えました

00:10:10フライトに入れません

00:10:11離陸して実際に機体を操縦できるように

00:10:12簡単にする必要があります

00:10:14OK、離陸の問題を修正したそうです

00:10:16どうやら以前はブレーキがロックされていたようです

00:10:19それができなかった理由かは分かりませんが

00:10:21ああ、自動的に離陸状態にはしていませんでした

00:10:24フラップ、そう、これは

00:10:25スーパーシミュレーターモードのような状態でした

00:10:29しかし、これがフライトシミュレーターの3回目の試行です

00:10:32どうなるか見てみましょう

00:10:34離陸できるでしょうか？

00:10:36おっと、今回は滑走路で

00:10:37跳ね回っています

00:10:38よし、クール、離陸しました

00:10:41実際に動いています

00:10:44これらのリングの一つに乗れるか見てみましょう

00:10:45いや、グラフィックはそんなに悪くないですよ

00:10:4910分足らずで生成されたものにしては

00:10:52かなり正確なようです

00:10:56垂直方向の、何というか

00:10:59下の方に毎分のフィート数が表示されています

00:11:00実際の高度、ノット、方位、AGLも

00:11:04つまり、すべてを追跡する点で

00:11:06比較的洗練されています

00:11:08この正面の小さなインジケーター

00:11:10角度というか、迎角（AOA）

00:11:13インジケーターのように見えてカッコいいですね

00:11:14良いところがいくつかあります

00:11:18実際のコントロールは少しギクシャクしています

00:11:21見ての通り、まったく制御できません

00:11:23ですが概ね、悪くありません

00:11:25こうやって特攻を仕掛けて

00:11:27毎分18,000フィートで何が起こるか見てみましょう

00:11:31でもまあ、66,000トークンで

00:11:36やり取りを含めて10分から15分くらいかかったとして

00:11:40決して悪くないと思います

00:11:41ではDeepSeekを見てみましょう

00:11:42これを行うのに約10分かかりました

00:11:44トークンに関しては63,000で44セントです

00:11:46つまり44セント、10分です

00:11:51そしてこれがDeepSeekが提供したものです

00:11:53何を見ているのか

00:11:56まったく分かりません

00:12:00何を見ているのか

00:12:03これは三人称視点のつもりでしょうか

00:12:06これはコックピットのつもりでしょうか

00:12:07そして明らかにDeepSeekの最初のパスは

00:12:11もう一つの大惨事でした

00:12:13そこでDeepSeekにシミュレーターがめちゃくちゃだと伝えました

00:12:16グラフィックが完全にバグっていて

00:12:17何も操縦できない

00:12:20修正してくれ

00:12:21そしてこれが2回目のパスです

00:12:24何が何だか

00:12:26全く分かりません

00:12:28DeepSeekは何を考えているんだ

00:12:30おっと、飛行機がある

00:12:32ああ、何かが

00:12:33ええ、これは、これはひどいですね

00:12:38正直なところ、もう一度プロンプトを与えて

00:12:42これをさせようとしても、何を目指しているのか

00:12:44非常に具体的に説明する必要があるでしょう

00:12:47Codexで行ったことには到底及びません

00:12:49Codexではかなり平凡なプロンプトでも

00:12:51最初のパスで少なくとも近いものは得られました

00:12:53今回は明らかにグラフィックで完全に苦戦しています

00:12:54どう表現していいか分かりません

00:12:57ですが、とにかく超安かったです

00:12:58ではClaude Codeが

00:13:01参考として何を提供できたか見てみましょう

00:13:03計画を実行するのに13分かかりました

00:13:07計画自体に5分かかりました

00:13:09最初のパスを出すのに合計20分としましょう

00:13:12そして合計トークンについては

00:13:13この実行で15%プラス計画前の5%でした

00:13:17失礼、つまり

00:13:1911%のコンテキストと前回の5%です

00:13:22つまりClaude Codeは20分、150,000トークンですね

00:13:24間違いなく最も高価で

00:13:28最も低速でした

00:13:33そしてこれがClaude Codeの挑戦です

00:13:34理由は分かりませんが、すぐに空中にいます

00:13:36失速しています

00:13:39IFR状態です

00:13:43何が起きているのか分かりません

00:13:44何かに突っ込もうとしています

00:13:45これを救えるか？

00:13:48ダイブから引き起こせるか？

00:13:50いや、失速して、いや、死んだ

00:13:51OK、興味深いですね

00:13:53またしても、いきなり空中に放り出されます

00:13:54雲の中にいます

00:13:56失速しています

00:14:00一体何が起きているんだ

00:14:022回目のパスが必要です

00:14:03そこで「ロードするとすぐに空中に投げ出される」と書きました

00:14:05操縦が難しい

00:14:08滑走路から始めて、飛ばしやすくしてほしい

00:14:11あ、ついでにグラフィックも改善してね

00:14:124分ほどかかりましたが、いくつか変更されました

00:14:15滑走路に出ます

00:14:17ギアを変えました

00:14:20三輪着陸装置になりました

00:14:22どんなものか見てみましょう

00:14:23さて、これがそうです

00:14:24またしても、霧の中に放り出されました

00:14:26機体を制御しようとしていますが

00:14:27まったく制御できません

00:14:29OK、Claude Codeにもう一度

00:14:31チャンスをあげましょう

00:14:33また空中に放り出されると言いました

00:14:34もっとアーケードタイプに近い操作感にしましょう

00:14:37最初からそうすべきだったかもしれませんね

00:14:393つとも最初のプロンプトで

00:14:40よりリアルなシミュレータータイプを目指すと

00:14:42ユーザーフレンドリーなものにするのは本当に難しい

00:14:43内部的にはうまくやっていると思います

00:14:44迎角とかね

00:14:46よし、この速度と角度なら失速するぞ、みたいな

00:14:50でもコンピュータから実際に操作するのは

00:14:53基本的に不可能ですね

00:14:57霧の描写は本当に変ですけどね

00:14:59さて、2回目のプロンプトで

00:15:01少しは良くなったでしょうか

00:15:02今のところGPT 5.5の方がずっと上手でした

00:15:04Claude Codeはいくつか変更を加え

00:15:07よりユーザーフレンドリーにしてくれました

00:15:09まだ計器飛行証明を目指しているのか

00:15:12見てみましょう

00:15:15よし、まだ行ける

00:15:16まだ計器飛行証明を目指しています

00:15:20何とか見えます

00:15:22計器パネルを確認できます

00:15:23よし、滑走路から離れます

00:15:24今回は計器飛行証明（計器飛行の資格）を目指していきます。

00:15:26よし、まだ続けています。

00:15:28計器飛行証明の取得に挑戦中です。

00:15:30今はまだ滑走路にいますが、なんとか見えていますね。

00:15:33計器パネルをチェックして。

00:15:35よし、滑走路を離陸します。

00:15:37はい、オーケー。

00:15:42えっ、なんで滑走路に木があるの？

00:15:44上昇しようとしているのに。

00:15:46上昇できるか？

00:15:47機首を上げられる？

00:15:49「Canvasをクリックしてマウスをロック」って、何だよ？

00:15:53おっ、空に出た。

00:15:54いや、ダメだ、墜落した。

00:15:57というわけで、これはもう明らかですね。

00:16:02GPT 5.5の圧勝だと思います。

00:16:06Claude Codeは2位でしたね。

00:16:082位を与えましょう。

00:16:10こちらが出したプロンプトを使っても、

00:16:13確かに苦戦していましたから。

00:16:14正直なところ、プロンプトがあまり良くなかったのも事実です。

00:16:16もっと時間があって、より良いプロンプトを与えて、

00:16:19何度かやり取りを重ねれば、

00:16:20目指すゴールには到達できたはずです。

00:16:21少なくとも航空機があって、滑走路もありました。

00:16:25滑走路に木はありましたけどね。

00:16:26ですが、必要なものは一応揃っていました。

00:16:29DeepSeekとOpenCODEに比べれば。

00:16:32あれが一体何なのか、全く分かりませんでした。

00:16:34完全にめちゃくちゃでしたよ。

00:16:35最初からやり直さなきゃいけない気分でした。

00:16:36非常に具体的なプロンプトを与え直さないとダメでしょう。

00:16:38調整できるレベルにすらなかったので。

00:16:39対してGPT 5.5は、最初から、そうですね、

00:16:42かなり大まかなプロンプトだったにも関わらず、

00:16:44本当によくやってくれたと思います。

00:16:455.5は合計66,000トークンを使用しました。

00:16:48Opusの方は全体で、

00:16:52約200,000トークンです。

00:16:53つまりトークン数は約4分の1、コストも実質4分の1です。

00:16:56それに少しだけ速かったですし。

00:16:58もう、OpenCODEがGPT 5.5よりも時間がかかったことは

00:16:59気にもなりません。

00:17:03とにかくひどかった。正直に言って、ただひどかったです。

00:17:07では、2番目のテストに移りましょう。

00:17:10今回は、彼らに

00:17:12Three.jsを使用してWebGPUシェーダーを

00:17:16駆使したランディングページを作成するよう頼みます。

00:17:18WebGPUのシェーダーというのは、

00:17:21賞をとるようなWebサイトで見られるものです。

00:17:23例えばIglooのようなサイト、ああいった感じの、

00:17:26非常にハイエンドなグラフィックスのことです。

00:17:28まるでビデオゲームのようですよね。

00:17:29コンピューターのグラフィックボードをフル活用して

00:17:32これらすべてを描画しています。

00:17:34彼らがこれに近いものを作れるとは期待していませんが、

00:17:37実際に何ができるのか見てみたいんです。

00:17:40シェーダー技術を駆使してですね。

00:17:42これは間違いなく、ありふれた

00:17:45SaaSのテンプレートで作られたページよりも一段上のものです。

00:17:46彼らの限界がどこまでか、Webデザインの世界で試してみたい。

00:17:48Webデザインの世界で彼らをどこまで追い込めるか見たいんです。

00:17:50全員に、どうすればいいのか具体的に分解した

00:17:53スキルを教え込んであります。

00:17:55だから、完全に何も知らないわけではないですし、

00:17:57どれか一つだけが有利な状況でもありません。

00:18:00モダンで視覚的に印象的なものにしてほしい、

00:18:02アワードサイトで見られるようなもので、

00:18:05GPU演算をスマートに活用するように、とだけ伝えました。

00:18:08技術スタックやプロジェクト構成は好きなものを選ばせて、

00:18:10ヒーローセクションのコンセプト、UI、インタラクションに

00:18:13良い判断力を発揮するように求めています。

00:18:15最初のテストと同じく、全員「プランニングモード」です。

00:18:17では、始めましょう。

00:18:18さて、全員プランニングを完了しました。面白いことに、

00:18:21誰一人として質問をしてきませんでした。

00:18:22プランニングモードにしておいたにも関わらずですね。

00:18:24まずはGPT 5.5から見ていきましょう。

00:18:28フル bleed（全面）の

00:18:30インタラクティブなGPU駆動のヒーローセクションを作ると言っています。

00:18:32コンセプトは、「生きている信号フィールド（living signal field）」

00:18:34といったような、密度の高い粒子を使ったものになるようです。

00:18:36どんな仕上がりになるか見てみましょう。

00:18:38全体的には、ミニマルなアワードスタイルのランディングページです。

00:18:41完全にインタラクティブなWebGPUシーンで、

00:18:43ポインターに反応するコンピュートシミュレーションが走ります。

00:18:46さて、DeepSeekはかなり短く簡潔なプランでしたね、

00:18:50フライトシミュレーターのときと同じように。

00:18:53今回はより良い出力が得られることを期待しますが、

00:18:5475,000個のGPU計算粒子を使ったヒーローセクションとのこと。

00:18:58どれもこれもヒーローセクションに粒子系のテーマで

00:19:01攻めてくるんじゃないかと予想しています。

00:19:04マウスインタラクションと統合を持たせて。

00:19:08一回限りの初期化を行う。

00:19:10そして、ブルーム（光のあふれ）、

00:19:13色収差、カスタムヴィネット、それにフィルム粒子といった要素が見られるはずです。

00:19:16これが実際にどんな見た目になるか楽しみですね。

00:19:19続いてOpus 4.7のプランもまた、

00:19:21ブルームを使ったこの粒子系で行くようで、

00:19:23マウス操作でインタラクティブになるとのこと。

00:19:25見た目に違いが出るのか気になりますね。

00:19:27表面上は、みんな似たようなプランに聞こえるので。

00:19:29最初に完了したのは5.5でした。

00:19:32約6分かかりました。

00:19:34トークン数は107K使用しました。

00:19:37では、何ができたか見てみましょう。

00:19:40これが作成されたものです。

00:19:42うわっ、すごく明るいですね。

00:19:45実際の粒子がどれなのか見ることさえ難しい。

00:19:47スクロールしてみると、

00:19:50背景でアニメーションが動いていて、

00:19:52かすかに色も変わっていますね。

00:19:56マウスで粒子を引き寄せるようになっているみたいですね。

00:20:00そして……ええと。

00:20:01これをこっちへ移動させて。

00:20:03反発させるか漂わせるかといったオプションもありますね。

00:20:08それにしても、明るすぎて

00:20:11見えにくいです。

00:20:12明るすぎて粒子がよく見えないことを伝えたら、

00:20:14改善してくれるかな。

00:20:14ヒーロー要素を支配しすぎている気がします。

00:20:16明るさを少し落として、

00:20:18もう少し右に寄せることはできるかな。

00:20:20今は存在感が強すぎて、

00:20:23左側のテキストを読もうとしても

00:20:25粒子が眩しすぎて何も見えません。

00:20:27これが2回目の実行結果です。

00:20:30少しはマシになりました。

00:20:31圧倒的な明るさは抑えられ、テキストを表示する余地ができました。

00:20:35ただ、少しぼやけている感じもしますが、

00:20:39まあ、悪くはないですね。

00:20:41多少曖昧なリクエストだったことを踏まえれば、

00:20:44やるべきことはやったと言えます。

00:20:46デザイン自体に感動したわけではありませんが、

00:20:49怒るようなレベルでもありません。

00:20:51ではClaude Codeを見てみましょう。

00:20:52これらをやっている間、

00:20:55DeepSeekはずっと裏で

00:20:57必死に考えていたようです。

00:20:58こちらがClaude Codeの出力です。

00:21:01……何もないですね。

00:21:06背景全体が、

00:21:10WebGLになっているつもりなのか、

00:21:14そう思いたいところですが。

00:21:19かなり控えめな表現ですね。

00:21:21こういう手法もありかもしれません。

00:21:24画面上では、

00:21:25かっこいいとは言えますが、正直なところ、

00:21:28もう少し派手なものを期待していました。

00:21:31それで2回目のパスで、

00:21:31もっと派手にするように指示しましたが、

00:21:34大きな変化はありませんでした。

00:21:35かなり繊細な表現ですね。

00:21:38フィルム粒子のようなものがあって、

00:21:40下から上へぼかしが流れているような。

00:21:43とても控えめな演出です。

00:21:45画面下部を見ると、

00:21:47フレームレート（FPS）をトラッキングしています。

00:21:49250,000個の粒子を使っていますね。

00:21:51まあ、素直にかっこいいとは思います。

00:21:54派手ではないというだけで。

00:21:56好みの問題ですね。

00:21:58Claude Code側の合計トークンは約175,000で、

00:22:01Codex上の5.5よりも少し時間がかかりました。

00:22:05ではDeepSeekを見てみましょう。

00:22:07現時点で116,000トークンを消費しています。

00:22:10一番時間がかかりましたね。

00:22:12コスト面では、繰り返しになりますが1ドル以下です。

00:22:15出力結果がこちらです。

00:22:17なんだか粒子がフィールドみたいになっていて、

00:22:21マウスを少し追いかけてきます。

00:22:25興味深いですね。

00:22:27下手をするとてんかん発作を起こしそうです。

00:22:29正直、それ以外はかなり退屈ですね。

00:22:35X線のようなものが色を変えていきますが、

00:22:39結局この程度しか作れなかったようです。

00:22:43DeepSeekに2回目のパスを指示した結果、

00:22:45戻ってきたのがこれです。

00:22:46奇妙な視差（パララックス）効果が付いています。

00:22:49背景に青っぽい何かが動いていて。

00:22:53UFOのようなものがマウスに反応しますが、

00:22:55うーん。

00:22:58まあ、何かにはなっていますね。

00:23:02全体として、DeepSeekのトークン数は130Kで、

00:23:05費用は1.43ドルでした。

00:23:08さて、これら全てのテストを終えて、結局どうなったのか。

00:23:13最終結果について話しましょう。

00:23:15まずテスト1のフライトシミュレーターですが、

00:23:16明らかな勝者がいました。

00:23:18Codex環境下のGPT 5.5です。

00:23:21Claude Code環境下のOpus 4.7よりも速かった。

00:23:25処理速度も速く、結果も断然最高でした。

00:23:29DeepSeekはフライトシミュレーターでは散々でした。

00:23:32目的からは程遠い出来です。

00:23:345.5の最初のパスと同等にするには、

00:23:35ひたすらプロンプトを入力し続ける必要があったでしょう。

00:23:38Opus 4.7やClaude Codeは、

00:23:43ええと、ひどくはなかった。

00:23:46最初はうまく機能しなかったものの、

00:23:48何度かプロンプトを与えれば、

00:23:50GPT 5.5がやっていたことと

00:23:52同等のレベルに持っていけることが分かりました。

00:23:54それだとプロンプトを何回も送る必要があります。

00:23:55時間も余計にかかりますし、

00:23:57結局のところコストも高くなってしまいます。

00:23:59なので、5.5の圧勝ですね。

00:24:01Web GPUのランディングページに関しては、

00:24:03ここでもDeepSeekは苦戦しました。

00:24:04正直、あまり好きではありませんでした。

00:24:06これが一体何なのか、よく分かりません。

00:24:08確かに、すごく良いプロンプトを与えたわけではありませんが、

00:24:10これが平均的なベースラインの成果として

00:24:13出てくるものなのでしょうか？

00:24:16DeepSeekの手綱をしっかりと握って

00:24:19強制的に何かをさせない限りは、そうなるのでしょうね。

00:24:22さて、Opusと5.5を比較した時ですが、

00:24:24Web GPUの処理に関しては

00:24:27Opus 4.7とClaude Codeの方が良かったと思います。

00:24:29これは好みの問題という側面もあるかもしれません。

00:24:315.5の方が派手だったという意見もあるでしょうが、

00:24:35私は少し格好悪いと思いました。

00:24:37繰り返しになりますが、どのテストもプロンプトはかなり曖昧にして、

00:24:41どのような道筋をたどるかを確認しました。

00:24:43ですから、ここでは間違いなくOpusに軍配を上げます。

00:24:46コストが高く、

00:24:48時間も少しかかってしまいましたけどね。

00:24:50もし、もっと具体的なプロンプトで、

00:24:55やりたいことを細かく指示していれば、

00:24:575.5は私たちの意図したことを実行してくれました。

00:24:59Web GPUのランディングページを作成する、というタスクですね。

00:25:02ただ、見た目が好みではありませんでした。

00:25:04それでも、タスクは完遂しています。

00:25:06Opusほど上手くはなかったというだけです。

00:25:08さて、これらを総合して

00:25:09全体的にどういう意味があるのでしょうか？

00:25:11エージェントコーダーを使っている人にとっては、

00:25:13素晴らしいニュースだと思います。

00:25:16選択肢があるというのは良いことですよね。

00:25:18OpusとClaude Codeを使うこともできますし、

00:25:20GPT 5.5とCodecsを使うこともできます。

00:25:23どちらを選んでも間違いではありません。

00:25:25現時点では完全に個人の好みの問題だと思います。

00:25:28さらに良いのは、Claude Codeのやり方を学べば、

00:25:31それはほぼそのままCodecsにも応用できる点です。

00:25:33Codecsの道を学んだとしても、

00:25:34それはClaude Codeに当てはまります。

00:25:37ですから、特定のツールに縛られるような

00:25:40ベンダーロックインは存在しないと思います。

00:25:42Claude Codeしか知らなくて他には移行できない、なんてことはありません。

00:25:44そんなことは全くありません。

00:25:45正しいやり方で学んでいれば、

00:25:46本質的なAIの基礎知識や、

00:25:48いかにして構築するかという能力が身につくはずです。

00:25:49それはどちらにも通用するスキルです。

00:25:51競争が激しくなればなるほど、

00:25:53消費者である私たちにとって恩恵が大きくなります。

00:25:54さて、DeepSeekについては、うーん、どうでしょう。

00:25:59あまり感銘を受けませんでした。

00:26:00もしかすると、

00:26:02OpusやGPT 5.5ほどのパワーが必要ない、

00:26:04シンプルなタスクであれば、

00:26:06DeepSeekが適しているケースもあるかもしれません。

00:26:10何と言っても、

00:26:118分の1のコストで使えるわけですから。

00:26:13ですが、当然ながらそれも考慮に入れる必要があります。

00:26:16期待外れでしたが、8倍も悪かったでしょうか？

00:26:19そうとも言い切れません。

00:26:21それを明確に定量化するのは

00:26:23なかなか難しいところです。

00:26:24ですが、当然考慮に入れるべき要素ではあります。

00:26:27率直に言って、4.7や5.5と

00:26:30競合するレベルではないと思います。

00:26:33ただ、単純なタスクで、

00:26:35とにかくコストやトークン数を抑えたいという場合には、

00:26:38DeepSeekが理にかなっているかもしれませんね。

00:26:41今日のところは以上です。

00:26:42この3つのモデルの違いや、

00:26:45比較の仕方が少しでも参考になれば幸いです。

00:26:47今はAIの分野にとって素晴らしい時代です。

00:26:49競争が激しいことは誰にとっても良いことです。

00:26:51いつものように、もしClaude Codeマスタークラスに

00:26:53興味がある方は、

00:26:55ぜひChase AI Plusをチェックしてください。

00:26:56概要欄にリンクを貼っておきます。

00:26:58またお会いしましょう。

Key Takeaway

GPT 5.5はコーディングタスクにおいて最も優れた性能と安定性を示したが、低コストを優先するシンプルなタスクであればDeepSeek V4が選択肢となり、特定の環境に縛られず構築手法を学ぶことが重要である。

Highlights

DeepSeek V4は競合他社と比較して入力トークンで約2.9倍、出力トークンで約7.1〜8.6倍の低コストを実現している。
GPT 5.5の出力単価は100万トークンあたり30ドルで、Anthropicの25ドルを上回り、3つのモデル中で最も高価である。
GPT 5.5はTerminal bench 2.0で87.2というスコアを記録し、他のモデルを凌駕するコーディング性能を示した。
Claude Codeはロングコンテキストにおける情報取得タスクで4.7バージョンに回帰現象が見られ、DeepSeekやGPT 5.5に劣る結果となった。
3JSを用いたフライトシミュレーター構築テストにおいて、GPT 5.5は最小のプロンプト回数で実用的な成果を出した一方、DeepSeekは大幅な苦戦を強いられた。
AIモデル間にはベンダーロックインは存在せず、Claude CodeまたはCodecsのどちらで構築手法を学んでも、他方の環境へ応用可能である。

Timeline

主要AIモデルの比較とベンチマーク

GPT 5.5、Claude Opus 4.7、DeepSeek V4のコストと性能を比較した。
出力トークン単価はDeepSeekが3.48ドルで最も安く、GPT 5.5は30ドルで最も高額である。
ベンチマークにおいてGPT 5.5はTerminal bench 2.0で突出したスコアを記録した。
Claude 4.7は50万から100万トークンのロングコンテキスト処理で性能が低下する傾向が確認された。

最新の主要モデルであるGPT 5.5、Claude Opus 4.7、DeepSeek V4の技術スペックと価格設定を網羅的に分析した。DeepSeekは圧倒的なコストパフォーマンスを誇るが、ハードウェア要件が高いためAPI利用が推奨される。ベンチマーク結果では各モデルに得手不得手があり、特にOpus 4.7は大規模なコンテキスト処理において予期せぬ回帰現象が見られた。

フライトシミュレーター構築による直接対決

Three.jsを用いたフライトシミュレーター構築タスクを実行した。
GPT 5.5は効率的に初期コードを生成し、少数の反復で制御可能なシミュレーターを完成させた。
DeepSeekはグラフィック描写において著しく苦戦し、意図した成果物の生成には至らなかった。
Claude Codeは品質においてOpus 4.7を適応させることで2位の座を確保した。

実用的なコード生成能力を測るため、各モデルにフライトシミュレーターを作成させた。GPT 5.5は少ないプロンプト回数で離着陸可能なシミュレーターを構築し、最も優れた性能を示した。一方、DeepSeekは抽象的なプロンプトに対する理解度が低く、何度も修正を繰り返しても目的の成果に到達しなかった。

WebGPUシェーダーを用いたランディングページ構築

GPU演算をフル活用するWebGPUベースのランディングページ構築を検証した。
GPT 5.5は非常に明るい視覚効果を生成したが、テキストの視認性に課題が残った。
Opus 4.7とClaude Codeの組み合わせは、派手さを抑えた繊細で高品質なデザインを出力した。
DeepSeekは視覚的に退屈な結果にとどまり、意図したデザインを具現化するのに時間を要した。

視覚的インパクトを求める高度なWebデザインタスクを実施した。GPT 5.5はコードの完成度は高いものの、UIの視覚バランスに調整が必要だった。対照的に、Claude Code環境下のOpus 4.7はデザイン面で高く評価され、開発者の好みが反映される結果となった。

総評とエージェントコーダーへの助言

実用的なタスクではGPT 5.5が圧勝し、Claude Codeは2位の成果となった。
DeepSeekは高額なモデルを必要としない単純なタスクでの活用が合理的である。
特定のツールに依存するベンダーロックインの心配はなく、構築の本質的なスキルは共通している。

全テスト結果を総合し、用途に応じたモデルの使い分けを推奨した。コーディング支援ツールとして、GPT 5.5は高いパフォーマンスと安定性を証明した。一方で、競争の激化はユーザーに選択の自由をもたらし、特定のAI環境に習熟することが他の環境でもそのまま活かせるスキルとなるため、エージェントコーダーにとっては好ましい環境であると結論付けた。

Community Posts

Write about this video