Transcript
00:00:00過去24時間で、とてつもないアップデートが
00:00:02世界最大級のAIモデル2つにもたらされました。
00:00:04まず1つ目は、GPT 5.5のリリースです。
00:00:07このモデルは、あるベンチマークスコアにおいて
00:00:10ClaudeのMythosを上回る結果を誇っています。
00:00:122つ目は、DeepSeek V4のリリースです。
00:00:15これはオープンソース、オープンウェイトのモデルで、
00:00:18最前線にいる大手プレイヤーに匹敵するベンチマークを持っています。
00:00:22これほど新しいモデルが選択肢にある中で、
00:00:24私たち平均的なユーザーは何をすべきなのでしょうか?
00:00:27今日はその疑問にお答えします。
00:00:29Opus 4.7、GPT 5.5、
00:00:33そしてDeepSeek V4を比較して、
00:00:36どれが自分にとって本当に有益なのかを見極めます。
00:00:39この直接対決を始める前に、
00:00:41Codecs内のGPT 5.5、
00:00:45Open Code内のDeepSeek V4、
00:00:47そしてClaude Code内のOpus 4.7、
00:00:51まずはベンチマークをざっと見ていきましょう。
00:00:53特にこの24時間で公開された最新の2つのモデルは
00:00:54要チェックです。
00:00:56まずはコストの話から始めます。
00:00:58DeepSeek V4はご存知の通り、
00:01:00オープンソース、オープンウェイトモデルですが、
00:01:01だからといって自分のPCで動かせるわけではありません。
00:01:04なにしろ巨大ですから。
00:01:051兆6000億ものパラメータがあるんです。
00:01:08動かすには本格的なハードウェアが必要です。
00:01:10ですから結局、お金はかかります。
00:01:11依然としてAPIを使う必要があるわけですが、
00:01:13競合他社より圧倒的に安いです。
00:01:15約8倍も安いんですよ。
00:01:18そして3つのモデルのうち、
00:01:19真新しいGPT 5.5が実は最も高価です。
00:01:22これは少し驚きです。なぜなら全体として、
00:01:24OpenAIはAnthropicの競合製品より安かったからです。
00:01:28コスト面で見ると、
00:01:30出力100万トークンあたりの料金は、
00:01:32GPT 5.5が30ドルとなります。
00:01:35Anthropicは25ドルです。
00:01:38そしてDeepSeekは3.48ドルです。
00:01:41では入力トークンについて話すと、
00:01:44これは全体の小さな割合ですが、
00:01:46GPT 5.5とOpus 5.7は同額です。
00:01:49100万入力トークンあたり5ドルになります。
00:01:53DeepSeekの場合は約1.70ドルです。
00:01:57つまり、入力も出力もはるかに安いのです。
00:02:01ただし、5.5に関しては、
00:02:03これは5.4の2倍の価格です。
00:02:06しかしOpenAIは、その性能ゆえに、
00:02:10使用トークン数が大幅に減ると主張しています。
00:02:115.4の2倍の価格とはいえ、
00:02:14実際のトークン消費と実際のコストという点では、
00:02:17同じタスクをこなした場合、最終的には20%程度
00:02:20高くなるだけだということです。
00:02:21その点は念頭に置いておいてください。
00:02:24さて、コストについて話しました。
00:02:25次はベンチマークについてです。
00:02:26紙の上の性能はどれほど優れているのでしょうか?
00:02:27皆さんベンチマークには慣れっこだと思います。
00:02:31話半分に聞く必要がありますが、
00:02:32それでも見る価値はあります。
00:02:33特に、各プレイヤーが同じベンチマークで
00:02:36報告している数字を見るときはなおさらです。
00:02:39コーディングカテゴリーには3つ、
00:02:42すべてのプレイヤーが数字を報告したものがあります。
00:02:43SWE bench verified、SWE bench pro、
00:02:46そしてTerminal bench 2.0です。
00:02:48SWE bench verifiedとSWE bench proでは、
00:02:50Opusが勝者でした。
00:02:52Terminal bench 2.0では、GPTが87.2で圧勝しました。
00:02:56ちなみにこの数字は、
00:02:59AnthropicがMythosで報告した数字より高いです。
00:03:02あ、Mythosでしたね、失礼。
00:03:03驚くべきことですが、
00:03:05彼らがリリースできない超極秘モデルが、
00:03:07どうやらTerminal bench 2でGPT 5.5に負けているようです。
00:03:10Terminal bench 2.0はここでの最大の異常値です。
00:03:13Opus 4.7とV4 Proは大きく引き離されていますが、
00:03:16Opus 4.7とV4 Proを比較してみてください。
00:03:208倍の価格差がありながら、2ポイント以下の差しかありません。
00:03:23SWE bench verifiedとSWE bench proでも
00:03:24同じような状況が見て取れます。
00:03:26確かにOpusが勝ちます。
00:03:28しかし、2位と3位を比較すると
00:03:31(そしてV4は常に3位なのですが)、
00:03:33予想していたほどの大きな差はありません。
00:03:36SWE bench verifiedで85対86、5ポイントの差は
00:03:38決して小さくはありませんが。
00:03:41それでも8倍安くてオープンソース。
00:03:45最高性能が必要でないのなら、
00:03:46選ぶべき現実的な妥協点があるということです。
00:03:49もう一つ面白いのは
00:03:51ロングコンテキストで、Opus 4.7が驚くほど悪いことです。
00:03:55数字上、4.6よりかなり悪く、
00:03:58理解に苦しみます。
00:04:0050万から100万トークンという
00:04:01ロングコンテキストにおいて
00:04:03情報を取得しようとする場合、
00:04:064.7は正直ひどい出来です。
00:04:08DeepSeekやGPT 5.5よりはるかに劣ります。
00:04:12そもそも、なぜ50万から100万トークンの範囲に
00:04:14いる必要があるのかという議論はできます。
00:04:17実際にそこで作業している人がどれだけいるでしょうか。
00:04:20どのモデルを使おうが、その範囲では
00:04:22コンテキストの劣化(コンテキスト・ロット)が発生しますから。
00:04:24ですが興味深いのは、何らかの理由で
00:04:26Anthropicモデルにおいて回帰現象が見られることです。
00:04:27しかし全体像として、
00:04:295.5が非常に強力であることは間違いありません。
00:04:32一部の指標ではOpus 4.7を上回り、
00:04:33一部では負けていますが、
00:04:36非常に堅牢なモデルです。
00:04:37その上、V4 Proは、まあ、
00:04:39概ね後塵を拝してはいますが、
00:04:42無限に安いことを考えれば十分な射程範囲内です。
00:04:45これもまた、平均的なユーザーにとっては素晴らしい選択肢です。
00:04:48現在、オープンソース側で競争できるモデルの選択肢は
00:04:52多くないと感じていますから。
00:04:54では、これら3つのモデルで実際に直接対決を行いましょう。
00:04:56それぞれにハーネスを使用します。
00:04:595.5にはCodecs、
00:05:00Opus 4.7にはClaude Code、
00:05:02DeepSeek V4 ProにはOpen Codeを使います。
00:05:04最初のテストとして、
00:05:07ブラウザ上で動作するフライトシミュレーターを
00:05:103JSで作成させます。
00:05:11プロンプトはここにあります。
00:05:14気持ちよく飛べて、重みを感じられること、
00:05:17強力なビジュアルであること、
00:05:18そして適切だと思う構造やツールを使用すること。
00:05:20モデルが何をすべきか分かっているはずですし、
00:05:21同時にモデルごとの違いを見極める余地も十分あります。
00:05:25ワンショットでどれだけできるかだけでなく、
00:05:27複数の反復を経て追跡プロンプトを与えていきます。
00:05:30ワンショットの出来を見るのもクールですが、
00:05:33実生活での作業とは違いますよね。
00:05:34追跡プロンプトでどう反応し、
00:05:36どれだけ早く満足できるものに仕上げられるかを見たいのです。
00:05:38これら3つを比較する上で、4つの点に着目します。
00:05:40時間。構築にどれくらいかかるか。
00:05:44コスト。どれだけトークンを使うか。
00:05:46品質。どれだけ良い出来か。
00:05:49そして4つ目は「バイブス(雰囲気)」です。
00:05:52これは品質に繋がる主観的なものですが、
00:05:54どちらをより気に入るか。
00:05:55また、すべてのモデル、ハーネスは
00:05:57全く同じスキルを使用しています。
00:05:58まずはDeepSeekからです。
00:06:01どのような飛行モデルが良いか尋ねてきました。
00:06:02フルシミュレーションにします。
00:06:04地形には海と島を推奨してきました。それでいきます。
00:06:06カメラの設定を求めてきました。両方しましょう。
00:06:06一人称と三人称を切り替えられるか試します。
00:06:09推奨されたツール設定に従います。
00:06:11機体とビジュアルにはローポリゴンモデルを使います。
00:06:13Codecsに移ります。同様の質問ですが、
00:06:163つしか聞いてきません。
00:06:18どんな飛行を最適化するか。ハードシミュレーションにします。
00:06:20ブラウザで何が重要か。島の離着陸ループにします。
00:06:22みんな同じようなものですね。
00:06:23カメラと機体のプレゼンテーションは
00:06:25同様に切り替え式にします。
00:06:26Claude Codeは、感覚、海と島の入力で
00:06:27研究用シミュレーション学習を行います。
00:06:29入力はキーボードとマウスにしましょう。
00:06:32これで実行させます。
00:06:33プランニングに関しては、3つとも非常に似ています。
00:06:35物理設定や地形、カメラアングルなど、
00:06:38大きな違いはありません。
00:06:40どのようなプランが戻ってくるか見てみましょう。
00:06:42プランが出揃いました。
00:06:44では、違いを簡単に確認しましょう。
00:06:48まずはDeepSeekです。
00:06:50非常にシンプルな構成になっています。
00:06:52プロジェクト構造を提示し、
00:06:54飛行物理、環境、カメラ、HUDオーバーレイについて
00:06:56箇条書きですぐに説明を終えています。
00:06:58一方でCodecs内のGPT 5.5は、
00:07:02要約、主な変更点、実装詳細、テスト計画、
00:07:04そして前提条件まで全て明確にしています。
00:07:05そしてClaude Codeですが、
00:07:09時間が最もかかりました。約5分です。
00:07:11しかし最も丁寧です。コンテキストとスタック、
00:07:12レイアウト、飛行モデルについて。
00:07:13失速や失速ブザーといった
00:07:15具体的な瞬間についても触れています。
00:07:17細部まで作り込んでいますね。
00:07:19コントロール、世界観、モジュール、
00:07:20そして...
00:07:22...
00:07:24本当に数個の箇条書きだけなんです。
00:07:26...
00:07:29...
00:07:31...
00:07:33...
00:07:35...
00:07:37...
00:07:40...
00:07:43...
00:07:46そして前提条件ですね
00:07:47これらすべてを明確にしてくれます
00:07:49そしてClaude Codeの計画ですが、これが最も時間がかかりました
00:07:505分ほどかかりましたが、断然最も徹底しています
00:07:53コンテキストやスタックが含まれているからです
00:07:55レイアウトでは飛行モデルについて語られています
00:07:57実際の様々なモーメントについて詳細に触れています
00:08:00ストールやストールブザーなどについてです
00:08:02非常に、非常に詳細です
00:08:03コントロール、世界、MODについても言及しています
00:08:06実際に使用する航空機、パフォーマンスなど
00:08:08ただ延々と続いていきます
00:08:10非常に詳細ですね
00:08:11さて、3つすべてに計画を実行してもらいます
00:08:14最終的な結果がどうなるか見てみましょう
00:08:15GPT 5.5 in Codecsが最初に完了しました
00:08:19どんなものか見てみましょう
00:08:20これが提供されたフライトシミュレーターです
00:08:22空にはいくつかの雲があります
00:08:26上の方にはAOAインジケーターのようなものがあります
00:08:31下の方には速度計があります
00:08:34実際にこれを離陸させられるか
00:08:35見てみましょう
00:08:36滑走路のような場所がどこにもないことに注目してください
00:08:38ただ真っ直ぐな草地があるだけです
00:08:39島のようなものになるはずだったのですが
00:08:42カメラが少しスパイクした時に
00:08:45一瞬だけ下に滑走路が見えます
00:08:48よし、失速して、そのまま
00:08:50離陸すらできませんね
00:08:51これは正直、少し
00:08:54実際にかなり難しいです
00:08:55そこで私がやることは
00:09:00もう少し簡単に飛ばせるようにと
00:09:032回目のプロンプトを送ります。いろいろ詰め込みすぎているので
00:09:05これは厳しいです
00:09:06そこで「本当に操縦が難しい」と書きました
00:09:08もっと簡単に操作できるようにできますか?
00:09:10いわゆる少しアーケードっぽく
00:09:12それにグラフィックも改善が必要ですね
00:09:15ではどうなるか見てみましょう
00:09:16ちなみに、5.5が最初のパスを作成するのに約7分かかりました
00:09:21かかりました
00:09:23そして63,000トークンを消費しました
00:09:26よし、少し飛ばしやすくして
00:09:28グラフィックを更新したと言っています
00:09:292回目のパスがどんなものか見てみましょう
00:09:32手に入れたのはこれです
00:09:32グラフィックは間違いなく良くなっています
00:09:34しかし、今度は滑走路から
00:09:36離陸できるか確認しましょう
00:09:37さて、スロットルは100%
00:09:4150、60、70
00:09:43セスナの回転速度はどれくらいだ?
00:09:46よし、70、80、90
00:09:49これで離陸できるはずだ
00:09:51よし、違う
00:09:53行け、離陸してくれ、離陸してくれ
00:09:56いや、これじゃまた失速するだろう?
00:09:58ああ、失速だ
00:09:59よし、これはまだ修正が必要ですね
00:10:02ではCodexにもう一度チャンスを与えましょう
00:10:055.5にもう一度チャンスを
00:10:07実際にプレイできるようにしてもらいましょう
00:10:08飛行機を離陸させることすらできないと伝えました
00:10:10フライトに入れません
00:10:11離陸して実際に機体を操縦できるように
00:10:12簡単にする必要があります
00:10:14OK、離陸の問題を修正したそうです
00:10:16どうやら以前はブレーキがロックされていたようです
00:10:19それができなかった理由かは分かりませんが
00:10:21ああ、自動的に離陸状態にはしていませんでした
00:10:24フラップ、そう、これは
00:10:25スーパーシミュレーターモードのような状態でした
00:10:29しかし、これがフライトシミュレーターの3回目の試行です
00:10:32どうなるか見てみましょう
00:10:34離陸できるでしょうか?
00:10:36おっと、今回は滑走路で
00:10:37跳ね回っています
00:10:38よし、クール、離陸しました
00:10:41実際に動いています
00:10:44これらのリングの一つに乗れるか見てみましょう
00:10:45いや、グラフィックはそんなに悪くないですよ
00:10:4910分足らずで生成されたものにしては
00:10:52かなり正確なようです
00:10:56垂直方向の、何というか
00:10:59下の方に毎分のフィート数が表示されています
00:11:00実際の高度、ノット、方位、AGLも
00:11:04つまり、すべてを追跡する点で
00:11:06比較的洗練されています
00:11:08この正面の小さなインジケーター
00:11:10角度というか、迎角(AOA)
00:11:13インジケーターのように見えてカッコいいですね
00:11:14良いところがいくつかあります
00:11:18実際のコントロールは少しギクシャクしています
00:11:21見ての通り、まったく制御できません
00:11:23ですが概ね、悪くありません
00:11:25こうやって特攻を仕掛けて
00:11:27毎分18,000フィートで何が起こるか見てみましょう
00:11:31でもまあ、66,000トークンで
00:11:36やり取りを含めて10分から15分くらいかかったとして
00:11:40決して悪くないと思います
00:11:41ではDeepSeekを見てみましょう
00:11:42これを行うのに約10分かかりました
00:11:44トークンに関しては63,000で44セントです
00:11:46つまり44セント、10分です
00:11:51そしてこれがDeepSeekが提供したものです
00:11:53何を見ているのか
00:11:56まったく分かりません
00:12:00何を見ているのか
00:12:03これは三人称視点のつもりでしょうか
00:12:06これはコックピットのつもりでしょうか
00:12:07そして明らかにDeepSeekの最初のパスは
00:12:11もう一つの大惨事でした
00:12:13そこでDeepSeekにシミュレーターがめちゃくちゃだと伝えました
00:12:16グラフィックが完全にバグっていて
00:12:17何も操縦できない
00:12:20修正してくれ
00:12:21そしてこれが2回目のパスです
00:12:24何が何だか
00:12:26全く分かりません
00:12:28DeepSeekは何を考えているんだ
00:12:30おっと、飛行機がある
00:12:32ああ、何かが
00:12:33ええ、これは、これはひどいですね
00:12:38正直なところ、もう一度プロンプトを与えて
00:12:42これをさせようとしても、何を目指しているのか
00:12:44非常に具体的に説明する必要があるでしょう
00:12:47Codexで行ったことには到底及びません
00:12:49Codexではかなり平凡なプロンプトでも
00:12:51最初のパスで少なくとも近いものは得られました
00:12:53今回は明らかにグラフィックで完全に苦戦しています
00:12:54どう表現していいか分かりません
00:12:57ですが、とにかく超安かったです
00:12:58ではClaude Codeが
00:13:01参考として何を提供できたか見てみましょう
00:13:03計画を実行するのに13分かかりました
00:13:07計画自体に5分かかりました
00:13:09最初のパスを出すのに合計20分としましょう
00:13:12そして合計トークンについては
00:13:13この実行で15%プラス計画前の5%でした
00:13:17失礼、つまり
00:13:1911%のコンテキストと前回の5%です
00:13:22つまりClaude Codeは20分、150,000トークンですね
00:13:24間違いなく最も高価で
00:13:28最も低速でした
00:13:33そしてこれがClaude Codeの挑戦です
00:13:34理由は分かりませんが、すぐに空中にいます
00:13:36失速しています
00:13:39IFR状態です
00:13:43何が起きているのか分かりません
00:13:44何かに突っ込もうとしています
00:13:45これを救えるか?
00:13:48ダイブから引き起こせるか?
00:13:50いや、失速して、いや、死んだ
00:13:51OK、興味深いですね
00:13:53またしても、いきなり空中に放り出されます
00:13:54雲の中にいます
00:13:56失速しています
00:14:00一体何が起きているんだ
00:14:022回目のパスが必要です
00:14:03そこで「ロードするとすぐに空中に投げ出される」と書きました
00:14:05操縦が難しい
00:14:08滑走路から始めて、飛ばしやすくしてほしい
00:14:11あ、ついでにグラフィックも改善してね
00:14:124分ほどかかりましたが、いくつか変更されました
00:14:15滑走路に出ます
00:14:17ギアを変えました
00:14:20三輪着陸装置になりました
00:14:22どんなものか見てみましょう
00:14:23さて、これがそうです
00:14:24またしても、霧の中に放り出されました
00:14:26機体を制御しようとしていますが
00:14:27まったく制御できません
00:14:29OK、Claude Codeにもう一度
00:14:31チャンスをあげましょう
00:14:33また空中に放り出されると言いました
00:14:34もっとアーケードタイプに近い操作感にしましょう
00:14:37最初からそうすべきだったかもしれませんね
00:14:393つとも最初のプロンプトで
00:14:40よりリアルなシミュレータータイプを目指すと
00:14:42ユーザーフレンドリーなものにするのは本当に難しい
00:14:43内部的にはうまくやっていると思います
00:14:44迎角とかね
00:14:46よし、この速度と角度なら失速するぞ、みたいな
00:14:50でもコンピュータから実際に操作するのは
00:14:53基本的に不可能ですね
00:14:57霧の描写は本当に変ですけどね
00:14:59さて、2回目のプロンプトで
00:15:01少しは良くなったでしょうか
00:15:02今のところGPT 5.5の方がずっと上手でした
00:15:04Claude Codeはいくつか変更を加え
00:15:07よりユーザーフレンドリーにしてくれました
00:15:09まだ計器飛行証明を目指しているのか
00:15:12見てみましょう
00:15:15よし、まだ行ける
00:15:16まだ計器飛行証明を目指しています
00:15:20何とか見えます
00:15:22計器パネルを確認できます
00:15:23よし、滑走路から離れます
00:15:24今回は計器飛行証明(計器飛行の資格)を目指していきます。
00:15:26よし、まだ続けています。
00:15:28計器飛行証明の取得に挑戦中です。
00:15:30今はまだ滑走路にいますが、なんとか見えていますね。
00:15:33計器パネルをチェックして。
00:15:35よし、滑走路を離陸します。
00:15:37はい、オーケー。
00:15:42えっ、なんで滑走路に木があるの?
00:15:44上昇しようとしているのに。
00:15:46上昇できるか?
00:15:47機首を上げられる?
00:15:49「Canvasをクリックしてマウスをロック」って、何だよ?
00:15:53おっ、空に出た。
00:15:54いや、ダメだ、墜落した。
00:15:57というわけで、これはもう明らかですね。
00:16:02GPT 5.5の圧勝だと思います。
00:16:06Claude Codeは2位でしたね。
00:16:082位を与えましょう。
00:16:10こちらが出したプロンプトを使っても、
00:16:13確かに苦戦していましたから。
00:16:14正直なところ、プロンプトがあまり良くなかったのも事実です。
00:16:16もっと時間があって、より良いプロンプトを与えて、
00:16:19何度かやり取りを重ねれば、
00:16:20目指すゴールには到達できたはずです。
00:16:21少なくとも航空機があって、滑走路もありました。
00:16:25滑走路に木はありましたけどね。
00:16:26ですが、必要なものは一応揃っていました。
00:16:29DeepSeekとOpenCODEに比べれば。
00:16:32あれが一体何なのか、全く分かりませんでした。
00:16:34完全にめちゃくちゃでしたよ。
00:16:35最初からやり直さなきゃいけない気分でした。
00:16:36非常に具体的なプロンプトを与え直さないとダメでしょう。
00:16:38調整できるレベルにすらなかったので。
00:16:39対してGPT 5.5は、最初から、そうですね、
00:16:42かなり大まかなプロンプトだったにも関わらず、
00:16:44本当によくやってくれたと思います。
00:16:455.5は合計66,000トークンを使用しました。
00:16:48Opusの方は全体で、
00:16:52約200,000トークンです。
00:16:53つまりトークン数は約4分の1、コストも実質4分の1です。
00:16:56それに少しだけ速かったですし。
00:16:58もう、OpenCODEがGPT 5.5よりも時間がかかったことは
00:16:59気にもなりません。
00:17:03とにかくひどかった。正直に言って、ただひどかったです。
00:17:07では、2番目のテストに移りましょう。
00:17:10今回は、彼らに
00:17:12Three.jsを使用してWebGPUシェーダーを
00:17:16駆使したランディングページを作成するよう頼みます。
00:17:18WebGPUのシェーダーというのは、
00:17:21賞をとるようなWebサイトで見られるものです。
00:17:23例えばIglooのようなサイト、ああいった感じの、
00:17:26非常にハイエンドなグラフィックスのことです。
00:17:28まるでビデオゲームのようですよね。
00:17:29コンピューターのグラフィックボードをフル活用して
00:17:32これらすべてを描画しています。
00:17:34彼らがこれに近いものを作れるとは期待していませんが、
00:17:37実際に何ができるのか見てみたいんです。
00:17:40シェーダー技術を駆使してですね。
00:17:42これは間違いなく、ありふれた
00:17:45SaaSのテンプレートで作られたページよりも一段上のものです。
00:17:46彼らの限界がどこまでか、Webデザインの世界で試してみたい。
00:17:48Webデザインの世界で彼らをどこまで追い込めるか見たいんです。
00:17:50全員に、どうすればいいのか具体的に分解した
00:17:53スキルを教え込んであります。
00:17:55だから、完全に何も知らないわけではないですし、
00:17:57どれか一つだけが有利な状況でもありません。
00:18:00モダンで視覚的に印象的なものにしてほしい、
00:18:02アワードサイトで見られるようなもので、
00:18:05GPU演算をスマートに活用するように、とだけ伝えました。
00:18:08技術スタックやプロジェクト構成は好きなものを選ばせて、
00:18:10ヒーローセクションのコンセプト、UI、インタラクションに
00:18:13良い判断力を発揮するように求めています。
00:18:15最初のテストと同じく、全員「プランニングモード」です。
00:18:17では、始めましょう。
00:18:18さて、全員プランニングを完了しました。面白いことに、
00:18:21誰一人として質問をしてきませんでした。
00:18:22プランニングモードにしておいたにも関わらずですね。
00:18:24まずはGPT 5.5から見ていきましょう。
00:18:28フル bleed(全面)の
00:18:30インタラクティブなGPU駆動のヒーローセクションを作ると言っています。
00:18:32コンセプトは、「生きている信号フィールド(living signal field)」
00:18:34といったような、密度の高い粒子を使ったものになるようです。
00:18:36どんな仕上がりになるか見てみましょう。
00:18:38全体的には、ミニマルなアワードスタイルのランディングページです。
00:18:41完全にインタラクティブなWebGPUシーンで、
00:18:43ポインターに反応するコンピュートシミュレーションが走ります。
00:18:46さて、DeepSeekはかなり短く簡潔なプランでしたね、
00:18:50フライトシミュレーターのときと同じように。
00:18:53今回はより良い出力が得られることを期待しますが、
00:18:5475,000個のGPU計算粒子を使ったヒーローセクションとのこと。
00:18:58どれもこれもヒーローセクションに粒子系のテーマで
00:19:01攻めてくるんじゃないかと予想しています。
00:19:04マウスインタラクションと統合を持たせて。
00:19:08一回限りの初期化を行う。
00:19:10そして、ブルーム(光のあふれ)、
00:19:13色収差、カスタムヴィネット、それにフィルム粒子といった要素が見られるはずです。
00:19:16これが実際にどんな見た目になるか楽しみですね。
00:19:19続いてOpus 4.7のプランもまた、
00:19:21ブルームを使ったこの粒子系で行くようで、
00:19:23マウス操作でインタラクティブになるとのこと。
00:19:25見た目に違いが出るのか気になりますね。
00:19:27表面上は、みんな似たようなプランに聞こえるので。
00:19:29最初に完了したのは5.5でした。
00:19:32約6分かかりました。
00:19:34トークン数は107K使用しました。
00:19:37では、何ができたか見てみましょう。
00:19:40これが作成されたものです。
00:19:42うわっ、すごく明るいですね。
00:19:45実際の粒子がどれなのか見ることさえ難しい。
00:19:47スクロールしてみると、
00:19:50背景でアニメーションが動いていて、
00:19:52かすかに色も変わっていますね。
00:19:56マウスで粒子を引き寄せるようになっているみたいですね。
00:20:00そして……ええと。
00:20:01これをこっちへ移動させて。
00:20:03反発させるか漂わせるかといったオプションもありますね。
00:20:08それにしても、明るすぎて
00:20:11見えにくいです。
00:20:12明るすぎて粒子がよく見えないことを伝えたら、
00:20:14改善してくれるかな。
00:20:14ヒーロー要素を支配しすぎている気がします。
00:20:16明るさを少し落として、
00:20:18もう少し右に寄せることはできるかな。
00:20:20今は存在感が強すぎて、
00:20:23左側のテキストを読もうとしても
00:20:25粒子が眩しすぎて何も見えません。
00:20:27これが2回目の実行結果です。
00:20:30少しはマシになりました。
00:20:31圧倒的な明るさは抑えられ、テキストを表示する余地ができました。
00:20:35ただ、少しぼやけている感じもしますが、
00:20:39まあ、悪くはないですね。
00:20:41多少曖昧なリクエストだったことを踏まえれば、
00:20:44やるべきことはやったと言えます。
00:20:46デザイン自体に感動したわけではありませんが、
00:20:49怒るようなレベルでもありません。
00:20:51ではClaude Codeを見てみましょう。
00:20:52これらをやっている間、
00:20:55DeepSeekはずっと裏で
00:20:57必死に考えていたようです。
00:20:58こちらがClaude Codeの出力です。
00:21:01……何もないですね。
00:21:06背景全体が、
00:21:10WebGLになっているつもりなのか、
00:21:14そう思いたいところですが。
00:21:19かなり控えめな表現ですね。
00:21:21こういう手法もありかもしれません。
00:21:24画面上では、
00:21:25かっこいいとは言えますが、正直なところ、
00:21:28もう少し派手なものを期待していました。
00:21:31それで2回目のパスで、
00:21:31もっと派手にするように指示しましたが、
00:21:34大きな変化はありませんでした。
00:21:35かなり繊細な表現ですね。
00:21:38フィルム粒子のようなものがあって、
00:21:40下から上へぼかしが流れているような。
00:21:43とても控えめな演出です。
00:21:45画面下部を見ると、
00:21:47フレームレート(FPS)をトラッキングしています。
00:21:49250,000個の粒子を使っていますね。
00:21:51まあ、素直にかっこいいとは思います。
00:21:54派手ではないというだけで。
00:21:56好みの問題ですね。
00:21:58Claude Code側の合計トークンは約175,000で、
00:22:01Codex上の5.5よりも少し時間がかかりました。
00:22:05ではDeepSeekを見てみましょう。
00:22:07現時点で116,000トークンを消費しています。
00:22:10一番時間がかかりましたね。
00:22:12コスト面では、繰り返しになりますが1ドル以下です。
00:22:15出力結果がこちらです。
00:22:17なんだか粒子がフィールドみたいになっていて、
00:22:21マウスを少し追いかけてきます。
00:22:25興味深いですね。
00:22:27下手をするとてんかん発作を起こしそうです。
00:22:29正直、それ以外はかなり退屈ですね。
00:22:35X線のようなものが色を変えていきますが、
00:22:39結局この程度しか作れなかったようです。
00:22:43DeepSeekに2回目のパスを指示した結果、
00:22:45戻ってきたのがこれです。
00:22:46奇妙な視差(パララックス)効果が付いています。
00:22:49背景に青っぽい何かが動いていて。
00:22:53UFOのようなものがマウスに反応しますが、
00:22:55うーん。
00:22:58まあ、何かにはなっていますね。
00:23:02全体として、DeepSeekのトークン数は130Kで、
00:23:05費用は1.43ドルでした。
00:23:08さて、これら全てのテストを終えて、結局どうなったのか。
00:23:13最終結果について話しましょう。
00:23:15まずテスト1のフライトシミュレーターですが、
00:23:16明らかな勝者がいました。
00:23:18Codex環境下のGPT 5.5です。
00:23:21Claude Code環境下のOpus 4.7よりも速かった。
00:23:25処理速度も速く、結果も断然最高でした。
00:23:29DeepSeekはフライトシミュレーターでは散々でした。
00:23:32目的からは程遠い出来です。
00:23:345.5の最初のパスと同等にするには、
00:23:35ひたすらプロンプトを入力し続ける必要があったでしょう。
00:23:38Opus 4.7やClaude Codeは、
00:23:43ええと、ひどくはなかった。
00:23:46最初はうまく機能しなかったものの、
00:23:48何度かプロンプトを与えれば、
00:23:50GPT 5.5がやっていたことと
00:23:52同等のレベルに持っていけることが分かりました。
00:23:54それだとプロンプトを何回も送る必要があります。
00:23:55時間も余計にかかりますし、
00:23:57結局のところコストも高くなってしまいます。
00:23:59なので、5.5の圧勝ですね。
00:24:01Web GPUのランディングページに関しては、
00:24:03ここでもDeepSeekは苦戦しました。
00:24:04正直、あまり好きではありませんでした。
00:24:06これが一体何なのか、よく分かりません。
00:24:08確かに、すごく良いプロンプトを与えたわけではありませんが、
00:24:10これが平均的なベースラインの成果として
00:24:13出てくるものなのでしょうか?
00:24:16DeepSeekの手綱をしっかりと握って
00:24:19強制的に何かをさせない限りは、そうなるのでしょうね。
00:24:22さて、Opusと5.5を比較した時ですが、
00:24:24Web GPUの処理に関しては
00:24:27Opus 4.7とClaude Codeの方が良かったと思います。
00:24:29これは好みの問題という側面もあるかもしれません。
00:24:315.5の方が派手だったという意見もあるでしょうが、
00:24:35私は少し格好悪いと思いました。
00:24:37繰り返しになりますが、どのテストもプロンプトはかなり曖昧にして、
00:24:41どのような道筋をたどるかを確認しました。
00:24:43ですから、ここでは間違いなくOpusに軍配を上げます。
00:24:46コストが高く、
00:24:48時間も少しかかってしまいましたけどね。
00:24:50もし、もっと具体的なプロンプトで、
00:24:55やりたいことを細かく指示していれば、
00:24:575.5は私たちの意図したことを実行してくれました。
00:24:59Web GPUのランディングページを作成する、というタスクですね。
00:25:02ただ、見た目が好みではありませんでした。
00:25:04それでも、タスクは完遂しています。
00:25:06Opusほど上手くはなかったというだけです。
00:25:08さて、これらを総合して
00:25:09全体的にどういう意味があるのでしょうか?
00:25:11エージェントコーダーを使っている人にとっては、
00:25:13素晴らしいニュースだと思います。
00:25:16選択肢があるというのは良いことですよね。
00:25:18OpusとClaude Codeを使うこともできますし、
00:25:20GPT 5.5とCodecsを使うこともできます。
00:25:23どちらを選んでも間違いではありません。
00:25:25現時点では完全に個人の好みの問題だと思います。
00:25:28さらに良いのは、Claude Codeのやり方を学べば、
00:25:31それはほぼそのままCodecsにも応用できる点です。
00:25:33Codecsの道を学んだとしても、
00:25:34それはClaude Codeに当てはまります。
00:25:37ですから、特定のツールに縛られるような
00:25:40ベンダーロックインは存在しないと思います。
00:25:42Claude Codeしか知らなくて他には移行できない、なんてことはありません。
00:25:44そんなことは全くありません。
00:25:45正しいやり方で学んでいれば、
00:25:46本質的なAIの基礎知識や、
00:25:48いかにして構築するかという能力が身につくはずです。
00:25:49それはどちらにも通用するスキルです。
00:25:51競争が激しくなればなるほど、
00:25:53消費者である私たちにとって恩恵が大きくなります。
00:25:54さて、DeepSeekについては、うーん、どうでしょう。
00:25:59あまり感銘を受けませんでした。
00:26:00もしかすると、
00:26:02OpusやGPT 5.5ほどのパワーが必要ない、
00:26:04シンプルなタスクであれば、
00:26:06DeepSeekが適しているケースもあるかもしれません。
00:26:10何と言っても、
00:26:118分の1のコストで使えるわけですから。
00:26:13ですが、当然ながらそれも考慮に入れる必要があります。
00:26:16期待外れでしたが、8倍も悪かったでしょうか?
00:26:19そうとも言い切れません。
00:26:21それを明確に定量化するのは
00:26:23なかなか難しいところです。
00:26:24ですが、当然考慮に入れるべき要素ではあります。
00:26:27率直に言って、4.7や5.5と
00:26:30競合するレベルではないと思います。
00:26:33ただ、単純なタスクで、
00:26:35とにかくコストやトークン数を抑えたいという場合には、
00:26:38DeepSeekが理にかなっているかもしれませんね。
00:26:41今日のところは以上です。
00:26:42この3つのモデルの違いや、
00:26:45比較の仕方が少しでも参考になれば幸いです。
00:26:47今はAIの分野にとって素晴らしい時代です。
00:26:49競争が激しいことは誰にとっても良いことです。
00:26:51いつものように、もしClaude Codeマスタークラスに
00:26:53興味がある方は、
00:26:55ぜひChase AI Plusをチェックしてください。
00:26:56概要欄にリンクを貼っておきます。
00:26:58またお会いしましょう。