GLM 5.2 vs Opus 4.8 vs GPT 5.5を徹底比較してみた
CChase AI
Computing/SoftwareVideo & Computer GamesInternet Technology
Transcript
00:00:00GLM 5.2が今週リリースされました。私たちがこれまで見てきた中で、最も強力なオープンソースモデルです。
00:00:04ここにあるベンチマークのように、一部ではこのモデルが巨大なモデルを凌駕していることを示しています。
00:00:10例えばAnthropicのOpus 4.8やOpenAIの5.5などです。しかし、これらのベンチマークは本物なのでしょうか?このモデルは
00:00:18Opus 4.8やGPT 5.5と直接比較してどうなのでしょうか?今日の動画では、まさにその疑問に答えていきます。
00:00:25これら3つのビッグモデルで複数のテストを行い、
00:00:31実世界で実際にどのような性能を発揮するのかを見ていきます。さらに、
00:00:35特に重要だと思うベンチマークを掘り下げ、実際に
00:00:40GLM 5.2が一部のケースでOpusやGPT 5.5より優れているとはどういう意味なのかを解明します。それは
00:00:47効率が良いのか、低コストなのか、それともすべての面で優れているのか?
00:00:51さっそく本題に入りましょう。その前に、まず
00:00:56これら3つのモデルを比較する既存のベンチマークを見ていきましょう。
00:00:59私が本当に注目したいのはDeepSuiteです。DeepSuiteは
00:01:04比較的新しいベンチマークで、Terminal
00:01:08BenchやTerminal Bench Proを改良することを目的としています。このベンチマークを深く掘り下げることはしませんが、
00:01:12詳細については彼らのウェブサイトやGitHubリポジトリを確認してください。このベンチマークは
00:01:17TypeScript、Go、Python、JavaScript、
00:01:23そしてRustにわたる113の長時間の自律的なタスクを、分離された環境とプログラムベースの検証ツールで評価します。このグラフでは、
00:01:29左側に正解率、タスクあたりの平均コスト
00:01:34が見て取れます。右上を目指すのが理想です。最も効率的な領域は、グラフの
00:01:39右上です。そこが最低コストで最高スコアを出せる場所です。GLM 5.2
00:01:44maxは、タスクあたり3.92ドルで44%のスコアです。Opus 4.8とGPT 5.5と比較すると、
00:01:55彼らの方がはるかに優れていることが分かります。Opus 4.8はmaxで59%、5.5はextra highで67%です。明らかに、
00:02:04extra highやmaxではコストがかなり高くなります。GPT 5.5では7.23ドル、Opusでは13ドル、
00:02:12そしてGLMでは3.92ドルです。はるかに安いです。しかし、努力レベルを変えて
00:02:195.5やOpusを見ると、例えばOpus 4.8でmediumレベルの場合、
00:02:25GLM 5.2よりも高スコアで、なおかつ低コストになります。つまり3.44ドルで49%に対し、GLMは3.92ドルで44%です。これは
00:02:365.5では2.75ドルで54%となり、44%で3.92ドルのGLMと比較すると大きな差です。つまり、このベンチマークを
00:02:47額面通りに受け取れば、4.8と5.5はGLM 5.2の1ランク上です。驚くことではありません。これらは
00:02:55最高のフロンティアモデルであり、オープンソースではありません。本気を出せば、
00:03:01これらの長期タスクにおいてGLM 5.2を圧倒するでしょう。それは予想通りです。
00:03:07予想外かもしれないのは、より安くできるという事実が、ある種の問題だということです。
00:03:11GLM 5.2がオープンソースであることについて現在非常に多くの議論と誇大広告があるため、これをはっきりさせておきたいのです。
00:03:16それがすぐさま、とても、とても安くて、素晴らしいことができるという意味合いを持つのは分かります。
00:03:21ええ、数値上は良いですが、このベンチマークに基づくと4.8や5.5には及びません。
00:03:25そして覚えておいてください、これら4.8と5.5の数字はAPIコストに基づいています。もし私がmaxプランを利用していれば、これよりも10倍安くなります。
00:03:33OpenAIの100ドルや200ドルの月額プランを使っている場合も同じです。
00:03:40ですから、GLMがはるかに安いと言っているような議論には慎重になるべきです。そうではないからです。
00:03:46そして、たとえオープンソースであっても、
00:03:50この数字を出しているオープンソースモデルのGLM 5.2は、本当の意味で誰でもPCにダウンロードできる
00:03:56ようなものではありません。コードは見れますし、重みも見れますが、
00:04:01Ollamaで入手して個人のPCで実行できるという
00:04:05意味でのオープンソースとは少し違います。これはほぼ1兆パラメータあり、
00:04:09動作させるのに膨大なハードウェアが必要です。だから混同しないでください。一部の層がそう勘違いしているのは知っていますが、
00:04:14まずは状況を整理するために言いました。
00:04:20DeepSuiteの話ですが、これは非常に過酷なタスクです。
00:04:24今日は、もう少し低レベルで、
00:04:30平均的なユーザーが実行しているものに近いテストをいくつか行います。
00:04:35心に留めておいてください。
00:04:39コストについて認識を合わせましょう。Opus 4.8と5.5が安かった理由は、
00:04:44必要なことを成し遂げるために、より少ないトークンしか使わなかったからです。最終的にはより効率的でした。
00:04:50トークン単価については、入力と出力で100万トークンあたりのコストを見ると、
00:04:55GLM 5.2は入力1.40ドル、出力4.40ドルです。
00:05:01Opus 4.8は5.7倍高価で、GPTの5.5は6.8倍高価です。
00:05:10トークンベースでははるかに安いですが、私たちにとって重要なのはタスクの結果であり、
00:05:16必ずしもトークン単位の比較ではありません。実際のテストに入る前に、
00:05:21スポンサーである私からお知らせです。Chase AI Plusの中に私の「Cloud Code Masterclass」を公開しました。
00:05:26特に技術的な背景がない方にとって、AI開発者へとゼロから成長するためのナンバーワンの方法です。
00:05:30毎週更新しており、コーデックや独自の自律型OSを作成するためのマスタークラスも含まれています。
00:05:35もし詳しく知りたいけれど、何から始めればいいか分からないなら、Chase AI Plusがおすすめです。
00:05:40何から始めればいいか分からないなら、Chase AI Plusがぴったりです。固定コメントにリンクを貼っておきます。
00:05:46では、今回のテストの進め方を説明します。すべてのモデルに同じプロンプトと
00:05:49プロンプトとプランモードを与えます。モデルが計画を立てます。計画の内容に応じて、
00:05:53少しやり取りをするかもしれません。その後、実行させます。
00:05:58実行後、私の非常に主観的な評価基準を結果に適用し、
00:06:03どれが一番良かったかをお伝えします。もし私の評価基準や判断が気に入らなければ、
00:06:08コメントを残してください。削除しますからね。さて、左側には
00:06:14Codex内でextra highに設定したGPT 5.5があります。真ん中にはOpenRouter経由でextra highに設定したGLM 5.2を動かすOpenCodeがあります。
00:06:21右側にはhighに設定したOpus 4.8でCloud Codeを動かしています。
00:06:26なぜこれらの努力設定を選んだかというと、それが現実でほとんどの人が
00:06:32使っているからです。おそらく皆さんはmaxプランか、
00:06:37何らかのOpenAIプランを使っていて、Mediumでは動かしていないでしょう。正直に言って、
00:06:42この方が平均的なユーザーの日々の使い方をより反映していると思います。
00:06:47最初のプロンプトでは、ブラウザで動作する
00:06:51プレイ可能な3Dレースゲームを構築させます。重要な点として、プロンプトは曖昧なままにしておきます。自由に使って
00:06:56ウェブに出て、ベストだと思うスタックやライブラリを自由に選ばせます。では、
00:07:02実行してどうなるか見てみましょう。3つのモデルすべてがプランモードで動いています。
00:07:08プロンプトを曖昧にした考えは、これらのモデルからできるだけ多くの
00:07:12発散を見たいからです。すべてのやり方を指定したら、
00:07:18モデルの思考や、より面倒な問題へのアプローチは見えません。
00:07:2313分後、Opus 4.8が最初にしてレースゲームの作成を完了しました。
00:07:29中身を見てみましょう。ローポリゴンですね。サウンドは
00:07:37鳴っています。動きはかなりスムーズです。ドリフトもできるようです。
00:07:44芝生が物理演算に影響を与えます。全体的にはかなりスムーズですが、
00:07:54退屈ですよね。基本的なレーストラックです。特に、AIなどは追加されていません。
00:07:59AIなどが組み込まれているわけでもありません。ですから、他のモデルが複雑さの面で
00:08:04どのような結果を出すのか興味があります。もしこれらが同じような
00:08:09次は少し難易度を上げたプロンプトを出します。次は
00:08:13GLM 5.2です。Claude Codeより5分長くかかりました。参考までに、GPT 5.5はまだ
00:08:20作業中です。驚きではありませんが、少し遅い傾向があります。トークン比較では、
00:08:26Claude Codeはそれを作るのに約10万トークン使いました。GLM 5.2は100万を超えました。
00:08:33OpenRouterで確認すると、総コストは1.21ドルでした。ゲームを作るためのトークン総量は135
00:08:41万でした。面白いトラックができましたね。
00:08:48コントロールはClaude Codeと比べてかなり急激です。トラック自体に対して速すぎます。
00:08:53本当に速い。そしてトラックとフィールドの間に明確な区別がほとんどありません。
00:09:00ある状況では、今見たように、トラックを通り抜けることができました。
00:09:09車自体もClaude Codeよりもディテールが少ないですね。
00:09:15トラックはあり、タイマーもあります。ゲームプレイとしては、少しジャンキーで、
00:09:23それほどスムーズではありません。Opusで見たようなローポリゴンの状況です。
00:09:30もっと良く作るように指示したらどうなるか興味があります。このトラック自体も、あまり意味を成していません。
00:09:36次はGPT 5.5が作成したものです。
00:09:40「ファウンドリー・サーキット」と呼んでいます。スチールワークを通るタイムトライアルのナイトシフトです。
00:09:44前の2つとは少し違いますね。
00:09:50スタートしましょう。どこに行けばいいのか分かりません。
00:09:54これがトラックかな。ホイールが興味深いです。逆回転していますね。
00:10:04どこへ行けばいいのか分かりませんが…ああ、これがコースか。ホイールが少し面白いですね。
00:10:10逆向きに回っているような。それにしても、すごく耳障りな音がしますね。
00:10:21ホイールが横を向いているのがどうしても気になります。なんて表現すればいいんでしょうか。
00:10:28トラックを過ぎると速度が落ちます。Opusが作ったもののような舗装されたトラックであることが明確ではありません。
00:10:35フィールドとの区別がつきません。
00:10:41グラフィックが奇妙です。Opusの2倍の時間がかかっているのに、なぜか奇妙です。
00:10:48なぜホイールがこうなっているのか分かりません。またローポリゴンを選びました。
00:10:55理由もなく非常に暗いです。GLM 5.2よりも機能的かもしれませんが、大差ありません。
00:11:005.5のextra high設定でした。トークン使用量はClaude Codeとほぼ同じで、
00:11:065時間のウィンドウの7%しか使いませんでした。
00:11:12全体的な順位ですが、Opus 4.8がGLM 5.2と5.5より明らかに優れていたと思います。
00:11:17後者はジャンキーだと思いました。もう一度チャンスを与えます。
00:11:22コードを再確認し、グラフィックを改善させます。
00:11:28AAAゲームのように見えることを目指します。試行2の結果を見てみましょう。
00:11:32コードを見直させて、もう一度やり直してもらうつもりだ。それと、
00:11:36グラフィックももっと改善してほしい。ローポリゴンなのは嫌なんだ。AAAタイトル
00:11:40車がずっと良くなっています。改善の幅が大きいです。
00:11:46照明も違います。地面に反射する太陽が見えます。
00:11:50すべてがよりスムーズです。木はローポリゴンですが、照明と車は大きな進歩です。
00:11:58スムーズなゲームプレイは保たれています。木が道路にありますが、木にも影があります。
00:12:0410分間と5万トークンで、悪くありません。次はGLMです。
00:12:10合計でさらに120万トークン消費し、総額は1.83ドルになりました。
00:12:15照明を改善しようとしたようです。車は少し良くなりましたが、照明は奇妙です。
00:12:20眩しすぎます。トラック自体はあまり変わっていません。芝生ばかりです。
00:12:26コントロールは依然としてジャンキーで急激です。前と同じ問題があります。
00:12:32車は良くなりましたが、 glareがひどすぎて気が散ります。
00:12:38以前よりダウングレードです。次は5.5の2回目の試行です。
00:12:46少し良くなりましたが、照明自体が少し奇妙です。非常に眩しい感じで。コース自体は
00:12:52それほど変わっていません。どこもかしこも草ばかりという感じで。それに
00:12:57まだ不快なノイズがあります。通路と芝生の区別もありません。
00:13:041回目と全く同じですが、少しだけ車が改善された程度です。
00:13:10AAAの美学を目指したと言えるレベルではありません。
00:13:15GLMと5.5は明らかにOpusより1ランク下です。
00:13:21次のテストはウェブサイトの構築です。プロンプトはこれです。
00:13:29AI搭載スマートグラス製品の偽のランディングページを作ります。Meta Ray-Bansのようなものです。
00:13:34スタックとデザインに全権を与えます。ベストプラクティスを調べさせます。
00:13:42画像や製品ショットを探させ、HTMLを自分で書くだけに頼らないように指示します。
00:13:49アワードサイトのような外観を求めます。「AIスロップ(粗悪品)」にはしたくない。
00:13:55視覚的なヒエラルキー、意図的なタイポグラフィ、必要であればモーションを求めます。
00:14:02何を作るか見てみましょう。参考までに、GLMは100万トークンを消費し、
00:14:07Opusと5.5は約10万トークン消費しました。
00:14:12まずOpusが作ったものですが、非常に暗い背景です。
00:14:16作成した眼鏡があり、テキストが途切れています。
00:14:20スクロールテキストがその上にかぶっていて配置が奇妙です。
00:14:25そして画像や製品写真も探すように指示しました。単にHTMLを作成するだけに頼らないようにと。そして重要なのが、
00:14:31受賞サイトのように見栄え良くすることです。AIが作ったような安っぽいものではなく、本物の
00:14:35HTMLの使用は理解できます。眼鏡の画像すら見つけてきませんでした。
00:14:42予約方法や購入ボタンはあります。
00:14:46アワードスタイルを求めましたが、そのレベルではありません。
00:14:53次はGLMが作ったものです。
00:14:58何が起きているのか分かりません。ほとんど読み込まれていません。
00:15:04残念ですね。下にスクロールしていくと、スクロールするテキストが重なって見えてしまうので、
00:15:12配置が少し変です。でもマウスを乗せると、あちこちに動いて色が変わるのが面白いですね。
00:15:18指示が詳細でなかったとしても、もう少しできるはずです。これはひどい。
00:15:24全体的には、メガネのデザイン自体はHTMLで構成されていて問題ありません。
00:15:31結局のところ、これを使って何が得られるのでしょう?
00:15:35適切なメガネの画像すら見つけてこられませんでしたし。予約方法や購入方法の案内はありますが。
00:15:41まあ、良いでしょう。詳細な指示は出していませんでしたが、アワードサイトのような見た目を求めていました。
00:15:45個人的にはそのレベルには達していないと思います。では、GLMが作成したものを見てみましょう。
00:15:513つの中ではベストです。どれも最高とは言えませんが、
00:15:59UIデザインのような視覚的な作業がいかに難しいかを示しています。
00:16:04何が起きているのか分かりません。メスです。
00:16:13OpusはOK。5.5がベスト、GLMは完全な失敗。
00:16:19ゲームの時と同様、再挑戦させます。
00:16:25Three.js要素を組み込むように指示します。
00:16:30モーションやグラフィックの能力を見たい。
00:16:34プロンプトはこれです。Three.jsで没入型3D体験として再構築せよ。
00:16:39Opusのバージョンにもバナーはありましたが、動いてはいませんでした。下にスクロールしていくと、
00:16:44カーソルが何色か混ざったような色になっているのが分かります。スクロールしていくと、HTMLのような
00:16:50アセットを作成したようです。奇妙ですよね?「必要ならオンラインで検索していい」とは言いましたが。
00:16:55全体として、3つの中ではこれが一番マシでした。ですが、どれもすごく気に入ったというわけではありません。
00:17:04視覚デザインやUIのような作業をする際には、いかに手厚く指示を出さなければならないか、
00:17:09次はGLM 5.2。今回は理にかなったサイトを作りました。
00:17:14眼鏡の形は変ですが、テキストは途切れています。
00:17:21ホバーでスクロールするバナーがあります。Opusよりエッジがある。
00:17:26ゲーム版と同じように、もう一度やり直させて
00:17:30どこがうまくいかなかったのかを修正できるか見てみます。さらに、前回作成したゲームと
00:17:36同じようにThree.jsの要素を統合するよう指示します。モーションやグラフィックの
00:17:42能力をどれだけ引き出せるかを確認したいのです。新しいプロンプトはこんな感じです。
00:17:46「作成したスマートグラスのランディングページを、Three.jsを使って
00:17:51没入型の3D体験として作り直してください」。つまり、実際のインタラクティブな3Dシーンです。
00:17:56ここですべてを自由に実行させました。これがOpus 4.8の結果です。見ての通り
00:18:02Three.jsが追加され、メガネが動いています。しかしそれ以外は、元の問題が残っています。
00:18:08DeepSuiteのような洗練されたベンチマークの結果通りです。
00:18:13GLMが極端に悪いわけではありませんが、一歩劣ります。
00:18:21OpusやGPTと比較すると、GLMは常に最下位でした。
00:18:27圧倒的に劣るわけではありませんが、勝ってはいません。
00:18:32無限にトークンを消費します。
00:18:36DeepSuiteの効率、コスト、パフォーマンスで見ても、
00:18:42納得の結果です。
00:18:48GLMは偉大なオープンソースモデルですか?もちろんです。
00:18:55しかしオープンソースモデル特有の、パワフルでないという問題があります。
00:18:59オープンソースを最大化したい人へ、これはあなたのPCでは動きません。
00:19:05個人的にはOpus 4.8の方が好きですね。ですが、GPT 5.5が勝者だと思います。
00:19:10主観的なデザインの観点から見ても、全体的により良く見えますし、Three.jsによるモーショングラフィックスも
00:19:18AnthropicやOpenAIのMaxプランでの補助金を考慮すれば、
00:19:22議論の余地はありません。
00:19:27平均的な人にGLM 5.2を勧めますか?いいえ。
00:19:32低レベルなタスクをAPI価格のみで比較するなら別ですが。
00:19:37来週Sonnet 5が出たら、また乗り換えるのですか?
00:19:42エンタープライズやチームレベルでは、APIコストが積み上がります。
00:19:48補助金プランを利用する平均的なシングルユーザーには、
00:19:56GLM 5.2を選ぶ理由が見当たりません。
00:20:03今日の動画で、GLMをめぐる議論や誇大広告に光を当てられたなら幸いです。
00:20:07コメントで感想を教えてください。
00:20:12Cloud Code MasterclassにアクセスしたいならChase AI Plusをチェックしてください。
00:20:17また会いましょう。
00:20:21GLM 5.2が今週リリースされました。私たちがこれまで見てきた中で、最も強力なオープンソースモデルです。
00:20:27ここにあるベンチマークのように、一部ではこのモデルが巨大なモデルを凌駕していることを示しています。
00:20:35例えばAnthropicのOpus 4.8やOpenAIの5.5などです。しかし、これらのベンチマークは本物なのでしょうか?このモデルは
00:20:41Opus 4.8やGPT 5.5と直接比較してどうなのでしょうか?今日の動画では、まさにその疑問に答えていきます。
00:20:47これら3つのビッグモデルで複数のテストを行い、
00:20:52実世界で実際にどのような性能を発揮するのかを見ていきます。さらに、
00:20:57特に重要だと思うベンチマークを掘り下げ、実際に
00:21:05AnthropicのMaxプランやOpenAIのMaxプランで得られる巨額の補助金すら考慮に入れていません
00:21:12効率が良いのか、低コストなのか、それともすべての面で優れているのか?
00:21:16さっそく本題に入りましょう。その前に、まず
00:21:24これら3つのモデルを比較する既存のベンチマークを見ていきましょう。
00:21:29私が本当に注目したいのはDeepSuiteです。DeepSuiteは
00:21:38比較的新しいベンチマークで、Terminal
00:21:42BenchやTerminal Bench Proを改良することを目的としています。このベンチマークを深く掘り下げることはしませんが、
00:21:46詳細については彼らのウェブサイトやGitHubリポジトリを確認してください。このベンチマークは
00:21:50TypeScript、Go、Python、JavaScript、
00:21:55そしてRustにわたる113の長時間の自律的なタスクを、分離された環境とプログラムベースの検証ツールで評価します。このグラフでは、
00:22:01左側に正解率、タスクあたりの平均コスト
00:22:05が見て取れます。右上を目指すのが理想です。最も効率的な領域は、グラフの
00:22:09右上です。そこが最低コストで最高スコアを出せる場所です。GLM 5.2
00:22:13Cloud Code Masterclass」もチェックしてみてください。それでは、また。