Transcript
00:00:00今、世界で最高のオープンモデルはOpenAI社のものではなく、
00:00:04もちろん中国の研究所によるものです。それがZaiのGLM 5.2です。このモデルは本当に印象的で、
00:00:10特定のベンチマークでGPT 5.5に匹敵し、
00:00:15なんとMITライセンスのオープンモデルなのです。詳しく見ていきましょう。GLM 5.2は総パラメーター数7440億のモデルで、
00:00:26アクティブパラメーターは400億です。前身のGLM 5.1と同じサイズなのですが、
00:00:31それなのに知能指数でこれほどの飛躍を遂げたのは非常に驚異的です。
00:00:35これはArtificial Analysisのインテリジェンス指数によるもので、推論やコーディング、
00:00:40科学など多くのベンチマークを統合したスコアです。GLM 5.2のスコアは51で、前モデルより11も高く、
00:00:45かなりの差をつけてトップのオープンモデルとなっています。次はQwen 3.7、そしてMinimax M3、
00:00:51その次にKimi k 2.6と続きます。Gemini 3.5 FlashやGPT 5.4と同じ領域に位置しており、
00:00:57これは驚くべきことです。この指標に含まれるGPT-4Vのようなベンチマークでは、
00:01:03GPT 5.5のスコアを上回っています。コーディングに絞っても、コーディング指数で素晴らしい結果を出しており、
00:01:09Gemini 3.1 Proと同スコアで、Sonic 4.6をも上回っています。トップの最先端モデルからもそう遠くありません。
00:01:14最新モデルのKimi k 2.7 Codeよりもかなり進んでいます。私も含め多くの人がKimiモデルの
00:01:19使い心地の良さが大好きで、ファンも多いです。
00:01:23コーディング指数以外で最近人気のベンチマークといえば、
00:01:27Deep SWEがあります。それを見ると、Medium effortでOpus 4.7を上回っており、
00:01:33これは本当に素晴らしいことです。ただし、すべてのモデルがテストされたわけではないことは注意が必要です。
00:01:38テストに使われたハーネスはClaude Codeで、APIを工夫してAnthropicではなくZaiに向けるという
00:01:42トリックを使っています。私が好きな最後のベンチマークはDesign Arenaです。
00:01:47ここで事態は面白くなります。GLM 5.2はDesign Arenaの
00:01:53シングルターンHTMLウェブデザインリーダーボードで総合1位を獲得しました。Claude系列を
00:01:58Fable 5を含めて打ち負かした最初のモデルです。モデルの注力エリアだったようで、Design Arenaの
00:02:02さらなる調査によると、GLM 5.2には一般的なAIのアンチパターンを避ける
00:02:08強力なエキスパートテンプレートのセットがあるようです。紫のグラデーションなどが減り、
00:02:12Chart.js、Three.js、Tailwindといった一般的なライブラリとも非常にうまく機能します。少し動作が
00:02:18遅いというトレードオフはありますが、それについては後で触れます。Design Arenaですべて1位というわけではなく、
00:02:22ゲーム開発、データ可視化、3Dでは2位、UIコンポーネントでは4位でした。それでも
00:02:28非常に素晴らしい結果です。デモアプリで試してみたところ、最初はLinearの再現でした。
00:02:32GLM 5.2の欠点として、テキストモダリティしか受け付けないという点があり、
00:02:37スクリーンショットをアップロードして「これを再現して」と言うことはできません。
00:02:42そこでClaudeにスクリーンショットを送り、再現するためのプロンプトを作成してもらい、
00:02:46それをGLM 5.2に入力しました。その結果は非常に
00:02:51印象的でした。左が実際のLinearのウェブページで、右がGLMの
00:02:55再現です。要素を正しく捉えています。スクリーンショットはこちらで、
00:02:59実際にUIを再現しました。スクロールしていくと、
00:03:04Linearのウェブサイトの全体的な雰囲気がよく再現されており、非常によくできていると思います。
00:03:09完璧ではありません。スクリーンショットを読み込めなかったので、
00:03:14先ほどのテキストプロンプトからの再現ですが、このウェブページはとても見栄えが良いです。比較のために、
00:03:19左はClaude Opus 4.8で同じプロンプトを使った結果です。こちらは
00:03:23Kimi k 2.7 Codeですが、どれもそのプロンプトから十分にウェブサイトを再現できています。
00:03:29個人的にはKimi k 2.7が最も気に入っています。全体的な
00:03:34雰囲気が良く、完成度が高いと感じます。次は、
00:03:38おそらく学習データに含まれていないであろう、新しいウェブサイトを設計させてみました。
00:03:42「North Star」という架空のAIパーソナルプランニングアプリの美しいサイトを作れという指示です。
00:03:46ご覧のように、
00:03:50ヒーローセクション、社会的証明、価格セクションなど、通常の構成要素を盛り込みました。
00:03:56デザインの方向性は「クリーンでプレミアムなSaaSの美学」、
00:04:00「ソフトなグラデーション、力強いタイポグラフィ、丸みを帯びたカード」などです。2つのモデルから返ってきた結果がこちらです。
00:04:06どちらがどれかは最後に教えますが、スクロールしていくと
00:04:10本当に素晴らしい出来栄えです。価格セクションなど、基本的なスタートアップサイトとしては
00:04:15かなりよくできています。右側も同じです。こちらのスタイルの方が少し
00:04:20好みかもしれませんが、紫のグラデーションを使った「AIっぽい」見た目になっています。
00:04:25私にはこちらのほうが少しクリーンで完成度が高いように感じました。
00:04:29完全な主観です。もし気に入ったものがあればコメント欄で教えてください。ついでにチャンネル登録も
00:04:33お願いします。左側がGLM 5.2で、右側がClaude Opus 4.8でした。
00:04:39参考までに、Kimi k 2.7 Codeの結果がこちらです。
00:04:43こちらも例の紫のグラデーションの「AIっぽい」見た目になっています。Claudeのものに似ていますが、
00:04:48アニメーションが少なく、洗練度がやや低いです。また、もしデザインの指示なしで
00:04:53GLM 5.2がどうなるかも確認しました。プロンプトの冒頭部分だけを与えたのですが、
00:04:56出力が悪いとは思いませんが、デザインの「AIらしさ」がないというDesign Arenaの評価には
00:05:01同意しづらいです。紫のグラデーションを多用しています。次は、
00:05:05Three.jsのアプリケーションを一度のプロンプトで生成させてみました。「シルバーストーンをF1カーで
00:05:10レースできる3.jsゲームを作れ」という指示です。これには動きがあり、
00:05:15全部で約10分かかりました。スクロールしていくと、4万トークンを消費し、費用は32セントでした。
00:05:20GLM 5.2の出力結果がこちらです。「シルバーストーンF1」とあり、エンジンを
00:05:25始動できます。ちなみにルイス・ハミルトンがフェラーリで優勝したのですね!素晴らしいです。
00:05:30ちゃんとフェラーリの赤い車があります。ただ、理想より少し速度が遅い気がします。
00:05:35気づいたのは、Aを押すと右に行き、Dで左に行くということ。コントロールが
00:05:40反転しています。矢印キーではそうでもないようです。スピードも
00:05:45フェラーリにしては物足りないですが、初回の試みとしては悪くありません。
00:05:51バックの方が速いようです。いっそ後ろ向きに走った方が良いかもしれません。Kimi k 2.7 Codeでも
00:05:55同じテストを試みましたが、一度のプロンプトでは動くものは戻ってきませんでした。
00:05:59コンソールでエラーがループしていたので、エラーが出ていると
00:06:04伝えたところ、2回目のプロンプトで修正してくれました。
00:06:08こちらは11万トークンとより多く消費し、コストは81セントでした。結果は
00:06:14少しプレイしにくかったです。スピードは出ますが、旋回性能がひどいです。
00:06:19こんな曲がり方をするF1ドライバーは見たことがありません。建物の中も突き抜けて走れます。
00:06:23シルバーストーンのコーナー名が再現されているのは良いですが、コースがなく、
00:06:27ただのボラードがあるだけのようです。最後はClaude Opus 4.8で、こちらは比較的プレイ可能です。
00:06:33シルバーストーンのコースの真ん中に木があったかどうかは定かではありませんが、
00:06:37全体的には良いゲームです。カメラコントロールもあり、
00:06:42実際のF1ならホイールが壊れそうですが、ハンドリングも
00:06:47問題ありません。ただ、コース自体はこれまで見てきた中で最も
00:06:52混乱するようなレイアウトで、どこへ行けばいいのか分かりません。
00:06:57ですが、Opus 4.8が単一プロンプトで最もプレイ可能なデモを提供したと言えます。最後のテストは
00:07:02より複雑なもので、パーソナルファイナンス管理ダッシュボードのフロントエンドとバックエンドをゼロから作らせました。
00:07:07機能はここにリストした通りです。どんな技術スタックを選択し、
00:07:11エラーなしでフロントとバックを一度のプロンプトで繋げられるかを確認します。
00:07:16GLM 5.2の挑戦です。かなり基本的なダッシュボードですが、
00:07:22特に凝った指示を出したわけではないのでこれで十分です。
00:07:26すべて機能しています。データベースへの追加もでき、
00:07:32Fable 5のサブスクリプションも支払いました。ページはクリック可能で、データも
00:07:37正しく反映されます。テストした結果、単一プロンプトで非常によく出来ています。
00:07:41どのようなスタックを選んだかも気になります。Next.jsアプリケーションで、
00:07:46データベースにはPrismaを使っていました。開発データベースもあります。
00:07:50個人的にはDrizzleやTanStackの方が好みでしたが、指示なしだったので
00:07:55文句は言えません。Kimi k 2.7 Codeの結果は、
00:07:59ほぼ同じアプリケーションです。あまり洗練されていません。
00:08:04どこかの学習テンプレートに似たものがあるのでしょう。文句は
00:08:09これについては文句を言うほどではないですが、
00:08:13転送用ボタンのような追加機能がすべて欠けています。口座機能や取引追加は動作しますが、
00:08:18全体的なUIやUXは、情報が連動していないため劣ると言わざるを得ません。
00:08:23デフォルトのスタックも少し劣ります。ReactにViteとReact Routerを使用していて、
00:08:28それは良いのですが、バックエンドはExpressでした。
00:08:33データベースファイルを見ると、Node SQLiteで書き込んでおり、
00:08:39スキーマをテキストに書き込んでいるので、スケールさせるには
00:08:43少し厳しいかもしれません。もし知識なしで適当にコードを作るならGLM 5.2が良いでしょう。
00:08:48Kimi k 2.7 Codeなら、最初からDrizzleやNext.jsの使用を指示したはずです。
00:08:53好みは人それぞれですが、これはClaude Opus 4.8の結果です。
00:08:58これまでのものとは全く異なるスタイルになりました。
00:09:03最近Claudeが好むテキストスタイルで、
00:09:07学習データか、そうなるように調整されているのでしょう。
00:09:11すべてうまく機能していて、見た目もとても良いです。別のフォントや
00:09:16カラーテーマを使うよう指示したくなるかもしれませんが、ベースは優れています。
00:09:20ページを分離せずセクション分けにした点は少し劣るかもしれませんが、
00:09:25これもプロンプト次第です。機能はすべて動作しています。Opusの
00:09:29コードを見ると、今回はGLM 5.2が勝ったかもしれません。
00:09:34OpusはReactアプリケーションにReact Routerすら使わず、
00:09:38単一ページで完結させていました。バックエンドにはExpressを
00:09:43使いつつもデータベースに接続せず、
00:09:48インメモリのJavaScriptオブジェクトでデータを管理していました。
00:09:53将来的なスケールを考えると理想的ではありませんが、プロンプト次第ですね。
00:09:58ここ数日モデルをテストした結論としては、多くのタスクで
00:10:02GLM 5.2をSonnetやOpusの代わりに使っても、気づかれないレベルかもしれません。
00:10:07本当に有能なモデルであり、適切な指示を与えれば
00:10:12非常に良い結果が得られます。使いこなすために奮闘する必要を感じない、
00:10:16初めてのオープンモデルの一つです。「Claudeの方が速くうまくできるのに」という
00:10:21感覚がありません。最後にトークン、コスト、
00:10:25速度についてです。GLM 5.2の短所は、他のモデルに比べて
00:10:31少しトークンを消費しやすい点です。1タスク平均43,000トークンで、Kimi k 2.6や
00:10:37Minimax、Deep Seekより多いです。しかし朗報として、
00:10:41プロバイダーによりますが、入力トークン100万あたり約1.40ドル、出力で4.40ドルと安価です。
00:10:47Artificial Analysisのベンチマークでは、1タスク約50セントで、
00:10:52コスト対インテリジェンスの点では非常に良い位置にあります。Geminiのラベルは無視してください、この青い
00:10:57点がそうです。混雑したチャートですが、その知能
00:11:02レベルにおいてGLM 5.2は最安のモデルです。もし知能を多少妥協できるなら、
00:11:07MinimaxやDeep Seek V4もコスト対性能で優れています。スピードに関して、
00:11:12GLM 5.2は悪くありません。同レベルのオープンモデルである
00:11:17Deep Seek V4、Kimi 2.7 Code、Minimaxよりも高速でした。Gemini 3.1 Proのような
00:11:24frontierモデルには及びませんが、あれはfrontierモデルですし、
00:11:28GoogleにはGemini 3.5 Proを早くリリースしてほしいですね。デザインArenaでの
00:11:33スピード評価では結果が異なり、GLM 5.2がユーザー評価で最高を
00:11:38記録しましたが、トップモデルの中では最も低速でした。ただし、
00:11:42トップモデルはすべてfrontierモデルです。全体として、
00:11:47オープンモデルが4〜6ヶ月遅れている地点にいるようです。
00:11:51楽観的に言えば、来年にはFableモデルが出てくるかもしれません。彼ら自身が
00:11:56Q1を約束しています。次の人には同意したくないのですが、良い指摘をしています。
00:12:01ベンチマークではFableに追いつくかもしれませんが、実際の有用性は
00:12:06少し異なります。Anthropicのモデルはそこが優れているのです。めったに褒めませんが、
00:12:10実際の使用感は異なるとの意見には同意せざるを得ません。
00:12:14ですがGLM 5.2はその壁を破った初めてのモデルの一つです。
00:12:191年前にオープンモデルがこれほど良くなると言われていたら、
00:12:23絶対に信じなかったでしょう。
00:12:27終末の備えをしているわけではありませんが、最近のFable禁止措置を受けて、
00:12:31万が一のためにSSDにGLM 5.2をダウンロードしておきたい気分です。コメント欄で皆さんの感想を教えてください。
00:12:36お気に入りのオープンモデルは何ですか?登録も
00:12:40お願いします。それでは、また次の動画で。