GLM 5.2が私のお気に入りのモデルになりました...

日本語العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 한국어 Português Русский 中文

컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00今、世界で最高のオープンモデルはOpenAI社のものではなく、

00:00:04もちろん中国の研究所によるものです。それがZaiのGLM 5.2です。このモデルは本当に印象的で、

00:00:10特定のベンチマークでGPT 5.5に匹敵し、

00:00:15なんとMITライセンスのオープンモデルなのです。詳しく見ていきましょう。GLM 5.2は総パラメーター数7440億のモデルで、

00:00:26アクティブパラメーターは400億です。前身のGLM 5.1と同じサイズなのですが、

00:00:31それなのに知能指数でこれほどの飛躍を遂げたのは非常に驚異的です。

00:00:35これはArtificial Analysisのインテリジェンス指数によるもので、推論やコーディング、

00:00:40科学など多くのベンチマークを統合したスコアです。GLM 5.2のスコアは51で、前モデルより11も高く、

00:00:45かなりの差をつけてトップのオープンモデルとなっています。次はQwen 3.7、そしてMinimax M3、

00:00:51その次にKimi k 2.6と続きます。Gemini 3.5 FlashやGPT 5.4と同じ領域に位置しており、

00:00:57これは驚くべきことです。この指標に含まれるGPT-4Vのようなベンチマークでは、

00:01:03GPT 5.5のスコアを上回っています。コーディングに絞っても、コーディング指数で素晴らしい結果を出しており、

00:01:09Gemini 3.1 Proと同スコアで、Sonic 4.6をも上回っています。トップの最先端モデルからもそう遠くありません。

00:01:14最新モデルのKimi k 2.7 Codeよりもかなり進んでいます。私も含め多くの人がKimiモデルの

00:01:19使い心地の良さが大好きで、ファンも多いです。

00:01:23コーディング指数以外で最近人気のベンチマークといえば、

00:01:27Deep SWEがあります。それを見ると、Medium effortでOpus 4.7を上回っており、

00:01:33これは本当に素晴らしいことです。ただし、すべてのモデルがテストされたわけではないことは注意が必要です。

00:01:38テストに使われたハーネスはClaude Codeで、APIを工夫してAnthropicではなくZaiに向けるという

00:01:42トリックを使っています。私が好きな最後のベンチマークはDesign Arenaです。

00:01:47ここで事態は面白くなります。GLM 5.2はDesign Arenaの

00:01:53シングルターンHTMLウェブデザインリーダーボードで総合1位を獲得しました。Claude系列を

00:01:58Fable 5を含めて打ち負かした最初のモデルです。モデルの注力エリアだったようで、Design Arenaの

00:02:02さらなる調査によると、GLM 5.2には一般的なAIのアンチパターンを避ける

00:02:08強力なエキスパートテンプレートのセットがあるようです。紫のグラデーションなどが減り、

00:02:12Chart.js、Three.js、Tailwindといった一般的なライブラリとも非常にうまく機能します。少し動作が

00:02:18遅いというトレードオフはありますが、それについては後で触れます。Design Arenaですべて1位というわけではなく、

00:02:22ゲーム開発、データ可視化、3Dでは2位、UIコンポーネントでは4位でした。それでも

00:02:28非常に素晴らしい結果です。デモアプリで試してみたところ、最初はLinearの再現でした。

00:02:32GLM 5.2の欠点として、テキストモダリティしか受け付けないという点があり、

00:02:37スクリーンショットをアップロードして「これを再現して」と言うことはできません。

00:02:42そこでClaudeにスクリーンショットを送り、再現するためのプロンプトを作成してもらい、

00:02:46それをGLM 5.2に入力しました。その結果は非常に

00:02:51印象的でした。左が実際のLinearのウェブページで、右がGLMの

00:02:55再現です。要素を正しく捉えています。スクリーンショットはこちらで、

00:02:59実際にUIを再現しました。スクロールしていくと、

00:03:04Linearのウェブサイトの全体的な雰囲気がよく再現されており、非常によくできていると思います。

00:03:09完璧ではありません。スクリーンショットを読み込めなかったので、

00:03:14先ほどのテキストプロンプトからの再現ですが、このウェブページはとても見栄えが良いです。比較のために、

00:03:19左はClaude Opus 4.8で同じプロンプトを使った結果です。こちらは

00:03:23Kimi k 2.7 Codeですが、どれもそのプロンプトから十分にウェブサイトを再現できています。

00:03:29個人的にはKimi k 2.7が最も気に入っています。全体的な

00:03:34雰囲気が良く、完成度が高いと感じます。次は、

00:03:38おそらく学習データに含まれていないであろう、新しいウェブサイトを設計させてみました。

00:03:42「North Star」という架空のAIパーソナルプランニングアプリの美しいサイトを作れという指示です。

00:03:46ご覧のように、

00:03:50ヒーローセクション、社会的証明、価格セクションなど、通常の構成要素を盛り込みました。

00:03:56デザインの方向性は「クリーンでプレミアムなSaaSの美学」、

00:04:00「ソフトなグラデーション、力強いタイポグラフィ、丸みを帯びたカード」などです。2つのモデルから返ってきた結果がこちらです。

00:04:06どちらがどれかは最後に教えますが、スクロールしていくと

00:04:10本当に素晴らしい出来栄えです。価格セクションなど、基本的なスタートアップサイトとしては

00:04:15かなりよくできています。右側も同じです。こちらのスタイルの方が少し

00:04:20好みかもしれませんが、紫のグラデーションを使った「AIっぽい」見た目になっています。

00:04:25私にはこちらのほうが少しクリーンで完成度が高いように感じました。

00:04:29完全な主観です。もし気に入ったものがあればコメント欄で教えてください。ついでにチャンネル登録も

00:04:33お願いします。左側がGLM 5.2で、右側がClaude Opus 4.8でした。

00:04:39参考までに、Kimi k 2.7 Codeの結果がこちらです。

00:04:43こちらも例の紫のグラデーションの「AIっぽい」見た目になっています。Claudeのものに似ていますが、

00:04:48アニメーションが少なく、洗練度がやや低いです。また、もしデザインの指示なしで

00:04:53GLM 5.2がどうなるかも確認しました。プロンプトの冒頭部分だけを与えたのですが、

00:04:56出力が悪いとは思いませんが、デザインの「AIらしさ」がないというDesign Arenaの評価には

00:05:01同意しづらいです。紫のグラデーションを多用しています。次は、

00:05:05Three.jsのアプリケーションを一度のプロンプトで生成させてみました。「シルバーストーンをF1カーで

00:05:10レースできる3.jsゲームを作れ」という指示です。これには動きがあり、

00:05:15全部で約10分かかりました。スクロールしていくと、4万トークンを消費し、費用は32セントでした。

00:05:20GLM 5.2の出力結果がこちらです。「シルバーストーンF1」とあり、エンジンを

00:05:25始動できます。ちなみにルイス・ハミルトンがフェラーリで優勝したのですね！素晴らしいです。

00:05:30ちゃんとフェラーリの赤い車があります。ただ、理想より少し速度が遅い気がします。

00:05:35気づいたのは、Aを押すと右に行き、Dで左に行くということ。コントロールが

00:05:40反転しています。矢印キーではそうでもないようです。スピードも

00:05:45フェラーリにしては物足りないですが、初回の試みとしては悪くありません。

00:05:51バックの方が速いようです。いっそ後ろ向きに走った方が良いかもしれません。Kimi k 2.7 Codeでも

00:05:55同じテストを試みましたが、一度のプロンプトでは動くものは戻ってきませんでした。

00:05:59コンソールでエラーがループしていたので、エラーが出ていると

00:06:04伝えたところ、2回目のプロンプトで修正してくれました。

00:06:08こちらは11万トークンとより多く消費し、コストは81セントでした。結果は

00:06:14少しプレイしにくかったです。スピードは出ますが、旋回性能がひどいです。

00:06:19こんな曲がり方をするF1ドライバーは見たことがありません。建物の中も突き抜けて走れます。

00:06:23シルバーストーンのコーナー名が再現されているのは良いですが、コースがなく、

00:06:27ただのボラードがあるだけのようです。最後はClaude Opus 4.8で、こちらは比較的プレイ可能です。

00:06:33シルバーストーンのコースの真ん中に木があったかどうかは定かではありませんが、

00:06:37全体的には良いゲームです。カメラコントロールもあり、

00:06:42実際のF1ならホイールが壊れそうですが、ハンドリングも

00:06:47問題ありません。ただ、コース自体はこれまで見てきた中で最も

00:06:52混乱するようなレイアウトで、どこへ行けばいいのか分かりません。

00:06:57ですが、Opus 4.8が単一プロンプトで最もプレイ可能なデモを提供したと言えます。最後のテストは

00:07:02より複雑なもので、パーソナルファイナンス管理ダッシュボードのフロントエンドとバックエンドをゼロから作らせました。

00:07:07機能はここにリストした通りです。どんな技術スタックを選択し、

00:07:11エラーなしでフロントとバックを一度のプロンプトで繋げられるかを確認します。

00:07:16GLM 5.2の挑戦です。かなり基本的なダッシュボードですが、

00:07:22特に凝った指示を出したわけではないのでこれで十分です。

00:07:26すべて機能しています。データベースへの追加もでき、

00:07:32Fable 5のサブスクリプションも支払いました。ページはクリック可能で、データも

00:07:37正しく反映されます。テストした結果、単一プロンプトで非常によく出来ています。

00:07:41どのようなスタックを選んだかも気になります。Next.jsアプリケーションで、

00:07:46データベースにはPrismaを使っていました。開発データベースもあります。

00:07:50個人的にはDrizzleやTanStackの方が好みでしたが、指示なしだったので

00:07:55文句は言えません。Kimi k 2.7 Codeの結果は、

00:07:59ほぼ同じアプリケーションです。あまり洗練されていません。

00:08:04どこかの学習テンプレートに似たものがあるのでしょう。文句は

00:08:09これについては文句を言うほどではないですが、

00:08:13転送用ボタンのような追加機能がすべて欠けています。口座機能や取引追加は動作しますが、

00:08:18全体的なUIやUXは、情報が連動していないため劣ると言わざるを得ません。

00:08:23デフォルトのスタックも少し劣ります。ReactにViteとReact Routerを使用していて、

00:08:28それは良いのですが、バックエンドはExpressでした。

00:08:33データベースファイルを見ると、Node SQLiteで書き込んでおり、

00:08:39スキーマをテキストに書き込んでいるので、スケールさせるには

00:08:43少し厳しいかもしれません。もし知識なしで適当にコードを作るならGLM 5.2が良いでしょう。

00:08:48Kimi k 2.7 Codeなら、最初からDrizzleやNext.jsの使用を指示したはずです。

00:08:53好みは人それぞれですが、これはClaude Opus 4.8の結果です。

00:08:58これまでのものとは全く異なるスタイルになりました。

00:09:03最近Claudeが好むテキストスタイルで、

00:09:07学習データか、そうなるように調整されているのでしょう。

00:09:11すべてうまく機能していて、見た目もとても良いです。別のフォントや

00:09:16カラーテーマを使うよう指示したくなるかもしれませんが、ベースは優れています。

00:09:20ページを分離せずセクション分けにした点は少し劣るかもしれませんが、

00:09:25これもプロンプト次第です。機能はすべて動作しています。Opusの

00:09:29コードを見ると、今回はGLM 5.2が勝ったかもしれません。

00:09:34OpusはReactアプリケーションにReact Routerすら使わず、

00:09:38単一ページで完結させていました。バックエンドにはExpressを

00:09:43使いつつもデータベースに接続せず、

00:09:48インメモリのJavaScriptオブジェクトでデータを管理していました。

00:09:53将来的なスケールを考えると理想的ではありませんが、プロンプト次第ですね。

00:09:58ここ数日モデルをテストした結論としては、多くのタスクで

00:10:02GLM 5.2をSonnetやOpusの代わりに使っても、気づかれないレベルかもしれません。

00:10:07本当に有能なモデルであり、適切な指示を与えれば

00:10:12非常に良い結果が得られます。使いこなすために奮闘する必要を感じない、

00:10:16初めてのオープンモデルの一つです。「Claudeの方が速くうまくできるのに」という

00:10:21感覚がありません。最後にトークン、コスト、

00:10:25速度についてです。GLM 5.2の短所は、他のモデルに比べて

00:10:31少しトークンを消費しやすい点です。1タスク平均43,000トークンで、Kimi k 2.6や

00:10:37Minimax、Deep Seekより多いです。しかし朗報として、

00:10:41プロバイダーによりますが、入力トークン100万あたり約1.40ドル、出力で4.40ドルと安価です。

00:10:47Artificial Analysisのベンチマークでは、1タスク約50セントで、

00:10:52コスト対インテリジェンスの点では非常に良い位置にあります。Geminiのラベルは無視してください、この青い

00:10:57点がそうです。混雑したチャートですが、その知能

00:11:02レベルにおいてGLM 5.2は最安のモデルです。もし知能を多少妥協できるなら、

00:11:07MinimaxやDeep Seek V4もコスト対性能で優れています。スピードに関して、

00:11:12GLM 5.2は悪くありません。同レベルのオープンモデルである

00:11:17Deep Seek V4、Kimi 2.7 Code、Minimaxよりも高速でした。Gemini 3.1 Proのような

00:11:24frontierモデルには及びませんが、あれはfrontierモデルですし、

00:11:28GoogleにはGemini 3.5 Proを早くリリースしてほしいですね。デザインArenaでの

00:11:33スピード評価では結果が異なり、GLM 5.2がユーザー評価で最高を

00:11:38記録しましたが、トップモデルの中では最も低速でした。ただし、

00:11:42トップモデルはすべてfrontierモデルです。全体として、

00:11:47オープンモデルが4〜6ヶ月遅れている地点にいるようです。

00:11:51楽観的に言えば、来年にはFableモデルが出てくるかもしれません。彼ら自身が

00:11:56Q1を約束しています。次の人には同意したくないのですが、良い指摘をしています。

00:12:01ベンチマークではFableに追いつくかもしれませんが、実際の有用性は

00:12:06少し異なります。Anthropicのモデルはそこが優れているのです。めったに褒めませんが、

00:12:10実際の使用感は異なるとの意見には同意せざるを得ません。

00:12:14ですがGLM 5.2はその壁を破った初めてのモデルの一つです。

00:12:191年前にオープンモデルがこれほど良くなると言われていたら、

00:12:23絶対に信じなかったでしょう。

00:12:27終末の備えをしているわけではありませんが、最近のFable禁止措置を受けて、

00:12:31万が一のためにSSDにGLM 5.2をダウンロードしておきたい気分です。コメント欄で皆さんの感想を教えてください。

00:12:36お気に入りのオープンモデルは何ですか？登録も

00:12:40お願いします。それでは、また次の動画で。

Key Takeaway

GLM 5.2は、オープンモデルとして初めてフロントエンド開発やコーディングタスクにおいてGPT-4VやClaude Opus 4.7などの最先端モデルに匹敵、あるいは凌駕する性能とコストパフォーマンスを実現した。

Highlights

GLM 5.2は総パラメーター数7440億、アクティブパラメーター数400億で、Artificial Analysisのインテリジェンス指数スコアは51を記録した。
Design ArenaのシングルターンHTMLウェブデザインリーダーボードで、GLM 5.2はClaude系列を含むすべてのモデルを抑えて総合1位を獲得した。
テキストモダリティのみ対応のため、スクリーンショットからのUI再現には別途生成したプロンプトが必要となる。
パーソナルファイナンス管理ダッシュボードの構築において、GLM 5.2はNext.jsとPrismaを用いた機能的なアプリケーションを単一プロンプトで生成した。
GLM 5.2は、同レベルのオープンモデルであるDeep Seek V4、Kimi 2.7 Code、Minimaxよりも高速な推論性能を示す。
コスト面では、入力トークン100万あたり約1.40ドル、出力で4.40ドルと設定されており、同等の知能レベルを持つモデルの中で最安である。

Timeline

GLM 5.2の概要とインテリジェンス評価

GLM 5.2は7440億の総パラメーターと400億のアクティブパラメーターを持つMITライセンスのオープンモデルである。
推論、コーディング、科学を統合したArtificial Analysisのスコアは51で、トップのオープンモデルに位置する。
GPT-4VなどのベンチマークではGPT 5.5のスコアを上回り、コーディング指数でもGemini 3.1 Proと同等の評価を得ている。

GLM 5.2は前身のGLM 5.1と同サイズながら、知能指数で大きな飛躍を遂げた。現在のAIモデル市場において、GPT-4クラスのfrontierモデルと同じ領域に位置する極めて高い性能を備える。Deep SWEベンチマークでもClaude Opus 4.7をMedium effortで上回る結果を出しており、実用性の高さが示されている。

ウェブデザインとUI生成能力

Design ArenaのHTMLウェブデザインリーダーボードで総合1位を獲得した。
一般的なAIのアンチパターンを避けるエキスパートテンプレートを搭載し、Tailwindなどの主要ライブラリとの親和性が高い。
テキストのみの入力に対応しており、スクリーンショットから再現を行うにはプロンプトによる詳細な指示が必要である。

デザイン性能に関して、GLM 5.2はHTMLウェブデザインでClaude系列を打ち破った。デモアプリでの実験では、Claudeが生成したテキストプロンプトを介することで、Linearなどの複雑なウェブサイトのUIを高精度に再現できた。デザインの完成度は高く、Claude Opus 4.8やKimi 2.7 Codeと比較しても優れた結果を出している。

ゲーム開発とフルスタック開発の検証

Three.jsを用いたF1レースゲームの生成では、単一プロンプトで動作可能なデモを出力した。
パーソナルファイナンス管理アプリの構築において、Next.jsとPrismaを選択し、機能的に完結したコードを生成した。
Kimi 2.7 CodeやClaude Opus 4.8と比較して、設定不要でのコード生成品質で優位性を見せた。

コーディングテストにおいて、GLM 5.2は一度のプロンプトで動くアプリケーションを生成する能力を示した。F1レースゲームでは、他モデルがエラーを出す中で、コントロールの反転などの課題はあったもののプレイ可能な状態を実現。フルスタック開発でも、指示なしで現代的な技術スタックを選択し、データベース接続や取引ロジックを正しく実装した。

コストパフォーマンスと処理速度

タスクあたりの平均消費量は43,000トークンで、他のモデルと比較してトークン消費がやや多い。
入力100万トークンあたり1.40ドルという安価な価格設定で、知能対コスト比では最高水準にある。
同レベルのオープンモデルと比較して高速であり、frontierモデルに迫る実用性を持つ。

GLM 5.2は、ClaudeなどのSonnetやOpusの代替として十分に通用する能力を持つ。トークン消費量は多いものの、単価が非常に安いため、コスト対インテリジェンスの観点では極めて効率的である。オープンモデルが frontierモデルに対して抱えていた4〜6ヶ月の遅れを大幅に短縮した。

Community Posts

Write about this video