00:00:00ZAIの新作GLM 4.7がリリースされた。年間29ドルという破格の値段で、
00:00:05開発元は73%のSWEベンチスコアを達成していると主張している。Sonnet 4.5と同等のレベルだ。
00:00:11このタイミングは偶然ではない。彼らはIPOを控えており、西側市場での人気を示す必要がある。
00:00:15RedditでライブQ&Aを開催することまでしている。中国のAI研究室がこんなことをするのは初めて見た。
00:00:19だが4.6には実際の問題があった。4.7は本当に改善されたのだろうか?
00:00:23皆さん、
00:00:23初めての方へ。ここはAI Labsです。「Debunked」シリーズへようこそ。このシリーズでは、
00:00:28AIツールとAIモデルを実際に使い、
00:00:30マーケティングの過剰広告を剥ぎ取り、
00:00:32実際のテストと正直な結果を通じて本当の性能を紹介しています。
00:00:35新しいモデルは主にポストトレーニングによって改善されたもので、アーキテクチャの変更ではない。
00:00:40Claudeコードに最適化されており、ZAIチームは明確にこれを優先するフレームワークと述べている。
00:00:46現在、GPT-5を含む多くのトップティアモデルを上回っており、特にコーディングベンチマークではそうだ。
00:00:52彼らのコーディングプランには、新しいMCPツールが追加されている。これらは直接統合されていない。
00:00:58別のMCPサーバーとして存在する。現在、3つがリストアップされている。
00:01:02これらがすべて機能するには、APIキーが必要なだけだ。だからプランに含まれているが、モデルとは分離されている。
00:01:07使用制限に関しては、4.6の時と基本的に同じだ。
00:01:11もし以前の内容を知らなければ、レポートを作成してある。
00:01:15面白いことに、最初はGemini 3で生成しようとしたが、プランの適切な比較ができなかった。
00:01:22Claudeに戻したら、きちんと調査してくれた。
00:01:24基本的なポイントとしては、
00:01:26エントリープランではClaudeコード内で10~40プロンプト、
00:01:30GLMコードでは120プロンプトでたった3ドル。これは大きな違いだ。
00:01:34上位ティアではさらに差が大きくなる。Claudeの200ドルプランなら5時間で800プロンプト、
00:01:41GLMの30ドルなら2,
00:01:43400プロンプトだ。
00:01:44これらのレートはすべて最初の1ヶ月は割引で、その後は2倍になる。
00:01:48ただし年間プランなら、はるかに手頃な価格だ。
00:01:50もう一つの重要なベンチマークは「人類の最後の試験」だ。
00:01:53知らない人のために説明すると、
00:01:55これはまだ飽和していないベンチマークで、
00:01:57ほとんどの新しいモデルはそれでも低いスコアしか出せない。本当に難しいからだ。
00:02:00実際にUIをテストするために、アーキテクチャにあまり焦点を当てないプロンプトを用意している。
00:02:05代わりに、モデルが実装するべきデザインロジックに焦点を当て、いくつかのデザイン選択肢も提供している。
00:02:11その後、提案している企業(今回の場合はAI搭載のコードレビュープラットフォーム)に基づいて、何ができるかを見る。
00:02:18MAXプランにも登録し、Claudeコードと連携させる2つの方法がある。
00:02:22どちらの場合もsettings.jsonを変更するが、一つはプロジェクトのルートにあり、グローバル設定を変更する。
00:02:29プロジェクト内で行えば、そのプロジェクトだけの設定が変更される。
00:02:33こうすることでSonnet 4.5と比較できるようにした。
00:02:36これがSonnet 4.5が作ったものだ。
00:02:38このプロンプトは実はかなり良く、
00:02:40これらのモデルがUIを構築する方法と、
00:02:42その過程でどの程度創意工夫ができるかを特定するために使ってきた。
00:02:45シンプルなバニラJSなので、今はアーキテクチャを見ていない。デザインだけを見ている。
00:02:49これがGLM 4.7が作ったものだ。
00:02:52デザインに関しては、かなり良いが、長さを考慮しなかったエラーがあり、そのせいでアーティファクトが少し崩れている。
00:02:59それ以外は、デザインは堅実だが、このような絵文字は全く好きではない。
00:03:02Sonnetは絵文字を使わなかった。これは良い選択で、デザイン言語と合致している。
00:03:06実際にテストするために、
00:03:08スケーラブルでバックエンド対応のUIを構築する必要があるコンテキストが初期化されたNext.jsプロジェクトを使っている。
00:03:15この部分は重要だ。GLMが予想外に良好なパフォーマンスを発揮した理由を評価する際に、この点に戻ってくるからだ。
00:03:22UIを構築するために、Framer MotionとShadCNコンポーネントが事前にインストールされている。
00:03:27どちらのモデルにも、
00:03:28Netflixのようなストリーミングプラットフォームのメインブラウザページを構築するよう指示している。
00:03:32実装する内容と、ページに必要な要素については明確に指定されている。
00:03:35Claudeコードに関するGLMモデルの使いやすさについて言えば、
00:03:40GLM 4.6の問題の一つはコード生成が非常に遅かったことだ。
00:03:43ここでは、私の経験では、この問題は解決されていない。依然として非常に遅い。
00:03:48しかし一つの変化がある。GLM 4.6では、
00:03:50モデルは実際に思考していなかった。つまり、
00:03:52Claudeコード内で思考していなかった。
00:03:54ここで得られる詳細なトランスクリプトは明らかに思考を示しているが、4.6では表示されなかった。
00:03:594.7モデルでは思考しているのが明確に見られるので、これは改善された。
00:04:04それ以外には、知っておく必要がある特性がある。GLM 4.7はそこまで自律的ではない。
00:04:09テスト中にこれを発見した。ここで見られるように、
00:04:11このGLMフォルダにはすでにUIベンチマークフォルダがあり、
00:04:14そこにアプリを実装する必要があるが、
00:04:16それを無視することにした。
00:04:18コンテキスト内に明確に書かれていたにもかかわらず、独自にNext.jsアプリを別途作成してしまった。
00:04:22初期化さえしないで、コードを書き始めた。時々、本当に間抜けな行動をする。
00:04:27ただし、私が訂正して正しい方向に導いた後、実装の観点からは、これがClaudeが作ったものだ。
00:04:32より高性能なモデルとして、UIに関してはかなり良い。
00:04:35これがGLM 4.7が作ったものだ。Claudeが優れたUIを作った。私たちの意見では、
00:04:40デザインはまだClaudeの方が得意だ。
00:04:42この価格なら問題ない。だがコードを見て詳しく調べてみると、
00:04:45これはバックエンド対応で、
00:04:47今はモックデータを使う必要があると指示されていたが、
00:04:50GLMモデルはすべてのモックデータを1つのファイルに配置することで、
00:04:54より優れたアーキテクチャを実装していた。
00:04:56変更する必要があるときは、
00:04:57そのファイルを変更するだけだ。インポートがそこで接続されているからだ。一方、
00:05:01Claudeが実装したものは、
00:05:02すべてのコンポーネントが独自のインポートを持っている。
00:05:05実際にバックエンドを実装するとき、それらのファイルを1つずつ変更しなければならない。
00:05:09基本的なアーキテクチャとコード品質の観点からは、
00:05:12GLMは実はかなり良くやった。4.6は私のテストではこの程度ではなかったので、
00:05:17驚いた。
00:05:17以前のプランは、
00:05:18私がどの程度ステアリングしなければならず、
00:05:20どれだけのミスをしたかという点では正当化されなかったが、
00:05:22このプランは確実に大きな飛躍だ。
00:05:24これらのベンチマークは確実に、私が行ったテストによって正当化されている。
00:05:27コード内の他のいくつかの小さなことも見てみたが、GLM 4.7は実は良いモデルだ。
00:05:32これらの予想外の結果を受けて、年間29ドルのプランを全員に勧めている。
00:05:38既に20ドルのClaudeプランを持っているなら、これは比較にならないほど安い。
00:05:42とはいえ、完全に自律的なコーディングに使うモデルではない。
00:05:46Claudeはここでアーキテクチャをめちゃくちゃにしたが、それでも十分で、後で修正・改善できる。
00:05:52だがGLMが依然として持つ小さな特性のせいで、それだけに完全に依存するのは良い考えではないと思う。
00:05:57以上、このビデオは終わりだ。
00:05:58チャンネルをサポートし、
00:06:00このようなビデオの制作を続けるのを助けたいなら、
00:06:02下のスーパーサンクスボタンを使ってサポートしてくれることができる。
00:06:05いつもご視聴ありがとうございました。では、また次のビデオでお会いしましょう。