GLM 4.7 はソフトウェア開発に最適...本当に神がかってる

AAI LABS
컴퓨터/소프트웨어창업/스타트업재택/원격 근무AI/미래기술

Transcript

00:00:00ZAIの新作GLM 4.7がリリースされた。年間29ドルという破格の値段で、
00:00:05開発元は73%のSWEベンチスコアを達成していると主張している。Sonnet 4.5と同等のレベルだ。
00:00:11このタイミングは偶然ではない。彼らはIPOを控えており、西側市場での人気を示す必要がある。
00:00:15RedditでライブQ&Aを開催することまでしている。中国のAI研究室がこんなことをするのは初めて見た。
00:00:19だが4.6には実際の問題があった。4.7は本当に改善されたのだろうか?
00:00:23皆さん、
00:00:23初めての方へ。ここはAI Labsです。「Debunked」シリーズへようこそ。このシリーズでは、
00:00:28AIツールとAIモデルを実際に使い、
00:00:30マーケティングの過剰広告を剥ぎ取り、
00:00:32実際のテストと正直な結果を通じて本当の性能を紹介しています。
00:00:35新しいモデルは主にポストトレーニングによって改善されたもので、アーキテクチャの変更ではない。
00:00:40Claudeコードに最適化されており、ZAIチームは明確にこれを優先するフレームワークと述べている。
00:00:46現在、GPT-5を含む多くのトップティアモデルを上回っており、特にコーディングベンチマークではそうだ。
00:00:52彼らのコーディングプランには、新しいMCPツールが追加されている。これらは直接統合されていない。
00:00:58別のMCPサーバーとして存在する。現在、3つがリストアップされている。
00:01:02これらがすべて機能するには、APIキーが必要なだけだ。だからプランに含まれているが、モデルとは分離されている。
00:01:07使用制限に関しては、4.6の時と基本的に同じだ。
00:01:11もし以前の内容を知らなければ、レポートを作成してある。
00:01:15面白いことに、最初はGemini 3で生成しようとしたが、プランの適切な比較ができなかった。
00:01:22Claudeに戻したら、きちんと調査してくれた。
00:01:24基本的なポイントとしては、
00:01:26エントリープランではClaudeコード内で10~40プロンプト、
00:01:30GLMコードでは120プロンプトでたった3ドル。これは大きな違いだ。
00:01:34上位ティアではさらに差が大きくなる。Claudeの200ドルプランなら5時間で800プロンプト、
00:01:41GLMの30ドルなら2,
00:01:43400プロンプトだ。
00:01:44これらのレートはすべて最初の1ヶ月は割引で、その後は2倍になる。
00:01:48ただし年間プランなら、はるかに手頃な価格だ。
00:01:50もう一つの重要なベンチマークは「人類の最後の試験」だ。
00:01:53知らない人のために説明すると、
00:01:55これはまだ飽和していないベンチマークで、
00:01:57ほとんどの新しいモデルはそれでも低いスコアしか出せない。本当に難しいからだ。
00:02:00実際にUIをテストするために、アーキテクチャにあまり焦点を当てないプロンプトを用意している。
00:02:05代わりに、モデルが実装するべきデザインロジックに焦点を当て、いくつかのデザイン選択肢も提供している。
00:02:11その後、提案している企業(今回の場合はAI搭載のコードレビュープラットフォーム)に基づいて、何ができるかを見る。
00:02:18MAXプランにも登録し、Claudeコードと連携させる2つの方法がある。
00:02:22どちらの場合もsettings.jsonを変更するが、一つはプロジェクトのルートにあり、グローバル設定を変更する。
00:02:29プロジェクト内で行えば、そのプロジェクトだけの設定が変更される。
00:02:33こうすることでSonnet 4.5と比較できるようにした。
00:02:36これがSonnet 4.5が作ったものだ。
00:02:38このプロンプトは実はかなり良く、
00:02:40これらのモデルがUIを構築する方法と、
00:02:42その過程でどの程度創意工夫ができるかを特定するために使ってきた。
00:02:45シンプルなバニラJSなので、今はアーキテクチャを見ていない。デザインだけを見ている。
00:02:49これがGLM 4.7が作ったものだ。
00:02:52デザインに関しては、かなり良いが、長さを考慮しなかったエラーがあり、そのせいでアーティファクトが少し崩れている。
00:02:59それ以外は、デザインは堅実だが、このような絵文字は全く好きではない。
00:03:02Sonnetは絵文字を使わなかった。これは良い選択で、デザイン言語と合致している。
00:03:06実際にテストするために、
00:03:08スケーラブルでバックエンド対応のUIを構築する必要があるコンテキストが初期化されたNext.jsプロジェクトを使っている。
00:03:15この部分は重要だ。GLMが予想外に良好なパフォーマンスを発揮した理由を評価する際に、この点に戻ってくるからだ。
00:03:22UIを構築するために、Framer MotionとShadCNコンポーネントが事前にインストールされている。
00:03:27どちらのモデルにも、
00:03:28Netflixのようなストリーミングプラットフォームのメインブラウザページを構築するよう指示している。
00:03:32実装する内容と、ページに必要な要素については明確に指定されている。
00:03:35Claudeコードに関するGLMモデルの使いやすさについて言えば、
00:03:40GLM 4.6の問題の一つはコード生成が非常に遅かったことだ。
00:03:43ここでは、私の経験では、この問題は解決されていない。依然として非常に遅い。
00:03:48しかし一つの変化がある。GLM 4.6では、
00:03:50モデルは実際に思考していなかった。つまり、
00:03:52Claudeコード内で思考していなかった。
00:03:54ここで得られる詳細なトランスクリプトは明らかに思考を示しているが、4.6では表示されなかった。
00:03:594.7モデルでは思考しているのが明確に見られるので、これは改善された。
00:04:04それ以外には、知っておく必要がある特性がある。GLM 4.7はそこまで自律的ではない。
00:04:09テスト中にこれを発見した。ここで見られるように、
00:04:11このGLMフォルダにはすでにUIベンチマークフォルダがあり、
00:04:14そこにアプリを実装する必要があるが、
00:04:16それを無視することにした。
00:04:18コンテキスト内に明確に書かれていたにもかかわらず、独自にNext.jsアプリを別途作成してしまった。
00:04:22初期化さえしないで、コードを書き始めた。時々、本当に間抜けな行動をする。
00:04:27ただし、私が訂正して正しい方向に導いた後、実装の観点からは、これがClaudeが作ったものだ。
00:04:32より高性能なモデルとして、UIに関してはかなり良い。
00:04:35これがGLM 4.7が作ったものだ。Claudeが優れたUIを作った。私たちの意見では、
00:04:40デザインはまだClaudeの方が得意だ。
00:04:42この価格なら問題ない。だがコードを見て詳しく調べてみると、
00:04:45これはバックエンド対応で、
00:04:47今はモックデータを使う必要があると指示されていたが、
00:04:50GLMモデルはすべてのモックデータを1つのファイルに配置することで、
00:04:54より優れたアーキテクチャを実装していた。
00:04:56変更する必要があるときは、
00:04:57そのファイルを変更するだけだ。インポートがそこで接続されているからだ。一方、
00:05:01Claudeが実装したものは、
00:05:02すべてのコンポーネントが独自のインポートを持っている。
00:05:05実際にバックエンドを実装するとき、それらのファイルを1つずつ変更しなければならない。
00:05:09基本的なアーキテクチャとコード品質の観点からは、
00:05:12GLMは実はかなり良くやった。4.6は私のテストではこの程度ではなかったので、
00:05:17驚いた。
00:05:17以前のプランは、
00:05:18私がどの程度ステアリングしなければならず、
00:05:20どれだけのミスをしたかという点では正当化されなかったが、
00:05:22このプランは確実に大きな飛躍だ。
00:05:24これらのベンチマークは確実に、私が行ったテストによって正当化されている。
00:05:27コード内の他のいくつかの小さなことも見てみたが、GLM 4.7は実は良いモデルだ。
00:05:32これらの予想外の結果を受けて、年間29ドルのプランを全員に勧めている。
00:05:38既に20ドルのClaudeプランを持っているなら、これは比較にならないほど安い。
00:05:42とはいえ、完全に自律的なコーディングに使うモデルではない。
00:05:46Claudeはここでアーキテクチャをめちゃくちゃにしたが、それでも十分で、後で修正・改善できる。
00:05:52だがGLMが依然として持つ小さな特性のせいで、それだけに完全に依存するのは良い考えではないと思う。
00:05:57以上、このビデオは終わりだ。
00:05:58チャンネルをサポートし、
00:06:00このようなビデオの制作を続けるのを助けたいなら、
00:06:02下のスーパーサンクスボタンを使ってサポートしてくれることができる。
00:06:05いつもご視聴ありがとうございました。では、また次のビデオでお会いしましょう。

Key Takeaway

GLM 4.7は年間29ドルという破格の価格で実用的なソフトウェア開発能力を提供し、Sonnet 4.5と同等の性能を持つコスト効率的な選択肢として評価されています。

Highlights

GLM 4.7は年間29ドルという破格の価格で提供され、73%のSWEベンチマークスコアを達成しSonnet 4.5と同等のレベルです

GLM 4.7では思考プロセスが明確に表示されるようになり、GLM 4.6の問題が改善されました

GLM 4.7は予想外に優れたアーキテクチャ実装能力を示し、モックデータの一元管理でバックエンド対応性に優れています

エントリープランでGLMコードは月3ドルで120プロンプト、Claudeコードは10~40プロンプトに限定される大きな価格差があります

GLM 4.7は完全に自律的ではなくユーザーの指導が必要な面があり、UIデザインではClaudeが依然として優位です

年間プランの利用により月間プランの2倍料金よりもはるかに手頃な価格が実現できます

検証結果からGLM 4.7は実用的なコーディング能力とコスト効率のバランスが取れた選択肢として評価されています

Timeline

GLM 4.7のリリースと市場背景

Zhipu AIが新作GLM 4.7をリリースし、年間29ドルという破格の価格設定で提供開始しました。開発元は73%のSWEベンチマークスコアを達成したと主張しており、Sonnet 4.5と同等のレベルとされています。このタイミングはIPO控える同社が西側市場での人気を示す戦略的な動きであり、RedditでのライブQ&Aなど、中国のAI研究室としては異例のプロモーション活動を展開しています。ただし、先代モデルの4.6には実際の問題があったため、7がどの程度改善されたかが重要な検証ポイントとなっています。

チャンネル説明と検証方法論

このビデオはAI Labsの「Debunked」シリーズの一部であり、AIツールとモデルを実際に使用してマーケティングの誇大広告を排除し、実際のテストに基づいた正直な結果を提供することが目的です。GLM 4.7はポストトレーニングによる改善が中心で、アーキテクチャ変更ではなく、特にClaudeコードに最適化されているとZAIチームが明確に述べています。現在、GPT-5を含む多くのトップティアモデルを上回っており、特にコーディングベンチマークでその優位性が顕著です。検証の透明性のため、初期段階でGemini 3での生成を試みましたが、プランの適切な比較ができなかったためClaudeに戻したことが報告されています。

価格プランと使用制限の詳細比較

GLM 4.7とClaudeの価格プランを詳細に比較すると、エントリープランでは月3ドルのGLMコードが120プロンプト提供に対し、Claudeコードは10~40プロンプトに限定される大きな差があります。上位ティアではさらにその差が拡大し、Claudeの月200ドルプランが800プロンプト(5時間)に対し、GLMの月30ドルプランは2,400プロンプトを提供しています。これらのレートは最初の1ヶ月は割引価格で、その後は2倍になるという構造になっています。ただし、年間プランを利用すれば、月間プランの2倍料金よりもはるかに手頃な価格設定が実現でき、コスト効率が大幅に向上します。

ベンチマークテストとUI実装の比較

「人類の最後の試験」というまだ飽和していない難難度の高いベンチマークを使用して、モデルの実装能力を検証しました。AIコードレビュープラットフォームの構築を要求するプロンプトを使用し、各モデルのデザインロジック実装能力を評価しています。Sonnet 4.5が生成したUIはシンプルで効果的で、絵文字を使わない洗練されたデザインでした。一方、GLM 4.7が生成したUIは堅実だがいくつかエラーがあり、長さ計算を考慮しなかったため、アーティファクトが少し崩れています。デザイン観点ではSonnetが優位性を保ち、GLMの絵文字使用はデザイン言語との一貫性が取れていないという評価となっています。

コード生成能力と思考プロセスの改善

Next.jsプロジェクトでNetflixのようなストリーミングプラットフォームのUIを構築するテストでは、GLM 4.7の予期しない良好なパフォーマンスが確認されました。GLM 4.6との主な改善点は、4.7モデルが明確に思考プロセスを表示するようになったことで、詳細なトランスクリプトで思考経路が可視化されています。しかし、コード生成速度は依然として非常に遅いというGLM 4.6の問題は解決されていません。GLM 4.7はClaudeほど自律的ではなく、テスト中にコンテキスト内に明確に書かれた指示を無視し、独自にNext.jsアプリを別途作成するという行動を示しました。この特性により、ユーザーの指導と訂正が必要な場面が存在することが確認されています。

アーキテクチャ実装と設計品質の評価

Claudeが生成したコードはUIデザインは優れていますが、バックエンド対応性の観点では問題がありました。Claudeはすべてのモックデータをコンポーネント内に分散配置し、バックエンド実装時に複数のファイルを個別に変更する必要があります。対照的に、GLM 4.7は全モックデータを単一ファイルに集約し、インポートを一元管理する優れたアーキテクチャを実装していました。この設計パターンはバックエンド実装時の変更コストを大幅に削減します。基本的なアーキテクチャとコード品質の観点から、GLM 4.7はGLM 4.6からの大きな飛躍を示し、提示されたベンチマークスコアが実際のテスト結果によって正当化されることが確認されました。

最終評価と推奨事項

結論として、年間29ドルのGLM 4.7プランはコスト効率の観点から全員に推奨されています。既に月20ドルのClaudeプランを使用している場合、その比較にならないほどの安さです。ただし、GLM 4.7は完全に自律的なコーディングに依存すべきモデルではなく、UIデザインではClaudeが依然として優位性を保っているため、ユースケースに応じた選択が必要です。GLMの小さな特性上の制限により、それのみに完全に頼るのは良い判断ではないという最終的な見解が示されています。結論として、GLM 4.7はコストパフォーマンスと実用的なコード生成能力のバランスが取れた選択肢として価値があります。

Community Posts

View all posts