00:00:00今月初め、Alibabaは4000億パラメータのモデル「Qwen 3.5」と、
00:00:05非常に高いスペックを要求するものの、Opus 4.5を凌ぐベンチマークを謳う
00:00:11「Max Thinking」モデルをリリースしました。
00:00:12しかし、つい今週、Maxモデルに匹敵する性能を持ちながら、
00:00:17最新のMacBook Proでローカル実行可能な「Qwen 3.5 Medium」シリーズが登場しました。
00:00:22Sonnet 4.5より優秀だという主張ですが、私は疑っています。チャンネル登録をして、
00:00:27この2つのモデルを徹底比較してみましょう。
00:00:31多くの開発者が、Sonnet 4.5はClaude CodeやCo-Work、
00:00:35Anthropic製品群とシームレスに連携する素晴らしいモデルだと認めています。
00:00:40しかし、オンライン環境が必須であり、決して安くはありません。
00:00:44Qwen 3.5 Mediumシリーズは、Sonnet 4.5級のモデルをローカルで動かすことで、
00:00:49その現状を変えようとしており、Twitter(X)でも大きな話題になっています。
00:00:54ですが、本当にSonnet 4.5ほど優秀なのか、まだ確信が持てません。
00:00:58そこで「初級・中級・上級」のタスクで両モデルをテストし、
00:01:02どちらが優れているかを検証します。
00:01:04テストを始める前に、一つ白状しなければならないことがあります。
00:01:07私の非力なM1 MacBook Proではユニファイドメモリが足りず、推論を適切に行えないため、
00:01:12実際にはQwen 3.5をローカルで動かしません。
00:01:15代わりにOpenCodeに接続したOpenRouter経由でQwen 3.5 35bを使用し、
00:01:21Sonnet 4.5はClaude Codeの「クリーンモード」で実行します。
00:01:25スキル、プラグイン、MCPツールなどは一切使用しない条件です。
00:01:27まずは小手調べに、ReactとViteを使ってToDoリストをゼロから作らせてみます。
00:01:32Sonnet 4.5が作成したものを見ると、AIらしい紫色のデザインになっています。
00:01:36項目の追加や完了チェックが可能で、一括削除機能もあり、
00:01:40ローカルストレージを使っているため、ページを更新してもデータが保持されます。
00:01:44Qwen 3.5の方を見ると、スタイリングは似ていますが、
00:01:48Viteのデフォルトスタイルは上書きされていません。
00:01:51こちらも項目の追加ができますが、
00:01:53さらにいくつかのオプションが用意されています。
00:01:54カテゴリーの選択や、重要度、
00:01:59そして期日の設定まで行えるようになっています。
00:02:02例えば「買い物」と入力すると、期日、重要度、
00:02:06カテゴリーが表示されます。これはなかなか素晴らしいですね。
00:02:08コードの中身を見てみましょう。
00:02:09こちらはSonnetのコードです。useEffectが使われていますが、
00:02:13これはローカルストレージの処理のためのようです。
00:02:15悪くはないですが、個人的には別の書き方の方が好みです。
00:02:17「addTodo」や、アクションを実行するための関数が定義されています。
00:02:22「toggleTodo」や「deleteTodo」など、
00:02:25全体的に整っていますね。
00:02:26ただ、少し気になったのは、冒頭にあるJSONパースの処理です。
00:02:32ローカルストレージにJSONとして保存し、それをパースしているようですが、
00:02:35機能を追加していくことを考えると、この部分は別関数に切り出した方が、
00:02:38コードの冒頭が散らからなくて済むでしょう。
00:02:42次にQwenを見ると、カテゴリー定義があり、useEffectは使われていないようです。
00:02:46これは良いポイントですね。
00:02:48読み進めると「handleSubmit」という、私好みの命名が使われています。
00:02:51他にもupdate、delete、toggleCompletedといったハンドル関数があります。
00:02:55特に感心したのは、ToDoアイテムを別コンポーネントに分けた点です。
00:02:59メインのアプリコンポーネントを肥大化させず、
00:03:03新しいコンポーネントを作成して、アプリ側で繰り返し呼び出しています。
00:03:07複数のアイテムを扱う上で、非常に合理的な設計です。
00:03:08機能面で勝るQwenの勝ちと言いたいところですが、
00:03:13テスト後に、OpenCodeでQwenの「スーパーパワースキル」が有効だったことに気づきました。
00:03:18そこでスキルなしで再試行した結果がこれです。
00:03:19(※スキルなしだと劣るため)結局、この勝負はSonnetの勝ちですね。
00:03:23第2テストに進みましょう。React、Vite、Three.jsを使った
00:03:25「インタラクティブな太陽系」の構築です。
00:03:29Claudeは一発で、はるかに良いものを作り上げました。
00:03:31いくつかの惑星が欠けてはいますが、存在する惑星はクリック可能です。
00:03:33太陽をクリックすれば情報が表示され、
00:03:37下の天王星をクリックしても、同様に情報が出てきます。
00:03:39サイトの挙動も完璧で、平行移動、回転、
00:03:44ズームイン・アウトなどがスムーズに行えます。
00:03:48対して、Qwenが生成したのは……
00:03:49はい、真っ白なページです。
00:03:50コンソールを見るとエラーが出ています。Qwenに何度も修正を求めましたが、
00:03:51解決することはできませんでした。
00:03:56実際、制作プロセス全体がかなり面倒でした。
00:03:58Qwenは途中で何度かフリーズして再起動が必要になり、
00:04:01同じエラーの修正に何度も苦戦していました。
00:04:05さらにQwenが生成したファイルを見ると、package.jsonやlockファイル、
00:04:06node_modulesディレクトリがありますが、これらは全く使われていません。
00:04:10メインプロジェクトは「solar-system」ディレクトリ内にあり、
00:04:15そちらに適切なpackage.jsonと
00:04:20node_modulesが存在しているからです。
00:04:21ということで、第2テストもClaudeの勝利です。
00:04:23最後のテストは、既存のコードベースを修正し、ユーザーがURLを投稿すると
00:04:28ツイートのスクリーンショットを撮る機能の実装です。
00:04:32まずはClaude。このような画面を生成しました。
00:04:35背景やパディングを変更するオプションも付いています。
00:04:38最初はエラーが出ましたが、Claudeに指示して修正させました。
00:04:42JSONのツイートのURLをコピーして貼り付け、「Capture」をクリックします。
00:04:47数秒後、下に画像が表示され、ダウンロードもできるようになりました。
00:04:51一方、Qwenの結果がこちらです。画面構成は似ていますね。
00:04:54同じツイートのURLを貼り付けてみます。
00:04:56ボタンが「動画を抽出」になっていますが、キャプチャが始まり、期待が持てます。
00:05:01しかし、しばらくすると60秒のタイムアウトが発生しました。
00:05:06これはSonnetでも起きたエラーと同じです。
00:05:07Qwenに修正を頼むと、タイムアウト時間は延長されましたが、
00:05:11根本的な原因は解決されませんでした。
00:05:13結果、Sonnet 4.5が3戦全勝となりました。
00:05:17スペック上はQwen 3.5 35bがSonnet 4.5を上回るはずですが、
00:05:24実戦テストではそうはなりませんでした。
00:05:26誤解しないでほしいのは、350億や270億パラメータのモデルを
00:05:31最新MacBookでローカル実行できるのは、本当に素晴らしいことです。
00:05:34しかし、SNSで何と言われていようと、コーディングタスクにおいて
00:05:38QwenがSonnet 4.5を凌駕することはないでしょう。先ほどのテストがその証拠です。
00:05:42では、なぜベンチマークの結果はあんなに良いのでしょうか?
00:05:45Qwen 3.5が「Sweebench Verified」のような特定のベンチマーク問題に特化して
00:05:51事後学習(ポストトレーニング)されている可能性が高いからです。
00:05:55対してSonnet 4.5は、より広範で堅牢なデータセットで学習されており、
00:06:01より複雑で細かなタスクにも対応できるのでしょう。
00:06:03また、今回テストしたQwenは350億パラメータですが、推論時に使われるのは30億のみです。
00:06:08一方、Anthropicは数値を公表していませんが、
00:06:09推定ではSonnet 3でさえ700億パラメータで学習されており、
00:06:14Sonnet 4.5がそれを大幅に上回っているのは間違いありません。
00:06:18ですから、ベンチマークだけで比較するのは公平ではありません。
00:06:19常に自分で調査し、独自の評価を行うことが重要です。
00:06:23Qwen 3.5が「OpenCode Go」のモデルリストに入っていないのにも、それなりの理由があるのです。
00:06:26Qwen関連で言えば、最近TTS(音声合成)モデルもリリースされました。
00:06:31Jossが音声クローニングや感情表現などを詳しく解説した
00:06:35素晴らしい動画を公開していますので、ぜひこちらからチェックしてみてください。