Qwen 3.5 35B vs Sonnet 4.5：その差は縮まっているのか？

日本語العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 한국어 Português Русский 中文

Computing/SoftwareConsumer ElectronicsInternet Technology

Transcript

00:00:00今月初め、Alibabaは4000億パラメータのモデル「Qwen 3.5」と、

00:00:05非常に高いスペックを要求するものの、Opus 4.5を凌ぐベンチマークを謳う

00:00:11「Max Thinking」モデルをリリースしました。

00:00:12しかし、つい今週、Maxモデルに匹敵する性能を持ちながら、

00:00:17最新のMacBook Proでローカル実行可能な「Qwen 3.5 Medium」シリーズが登場しました。

00:00:22Sonnet 4.5より優秀だという主張ですが、私は疑っています。チャンネル登録をして、

00:00:27この2つのモデルを徹底比較してみましょう。

00:00:31多くの開発者が、Sonnet 4.5はClaude CodeやCo-Work、

00:00:35Anthropic製品群とシームレスに連携する素晴らしいモデルだと認めています。

00:00:40しかし、オンライン環境が必須であり、決して安くはありません。

00:00:44Qwen 3.5 Mediumシリーズは、Sonnet 4.5級のモデルをローカルで動かすことで、

00:00:49その現状を変えようとしており、Twitter（X）でも大きな話題になっています。

00:00:54ですが、本当にSonnet 4.5ほど優秀なのか、まだ確信が持てません。

00:00:58そこで「初級・中級・上級」のタスクで両モデルをテストし、

00:01:02どちらが優れているかを検証します。

00:01:04テストを始める前に、一つ白状しなければならないことがあります。

00:01:07私の非力なM1 MacBook Proではユニファイドメモリが足りず、推論を適切に行えないため、

00:01:12実際にはQwen 3.5をローカルで動かしません。

00:01:15代わりにOpenCodeに接続したOpenRouter経由でQwen 3.5 35bを使用し、

00:01:21Sonnet 4.5はClaude Codeの「クリーンモード」で実行します。

00:01:25スキル、プラグイン、MCPツールなどは一切使用しない条件です。

00:01:27まずは小手調べに、ReactとViteを使ってToDoリストをゼロから作らせてみます。

00:01:32Sonnet 4.5が作成したものを見ると、AIらしい紫色のデザインになっています。

00:01:36項目の追加や完了チェックが可能で、一括削除機能もあり、

00:01:40ローカルストレージを使っているため、ページを更新してもデータが保持されます。

00:01:44Qwen 3.5の方を見ると、スタイリングは似ていますが、

00:01:48Viteのデフォルトスタイルは上書きされていません。

00:01:51こちらも項目の追加ができますが、

00:01:53さらにいくつかのオプションが用意されています。

00:01:54カテゴリーの選択や、重要度、

00:01:59そして期日の設定まで行えるようになっています。

00:02:02例えば「買い物」と入力すると、期日、重要度、

00:02:06カテゴリーが表示されます。これはなかなか素晴らしいですね。

00:02:08コードの中身を見てみましょう。

00:02:09こちらはSonnetのコードです。useEffectが使われていますが、

00:02:13これはローカルストレージの処理のためのようです。

00:02:15悪くはないですが、個人的には別の書き方の方が好みです。

00:02:17「addTodo」や、アクションを実行するための関数が定義されています。

00:02:22「toggleTodo」や「deleteTodo」など、

00:02:25全体的に整っていますね。

00:02:26ただ、少し気になったのは、冒頭にあるJSONパースの処理です。

00:02:32ローカルストレージにJSONとして保存し、それをパースしているようですが、

00:02:35機能を追加していくことを考えると、この部分は別関数に切り出した方が、

00:02:38コードの冒頭が散らからなくて済むでしょう。

00:02:42次にQwenを見ると、カテゴリー定義があり、useEffectは使われていないようです。

00:02:46これは良いポイントですね。

00:02:48読み進めると「handleSubmit」という、私好みの命名が使われています。

00:02:51他にもupdate、delete、toggleCompletedといったハンドル関数があります。

00:02:55特に感心したのは、ToDoアイテムを別コンポーネントに分けた点です。

00:02:59メインのアプリコンポーネントを肥大化させず、

00:03:03新しいコンポーネントを作成して、アプリ側で繰り返し呼び出しています。

00:03:07複数のアイテムを扱う上で、非常に合理的な設計です。

00:03:08機能面で勝るQwenの勝ちと言いたいところですが、

00:03:13テスト後に、OpenCodeでQwenの「スーパーパワースキル」が有効だったことに気づきました。

00:03:18そこでスキルなしで再試行した結果がこれです。

00:03:19（※スキルなしだと劣るため）結局、この勝負はSonnetの勝ちですね。

00:03:23第2テストに進みましょう。React、Vite、Three.jsを使った

00:03:25「インタラクティブな太陽系」の構築です。

00:03:29Claudeは一発で、はるかに良いものを作り上げました。

00:03:31いくつかの惑星が欠けてはいますが、存在する惑星はクリック可能です。

00:03:33太陽をクリックすれば情報が表示され、

00:03:37下の天王星をクリックしても、同様に情報が出てきます。

00:03:39サイトの挙動も完璧で、平行移動、回転、

00:03:44ズームイン・アウトなどがスムーズに行えます。

00:03:48対して、Qwenが生成したのは……

00:03:49はい、真っ白なページです。

00:03:50コンソールを見るとエラーが出ています。Qwenに何度も修正を求めましたが、

00:03:51解決することはできませんでした。

00:03:56実際、制作プロセス全体がかなり面倒でした。

00:03:58Qwenは途中で何度かフリーズして再起動が必要になり、

00:04:01同じエラーの修正に何度も苦戦していました。

00:04:05さらにQwenが生成したファイルを見ると、package.jsonやlockファイル、

00:04:06node_modulesディレクトリがありますが、これらは全く使われていません。

00:04:10メインプロジェクトは「solar-system」ディレクトリ内にあり、

00:04:15そちらに適切なpackage.jsonと

00:04:20node_modulesが存在しているからです。

00:04:21ということで、第2テストもClaudeの勝利です。

00:04:23最後のテストは、既存のコードベースを修正し、ユーザーがURLを投稿すると

00:04:28ツイートのスクリーンショットを撮る機能の実装です。

00:04:32まずはClaude。このような画面を生成しました。

00:04:35背景やパディングを変更するオプションも付いています。

00:04:38最初はエラーが出ましたが、Claudeに指示して修正させました。

00:04:42JSONのツイートのURLをコピーして貼り付け、「Capture」をクリックします。

00:04:47数秒後、下に画像が表示され、ダウンロードもできるようになりました。

00:04:51一方、Qwenの結果がこちらです。画面構成は似ていますね。

00:04:54同じツイートのURLを貼り付けてみます。

00:04:56ボタンが「動画を抽出」になっていますが、キャプチャが始まり、期待が持てます。

00:05:01しかし、しばらくすると60秒のタイムアウトが発生しました。

00:05:06これはSonnetでも起きたエラーと同じです。

00:05:07Qwenに修正を頼むと、タイムアウト時間は延長されましたが、

00:05:11根本的な原因は解決されませんでした。

00:05:13結果、Sonnet 4.5が3戦全勝となりました。

00:05:17スペック上はQwen 3.5 35bがSonnet 4.5を上回るはずですが、

00:05:24実戦テストではそうはなりませんでした。

00:05:26誤解しないでほしいのは、350億や270億パラメータのモデルを

00:05:31最新MacBookでローカル実行できるのは、本当に素晴らしいことです。

00:05:34しかし、SNSで何と言われていようと、コーディングタスクにおいて

00:05:38QwenがSonnet 4.5を凌駕することはないでしょう。先ほどのテストがその証拠です。

00:05:42では、なぜベンチマークの結果はあんなに良いのでしょうか？

00:05:45Qwen 3.5が「Sweebench Verified」のような特定のベンチマーク問題に特化して

00:05:51事後学習（ポストトレーニング）されている可能性が高いからです。

00:05:55対してSonnet 4.5は、より広範で堅牢なデータセットで学習されており、

00:06:01より複雑で細かなタスクにも対応できるのでしょう。

00:06:03また、今回テストしたQwenは350億パラメータですが、推論時に使われるのは30億のみです。

00:06:08一方、Anthropicは数値を公表していませんが、

00:06:09推定ではSonnet 3でさえ700億パラメータで学習されており、

00:06:14Sonnet 4.5がそれを大幅に上回っているのは間違いありません。

00:06:18ですから、ベンチマークだけで比較するのは公平ではありません。

00:06:19常に自分で調査し、独自の評価を行うことが重要です。

00:06:23Qwen 3.5が「OpenCode Go」のモデルリストに入っていないのにも、それなりの理由があるのです。

00:06:26Qwen関連で言えば、最近TTS（音声合成）モデルもリリースされました。

00:06:31Jossが音声クローニングや感情表現などを詳しく解説した

00:06:35素晴らしい動画を公開していますので、ぜひこちらからチェックしてみてください。

Key Takeaway

Qwen 3.5はローカルAIとして飛躍的な進歩を遂げているが、実務的なコーディング能力と安定性においては依然としてSonnet 4.5が圧倒的に優位である。

Highlights

AlibabaのQwen 3.5 Mediumは、ローカル実行可能でありながらSonnet 4.5に匹敵する性能を謳っている。

実際のコーディングテスト（ToDoアプリ、太陽系シミュレーション、ツイートキャプチャ）では、Sonnet 4.5が3戦全勝した。

Qwen 3.5は構造的な設計（コンポーネント分割など）に優れる場面もあるが、実行時のエラーやフリーズが目立った。

ベンチマークの数値が高い理由は、Qwenが特定のテストセット（Sweebench等）に特化したポストトレーニングを行っている可能性がある。

モデルのパラメータ数や推論時のリソース消費において、依然としてAnthropicのSonnetシリーズが圧倒的な実力差を見せつけている。

Timeline

イントロダクションとモデルの概要

Alibabaがリリースした「Qwen 3.5」シリーズの概要と、Anthropicの「Sonnet 4.5」との比較の背景が説明されます。Qwen 3.5 MediumはMacBook Proでのローカル実行が可能という大きな利点を持っており、SNS上で「Sonnet超え」として大きな注目を集めています。しかし、投稿者はそのベンチマーク結果に懐疑的であり、実際の性能を確かめるために3つの難易度別テストを行うことを宣言します。このセクションは、オープンソースモデルがクローズドな高性能モデルにどこまで肉薄しているかという、現在のAI業界の主要な関心事を示しています。

初級テスト：ReactによるToDoリスト作成

最初のテストでは、ReactとViteを使用してゼロからToDoアプリを構築させ、両モデルのコード設計と機能を比較します。Sonnet 4.5は標準的で洗練されたデザインを提供し、Qwen 3.5は期日設定や重要度などの追加機能やコンポーネント分割の面で優れた設計を見せました。しかし、Qwenの優れた成果は「スーパーパワースキル」という外部ツールの補助によるものであることが判明します。補助なしの状態ではSonnetの品質が上回ったため、このラウンドはSonnet 4.5の勝利と判定されました。

中級テスト：Three.jsを用いた太陽系シミュレーション

第2のテストは、Three.jsライブラリを用いたインタラクティブな太陽系の構築という、より複雑な視覚的タスクです。Claude（Sonnet 4.5）は一発で動作するスムーズなシミュレーションを生成し、惑星のクリックやズーム機能も完璧に実装しました。対照的にQwen 3.5は実行時にエラーを出し続け、真っ白な画面しか表示できないという結果に終わります。さらにQwenは不要なディレクトリを作成するなど、プロジェクト構造の管理においても混乱が見られ、安定性の欠如が露呈しました。

上級テスト：既存コードへのスクリーンショット機能実装

最後のテストは、既存のコードベースに対して、URLからツイートのスクリーンショットを撮るという高度な機能を統合する課題です。Sonnet 4.5は初期エラーに遭遇したものの、ユーザーの指示を適切に反映して自己修正し、最終的に機能するツールを完成させました。Qwen 3.5も同様の機能実装を試みますが、タイムアウトエラーを解決できず、根本的な問題修正には至りませんでした。この結果、実戦的なデバッグ能力と問題解決力の差が明確になり、Sonnetが3戦全勝を飾ることになります。

結論：ベンチマークと実力の乖離について

テスト結果に基づき、なぜQwen 3.5のベンチマークが高いにもかかわらず実戦で苦戦するのかという考察が行われます。投稿者は、Qwenが特定のベンチマーク問題に対して過学習（ポストトレーニング）されている可能性を指摘し、数値の信憑性に警鐘を鳴らします。また、推論時のパラメータ数や学習データの質において、Anthropicのモデルが依然として技術的な優位性を保っていることを解説します。最後に、ローカルAIの進歩は称賛しつつも、ユーザー自身が独自の評価を行うことの重要性を説いて動画を締めくくります。

Community Posts

Qwen 3.5とSonnet 4.5のコーディング性能比較：ベンチマークの罠に騙されない方法

makedream28 февр. 2026 г.8050

Write about this video