Qwen 3.5の小型モデルが凄すぎる!(0.8Bと2Bをエッジデバイスで検証)

BBetter Stack
Computing/SoftwareBusiness NewsConsumer ElectronicsCell Phones

Transcript

00:00:00今、インターネット上である話題でもちきりです。それは「Qwen 3.5」についてです。
00:00:05特にそのスモールモデルシリーズが注目されています。アリババは先日、ネイティブ・マルチモーダル版の
00:00:10Qwen 3.5をリリースしました。パラメータ数はわずか20億、さらには8億という小ささです。
00:00:17推論やビジョン(視覚)性能において、自身の4倍のサイズを持つモデルを凌駕することもあります。
00:00:22非常に軽量なため、6年前のノートPCやスマートフォンでも、
00:00:28インターネット接続なしのローカル環境で動作可能です。今回の動画では、Qwen 3.5の新しい
00:00:34スモールシリーズ、特に0.8B(8億)と2B(20億)のモデルに焦点を当てます。
00:00:40M2チップ搭載のMacBook ProやiPhone 14 Proでテストし、その実力を検証していきます。
00:00:48面白い内容になりそうです。それでは詳しく見ていきましょう。
00:00:55なぜ誰もがこの新しいQwen 3.5に夢中なのでしょうか? 小型モデル自体は
00:01:01以前から存在していました。以前の動画で紹介したIBMのGranite 4.0 Nanoモデルも、
00:01:08わずか3億(300M)パラメータでした。では、Qwenのスモールモデルは何が違うのでしょうか?
00:01:14鍵となるのは「知能密度」と呼ばれるものです。長い間、
00:01:20画像認識、推論、コーディングができるモデルは巨大でなければならないというのが定説でした。しかし、
00:01:27Qwen 3.5のスモールモデルはその常識を覆しました。大型モデルを、
00:01:33統一されたマルチモーダル・アーキテクチャを維持したまま、極小サイズに圧縮することに成功したのです。
00:01:39つまり、0.8Bモデルはテキストに答えるだけでなく、視覚能力やコーディング能力も備えています。
00:01:46ベンチマークを素早く確認しましょう。非常に興味深い結果が出ています。一般常識と推論を測る
00:01:51MMLUベンチマークにおいて、2Bモデルは66.5、
00:01:570.8Bモデルは42.3というスコアを記録しました。一見、驚くほどではないと感じるかもしれませんが、
00:02:04比較対象として、2023年にリリースされた元祖Llama 2の7B(70億)モデルは、
00:02:11同じベンチマークで45.3でした。この結果は、パラメータ数を大幅に削減しながら、
00:02:17高い理解力を維持できていることを示しています。さらに驚くべきは、
00:02:23マルチモーダル性能の高さです。OCRBenchのような視覚特化型テストにおいて、
00:02:292Bモデルは85.4、0.8Bモデルは79.1を記録しました。
00:02:37複雑な文書の読み取りや、テキストを含む画像の分析能力が非常に高いことを示唆しています。
00:02:43また、両モデルとも最大262Kという膨大なコンテキストウィンドウをサポートしており、
00:02:51PDF丸ごと一冊や、大規模なコードベースの分析も可能です。これは驚異的ですね。では次に、
00:02:56実際のパフォーマンスを見てみましょう。0.8Bと2Bのモデルは、
00:03:02最新のノートPCであればほぼどれでもローカルで動作するため、今回はネット接続を一切遮断した
00:03:08完全な機内モードでテストを行います。最初のテストでは、LM Studioで
00:03:14ローカルサーバーを立ち上げ、VS Codeの「Cline」に接続して、実用的なコーディングが可能か検証します。
00:03:21まずモデルタブから、0.8Bと2Bモデルの
00:03:28GGUF版をダウンロードします。今回はコーディングに使用するため、
00:03:33利用可能なコンテキスト長をかなり長めに設定する必要があります。設定が終わったら、
00:03:38サーバーを起動します。ではClineに移りましょう。先ほど言ったように、
00:03:43Wi-Fiをオフにして完全にオフラインの状態でテストします。ClineのAPI設定セクションで、
00:03:50カスタムLM StudioサーバーのURLを指定します。ここではまず
00:03:560.8Bモデルを選択します。プロンプトでは、
00:04:01「小さなカフェのシンプルな企業サイト」を作成するよう依頼します。試行錯誤の中で気づいたのですが、
00:04:07フレームワークを特定せずにQwenに任せると、Reactをインストールしようとしてしまい、
00:04:14オフライン環境のデモでは動作しません。そのため、外部ライブラリを使わず、
00:04:20HTML、CSS、JavaScriptのみを使用するようプロンプトを調整しました。実行してみましょう。モデルが
00:04:25このタスクを終えるのに約1分かかりました。最終結果がこちらです。ご覧の通り、
00:04:32非常に質素なサイトで、デザイン性も高くなく、テキストも非常に暗いです。またCSSを見ると、
00:04:37モデルがUnsplashからテーマに合う特定の画像をハードコーディングしようとしていることに気づきました。
00:04:43面白い挙動ですね。一時的にWi-Fiをオンにしてみると、
00:04:48それらの画像のうち一つが読み込まれました。しかし、電話を持っている医者の画像が表示されました。
00:04:54かなりランダムですね。他の画像はURLが無効でした。修正プロンプトを投げて、
00:05:00テキストの不備や他の部分を改善させようとしましたが、安定した修正はできませんでした。
00:05:06結論として、このモデルはコーディングやツール呼び出しが可能ではありますが、
00:05:12パラメータ数が少なすぎるため、実際の業務で使うのは現実的ではないでしょう。
00:05:17次に、2Bモデルで同じプロンプトを試してみます。実は、
00:05:23このモデルにはかなり手焼きました。というのも、同じセクションを何度も繰り返し書く
00:05:28ループ状態に陥ることが頻繁にあったからです。そのため、タスクを中断して再開させる必要がありました。
00:05:34モデル自体の問題か、LM Studioのサーバー処理、あるいはClineのプロンプト処理の問題かは
00:05:40分かりませんが、今回の構成ではこの問題に悩まされました。
00:05:45もう一つの発見は、0.8Bモデルがすぐにコーディングを開始したのに対し、
00:05:512Bモデルはまず計画を立ててから、実際のコードを書き始めることを好んだ点です。
00:05:572Bモデルはタスク完了まで約3分かかり、0.8Bよりかなり長くなりました。
00:06:02結果を見てみましょう。ご覧の通り、一歩前進しています。
00:06:08デザインがより洗練され、コーヒーショップのイメージに近いブラウン系のテーマが使われています。
00:06:14また、Wi-Fiをオンにすると、
00:06:20外部アイコンが読み込まれ、サイト全体の見た目がさらに良くなりました。
00:06:24さらに、最初に依頼したカート機能も実装しようとしていました。
00:06:29サイドバーにカートが表示されるようになりましたが、商品カードには
00:06:35「カートに追加」ボタンが見当たりません。不具合を修正させようとすると、
00:06:41再び無限ループに陥るという技術的な問題が発生しました。これはおそらく、
00:06:46LM StudioとClineの連携、あるいはその類の問題かと思われます。正直なところ、
00:06:51これほど小さなモデルを複雑なコーディング業務で本格的に使う人はいないでしょう。
00:06:56今回は、これほど少ないパラメータ数で、どれほど意味のある結果が出せるかという
00:07:02好奇心からテストを行いました。では、もっとエキサイティングなことをしてみましょう。
00:07:07これらのモデルをiPhone 14 Proで動かしてみます。そのために、
00:07:14SwiftとMLX Swiftフレームワークを使用してネイティブiOSアプリを作成しました。MLXは、
00:07:22Appleシリコンのユニファイドメモリ・アーキテクチャ上でモデルを直接実行できる、Appleのオープンソースライブラリです。
00:07:29Metal GPUを活用することで、Qwenモデルをハードウェアアクセラレーションを効かせて動作させられます。
00:07:34このSwiftプロジェクトのリポジトリへのリンクを説明欄に貼っておくので、ご自身のデバイスで試してみてください。
00:07:40アプリを開くとすぐに、0.8Bモデルのダウンロードが始まります。
00:07:46ダウンロードが終われば、準備完了です。プロンプトを入力する前に、
00:07:52iPhoneを機内モードに切り替えます。まずはシンプルな挨拶「Hello」から始めましょう。
00:07:58なぜか「名前はAlexです」と返ってきました。かなり謎ですが、よしとしましょう。でも、
00:08:04レスポンスが生成される速度に注目してください。リアルタイムでこれほど速く
00:08:10回答が返ってくるスピードには正直驚かされます。次に、多くのモデルが間違える
00:08:17有名な「洗車テスト(carwash test)」を試してみます。驚いたことに、Qwen 3.5は正解しました。
00:08:23これは素晴らしいですね。さらに、これらのモデルの最大の魅力はビジョン機能です。
00:08:29バナナの画像を見せて、それが何であるか、またどのような状態であるかを
00:08:35理解できるか試してみます。正しくバナナであることを認識しましたが、
00:08:40「dog banana」と言っています。そんな言葉は聞いたことがありません。「dog banana」とは一体何でしょう?
00:08:47まあ、それはさておき、モデルはバナナが熟れすぎていると判断しました。そして、
00:08:52食べるのは危険かもしれないと警告してきましたが、そんなことはありません。今朝食べましたが、美味しかったです。
00:08:58それにしても、プロンプトを処理してレスポンスを返すスピードには
00:09:04改めて圧倒されます。別の写真も試してみましょう。この写真に写っている
00:09:09犬の犬種を特定できるか見てみます。結果はあまり正確ではありませんでした。
00:09:15実際には1匹なのに、2匹の犬がいると認識しています。犬種についても言及がありません。そこで、
00:09:20具体的に何という犬種か聞いてみました。すると「ゴールデンレトリバー」との答えが。明らかに違いますね。
00:09:27レスポンスの正確さに欠ける部分や、思わず笑ってしまうような回答もありますが、
00:09:34これほど小さなモデルが画像の構成要素について推論し、それを高速に実行できること自体、
00:09:39純粋に感銘を受けます。最後に、ベンチマークで謳われていた
00:09:45OCR(文字認識)能力をテストします。具体的には、この画像に表示されている
00:09:50テキストの内容が何語であるかを特定できるか検証します。背景を説明すると、
00:09:55この画像の言語はラトビア語です。私はラトビア出身なので、
00:10:00これが私の母国語です。残念ながら、Qwenはこのテストに失敗しました。これはスロベニア語ではありませんし、
00:10:05ラトビア語はスロベニア語に似てもいません。また、ある単語を
00:10:11実在するか怪しい同じ単語に、自信満々に翻訳しているのも面白いですね。
00:10:19明らかに、このプロンプトでは激しいハルシネーションが起きています。さて、2Bモデルに
00:10:25切り替えてみましょう。ドロップダウンを変更すると、まずダウンロードが始まります。
00:10:30完了後、同じテストを行って有意な改善が見られるか確認します。では、
00:10:36またシンプルな挨拶から。今回は「Alex」ではありませんでした。これは
00:10:42すでに一つの改善と言えるでしょう。洗車テストも再び試しましたが、
00:10:47今回も正解しました。よくできました。次はバナナの画像です。
00:10:53今回は、より的確な回答が得られました。正しくバナナであると認識し、
00:11:00状態については「完熟で食べ頃」と言っています。その通りです。では犬の写真も
00:11:06再挑戦です。今度は「ポメラニアン」だと言っています。実際の犬種とは
00:11:11似ても似つかないので、残念ながら2Bモデルも犬種の特定は苦手なようです。
00:11:18最後に、テキスト画像で言語の特定ができるか試してみます。
00:11:22見てください。2Bモデルは、このテキストがラトビア語であることを
00:11:29正しく認識しました。これは素晴らしいですね。以上が、Qwen 3.5のスモールモデルシリーズです。
00:11:36多少の不正確さはあるものの、今まで使った中で最も強力な極小モデルだと
00:11:42本気で思います。オープンソースのネイティブ・マルチモーダルLLMが、iPhone 14 Pro上で
00:11:49オフラインで動作し、高速な推論で意味のある結果を出せるというのは、
00:11:55驚異的と言うほかありません。今回のQwenは本当にやってくれました。素晴らしい。ただ、
00:12:01少し残念なニュースも共有しなければなりません。この動画を仕上げていたところ、
00:12:07アリババがQwenチームの大規模な再編を行っているという報道が入りました。主要なリーダーや
00:12:13トップエンジニアたちが離脱し、中には自身のAIスタートアップを立ち上げる者もいるそうです。
00:12:18これにより、コミュニティではQwenの急速な進歩が鈍化するのではないかと懸念されています。
00:12:24今回のモデルは、この特定のチームによる最後の大規模リリースになる可能性があり、より重要な意味を持つかもしれません。
00:12:30皆さんはこのスモールモデルについてどう思いますか? 試してみましたか? 活用する予定はありますか?
00:12:35ぜひコメント欄で教えてください。また、
00:12:39このような技術解説が気に入っていただけたら、高評価ボタンを押して応援をお願いします。
00:12:45チャンネル登録もお忘れなく。Better StackのAndresでした。
00:12:50また次の動画でお会いしましょう。

Key Takeaway

Qwen 3.5のスモールモデルシリーズは、驚異的な知能密度とマルチモーダル性能を備え、エッジデバイスでのローカルAI活用の新たな可能性を切り開いています。

Highlights

Qwen 3.5のスモールモデル(0.8Bと2B)が、自身の4倍のサイズを持つモデルを凌駕する性能を披露しました。

2BモデルはMMLUベンチマークで66.5を記録し、旧世代のLlama 2 7B(45.3)を大きく上回る知能密度を実現しています。

最大262Kという膨大なコンテキストウィンドウをサポートし、大規模な文書やコードの分析が可能です。

iPhone 14 Proなどのエッジデバイスにおいて、インターネット接続なしの完全オフライン環境で高速な推論が可能です。

ネイティブ・マルチモーダル設計により、テキストだけでなく画像認識やOCR(文字認識)機能も統合されています。

2Bモデルはラトビア語の識別にも成功し、小型ながら実用的な言語理解能力を示しました。

Timeline

Qwen 3.5 スモールモデルの概要と革新性

アリババが新たにリリースしたQwen 3.5の0.8Bおよび2Bモデルが、AIコミュニティで大きな注目を集めています。このモデルの最大の特徴は「知能密度」の高さにあり、従来の常識を覆して極小サイズながらテキスト、視覚、コーディングの能力を統合しています。非常に軽量な設計であるため、6年前の旧型ノートPCやスマートフォン上でも、インターネット接続なしで動作させることが可能です。本セクションでは、大型モデルをマルチモーダル・アーキテクチャのまま圧縮することに成功した技術的背景が説明されています。この進化により、ユーザーはプライバシーを保ちながら手元のデバイスで高度なAI機能を利用できるようになります。

ベンチマーク性能の分析と他モデルとの比較

具体的な数値データとして、2BモデルはMMLUベンチマークで66.5という高いスコアを叩き出しています。これは2023年に登場したLlama 2 7Bの45.3という数値を遥かに凌駕しており、パラメータあたりの効率が飛躍的に向上したことを示しています。また、OCRBenchなどの視覚特化型テストでも高い数値を記録し、複雑な文書の読み取り能力が証明されました。特筆すべきは262Kという巨大なコンテキストウィンドウで、これによりPDF一冊分や大規模なコードベースを一度に処理することが可能です。これらのベンチマーク結果は、スモールモデルがもはや「補助用」ではなく、メインのタスクをこなせる実力を持っていることを示唆しています。

PC環境でのオフライン・コーディング実証テスト

MacBook Proを使用し、Wi-Fiを完全に切断した機内モードのローカル環境でコーディング能力を検証します。LM StudioとVS Codeの「Cline」を連携させ、0.8Bと2Bの各モデルに対してカフェのWebサイト制作を依頼しました。0.8Bモデルは1分ほどでHTMLを生成しましたが、デザインや画像リンクの正確性に課題が残る結果となりました。一方、2Bモデルはより洗練されたブラウン系のデザインを提案し、ショッピングカート機能の実装にも着手するなど一歩進んだ成果を見せました。ただし、無限ループに陥るなどの不安定な挙動も確認され、現時点では複雑な実務への直接投入にはまだ改善の余地があることが分かります。

iPhone 14 Proによるモバイル環境での動作検証

AppleのMLX Swiftフレームワークを用いて自作したiOSアプリを使い、iPhone 14 Pro上でのネイティブ動作をテストします。まず0.8Bモデルを機内モードで実行したところ、驚くべき応答速度でリアルタイムの対話が可能であることが確認されました。論理テストである「洗車テスト」には正解したものの、画像認識ではバナナを「dog banana」と呼ぶなど、ユニークで不正確な回答も散見されました。犬種の特定テストにおいても、1匹を2匹と誤認したり、誤った犬種を回答したりするなど、0.8Bモデルの限界が浮き彫りになっています。しかし、スマホ単体でこれほど高速にマルチモーダルな推論が行えること自体が、技術的な大きな一歩であると評価されています。

2Bモデルの改善点とラトビア語OCRの成功

続いてiPhone上で2Bモデルに切り替えて同様のテストを行い、0.8Bモデルからの進化を確認します。2Bモデルはバナナの状態を「完熟で食べ頃」と正確に判断し、より的確な状況説明を行う能力を見せました。最も印象的な結果はOCRと言語識別テストで、0.8Bが失敗した希少なラトビア語のテキストを2Bモデルは見事に正解しました。スピーカーの母国語であるラトビア語を正しく認識したことは、小型モデルの理解力が実用レベルに達していることを象徴しています。最終的に、多少の不正確さはあるものの、これまでに使用した中で最も強力な極小モデルであると結論付けられました。

Qwenチームの現状と将来への展望

動画の最後には、アリババ内部でQwen開発チームの大規模な組織再編が行われているという重要なニュースが共有されました。主要なリーダーや優秀なエンジニアたちがチームを離脱しており、その一部は独自のAIスタートアップを立ち上げているとのことです。この影響により、これまでのような急速なQwenの進歩が一時的に鈍化するのではないかという懸念がコミュニティ内で広がっています。そのため、今回のQwen 3.5スモールシリーズは、黄金期を築いたオリジナルチームによる最後の傑作となる可能性も指摘されています。視聴者に対して、これらの小型モデルをどのように活用したいか、コメント欄での意見交換を呼びかけて締めくくられました。

Community Posts

View all posts