00:00:00今、インターネット上である話題でもちきりです。それは「Qwen 3.5」についてです。
00:00:05特にそのスモールモデルシリーズが注目されています。アリババは先日、ネイティブ・マルチモーダル版の
00:00:10Qwen 3.5をリリースしました。パラメータ数はわずか20億、さらには8億という小ささです。
00:00:17推論やビジョン(視覚)性能において、自身の4倍のサイズを持つモデルを凌駕することもあります。
00:00:22非常に軽量なため、6年前のノートPCやスマートフォンでも、
00:00:28インターネット接続なしのローカル環境で動作可能です。今回の動画では、Qwen 3.5の新しい
00:00:34スモールシリーズ、特に0.8B(8億)と2B(20億)のモデルに焦点を当てます。
00:00:40M2チップ搭載のMacBook ProやiPhone 14 Proでテストし、その実力を検証していきます。
00:00:48面白い内容になりそうです。それでは詳しく見ていきましょう。
00:00:55なぜ誰もがこの新しいQwen 3.5に夢中なのでしょうか? 小型モデル自体は
00:01:01以前から存在していました。以前の動画で紹介したIBMのGranite 4.0 Nanoモデルも、
00:01:08わずか3億(300M)パラメータでした。では、Qwenのスモールモデルは何が違うのでしょうか?
00:01:14鍵となるのは「知能密度」と呼ばれるものです。長い間、
00:01:20画像認識、推論、コーディングができるモデルは巨大でなければならないというのが定説でした。しかし、
00:01:27Qwen 3.5のスモールモデルはその常識を覆しました。大型モデルを、
00:01:33統一されたマルチモーダル・アーキテクチャを維持したまま、極小サイズに圧縮することに成功したのです。
00:01:39つまり、0.8Bモデルはテキストに答えるだけでなく、視覚能力やコーディング能力も備えています。
00:01:46ベンチマークを素早く確認しましょう。非常に興味深い結果が出ています。一般常識と推論を測る
00:01:51MMLUベンチマークにおいて、2Bモデルは66.5、
00:01:570.8Bモデルは42.3というスコアを記録しました。一見、驚くほどではないと感じるかもしれませんが、
00:02:04比較対象として、2023年にリリースされた元祖Llama 2の7B(70億)モデルは、
00:02:11同じベンチマークで45.3でした。この結果は、パラメータ数を大幅に削減しながら、
00:02:17高い理解力を維持できていることを示しています。さらに驚くべきは、
00:02:23マルチモーダル性能の高さです。OCRBenchのような視覚特化型テストにおいて、
00:02:292Bモデルは85.4、0.8Bモデルは79.1を記録しました。
00:02:37複雑な文書の読み取りや、テキストを含む画像の分析能力が非常に高いことを示唆しています。
00:02:43また、両モデルとも最大262Kという膨大なコンテキストウィンドウをサポートしており、
00:02:51PDF丸ごと一冊や、大規模なコードベースの分析も可能です。これは驚異的ですね。では次に、
00:02:56実際のパフォーマンスを見てみましょう。0.8Bと2Bのモデルは、
00:03:02最新のノートPCであればほぼどれでもローカルで動作するため、今回はネット接続を一切遮断した
00:03:08完全な機内モードでテストを行います。最初のテストでは、LM Studioで
00:03:14ローカルサーバーを立ち上げ、VS Codeの「Cline」に接続して、実用的なコーディングが可能か検証します。
00:03:21まずモデルタブから、0.8Bと2Bモデルの
00:03:28GGUF版をダウンロードします。今回はコーディングに使用するため、
00:03:33利用可能なコンテキスト長をかなり長めに設定する必要があります。設定が終わったら、
00:03:38サーバーを起動します。ではClineに移りましょう。先ほど言ったように、
00:03:43Wi-Fiをオフにして完全にオフラインの状態でテストします。ClineのAPI設定セクションで、
00:03:50カスタムLM StudioサーバーのURLを指定します。ここではまず
00:03:560.8Bモデルを選択します。プロンプトでは、
00:04:01「小さなカフェのシンプルな企業サイト」を作成するよう依頼します。試行錯誤の中で気づいたのですが、
00:04:07フレームワークを特定せずにQwenに任せると、Reactをインストールしようとしてしまい、
00:04:14オフライン環境のデモでは動作しません。そのため、外部ライブラリを使わず、
00:04:20HTML、CSS、JavaScriptのみを使用するようプロンプトを調整しました。実行してみましょう。モデルが
00:04:25このタスクを終えるのに約1分かかりました。最終結果がこちらです。ご覧の通り、
00:04:32非常に質素なサイトで、デザイン性も高くなく、テキストも非常に暗いです。またCSSを見ると、
00:04:37モデルがUnsplashからテーマに合う特定の画像をハードコーディングしようとしていることに気づきました。
00:04:43面白い挙動ですね。一時的にWi-Fiをオンにしてみると、
00:04:48それらの画像のうち一つが読み込まれました。しかし、電話を持っている医者の画像が表示されました。
00:04:54かなりランダムですね。他の画像はURLが無効でした。修正プロンプトを投げて、
00:05:00テキストの不備や他の部分を改善させようとしましたが、安定した修正はできませんでした。
00:05:06結論として、このモデルはコーディングやツール呼び出しが可能ではありますが、
00:05:12パラメータ数が少なすぎるため、実際の業務で使うのは現実的ではないでしょう。
00:05:17次に、2Bモデルで同じプロンプトを試してみます。実は、
00:05:23このモデルにはかなり手焼きました。というのも、同じセクションを何度も繰り返し書く
00:05:28ループ状態に陥ることが頻繁にあったからです。そのため、タスクを中断して再開させる必要がありました。
00:05:34モデル自体の問題か、LM Studioのサーバー処理、あるいはClineのプロンプト処理の問題かは
00:05:40分かりませんが、今回の構成ではこの問題に悩まされました。
00:05:45もう一つの発見は、0.8Bモデルがすぐにコーディングを開始したのに対し、
00:05:512Bモデルはまず計画を立ててから、実際のコードを書き始めることを好んだ点です。
00:05:572Bモデルはタスク完了まで約3分かかり、0.8Bよりかなり長くなりました。
00:06:02結果を見てみましょう。ご覧の通り、一歩前進しています。
00:06:08デザインがより洗練され、コーヒーショップのイメージに近いブラウン系のテーマが使われています。
00:06:14また、Wi-Fiをオンにすると、
00:06:20外部アイコンが読み込まれ、サイト全体の見た目がさらに良くなりました。
00:06:24さらに、最初に依頼したカート機能も実装しようとしていました。
00:06:29サイドバーにカートが表示されるようになりましたが、商品カードには
00:06:35「カートに追加」ボタンが見当たりません。不具合を修正させようとすると、
00:06:41再び無限ループに陥るという技術的な問題が発生しました。これはおそらく、
00:06:46LM StudioとClineの連携、あるいはその類の問題かと思われます。正直なところ、
00:06:51これほど小さなモデルを複雑なコーディング業務で本格的に使う人はいないでしょう。
00:06:56今回は、これほど少ないパラメータ数で、どれほど意味のある結果が出せるかという
00:07:02好奇心からテストを行いました。では、もっとエキサイティングなことをしてみましょう。
00:07:07これらのモデルをiPhone 14 Proで動かしてみます。そのために、
00:07:14SwiftとMLX Swiftフレームワークを使用してネイティブiOSアプリを作成しました。MLXは、
00:07:22Appleシリコンのユニファイドメモリ・アーキテクチャ上でモデルを直接実行できる、Appleのオープンソースライブラリです。
00:07:29Metal GPUを活用することで、Qwenモデルをハードウェアアクセラレーションを効かせて動作させられます。
00:07:34このSwiftプロジェクトのリポジトリへのリンクを説明欄に貼っておくので、ご自身のデバイスで試してみてください。
00:07:40アプリを開くとすぐに、0.8Bモデルのダウンロードが始まります。
00:07:46ダウンロードが終われば、準備完了です。プロンプトを入力する前に、
00:07:52iPhoneを機内モードに切り替えます。まずはシンプルな挨拶「Hello」から始めましょう。
00:07:58なぜか「名前はAlexです」と返ってきました。かなり謎ですが、よしとしましょう。でも、
00:08:04レスポンスが生成される速度に注目してください。リアルタイムでこれほど速く
00:08:10回答が返ってくるスピードには正直驚かされます。次に、多くのモデルが間違える
00:08:17有名な「洗車テスト(carwash test)」を試してみます。驚いたことに、Qwen 3.5は正解しました。
00:08:23これは素晴らしいですね。さらに、これらのモデルの最大の魅力はビジョン機能です。
00:08:29バナナの画像を見せて、それが何であるか、またどのような状態であるかを
00:08:35理解できるか試してみます。正しくバナナであることを認識しましたが、
00:08:40「dog banana」と言っています。そんな言葉は聞いたことがありません。「dog banana」とは一体何でしょう?
00:08:47まあ、それはさておき、モデルはバナナが熟れすぎていると判断しました。そして、
00:08:52食べるのは危険かもしれないと警告してきましたが、そんなことはありません。今朝食べましたが、美味しかったです。
00:08:58それにしても、プロンプトを処理してレスポンスを返すスピードには
00:09:04改めて圧倒されます。別の写真も試してみましょう。この写真に写っている
00:09:09犬の犬種を特定できるか見てみます。結果はあまり正確ではありませんでした。
00:09:15実際には1匹なのに、2匹の犬がいると認識しています。犬種についても言及がありません。そこで、
00:09:20具体的に何という犬種か聞いてみました。すると「ゴールデンレトリバー」との答えが。明らかに違いますね。
00:09:27レスポンスの正確さに欠ける部分や、思わず笑ってしまうような回答もありますが、
00:09:34これほど小さなモデルが画像の構成要素について推論し、それを高速に実行できること自体、
00:09:39純粋に感銘を受けます。最後に、ベンチマークで謳われていた
00:09:45OCR(文字認識)能力をテストします。具体的には、この画像に表示されている
00:09:50テキストの内容が何語であるかを特定できるか検証します。背景を説明すると、
00:09:55この画像の言語はラトビア語です。私はラトビア出身なので、
00:10:00これが私の母国語です。残念ながら、Qwenはこのテストに失敗しました。これはスロベニア語ではありませんし、
00:10:05ラトビア語はスロベニア語に似てもいません。また、ある単語を
00:10:11実在するか怪しい同じ単語に、自信満々に翻訳しているのも面白いですね。
00:10:19明らかに、このプロンプトでは激しいハルシネーションが起きています。さて、2Bモデルに
00:10:25切り替えてみましょう。ドロップダウンを変更すると、まずダウンロードが始まります。
00:10:30完了後、同じテストを行って有意な改善が見られるか確認します。では、
00:10:36またシンプルな挨拶から。今回は「Alex」ではありませんでした。これは
00:10:42すでに一つの改善と言えるでしょう。洗車テストも再び試しましたが、
00:10:47今回も正解しました。よくできました。次はバナナの画像です。
00:10:53今回は、より的確な回答が得られました。正しくバナナであると認識し、
00:11:00状態については「完熟で食べ頃」と言っています。その通りです。では犬の写真も
00:11:06再挑戦です。今度は「ポメラニアン」だと言っています。実際の犬種とは
00:11:11似ても似つかないので、残念ながら2Bモデルも犬種の特定は苦手なようです。
00:11:18最後に、テキスト画像で言語の特定ができるか試してみます。
00:11:22見てください。2Bモデルは、このテキストがラトビア語であることを
00:11:29正しく認識しました。これは素晴らしいですね。以上が、Qwen 3.5のスモールモデルシリーズです。
00:11:36多少の不正確さはあるものの、今まで使った中で最も強力な極小モデルだと
00:11:42本気で思います。オープンソースのネイティブ・マルチモーダルLLMが、iPhone 14 Pro上で
00:11:49オフラインで動作し、高速な推論で意味のある結果を出せるというのは、
00:11:55驚異的と言うほかありません。今回のQwenは本当にやってくれました。素晴らしい。ただ、
00:12:01少し残念なニュースも共有しなければなりません。この動画を仕上げていたところ、
00:12:07アリババがQwenチームの大規模な再編を行っているという報道が入りました。主要なリーダーや
00:12:13トップエンジニアたちが離脱し、中には自身のAIスタートアップを立ち上げる者もいるそうです。
00:12:18これにより、コミュニティではQwenの急速な進歩が鈍化するのではないかと懸念されています。
00:12:24今回のモデルは、この特定のチームによる最後の大規模リリースになる可能性があり、より重要な意味を持つかもしれません。
00:12:30皆さんはこのスモールモデルについてどう思いますか? 試してみましたか? 活用する予定はありますか?
00:12:35ぜひコメント欄で教えてください。また、
00:12:39このような技術解説が気に入っていただけたら、高評価ボタンを押して応援をお願いします。
00:12:45チャンネル登録もお忘れなく。Better StackのAndresでした。
00:12:50また次の動画でお会いしましょう。