00:00:00先週、Googleが予想外のことをしました。
00:00:02Apache 2.0ライセンスの下で、真のオープンソースモデルをリリースしたのです。
00:00:08それは「Gemma 4」と呼ばれ、23億パラメータという極小のエッジ専用バージョンも備えています。
00:00:14これらは、iPhoneやAndroidのフラッグシップ機、
00:00:21さらにはRaspberry Piなどのデバイス上で、完全にオフラインで動作するように設計されています。
00:00:23究極のスモールモデル構築に向けた競争は、まさに白熱しているようです。
00:00:28ほんの数週間前、私はQwen 3.5でテストを行い、ローカルAIの限界が
00:00:33どこまで押し広げられているかを確認しましたが、今度はGoogleがさらなる「知能密度」を約束しています。
00:00:39そこでこの動画では、Gemma 4でも同様のテストを行い、
00:00:44このモデルが本当に最高のスモールモデルなのかを検証します。
00:00:47面白い内容になりそうです。さっそく見ていきましょう。
00:00:53さて、この新しいGemma 4モデルの何がそれほどユニークなのでしょうか?
00:00:57技術的な大きな変化は、Googleが「層別埋め込み(per-layer embeddings)」と呼ぶものです。
00:01:03従来のトランスフォーマーでは、トークンは最初に1つの埋め込みを受け取り、
00:01:08それが全レイヤーを通じてすべての意味を運ぶ必要がありました。
00:01:11しかしGemma 4では、各レイヤーが独自の埋め込みセットを持っており、
00:01:16モデルが必要な場所に正確に新しい情報を導入できるようになっています。
00:01:19E2BやE4Bといったモデル名に「E」がついているのは、そのためです。
00:01:24これは「有効パラメータ(effective parameters)」を意味します。
00:01:2750億パラメータモデルと同等の推論深度で動作しながら、
00:01:32推論中に実際に使用するアクティブパラメータは約23億にすぎません。
00:01:36これにより知能密度が格段に高まり、1.5GB未満のRAM消費でありながら
00:01:42複雑なロジックを処理できるようになりました。
00:01:46テキスト性能だけでなく、Gemma 4はネイティブにマルチモーダルです。
00:01:50つまり、画像、テキスト、さらには音声までもが、別々のモジュールを後付けするのではなく、
00:01:56一つの統合されたアーキテクチャ内で処理されるのです。
00:01:59このアーキテクチャにより、回答を出す前に内部の推論チェーンを用いて
00:02:05自身の論理を検証する新しい「思考モード」が可能になりました。
00:02:08これは、スモールモデルにつきものの無限ループや
00:02:13論理エラーを防ぐために特別に設計されたものです。
00:02:15また、128Kのコンテキストウィンドウと140以上の言語サポートも備えており、
00:02:22複雑なOCRや局所的な言語識別といったタスクで大幅に能力を発揮するはずです。
00:02:29そしてこれらの能力を証明するために、Googleは驚くべきベンチマークを公開しました。
00:02:34内部テストにおいて、E4BモデルはAIME 2026数学ベンチマークで
00:02:4342.5%というスコアを記録しました。これは前世代のはるかに大きなモデルの2倍以上の数値です。
00:02:49また、T2ベンチにおけるエージェントとしての可能性も示されており、
00:02:54ツール利用の精度が飛躍的に向上しています。
00:02:57さらに「エージェント・スキル」と呼ばれる機能を通じて、モデルのポテンシャルを実証しました。
00:03:02単に静的なテキストを生成するだけでなく、ネイティブな関数呼び出しを利用して、
00:03:07Wikipediaでライブデータを検索したり、エンドツーエンドの
00:03:13「動物の鳴き声ウィジェット」を構築したりといったマルチステップのワークフローをこなしました。
00:03:15非常に印象的な話ですが、実際に自分たちで試して、どのように動作するか見てみましょう。
00:03:20前回のQwen 3.5の動画では、LM StudioとClineを使い、
00:03:25インターネット接続なしのローカル環境でスモールモデルをテストしました。
00:03:28Gemma 4のテストでも同じセットアップを使用します。
00:03:32まずLM Studioでモデルをダウンロードし、利用可能なコンテキストウィンドウを増やして、
00:03:37サーバーを起動します。
00:03:39次にClineに移動して、ローカルのLM Studioサーバーに接続し、E2Bモデルを選択、
00:03:45インターネット接続を切断してテストを開始します。
00:03:49前回、Qwen 3.5は最小クラスの2つのモデルを使って、HTML、CSS、JavaScriptで
00:03:55シンプルなカフェのウェブサイトをかなりうまく作成できました。
00:04:00同じプロンプトを再利用して、Gemma 4がこのコーディングタスクで同等の実力があるか見てみましょう。
00:04:05さて、E2Bモデルがこのタスクを完了するのに約1.5分かかりました。
00:04:10アクティブパラメータが23億あるモデルとしては、正直なところ、
00:04:16わずか8億パラメータだったQwenの結果と比較すると、少し物足りない印象でした。
00:04:22一番困ったのは、GemmaがHTMLファイルとCSSファイルの両方の末尾に
00:04:28タスクリストを追記してしまったことです。そのため、ページを開く前に
00:04:33両方のファイルから手動で削除する必要がありました。
00:04:34また、JavaScriptファイルを書いたと主張していましたが、実際には最終出力に
00:04:40JSファイルは生成されておらず、E2Bのテスト結果は少し期待外れでした。
00:04:45しかし、E4Bモデルに切り替えると、状況はかなり改善されました。
00:04:50完了までに約3.5分かかりましたが、最終的な成果物は明らかに
00:04:55優れたものでした。
00:04:56デザイン面では依然として非常に素っ気ないですが、このバージョンでは
00:05:00カート機能が実際に動作していました。これは、QwenやGemmaでのこれまでのテストで
00:05:06一度も成功していなかったことです。
00:05:08E4BはE2Bから大きな進化を遂げていますが、もちろんこれほど小さなモデルを
00:05:15本格的で複雑なコーディングに使用しようと考える人はいないでしょう。
00:05:20私は単に好奇心から、これほど少ないパラメータ数でも、
00:05:25与えられたコーディングタスクに対して意味のある結果を出せるかどうかをテストしたのです。
00:05:29さて次に、iPhoneのようなエッジデバイスでGemma 4がどう機能するか見てみましょう。
00:05:34Qwen 3.5の動画では、SwiftのMLXフレームワークを使用して、
00:05:40ネイティブのMetal GPU上でモデルを動かすカスタムiOSアプリを作りました。
00:05:44Gemma 4はオープンソースですが、残念ながら現時点では、このモデルを
00:05:49マルチモーダル機能付きでiOS上で動作させられるMLXバインディングは存在しません。
00:05:56Google自身は、独自の推論フレームワークであるLiteRT LLMを使用して
00:06:01AI Edge GalleryアプリでGemma 4を動かしていますが、悲しいことにこれについても
00:06:07現時点ではiOSバインディングはサポートされていません。
00:06:08そのため、iPhoneで試すための現状の最善策は、彼らのEdge Galleryアプリを使うことです。
00:06:13彼ら自身のアプリでテストを行い、パフォーマンスを確認してみましょう。
00:06:18まずはAIチャットセクションへ行きます。
00:06:20ここではGemma 4のE2Bバージョンをダウンロードするよう促されます。
00:06:25E4Bバージョンをダウンロードするオプションもありますが、なぜかアプリは
00:06:29「空き容量不足」と表示します。そんなはずはないので、
00:06:34おそらくアプリのバグでしょう。
00:06:36ともあれ、モデルをダウンロードしたので、ようやく使い始めることができます。
00:06:41まずは単純に「Hello」と入力してみましょう。
00:06:43わあ、レスポンスの速さを見ましたか?
00:06:46Qwen 3.5よりもずっと速いです。
00:06:48これが彼らが使用しているLiteRT LLMフレームワークの魔法かもしれません。
00:06:53では、有名な「洗車テスト」でGemmaが正しく答えられるか試してみましょう。
00:06:57わあ、かなり長い回答が返ってきました。
00:07:00最後の方を見ると、最終的な推奨は「運転すること」になっており、正解ですが、
00:07:06実際には論理的な事実ではなく、利便性や快適さを根拠にしているという点には
00:07:10留意する必要があります。
00:07:13なので、テストに合格したとも言えるし、合格していないとも言える、という感じです。
00:07:18さて次は「画像への質問」セクションに飛んで、Gemmaがこの写真の中の
00:07:24犬を識別できるか見てみましょう。
00:07:26確かに犬であることを識別し、画像に関する他の詳細も答えています。
00:07:31これはかなりいいですね。
00:07:32でも、「この犬の犬種は何?」と聞くと、
00:07:35ボーダー・コリーだと答えましたが、それは間違いです。
00:07:39実際にはコーギーです。
00:07:40とはいえ、わずか20億強のアクティブパラメータであることを考えれば、
00:07:45この回答はそれでも十分に優れていると言えるでしょう。
00:07:46最後に、OCR(文字認識)テストを試してみます。
00:07:48前回のQwen 3.5の動画を観た方は覚えているかもしれませんが、
00:07:54私の母国語であるラトビア語のテキストが含まれた画像でテストしました。
00:07:59Gemmaは最大140言語を理解できると謳っています。
00:08:05ですから、このテストは簡単にクリアするはずです。
00:08:08はい、その通り、言語がラトビア語であることを識別しました。
00:08:13驚いたことに、ほとんどのテキストがかなり正確に認識されています。
00:08:16いくつかの些細な例外として、存在しない単語があったり、
00:08:22文法構造が非常に奇妙だったりする箇所は見受けられます。
00:08:24それでも非常に印象的です。
00:08:26よって、このテストは合格とします。
00:08:28さて、そこで疑問が湧きます。このモデルとラトビア語でチャットできるでしょうか?
00:08:32次にそれを試してみましょう。
00:08:33回答は確かにラトビア語で返ってきました。
00:08:36しかし、やはり文法構造が非常に不自然です。
00:08:39あんな風に話す人は誰もいません。
00:08:41とはいえ、ラトビア語は非常に話者数の少ない言語です。
00:08:44これほど小さなモデルにそれだけの知識が入っていること自体、すでに驚きです。
00:08:48ついでに「現在の米国大統領は誰?」と聞いて、
00:08:53Gemma 4の知識のカットオフを確認してみます。
00:08:56答えはジョー・バイデンと返ってきました。
00:08:58そして「あなたの知識のカットオフはいつ?」と実際に聞くと、
00:09:022025年1月だと答えました。これは辻褄が合いますね。
00:09:06というわけで、以上です。
00:09:07これがGoogleによる最新のオープンソースモデル、Gemma 4です。
00:09:10正直なところ、このモデルはかなり良さそうです。
00:09:14宣伝通りの実力ですが、ウェブデザインに関しては少し創造性に欠けるかもしれません。
00:09:19ですがそれ以外については、今見たように、この小さなモデルでも
00:09:24与えたすべてのタスクを無事に完遂する能力を十分に備えています。
00:09:27このモデル用のMLXバインディングがまだ無いのは残念です。
00:09:32Gemma 4をカスタムiOSアプリ上でローカルに使ってみたいですからね。
00:09:36でも、Googleがこのリリースを一般に公開するまで、そう長くはかからないでしょう。
00:09:41それまでの間、私はSwiftLMのようなコミュニティプロジェクトに注目しています。
00:09:46これらはすでに、これらのモデル向けの非公式なネイティブバインディングに取り組んでいます。
00:09:50以上が、このモデルに対する私の個人的な見解です。
00:09:52皆さんはGemma 4についてどう思いますか?
00:09:54試してみましたか?
00:09:55使ってみたいですか?
00:09:56下のコメント欄で教えてください。
00:09:59皆さん、こうした技術的な解説が気に入ったら、
00:10:03動画の下にある高評価ボタンをぜひ押してください。
00:10:05チャンネル登録も忘れずにお願いします。
00:10:07BetterStackのAndresでした。また次の動画でお会いしましょう。