ただのブームか、それとも革命児か？ | 徹底検証

日本語العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 한국어 Português Русский 中文

MMaximilian Schwarzmüller

컴퓨터/소프트웨어경제 뉴스AI/미래기술

Transcript

00:00:00数時間前、かなり大きな発表がありました。

00:00:06あるいは、ただの誇大広告かもしれません。

00:00:13まだ分かりませんし、単なる無意味な誇大広告の可能性も否定できません。

00:00:20しかし、もし本当なら、これは間違いなく大きな発表です。

00:00:28なぜなら、アレクサンダー・ウェディン氏（私も皆さんも知らなかったと思いますが）が、

00:00:36LLMの知能における重大なブレイクスルーとなる「sub-q（サブ・クアドラティック）」を発表したからです。

00:00:45彼が発表したのは、長文コンテキストのタスクに特化した、

00:00:52全く新しいタイプの大型言語モデルです。しかも、彼の主張によれば、

00:00:59モデルがトークンを生成し、最終的に知能を生み出すという、

00:01:04私たちが使い慣れている既存の最先端モデル、

00:01:08例えば Opus 4.7 や GPT 5.5 などの「知能」を損なうことがないとのことです。

00:01:16彼が X の発表ポストで言及している内容や、

00:01:26さらに技術的な詳細が書かれた発表ブログポストについて、

00:01:35この動画とエピソードで深く掘り下げて見ていきましょう。

00:01:42彼がここで発表しているのは、100万トークンのコンテキストタスクにおいて、

00:01:49推論速度が大幅に向上し、コストも劇的に削減されたモデルです。

00:01:57なんと、Opus のわずか 5% のコストで済みます。

00:02:02また、最初のモデルは 1,200万トークンのコンテキストウィンドウを持つと約束しています。

00:02:08この数字がいかに凄まじいかというと、

00:02:15コードベース全体、それも膨大なコードベースを丸ごとコンテキストに収められるということです。

00:02:22複数の膨大な法的文書をそのまま入れることも可能です。

00:02:28だからこそ、このようなモデルが本当に存在し、機能するのであれば、

00:02:33非常に有用であり、完全にゲームチェンジャーとなるでしょう。

00:02:40他に表現のしようがありません。

00:02:45もし機能すればですが。まだ詳細があまり分かっていないので、

00:02:52それについては後ほど戻りますが、もし機能すれば、

00:02:59現在私たちが使っているあらゆる回避策、

00:03:06例えばサブエージェントや RAG などが不要になることを意味します。

00:03:13これらはすべて、モデルが対象の一部しか見られないという問題への

00:03:19回避策に過ぎないからです。コードベースを扱う場合、

00:03:24既存の最先端モデルでは、コードベースの規模によっては、

00:03:31コード全体を見ることも、ロードすることもできません。

00:03:36そのため、何か変更を依頼する場合、

00:03:43モデルがコードベース内から適切な箇所を見つけ出してくれるのを

00:03:49期待するしかありませんでした。

00:03:56そして、コードベースや処理したいドキュメントの量が

00:04:01大きくなればなるほど、この問題は深刻になります。

00:04:06ですから、1,200万トークンのコンテキストウィンドウを、

00:04:15高いクオリティで安定して利用できるモデルがあれば、

00:04:22それは当然、ゲームチェンジャーになります。

00:04:28ゲームチェンジャーと言えば、この動画や、

00:04:36私のすべてのコースで、このテーマを深く掘り下げていきます。

00:04:45もし、Claude Code や Codex、その他の AI タスク、

00:04:53あるいはプログラミング、それらを組み合わせた実践的な手法を

00:05:00学びたいのであれば、私のコースは一見の価値があります。

00:05:07非常に実践的で、ハンズオン形式で、深く掘り下げた内容になっています。

00:05:15個別のコースを受講することもできますし、

00:05:22月額または年額で、すべてのコースにアクセスできるメンバーシップもあります。

00:05:29リンクは以下にあります。

00:05:35では、もう少し深く掘り下げてみましょう。

00:05:43先ほど述べたように、技術的な詳細が記載された発表ブログポストがありますが、

00:05:49はっきり言って、情報はあまり多くありません。

00:05:56多くの情報が欠けており、

00:06:05ベンチマークもあまり公開されていません。

00:06:12具体的には、彼らは3つのベンチマークしか公開していません。

00:06:201つは、単純な検索（Needle-in-a-Haystack）を超えて、

00:06:27情報検索と推論の挙動をテストする「Ruler」ベンチマークです。

00:06:36これにはマルチホップ検索、集計、変数追跡、

00:06:42そして選択的フィルタリングなどが含まれます。

00:06:50つまり、このベンチマークは、モデルが比較的大きなコンテキストウィンドウから、

00:06:54複数の関連する情報をいかに見つけ出せるかを測るものです。

00:07:0012万8,000トークンという、

00:07:09彼らが約束した1,200万トークンには遠く及ばないものの、

00:07:165Kなどの極小サイズでもないコンテキストウィンドウです。

00:07:22このベンチマークは、多かれ少なかれ大きなコンテキストウィンドウや

00:07:29ドキュメント群から、モデルがどれだけうまく様々な部分を見つけ出し、

00:07:37繋ぎ合わせることができるかをテストします。

00:07:45ここにおいて、彼らのモデルは Opus 4.6 と同等のレベルにあります。

00:07:52また、ポストの中では、別のベンチマークである「MRCRv2」についても言及されています。

00:07:58これも長文コンテキスト検索タスクに関するもので、

00:08:08彼らが言うには、彼らのモデルは Opus 4.6 の範囲内にあるとのことです。

00:08:13ただ、表にある他の結果と比較してみると、

00:08:20確かに範囲内ではありますが、明らかに劣っています。

00:08:28彼らの売りが長文コンテキスト検索であることを考えると、

00:08:35これは興味深いポイントです。

00:08:42しかし、超長文コンテキストウィンドウのユースケースにおいては、

00:08:48他のモデルはそもそも全く使えないのに対し、

00:08:57彼らのモデルは非常に良い結果を返してくれる可能性があり、

00:09:03何もないよりはマシだ、という議論もできます。

00:09:10そしてもちろん、彼らのモデルは今後時間の経過とともに確実に改善されます。

00:09:16ですから、初期モデルとしてこれを極端に悪い兆候と捉える必要はありません。

00:09:23単に注目に値する点というだけです。

00:09:30また、その表において、Gemini 3.1 Pro や

00:09:38Opus 4.7 よりも遥かに優れている点も注目に値します。

00:09:46さらに、彼らはコーディング関連タスクについての

00:09:51ベンチマークも1つ公開しており、個人的に興味深く思いました。

00:09:58ただ、私はこれらのあらゆるベンチマークの熱烈なファンというわけではありません。

00:10:05ご存知の通り、多くのベンチマークは欺く（ハックする）ことができますし、

00:10:11モデルは、ベンチマークで良いパフォーマンスを出すように、

00:10:17意図的または無意識的にファインチューニングや最適化を施されることがあります。

00:10:22過去にもそのようなケースが数多くありました。

00:10:29それでも、参考にできる指標にはなります。

00:10:36そして、このソフトウェアエンジニアリングのベンチマークは面白いと思います。

00:10:44なぜなら、彼らのモデルが

00:10:49Opus系のモデルとほぼ同等の範囲にあることが分かるからです。

00:10:56これは、単に長文コンテキストウィンドウや、

00:11:01大量のドキュメント、大きなコードベースから情報を見つけ出すだけでなく、

00:11:08それを使って何か役に立つことができることを示しています。

00:11:16モデル自身の知能や、長文コンテキストウィンドウから

00:11:24検索したデータを活用して、

00:11:31意味のある優れたコードを生成できるということです。

00:11:38単に検索するだけでなく、有用な処理を行うことができる、

00:11:46という点において、優秀なようです。

00:11:54しかし、先ほど言ったように、分かっているのはこれだけです。

00:12:00それ以外の深掘り情報や技術的な詳細はありません。

00:12:06モデルカード（仕様書）もまだありません。

00:12:14したがって、手元にあるのは本質的に説明文だけであり、

00:12:20モデルが密なアテンション（dense attention）の代わりに、

00:12:28疎なアテンション（sparse attention）を使用して、

00:12:33長文コンテキストのタスクを動作させ、効率的に処理していること、

00:12:40そしてどのように高速化とコスト効率を実現しているか、という点のみです。

00:12:46彼らが発表した通り、より速く、より安くなっているわけですからね。

00:12:52では、ここで何が起こっているのかを理解するために、

00:12:59「密なアテンション」と「疎なアテンション」を比較してみましょう。

00:13:06密なアテンション（dense attention）は、

00:13:13現在の最先端モデルで採用されているものです。

00:13:22GPT 5.5、Opus 4.7、その他すべてのモデル、

00:13:27これらはすべて密なモデル（dense models）です。

00:13:33これは本質的に、例えば新しいトークン「D」を生成するために、

00:13:39他のすべてのトークンを評価し、

00:13:45それらのトークン間の接続を評価しなければならないことを意味します。

00:13:50なぜなら、大型言語モデルの全体的なアイデアは、

00:13:55そのトークンの前に何があったかに基づいて、

00:14:01次のトークン（単語全体、あるいは単語の一部）を導き出すことだからです。

00:14:09例えば、次のような文章があるとします。

00:14:16「契約はいつでも解除することが…（ contract can be terminated at any...）」

00:14:20この後に続く次の言葉を予測したいわけです。

00:14:27モデルに「契約はいつ解除できますか？」と質問したかもしれません。

00:14:34その際、契約書を PDF 文書やプレーンテキストとして

00:14:40プロンプトに入力したことでしょう。

00:14:46モデルが出力として生成しているこの文の前にあるプロンプトは、

00:14:53皆さんの質問であり、さらには他のコンテキスト情報です。

00:15:00例えば、契約書ですね。

00:15:04これが、現在のモデルの使い方です。

00:15:12そして、このトークンを生成するため、

00:15:16また、その前にある各トークンを生成するために、

00:15:22モデルは基本的に、会話全体とそこに含まれるすべてのトークンに目を通しました。

00:15:29それがあなたの質問であり、そこに入れた追加のコンテキストです。

00:15:37モデルはそれを複数のトークンに分割し、

00:15:43それらすべてのトークンを組み合わせるか、

00:15:51あるいは前のトークンのあらゆる組み合わせに基づいて、最終的な重みを計算しました。

00:15:59例えば、これが私たちの会話のすべてだったとしましょう。

00:16:04（意図的に短くした例ですが、）

00:16:10GPT-5 モデルなどでは、このようにトークンに分割されます。

00:16:17トークンには、単に1つの単語、あるいは前にスペースが入った単語もあります。

00:16:23また、特殊文字だけがトークンになることもあります。

00:16:30そして、次のトークンを生成するために、

00:16:37最終的な意味を理解する目的で、前のすべてのトークンが相互に組み合わされます。

00:16:46当然ながら、クエスチョンマーク（？）は、

00:16:54その前に何が来たかによって、

00:17:00未来のトークンに対して全く異なる意味と暗示を持ちます。

00:17:07そのため、クエスチョンマークは前のすべてのトークンと組み合わされます。

00:17:14そして、これらすべての組み合わせの組み合わせこそが、

00:17:22最終的なトークンを導き出すために使用されるものです。

00:17:28これが、非常に大まかなレベルでの密なアテンションの仕組みです。

00:17:35当然ながら、これは非常に非効率的ですが、

00:17:43出力の知能や品質という点においては、

00:17:49今のところ私たちが持っている最善の方法です。

00:17:55しかし、これは $n \times n$ の計算になるため、二次関数的（quadratic）です。

00:18:01新しいトークンを導き出すために、前のすべてのトークンを組み合わせる必要があります。

00:18:08過去に計算された重みの結果をキャッシュする

00:18:14KVキャッシュのような最適化メカニズムは存在します。

00:18:21そのため、新しいトークンを生成する際に、

00:18:30以前のすべての組み合わせを再計算する必要はありませんが、

00:18:36それでも新しいトークンを、キャッシュされた過去のすべての重みと比較して

00:18:42計算する必要があります。

00:18:49したがって、結局はこの二次関数的な状況に陥ることになります。

00:18:57当然、これは非効率的で遅いため、

00:19:04現在の最先端モデルは非常に計算資源を消費し、遅くなります。

00:19:10特に、高いコンテキストウィンドウの領域に入るとなおさらです。

00:19:16また、かなり厳しいコンテキストウィンドウサイズ制限がある理由もここにあります。

00:19:26計算量が二次関数的に増えるため、当然、

00:19:351,200万のコンテキストウィンドウサイズを計算することは、ほぼ不可能です。

00:19:42膨大な時間がかかりますし、計算時間だけでなく、

00:19:49確保しなければならないメモリ量も、もう一つの大きな課題です。

00:19:56手短に言えば、これが密なモデルの仕組みと限界です。

00:20:05さて、その逆、あるいは代替アプローチとして、

00:20:13昨日発表された新しい「sub-q」モデルが採用しているのが、

00:20:19「疎なアテンション（sparse attention）」です。

00:20:25では、疎なアテンションはどのように機能するのでしょうか？

00:20:33疎なアテンションのアイデアは、新しいトークンを計算する際に、

00:20:40前のすべてのトークンを見るのではなく、

00:20:45前のすべてのトークンの組み合わせを持つのでもなく、

00:20:52選択されたいくつかのトークンだけを見る、というものです。

00:21:00例えば、ここでトークン「D」を導き出したい場合、

00:21:07「A」は見ずに、「B」と「C」だけを見るかもしれません。

Key Takeaway

sub-qアーキテクチャによる疎なアテンションの採用は、1,200万トークンという超長文コンテキストをOpus 4.7の5%のコストで処理し、既存のAIモデルの計算限界を突破する可能性を秘めている。

Highlights

アレクサンダー・ウェディン氏が発表した「sub-q（サブ・クアドラティック）」アーキテクチャは、1,200万トークンのコンテキストウィンドウを実現すると謳っている。
従来の密なアテンション（dense attention）モデルと比較して、Opus 4.7モデルの5%という劇的なコスト削減を提示している。
「Ruler」および「MRCRv2」ベンチマークにおいて、当該モデルは既存のOpus 4.6モデルと同等の推論性能を示している。
疎なアテンション（sparse attention）を採用することで、全ての過去トークンを参照する二次関数的な計算を回避している。
コードベースの全体把握や大量の法的文書の同時解析を可能にし、現状のRAGやサブエージェント等の回避策を不要にする潜在性を持つ。

Timeline

sub-qモデルの概要と主張

1,200万トークンのコンテキストウィンドウを搭載する新しい言語モデルが登場した。
推論コストは既存のOpusモデルの5%に抑えられている。
長大なコードベースや法的文書をそのまま入力に含めることが可能になる。

長文コンテキストタスクにおいて、モデルが対象の一部しか参照できないという現在の制約を解消するモデルが提案された。これにより、現在行われているRAGやサブエージェントを用いた断片的な処理が不要になり、効率的なコードベース解析や大規模文書の読解が期待される。

ベンチマーク結果と分析

RulerおよびMRCRv2ベンチマークでOpus 4.6と同等の性能を記録している。
長文コンテキストからの情報検索だけでなく、有用なコード生成能力も備えている。
技術仕様の公開は限定的であり、現時点では詳細なモデルカードなどは存在しない。

公開されたベンチマーク結果では、既存の最先端モデルの範囲内である一方、一部の評価では明確に下回る数値も見られる。しかし、超長文コンテキストを扱うユースケースでは比較対象が存在しないため、初期段階としては注目に値する性能といえる。

密なアテンションと疎なアテンションの技術的違い

現在のGPT-5.5やOpus 4.7は、全トークンを評価する二次関数的な密なアテンションを採用している。
密なアテンションは、コンテキストが長くなるほど計算量とメモリ消費が爆発的に増加する。
sub-qモデルが採用する疎なアテンションは、特定トークンのみを参照することで計算効率を改善する。

従来のモデルは新しいトークンを生成する際、過去の全トークンとの相互作用を計算する必要があり、これが大きなボトルネックとなっている。疎なアテンションは、全トークンを組み合わせる代わりに必要なトークンのみを選択的に参照することで、計算コストの二次関数的増加を抑制する仕組みをとっている。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video