Claudeの新機能「Advisor Mode」：低コストでより高い精度を

日本語العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 한국어 Português Русский 中文

Computing/SoftwareManagementInternet Technology

Transcript

00:00:00Anthropicがアドバイザー戦略を発表しました

00:00:02これにより Anthropicモデルの

00:00:05パフォーマンスを向上させつつ低コスト化も可能です

00:00:09仕組みは極めてシンプルです

00:00:10Opusをアドバイザーとして

00:00:12SonnetやHaikuを実行役として組み合わせます

00:00:15Opusが計画を立て

00:00:17安価なモデルが実際の作業を行います

00:00:19これは Claude Codeを使って

00:00:22Opusでプランニング・モードを実行し

00:00:24実際の実行をSonnetに任せるのと似ています

00:00:27違いはこのアドバイザー戦略は

00:00:30すべてAPI経由で自動的に行われる点です

00:00:32そのため Claude Code以外の環境で

00:00:34作業している場合に最適です

00:00:35AnthropicのAPIを内部で利用している

00:00:38あらゆるウェブアプリケーションにとって

00:00:41これは迷う必要のない選択肢です

00:00:42より安くより効果的な出力が得られるからです

00:00:46実は Claude CodeでOpusが計画して

00:00:48Sonnetが実行する仕組みよりも

00:00:50少し洗練されています

00:00:52なぜならこのアドバイザーと実行役の関係は

00:00:55常に変化し一回限りではないからです

00:00:58Opusが一度助言してSonnetが実行して終わりではなく

00:01:01実際にはやり取りが往復します

00:01:02ここに記載がある通り実行役である

00:01:04SonnetやHaikuが自力で解決できない

00:01:06判断ポイントに直面した際

00:01:08アドバイザーであるOpusに指示を仰ぎます

00:01:11OpusはSonnetが何をしているか

00:01:15その全コンテキストを把握しています

00:01:16単に一つの戦略を与えて実行させる

00:01:19プランニング・モードとは異なります

00:01:22実行中に壁にぶつかったら Opusに戻るのです

00:01:24つまり絶え間ないやり取りが発生します

00:01:26さらにコストを抑えるために

00:01:28Opusはいかなるツール呼び出しも行いません

00:01:30ツールの呼び出しはすべて小型LLMである

00:01:34SonnetやHaikuが行います

00:01:35しかしOpusは共有された全コンテキストを保持します

00:01:39冒頭で述べた通りこれにより

00:01:40より少ないコストで優れた結果が得られます

00:01:43ここでは Sonnet 3.5 (High)を単体で使う場合と

00:01:46Opusをアドバイザーにして使う場合を比較しています

00:01:50SWE-benchのスコアは72.1に対し74.8と向上し

00:01:55しかも安価になりました

00:01:56エージェント的なタスク1件あたり約1.09ドルから

00:02:000.96ドル強へと下がっておりこれは大きな差です

00:02:03BrowseCompやTerminalBenchといった

00:02:06他のベンチマークでも同様の傾向が見られます

00:02:0858.1に対し60.4を記録しついでに安くなっています

00:02:12安くなるのは素晴らしいことですご存知の通り

00:02:14AnthropicのAPIは素晴らしいのですが

00:02:16とにかく料金が高いのが難点でした

00:02:19SonnetとOpusの中間くらいのモデルが

00:02:21欲しいと思っても存在しませんでした

00:02:24この手法はパフォーマンス面では

00:02:26SonnetとOpusの中間地点を提供しつつ

00:02:28コストは通常のSonnetよりも安く済みます

00:02:31文句の付け所がありませんね

00:02:32先ほど言ったようにこれはAPIの機能であり

00:02:33必ずしも Claude Code専用ではありません

00:02:35利用するには実際のAPI呼び出しを行う

00:02:38コードを少し調整する必要があります

00:02:41具体的には typeを "advisor" に指定し

00:02:45max_usesを設定する必要があります

00:02:47max_usesとは特定の問題に対して

00:02:48Opusにアドバイスを求めに戻る

00:02:50回数の上限のことです

00:02:52まとめるとこれは素晴らしいアップグレードです

00:02:54Claude Codeのエコシステム以外で

00:02:56AnthropicのAPIをプロジェクトで使っているなら

00:03:00より安くより良い結果が得られます

00:03:03多くの作業にとって Opusは過剰スペックですが

00:03:06かといってSonnetでは

00:03:08少し物足りない場面もあります

00:03:10そんな時のための完璧な妥協案がこれです

Key Takeaway

Anthropicのアドバイザー戦略は、Opusによる動的な指示と小型モデルの実行を組み合わせることで、Sonnet 3.5単体を超える精度を維持しつつタスク単価を0.96ドルまで抑制する。

Highlights

Opusをアドバイザー、SonnetやHaikuを実行役に割り当てることで、単体モデルよりも高い精度と低コストを両立する。

SWE-benchのスコアにおいて、Sonnet 3.5単体の72.1に対し、アドバイザー戦略を用いることで74.8へ向上する。

エージェントタスク1件あたりのコストは、1.09ドルから0.96ドル以下へと約12%削減される。

アドバイザー役のOpusはツール呼び出しを一切行わず、すべての実行コンテキストを保持したまま小型モデルに指示を出す。

API経由で「type: advisor」と「max_uses」を設定するだけで、Claude Code以外の開発環境でも自動実装が可能になる。

Timeline

アドバイザー戦略の基本構造

最上位モデルのOpusが計画を立て、安価なSonnetやHaikuが実際の作業を遂行する。
APIを通じて自動的に実行されるため、あらゆるウェブアプリケーションに即座に導入できる。
従来のプランニング・モードとは異なり、実行中もモデル間で絶え間ない往復のやり取りが発生する。

高機能なモデルを監督役に据え、実務を軽量モデルに任せることで全体のパフォーマンスを最適化する仕組みである。Claude Codeでの運用に近いが、APIレベルで完全に自動化されている点が異なる。APIを利用している開発者にとって、コスト削減と出力精度の向上を同時に達成できる選択肢となる。

動的な相互作用とコスト抑制の仕組み

実行役のモデルが自力で解決できない判断点に直面した際、リアルタイムでOpusに指示を仰ぐ。
アドバイザー役のOpusは実行の全コンテキストを把握し、一貫性のある助言を行う。
コストがかかるツール呼び出しはすべて小型モデルが担当し、Opusは思考と助言に特化する。

一度きりの指示ではなく、困難な壁にぶつかるたびにアドバイザーへ戻る動的なプロセスを採用している。Opusはツールを直接操作しないため、計算リソースの浪費を防ぎつつ、共有されたコンテキストに基づいた高度な判断のみを提供する。この役割分担が、効率的なタスク処理の核となっている。

ベンチマーク結果とコスト効率の改善

BrowseCompやTerminalBenchといった主要なベンチマークでも一貫してスコアが向上する。
高価なAnthropic APIにおいて、Sonnet単体よりもさらに安価な運用が可能になる。
パフォーマンス面ではSonnetとOpusの中間地点を埋めつつ、費用はSonnet以下に抑えられる。

SWE-benchにおいて2.7ポイントの精度向上を記録しながら、同時に10%以上のコスト削減を達成している。これまでSonnetでは力不足だがOpusでは過剰で高価すぎた中間的なタスクに対し、最適な解決策を提供する。これは既存のモデルラインナップに存在しなかった、コストパフォーマンスの空白地帯を埋める手法である。

実装方法と活用のメリット

API呼び出し時にパラメータのtypeをadvisorに指定し、max_usesで再試行回数を制限する。
max_usesの設定により、アドバイザーへ助言を求める回数の上限を制御できる。
特定のプロジェクトにおいて、性能不足と高コストのジレンマを解消する完璧な妥協案となる。

導入にはAPIリクエストのコードに数行の修正を加えるだけで済む。Opusを常にフル稼働させる必要がないため、リソースを節約しながら必要な時だけ高度な知能を動員できる。Claude Codeのエコシステム外で開発しているユーザーにとっても、極めて実用的なアップグレードである。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video