AIエージェントのコストを7割削減した、たった1つの変更点 (Manifest)
BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology
Transcript
00:00:00これはManifestです。週末にこれに切り替えたところ、トークンコストが70%削減されました。
00:00:05同じエージェント、同じタスクで、単にルーティングが改善されただけです。AIエージェントを構築しているなら、
00:00:11おそらく必要以上に料金を支払っている可能性が高いでしょう。ほとんどのリクエストにはGPT-4oやClaude Opusは不要なのに、
00:00:17実際にはそれらがそのまま呼び出されています。そのため、エージェントは分類やルーティング、要約といった
00:00:22基本的な作業にまで高価なモデルを使ってしまい、結果として請求額が
00:00:27本来あるべき額の3倍から5倍に膨れ上がってしまうのです。ではManifestはどう機能するのでしょうか?見ていきましょう。
00:00:37問題はここにあります。エージェントは数回呼び出しを行うだけでなく、何千回もの呼び出しを行います。
00:00:44そしてそのほとんどは、ツールの選択やチャンクの要約、入力の分類といった非常にシンプルなものです。しかし、
00:00:50すべてを最高性能のモデルに送ってしまうと、基本的な作業に対して割高な料金を払うことになります。自分で修正しようとして、
00:00:57ルーティングロジックを書いたとしても、今度はコードが山のようなif-else文で埋め尽くされ、
00:01:02プロンプトが変わった瞬間に壊れてしまいます。あるいはOpenRouterを使えばいいという考えもありますが、
00:01:08それには手数料がかかりますし、何よりプロンプトが外部のサーバーに出てしまいます。LiteLLMという選択肢もあり、
00:01:13それはそれで優れていますが、ルーティングは依然として手動で管理しなければなりません。つまり本当の問題は、
00:01:18モデルへのアクセスではなく、毎回最適なモデルを選択することなのです。
00:01:25それこそがManifestの役割です。エージェントとモデルの間に位置する存在です。
00:01:31リクエストを一つ送ると、23の次元でスコアリングを行い、それを処理できる最も安価なモデルへ
00:01:36振り分けます。書き換えは不要で、エンドポイントは一つだけです。こういったコーディングのツールやヒントが
00:01:41好きなら、ぜひチャンネル登録してください。次々に動画を公開しています。それでは、お見せしましょう。
00:01:47同じエージェント、同じタスクです。DockerでManifestを立ち上げます。シンプルなコマンドでDocker Compose upして、
00:01:55OpenAIのエンドポイントをここに向けるだけ。唯一の変更はこれだけです。ご覧の通り、Anthropic、
00:02:01OpenAI、Ollamaなど、さまざまなモデルを接続できます。今回はOpenAIを選択してキーを入力し、
00:02:08Ollamaも繋いで両者を切り替えられるようにします。そして、このPythonスクリプトを実行します。ご覧の通り、
00:02:12ManifestのAPIキーを使っています。Manifestが他のキーを保持しているため、これ一つで十分なのです。
00:02:18実行するとエージェントが動き出します。すべてを高価なモデルに送るのではなく、
00:02:24Manifestが判断を下します。「これは単純なタスクだ、もっと安く処理しよう」と。ダッシュボードに戻りましょう。
00:02:31リアルタイムで更新され、トークン使用量やエージェントごとのコスト、予算追跡が確認できます。数値は変動しますが、
00:02:38最大で70%もコストを削減可能です。出力品質はそのままにコストは低く。そして
00:02:44ローカルで動作するため、ルーティングのためにプロンプトがマシン外に出ることもありません。これには
00:02:50多くの時間やリソースを必要としないため、AIを構築・活用しているならぜひ統合する価値があります。
00:02:55さて、具体的に何が起きているのでしょうか?Manifestは「コントローラー」だと考えてください。
00:03:00エージェントがリクエストを送ると、Manifestがどこへ送るべきかを判断します。
00:03:07それがAPIモデルであれ、サブスクリプションモデルであれ、OllamaやLlama CPPなどのローカルモデルであれ対応します。
00:03:14何百ものモデルやプロバイダーをサポートしていますが、ここからが重要です。
00:03:19判断のために別のLLMを呼び出すことはありません。それは非効率的で、遅くコストがかかるだけです。
00:03:25代わりに「決定論的なスコアリング」を行うため、2ミリ秒以下でルーティングが完了します。
00:03:32遅延は一切追加されません。Manifestが間に立ってより賢い判断を下すだけです。
00:03:38エージェント向けに最適化されています。ツール呼び出し、マルチエージェント追跡にも対応し、
00:03:44可観測性(オブザーバビリティ)も内蔵しています。最大の節約は、難解なプロンプトからではなく、
00:03:50エージェントが絶え間なく行う、小さな、退屈な呼び出しから生まれます。さて、
00:03:56既存ツールとの違いを比較してみましょう。先ほどOpenRouterに触れましたが、
00:04:01OpenRouterはクラウドのエンドポイントを提供しますが、トラフィックは依然としてシステムの外へ出ます。
00:04:06Manifestは完全にセルフホスト可能です。LiteLLMは統合インターフェースを提供しますが、
00:04:13ルーティングは手動で制御する必要があります。Manifestはルーティングを自動化します。
00:04:19さらに「ルーティングインテリジェンス」があります。Manifestがリクエストを23の次元で
00:04:25スコアリングするのがこれに当たります。他のツールはフェイルオーバーやルールに頼りがちです。
00:04:31サブスクリプションも重要です。Manifest自体には課金されませんが、当然OpenAIやClaudeの
00:04:38APIキーは必要になりますよね。エージェントへの集中という点では、Manifestは際立っています。
00:04:46マルチエージェントワークフロー用に構築されています。違いは単純です。
00:04:51アクセス性を求めるならOpenRouter、制御を求めるならLiteLLM。しかし、
00:04:57エージェントが大量のAPI呼び出しを行うことで発生するコストが問題なら、Manifestが最適です。
00:05:03コストを削減するツールは数多く存在しますが、これを見つけることがその一つの方法です。
00:05:08正直に言えば、素晴らしいツールですが、頭を悩ませる点もいくつかあります。
00:05:14まず良い点。何と言ってもコスト削減です。特にサブスクリプションを利用したルーティングでは、
00:05:19トークンごとに支払うのではなく、既存のプランを有効活用できます。
00:05:26次にフォールバック機能です。何か失敗してもエージェントが停止せず稼働し続けるのは大きな利点です。
00:05:33そしてダッシュボード。モデル、エージェント、タスクごとのコストがリアルタイムで見えるのは素晴らしいです。
00:05:38大規模な書き換えなしで既存のクライアントと連携できる点も優れています。
00:05:45しかし、こういったツールには当然求められることですが、懸念点もあります。
00:05:50スコアリングが「独断的」である点です。AIの判断なので、
00:05:56予想以上に安いモデルにルーティングされることもあります。オーバーライドは可能ですが、裏で何が起きているかを知っておく必要があります。
00:06:02セットアップもゼロではありません。キー管理やプロバイダーの接続が必要です。簡単ではありますが、手間は発生します。
00:06:07開発者としては、さらなるSDK、ストレージオプション、機能が欲しくなります。
00:06:13非常にクールですが、まだインフラの域です。完璧ではありません。微調整も必要でしょう。
00:06:19毎日エージェントを動かしている場合や、エージェントが小さな呼び出しを頻繁に行うなら、導入する価値は十分にあります。
00:06:25プロンプトをローカルに保ちたい場合も最高です。ただ、ゼロ設定を求めるなら向いていないかもしれません。
00:06:32その場合はOpenRouterのようなツールの方がシンプルです。しかし、ほとんどの開発者にとって、
00:06:38エージェントを変更せずにコストを削減できる最も速い方法の一つです。私たちはすべてを維持したまま、
00:06:44ルーティング方法だけを変える。同じ入力、同じ出力で、請求額だけ下がる。それが鍵です。
00:06:50こうしたコーディングのツールやヒントが気に入ったら、BetterStackチャンネルの登録をお願いします。
00:06:54また別の動画でお会いしましょう。
Community Posts
No posts yet. Be the first to write about this video!
Write about this video