AIエージェントのコストを7割削減した、たった1つの変更点 (Manifest)

日本語العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 한국어 Português Русский 中文

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00これはManifestです。週末にこれに切り替えたところ、トークンコストが70%削減されました。

00:00:05同じエージェント、同じタスクで、単にルーティングが改善されただけです。AIエージェントを構築しているなら、

00:00:11おそらく必要以上に料金を支払っている可能性が高いでしょう。ほとんどのリクエストにはGPT-4oやClaude Opusは不要なのに、

00:00:17実際にはそれらがそのまま呼び出されています。そのため、エージェントは分類やルーティング、要約といった

00:00:22基本的な作業にまで高価なモデルを使ってしまい、結果として請求額が

00:00:27本来あるべき額の3倍から5倍に膨れ上がってしまうのです。ではManifestはどう機能するのでしょうか？見ていきましょう。

00:00:37問題はここにあります。エージェントは数回呼び出しを行うだけでなく、何千回もの呼び出しを行います。

00:00:44そしてそのほとんどは、ツールの選択やチャンクの要約、入力の分類といった非常にシンプルなものです。しかし、

00:00:50すべてを最高性能のモデルに送ってしまうと、基本的な作業に対して割高な料金を払うことになります。自分で修正しようとして、

00:00:57ルーティングロジックを書いたとしても、今度はコードが山のようなif-else文で埋め尽くされ、

00:01:02プロンプトが変わった瞬間に壊れてしまいます。あるいはOpenRouterを使えばいいという考えもありますが、

00:01:08それには手数料がかかりますし、何よりプロンプトが外部のサーバーに出てしまいます。LiteLLMという選択肢もあり、

00:01:13それはそれで優れていますが、ルーティングは依然として手動で管理しなければなりません。つまり本当の問題は、

00:01:18モデルへのアクセスではなく、毎回最適なモデルを選択することなのです。

00:01:25それこそがManifestの役割です。エージェントとモデルの間に位置する存在です。

00:01:31リクエストを一つ送ると、23の次元でスコアリングを行い、それを処理できる最も安価なモデルへ

00:01:36振り分けます。書き換えは不要で、エンドポイントは一つだけです。こういったコーディングのツールやヒントが

00:01:41好きなら、ぜひチャンネル登録してください。次々に動画を公開しています。それでは、お見せしましょう。

00:01:47同じエージェント、同じタスクです。DockerでManifestを立ち上げます。シンプルなコマンドでDocker Compose upして、

00:01:55OpenAIのエンドポイントをここに向けるだけ。唯一の変更はこれだけです。ご覧の通り、Anthropic、

00:02:01OpenAI、Ollamaなど、さまざまなモデルを接続できます。今回はOpenAIを選択してキーを入力し、

00:02:08Ollamaも繋いで両者を切り替えられるようにします。そして、このPythonスクリプトを実行します。ご覧の通り、

00:02:12ManifestのAPIキーを使っています。Manifestが他のキーを保持しているため、これ一つで十分なのです。

00:02:18実行するとエージェントが動き出します。すべてを高価なモデルに送るのではなく、

00:02:24Manifestが判断を下します。「これは単純なタスクだ、もっと安く処理しよう」と。ダッシュボードに戻りましょう。

00:02:31リアルタイムで更新され、トークン使用量やエージェントごとのコスト、予算追跡が確認できます。数値は変動しますが、

00:02:38最大で70%もコストを削減可能です。出力品質はそのままにコストは低く。そして

00:02:44ローカルで動作するため、ルーティングのためにプロンプトがマシン外に出ることもありません。これには

00:02:50多くの時間やリソースを必要としないため、AIを構築・活用しているならぜひ統合する価値があります。

00:02:55さて、具体的に何が起きているのでしょうか？Manifestは「コントローラー」だと考えてください。

00:03:00エージェントがリクエストを送ると、Manifestがどこへ送るべきかを判断します。

00:03:07それがAPIモデルであれ、サブスクリプションモデルであれ、OllamaやLlama CPPなどのローカルモデルであれ対応します。

00:03:14何百ものモデルやプロバイダーをサポートしていますが、ここからが重要です。

00:03:19判断のために別のLLMを呼び出すことはありません。それは非効率的で、遅くコストがかかるだけです。

00:03:25代わりに「決定論的なスコアリング」を行うため、2ミリ秒以下でルーティングが完了します。

00:03:32遅延は一切追加されません。Manifestが間に立ってより賢い判断を下すだけです。

00:03:38エージェント向けに最適化されています。ツール呼び出し、マルチエージェント追跡にも対応し、

00:03:44可観測性（オブザーバビリティ）も内蔵しています。最大の節約は、難解なプロンプトからではなく、

00:03:50エージェントが絶え間なく行う、小さな、退屈な呼び出しから生まれます。さて、

00:03:56既存ツールとの違いを比較してみましょう。先ほどOpenRouterに触れましたが、

00:04:01OpenRouterはクラウドのエンドポイントを提供しますが、トラフィックは依然としてシステムの外へ出ます。

00:04:06Manifestは完全にセルフホスト可能です。LiteLLMは統合インターフェースを提供しますが、

00:04:13ルーティングは手動で制御する必要があります。Manifestはルーティングを自動化します。

00:04:19さらに「ルーティングインテリジェンス」があります。Manifestがリクエストを23の次元で

00:04:25スコアリングするのがこれに当たります。他のツールはフェイルオーバーやルールに頼りがちです。

00:04:31サブスクリプションも重要です。Manifest自体には課金されませんが、当然OpenAIやClaudeの

00:04:38APIキーは必要になりますよね。エージェントへの集中という点では、Manifestは際立っています。

00:04:46マルチエージェントワークフロー用に構築されています。違いは単純です。

00:04:51アクセス性を求めるならOpenRouter、制御を求めるならLiteLLM。しかし、

00:04:57エージェントが大量のAPI呼び出しを行うことで発生するコストが問題なら、Manifestが最適です。

00:05:03コストを削減するツールは数多く存在しますが、これを見つけることがその一つの方法です。

00:05:08正直に言えば、素晴らしいツールですが、頭を悩ませる点もいくつかあります。

00:05:14まず良い点。何と言ってもコスト削減です。特にサブスクリプションを利用したルーティングでは、

00:05:19トークンごとに支払うのではなく、既存のプランを有効活用できます。

00:05:26次にフォールバック機能です。何か失敗してもエージェントが停止せず稼働し続けるのは大きな利点です。

00:05:33そしてダッシュボード。モデル、エージェント、タスクごとのコストがリアルタイムで見えるのは素晴らしいです。

00:05:38大規模な書き換えなしで既存のクライアントと連携できる点も優れています。

00:05:45しかし、こういったツールには当然求められることですが、懸念点もあります。

00:05:50スコアリングが「独断的」である点です。AIの判断なので、

00:05:56予想以上に安いモデルにルーティングされることもあります。オーバーライドは可能ですが、裏で何が起きているかを知っておく必要があります。

00:06:02セットアップもゼロではありません。キー管理やプロバイダーの接続が必要です。簡単ではありますが、手間は発生します。

00:06:07開発者としては、さらなるSDK、ストレージオプション、機能が欲しくなります。

00:06:13非常にクールですが、まだインフラの域です。完璧ではありません。微調整も必要でしょう。

00:06:19毎日エージェントを動かしている場合や、エージェントが小さな呼び出しを頻繁に行うなら、導入する価値は十分にあります。

00:06:25プロンプトをローカルに保ちたい場合も最高です。ただ、ゼロ設定を求めるなら向いていないかもしれません。

00:06:32その場合はOpenRouterのようなツールの方がシンプルです。しかし、ほとんどの開発者にとって、

00:06:38エージェントを変更せずにコストを削減できる最も速い方法の一つです。私たちはすべてを維持したまま、

00:06:44ルーティング方法だけを変える。同じ入力、同じ出力で、請求額だけ下がる。それが鍵です。

00:06:50こうしたコーディングのツールやヒントが気に入ったら、BetterStackチャンネルの登録をお願いします。

00:06:54また別の動画でお会いしましょう。

Key Takeaway

ManifestはAIエージェントとモデルの間に位置する決定論的コントローラーであり、リクエストを最適な低コストモデルへ自動ルーティングすることで、エージェントの運用コストを最大70%削減する。

Highlights

Manifestを導入することで、AIエージェントのトークンコストを最大70%削減できる。
ほとんどのAIリクエストはGPT-4oやClaude Opusのような高価なモデルを必要とせず、Manifestはこれらを最も安価で最適なモデルに自動ルーティングする。
Manifestは23の次元でリアルタイムにスコアリングを行い、2ミリ秒以下でルーティングを決定するため、遅延が発生しない。
Dockerでセルフホスト可能であり、プロンプトデータが外部サーバーに出ないため、セキュリティとプライバシーが確保される。
Manifest自体はコントローラーとして機能し、既存のコードを書き換えることなく、エンドポイントを向けるだけで統合が可能である。

Timeline

エージェント運用におけるコスト問題とManifestの役割

AIエージェントは数千回という頻繁な呼び出しを行うため、すべてを高価なモデルで処理するとコストが肥大化する。
ツール選択や要約などの単純なタスクにまで最高性能のモデルを使用することは経済的に非効率である。
手動でのルーティングは複雑なif-elseロジックが必要となり、メンテナンスが困難である。

AIエージェントの請求額が本来の3倍から5倍に膨れ上がる主な原因は、基本的なタスクに過剰な性能のモデルを割り当てていることにある。プロンプト変更のたびに壊れるルーティングコードや、データが外部に出るOpenRouter、手動管理が必要なLiteLLMといった既存の解決策には限界がある。Manifestはエージェントとモデルの間に配置されることで、最適なモデル選択を自動化する。

導入方法とコスト削減の仕組み

Docker Composeを使用して簡単に導入でき、OpenAIのエンドポイントをManifestに向けるだけで利用を開始できる。
リアルタイムのダッシュボードで、モデルやエージェントごとのコストとトークン使用量を可視化できる。
Manifestは別のLLMを使って判断するのではなく、決定論的なスコアリングアルゴリズムを用いて23の次元で瞬時に判定を行う。

Manifestは既存のクライアントコードを大規模に書き換えることなく、APIキーとエンドポイントの設定変更のみで組み込める。内部では2ミリ秒以下の速度でスコアリングが行われるため、ルーティングによる遅延は発生しない。Anthropic、OpenAI、Ollamaなどの多種多様なモデルをサポートし、ローカルモデルもルーティング先に含めることが可能である。

他ツールとの比較と導入の検討材料

OpenRouterはアクセス性を重視するがトラフィックが外部に出るのに対し、Manifestはセルフホストが可能でプライバシーを保護する。
LiteLLMはインターフェースを提供するがルーティング制御は手動である一方、Manifestはルーティングを完全に自動化する。
導入時の課題として、自動スコアリングの判断が必ずしもユーザーの意図通りとは限らない点や、セットアップ時の手間が挙げられる。

Manifestは特にマルチエージェントワークフローにおいて、頻繁かつ小規模なAPI呼び出しを行うケースで最大の効果を発揮する。フォールバック機能によりエージェントの停止を防ぐ一方で、開発者は必要に応じて特定のモデルにルーティングを固定するオーバーライド設定も可能である。ゼロ設定を求める場合には不向きだが、エージェントの入力・出力を維持したままコストを劇的に下げるためのインフラとして機能する。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video