我通过一项改动将 AI 智能体成本降低了 70% (Manifest)

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00这是 Manifest。我用了一个周末切换到它，我的 Token 成本降低了 70%。

00:00:05同样的智能体，同样的任务，只是路由更智能了。如果你正在构建 AI 智能体，很有可能

00:00:11你支付的费用远超你的实际需求。大多数请求根本不需要 GPT-4-0 或 Claude Opus，

00:00:17但它们却总是被导向这些模型。所以你的智能体最终在处理

00:00:22诸如分类、路由、摘要等基础任务时，也使用了昂贵的模型，这就是为什么你的账单

00:00:27悄无声息地高出了三到五倍。Manifest 到底是如何工作的？让我们一探究竟。

00:00:37问题出在这里。智能体不仅仅是进行几次调用，它们实际上会进行成千上万次调用。

00:00:44而大多数调用非常简单：选择工具、总结片段、分类输入。但如果

00:00:50所有任务都交给最强的模型，你就是在为基础工作支付溢价。所以你可能会

00:00:57试图通过编写路由逻辑来解决这个问题，结果你的代码里充满了各种 if-else

00:01:02语句，一旦提示词发生变化，这些逻辑就会失效。好吧，我们当然可以使用 OpenRouter，

00:01:08确实可以，但那是有费用的。而且你的提示词实际上离开了你的系统。我想还有

00:01:13一种叫 Lite LLM 的工具可以尝试，它很稳健，但你仍然需要手动

00:01:18管理路由。所以真正的问题不在于模型的使用权限，而在于如何每次都选择正确的模型。

00:01:25而这，各位，正是 Manifest 所做的。它位于你的智能体和模型之间。

00:01:31你发送一个请求，它会在 23 个维度上对其进行评分，并将其路由到能处理该请求的

00:01:36最便宜的模型。无需重写，只需一个端点。如果你喜欢这样的编程工具和技巧，

00:01:41请务必订阅。我们会不断更新视频。好了，太棒了。现在让我展示给你看。

00:01:47还是同样的智能体，同样的任务。我在这里通过 Docker 启动 Manifest，简单的 curl 命令，Docker Compose up，

00:01:55现在我将 OpenAI 端点指向它。这是唯一的变化。现在我可以链接不同的模型，

00:02:01就像你看到的，Anthropic、OpenAI、Ollama。我选择了 OpenAI，填入了我的密钥，并链接了

00:02:08Ollama，这样它就能在这两者之间切换。现在我们要运行这个 Python 脚本。你可以看到我正在使用

00:02:12Manifest API 密钥。这是我们唯一需要的密钥，因为 Manifest 拥有其他的密钥，明白吗？

00:02:18所以当我们运行它时，智能体开始工作。Manifest 不会把所有东西都发给昂贵的

00:02:24模型，而是做出决定。这个请求很简单，路由到更便宜的模型。现在跳回这里。我们的仪表板

00:02:31实时更新，向我们展示 Token 使用量、每个智能体的成本以及预算跟踪。关键数字

00:02:38会有变化，但最高可以节省 70% 的成本。同样的输出，更低的成本，并且因为

00:02:44这是在本地运行的，你的提示词不会为了路由而离开你的机器。这并没有花费

00:02:50太多的时间和资源，所以这是值得集成到你的流程中的，特别是如果你正在

00:02:55构建和使用 AI。好了，那这里到底发生了什么？你可以把 Manifest 想象成一个

00:03:00控制器，对吧？你的智能体发送一个请求，Manifest 决定它应该去哪里，

00:03:07这可能是一个 API 模型，一个订阅，或者是一个本地模型，比如 Ollama 或 Llama CPP。

00:03:14它支持跨越众多提供商的数百种模型，但对于所有这些，重要的一点是

00:03:19它不会调用另一个 LLM 来做决定。那会适得其反，因为那会变得

00:03:25缓慢且昂贵。相反，它使用确定性评分，所以路由在两毫秒内完成。

00:03:32不会增加任何延迟。Manifest 只是坐在中间，做出更好的决定，

00:03:38而且它显然是为智能体构建的。OpenAI 调用插件、多智能体跟踪，我们都有，甚至

00:03:44内置了可观测性。最大的节省并不来自复杂的提示词，而是来自那些

00:03:50我们的智能体不断进行的琐碎的小调用。好了，简单说明一下，这与我们已经知道的工具有什么

00:03:56不同？我将快速进行对比。我之前提到了

00:04:01OpenRouter。OpenRouter 为你提供了一个云端点，但你的流量仍然离开了你的

00:04:06系统。Manifest 可以完全自托管。然后是我们提到的 Lite LLM。这为你提供了

00:04:13一个统一的接口，但路由仍然需要你手动控制。Manifest 处理

00:04:19路由自动化。此外还有路由智能。Manifest 在 23 个维度上对请求进行评分，

00:04:25这就是他们的路由智能版本。其他类似的工具依赖于故障转移

00:04:31或规则。然后是订阅。是的。虽然你实际上不为 Manifest 付费，但你当然

00:04:38仍然需要 OpenAI 或 Claude 的 API 密钥，对吧？智能体聚焦是 Manifest

00:04:46真正脱颖而出的地方。它专为多智能体工作流构建。所以区别很简单。

00:04:51如果你想要访问权限，就用 OpenRouter，对吧？如果你想要控制权，有 Lite LLM。但如果你的

00:04:57问题实际上是智能体产生的成本，因为我们进行了那么多 API 调用，Manifest 就是为

00:05:03此构建的。有无数种工具可以降低你的成本。你只需要找到它们，而这就是

00:05:08其中一种方法。现在，说实话，因为它很棒，但使用 AI 工具，你可能会

00:05:14遇到一些让你感到困惑的事情。首先是优点。第一是节省开支，

00:05:19特别是通过订阅路由。你使用的是你已经付费的计划，而不是

00:05:26再次按 Token 付费。然后是回退机制，对吧？如果某些东西失败了，你的智能体仍在运行，这

00:05:33是一个巨大的胜利。然后是仪表板。仪表板很棒，因为你可以实际看到资金

00:05:38在不同模型、不同智能体、不同任务之间的流向，全部实时显示。而且它适用于现有的

00:05:45客户端，无需进行大的重写。但正如我所说，有些事情是我们期望像这样的工具

00:05:50所具备的。你知道，比如它的评分是有主观性的，对吧？

00:05:56AI。好的。所以有时它的路由比你预期的要便宜。你可以覆盖它，但你需要知道

00:06:02这种情况在后台发生了。设置也不是零门槛，因为你仍然需要管理密钥并连接

00:06:07提供商，但它非常简单。开发人员仍然想要更多的 SDK、更多的存储选项和更多的

00:06:13功能。所以，是的，它真的很酷，但它仍然是基础设施。它并不完美。有些地方需要

00:06:19优化。如果你每天运行智能体，或者如果你的智能体进行了大量

00:06:25的小调用，它绝对值得一试。甚至如果你在意将提示词保留在本地，这也很棒，但如果你

00:06:32想要零配置，那可能就不适合了。在这种情况下，像 OpenRouter 这样的工具会更简单，但对于我们大多数正在构建

00:06:38智能体的开发人员来说，这是降低成本的最快方法之一，因为你不需要改变你的智能体。我们保留

00:06:44一切。你只需要改变它们的路由方式。同样的输入，同样的输出，更低的账单。这就是

00:06:50关键所在。如果你喜欢这样的编程工具和技巧，请务必订阅 BetterStack 频道。

00:06:54我们下期视频再见。

Key Takeaway

通过将智能体请求自动路由至最优成本模型，Manifest 可在不改变原有智能体输出的前提下，实现 Token 成本 70% 的降低。

Highlights

使用 Manifest 对智能体请求进行自动路由可将 Token 成本降低高达 70%。
Manifest 能够基于 23 个维度对每个请求进行确定性评分，并在两毫秒内完成模型路由。
该工具位于智能体和模型之间，支持跨提供商的数百种模型，且支持完全本地自托管以保护提示词安全。
Manifest 无需重写现有智能体代码，只需将 OpenAI 端点指向其部署实例即可开始工作。
该系统不依赖昂贵的 LLM 进行路由决策，从而避免了额外的延迟与成本。

Timeline

智能体高昂成本的成因与现状

AI 智能体在处理分类、路由、摘要等基础任务时过度使用了昂贵的 GPT-4 或 Claude Opus 模型。
手动编写 if-else 路由逻辑在提示词变更时极易失效，且维护成本高昂。
OpenRouter 导致数据流出系统，而 Lite LLM 虽然稳健，但仍需用户手动管理路由规则。

大多数智能体在运行过程中产生数千次调用，但许多调用极其简单。如果将所有这些基础任务都交给顶级模型，会产生高额溢价，导致账单比实际需求高出三到五倍。

Manifest 的工作机制与集成

Manifest 充当控制器角色，通过 23 个维度实时评分，将每个请求导向最便宜的合适模型。
路由决策采用确定性算法，在两毫秒内完成，不会增加系统运行延迟。
集成过程仅需将 OpenAI 端点指向 Manifest，无需重写现有智能体架构。

该工具支持多种提供商，包括 Anthropic、OpenAI 和本地模型如 Ollama。通过 Docker 部署后，它能够实时监控 Token 使用量、智能体成本及预算，无需将提示词发送至外部云端路由服务。

功能对比与实际应用考量

Manifest 专为多智能体工作流设计，提供内置的可观测性与多智能体跟踪功能。
该工具的路由评分具有一定主观性，用户在必要时可以手动覆盖路由逻辑。
对于需要极简配置的用户，OpenRouter 可能更简单，但对于追求成本控制与数据隐私的开发者，Manifest 是更优选择。

在对比中，OpenRouter 适用于需要快速访问权限的场景，Lite LLM 适用于需要手动控制权的场景，而 Manifest 则填补了自动化智能体成本控制的空白。尽管它需要管理密钥并进行基础配置，但对于高频调用智能体的开发流程，它能显著降低运维费用。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video