我通过一项改动将 AI 智能体成本降低了 70% (Manifest)

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00这是 Manifest。我用了一个周末切换到它,我的 Token 成本降低了 70%。
00:00:05同样的智能体,同样的任务,只是路由更智能了。如果你正在构建 AI 智能体,很有可能
00:00:11你支付的费用远超你的实际需求。大多数请求根本不需要 GPT-4-0 或 Claude Opus,
00:00:17但它们却总是被导向这些模型。所以你的智能体最终在处理
00:00:22诸如分类、路由、摘要等基础任务时,也使用了昂贵的模型,这就是为什么你的账单
00:00:27悄无声息地高出了三到五倍。Manifest 到底是如何工作的?让我们一探究竟。
00:00:37问题出在这里。智能体不仅仅是进行几次调用,它们实际上会进行成千上万次调用。
00:00:44而大多数调用非常简单:选择工具、总结片段、分类输入。但如果
00:00:50所有任务都交给最强的模型,你就是在为基础工作支付溢价。所以你可能会
00:00:57试图通过编写路由逻辑来解决这个问题,结果你的代码里充满了各种 if-else
00:01:02语句,一旦提示词发生变化,这些逻辑就会失效。好吧,我们当然可以使用 OpenRouter,
00:01:08确实可以,但那是有费用的。而且你的提示词实际上离开了你的系统。我想还有
00:01:13一种叫 Lite LLM 的工具可以尝试,它很稳健,但你仍然需要手动
00:01:18管理路由。所以真正的问题不在于模型的使用权限,而在于如何每次都选择正确的模型。
00:01:25而这,各位,正是 Manifest 所做的。它位于你的智能体和模型之间。
00:01:31你发送一个请求,它会在 23 个维度上对其进行评分,并将其路由到能处理该请求的
00:01:36最便宜的模型。无需重写,只需一个端点。如果你喜欢这样的编程工具和技巧,
00:01:41请务必订阅。我们会不断更新视频。好了,太棒了。现在让我展示给你看。
00:01:47还是同样的智能体,同样的任务。我在这里通过 Docker 启动 Manifest,简单的 curl 命令,Docker Compose up,
00:01:55现在我将 OpenAI 端点指向它。这是唯一的变化。现在我可以链接不同的模型,
00:02:01就像你看到的,Anthropic、OpenAI、Ollama。我选择了 OpenAI,填入了我的密钥,并链接了
00:02:08Ollama,这样它就能在这两者之间切换。现在我们要运行这个 Python 脚本。你可以看到我正在使用
00:02:12Manifest API 密钥。这是我们唯一需要的密钥,因为 Manifest 拥有其他的密钥,明白吗?
00:02:18所以当我们运行它时,智能体开始工作。Manifest 不会把所有东西都发给昂贵的
00:02:24模型,而是做出决定。这个请求很简单,路由到更便宜的模型。现在跳回这里。我们的仪表板
00:02:31实时更新,向我们展示 Token 使用量、每个智能体的成本以及预算跟踪。关键数字
00:02:38会有变化,但最高可以节省 70% 的成本。同样的输出,更低的成本,并且因为
00:02:44这是在本地运行的,你的提示词不会为了路由而离开你的机器。这并没有花费
00:02:50太多的时间和资源,所以这是值得集成到你的流程中的,特别是如果你正在
00:02:55构建和使用 AI。好了,那这里到底发生了什么?你可以把 Manifest 想象成一个
00:03:00控制器,对吧?你的智能体发送一个请求,Manifest 决定它应该去哪里,
00:03:07这可能是一个 API 模型,一个订阅,或者是一个本地模型,比如 Ollama 或 Llama CPP。
00:03:14它支持跨越众多提供商的数百种模型,但对于所有这些,重要的一点是
00:03:19它不会调用另一个 LLM 来做决定。那会适得其反,因为那会变得
00:03:25缓慢且昂贵。相反,它使用确定性评分,所以路由在两毫秒内完成。
00:03:32不会增加任何延迟。Manifest 只是坐在中间,做出更好的决定,
00:03:38而且它显然是为智能体构建的。OpenAI 调用插件、多智能体跟踪,我们都有,甚至
00:03:44内置了可观测性。最大的节省并不来自复杂的提示词,而是来自那些
00:03:50我们的智能体不断进行的琐碎的小调用。好了,简单说明一下,这与我们已经知道的工具有什么
00:03:56不同?我将快速进行对比。我之前提到了
00:04:01OpenRouter。OpenRouter 为你提供了一个云端点,但你的流量仍然离开了你的
00:04:06系统。Manifest 可以完全自托管。然后是我们提到的 Lite LLM。这为你提供了
00:04:13一个统一的接口,但路由仍然需要你手动控制。Manifest 处理
00:04:19路由自动化。此外还有路由智能。Manifest 在 23 个维度上对请求进行评分,
00:04:25这就是他们的路由智能版本。其他类似的工具依赖于故障转移
00:04:31或规则。然后是订阅。是的。虽然你实际上不为 Manifest 付费,但你当然
00:04:38仍然需要 OpenAI 或 Claude 的 API 密钥,对吧?智能体聚焦是 Manifest
00:04:46真正脱颖而出的地方。它专为多智能体工作流构建。所以区别很简单。
00:04:51如果你想要访问权限,就用 OpenRouter,对吧?如果你想要控制权,有 Lite LLM。但如果你的
00:04:57问题实际上是智能体产生的成本,因为我们进行了那么多 API 调用,Manifest 就是为
00:05:03此构建的。有无数种工具可以降低你的成本。你只需要找到它们,而这就是
00:05:08其中一种方法。现在,说实话,因为它很棒,但使用 AI 工具,你可能会
00:05:14遇到一些让你感到困惑的事情。首先是优点。第一是节省开支,
00:05:19特别是通过订阅路由。你使用的是你已经付费的计划,而不是
00:05:26再次按 Token 付费。然后是回退机制,对吧?如果某些东西失败了,你的智能体仍在运行,这
00:05:33是一个巨大的胜利。然后是仪表板。仪表板很棒,因为你可以实际看到资金
00:05:38在不同模型、不同智能体、不同任务之间的流向,全部实时显示。而且它适用于现有的
00:05:45客户端,无需进行大的重写。但正如我所说,有些事情是我们期望像这样的工具
00:05:50所具备的。你知道,比如它的评分是有主观性的,对吧?
00:05:56AI。好的。所以有时它的路由比你预期的要便宜。你可以覆盖它,但你需要知道
00:06:02这种情况在后台发生了。设置也不是零门槛,因为你仍然需要管理密钥并连接
00:06:07提供商,但它非常简单。开发人员仍然想要更多的 SDK、更多的存储选项和更多的
00:06:13功能。所以,是的,它真的很酷,但它仍然是基础设施。它并不完美。有些地方需要
00:06:19优化。如果你每天运行智能体,或者如果你的智能体进行了大量
00:06:25的小调用,它绝对值得一试。甚至如果你在意将提示词保留在本地,这也很棒,但如果你
00:06:32想要零配置,那可能就不适合了。在这种情况下,像 OpenRouter 这样的工具会更简单,但对于我们大多数正在构建
00:06:38智能体的开发人员来说,这是降低成本的最快方法之一,因为你不需要改变你的智能体。我们保留
00:06:44一切。你只需要改变它们的路由方式。同样的输入,同样的输出,更低的账单。这就是
00:06:50关键所在。如果你喜欢这样的编程工具和技巧,请务必订阅 BetterStack 频道。
00:06:54我们下期视频再见。

Key Takeaway

通过将智能体请求自动路由至最优成本模型,Manifest 可在不改变原有智能体输出的前提下,实现 Token 成本 70% 的降低。

Highlights

  • 使用 Manifest 对智能体请求进行自动路由可将 Token 成本降低高达 70%。

  • Manifest 能够基于 23 个维度对每个请求进行确定性评分,并在两毫秒内完成模型路由。

  • 该工具位于智能体和模型之间,支持跨提供商的数百种模型,且支持完全本地自托管以保护提示词安全。

  • Manifest 无需重写现有智能体代码,只需将 OpenAI 端点指向其部署实例即可开始工作。

  • 该系统不依赖昂贵的 LLM 进行路由决策,从而避免了额外的延迟与成本。

Timeline

智能体高昂成本的成因与现状

  • AI 智能体在处理分类、路由、摘要等基础任务时过度使用了昂贵的 GPT-4 或 Claude Opus 模型。
  • 手动编写 if-else 路由逻辑在提示词变更时极易失效,且维护成本高昂。
  • OpenRouter 导致数据流出系统,而 Lite LLM 虽然稳健,但仍需用户手动管理路由规则。

大多数智能体在运行过程中产生数千次调用,但许多调用极其简单。如果将所有这些基础任务都交给顶级模型,会产生高额溢价,导致账单比实际需求高出三到五倍。

Manifest 的工作机制与集成

  • Manifest 充当控制器角色,通过 23 个维度实时评分,将每个请求导向最便宜的合适模型。
  • 路由决策采用确定性算法,在两毫秒内完成,不会增加系统运行延迟。
  • 集成过程仅需将 OpenAI 端点指向 Manifest,无需重写现有智能体架构。

该工具支持多种提供商,包括 Anthropic、OpenAI 和本地模型如 Ollama。通过 Docker 部署后,它能够实时监控 Token 使用量、智能体成本及预算,无需将提示词发送至外部云端路由服务。

功能对比与实际应用考量

  • Manifest 专为多智能体工作流设计,提供内置的可观测性与多智能体跟踪功能。
  • 该工具的路由评分具有一定主观性,用户在必要时可以手动覆盖路由逻辑。
  • 对于需要极简配置的用户,OpenRouter 可能更简单,但对于追求成本控制与数据隐私的开发者,Manifest 是更优选择。

在对比中,OpenRouter 适用于需要快速访问权限的场景,Lite LLM 适用于需要手动控制权的场景,而 Manifest 则填补了自动化智能体成本控制的空白。尽管它需要管理密钥并进行基础配置,但对于高频调用智能体的开发流程,它能显著降低运维费用。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video