Log in to leave a comment
No posts yet
为了管理每个用户的对话历史而亲自运行 Redis 或在数据库中堆积文本日志的做法,现在可以停止了。对于整日忙于基础设施管理的初创公司开发者来说,每次都将全部上下文塞进模型的做法既是 Token 的浪费,也是一种运营债务。Anthropic Managed Agents 通过一个 session_id 即可在服务端保存事件日志。
原理很简单。只需在现有的 users 表中开辟一个 anthropic_session_id 字段即可。当用户接入时,如果该 ID 为空,则调用 API 创建新会话并存入数据库;如果已有 ID,则直接传入该值恢复会话。
通过这种方式进行重构,服务器资源成本可降低 40% 以上。数据库 I/O 次数减少是理所当然的,更重要的是,随着提示词缓存(Prompt Caching)效率的最大化,以往每次重复发送的输入 Token 成本将显著消失。与自行搭建服务器维持上下文的成本相比,运营负担几乎趋于零。
给 Agent 授予 Notion 或 GitHub 权限时,最可怕的场景就是 API Key 泄露。如果将 Key 放在服务器环境变量中,一次提示词注入(Prompt Injection)就可能导致所有权限被盗。Managed Agents 使用名为 Credential Vault 的代理模式,使得 Agent 本身都无法窥视到实际的 Key 数值。
出于安全考虑,请为每个项目创建独立的 Vault 实例。在向 Vault 注册外部服务 API Key 时,务必将敏感数据设置为完全不包含在响应值中。开启会话时只需指明 vault_ids,Anthropic 的基础设施就会自动在请求头中注入 Key。
这样一来,无需在本地服务器存储 Key,从而消除了安全风险。特别是像 OAuth Token 刷新这种繁琐的工作,Managed Agent 也会自动处理,开发者无需编写复杂的逻辑。在降低 90% 以上安全事故概率的同时,联动也变得更加便捷。
便利也是有代价的。Managed Agents 在会话处于活跃状态时,会收取每小时 0.08 美元的运行时费用。这意味着如果放任不管,资金就会流失。但由于闲置时间(Idle Time)不计费,因此需要一个能精准管理会话生命周期的中间件。
为了节省成本,请应用以下三种自动化策略:第一,若用户在 15 分钟内没有输入,立即将会话转为闲置状态,并设置为 1 小时后自动归档;第二,后台任务在产出结果后应立即结束并删除会话;第三,在 Anthropic 控制台中设置月度支出限额,从源头上封锁意料之外的会话激增。
减少活跃时间 是核心。实际上,只要妥善实现闲置时间管理逻辑,就能额外节省 25% 的整体运营成本。
如果 Agent 响应迟钝,用户会立即流失。虽然 Managed Agents 通过提示词缓存能将处理时间减少多达 85%,但最初启动会话时产生的冷启动(Cold Start)时间需要亲自解决。
若要将响应速度提升 2 秒以上,请在接收到 user_id 后立即查询现有会话并即刻建立 SSE (Server-Sent Events) 连接。将系统提示词(System Prompt)设计在 1,024 Token 以上也是一种方法。只有这样才能激活提示词缓存,使首个 Token 生成时间 (TTFT) 从 2.2 秒下降到 0.8 秒左右。
如果 Agent 在调用工具过程中发出停顿信号,后端处理器应予以拦截并立即恢复对话。通过加入这些异常处理和自我修正逻辑,复杂任务的成功率将提升 10 个百分点以上。无需担心基础设施、只需专注于业务逻辑的环境,正是这样打造出来的。