构建 Claude Agent 时获取 TPM 配额的具体方法
2026년 5월 7일
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
Anthropic 已与 SpaceX 的 Colossus 1 数据中心合作,开始运行拥有 22 万个 GPU 的基础设施。基础设施规模的扩大不仅意味着模型变得更聪明,对于我们开发者来说,这更是一个信号:曾经作为服务运营瓶颈的每分钟标记限额(TPM)正发生根本性变化。在部署大规模 Agent 时,首先遇到的障碍往往不是模型性能,而是 429 Too Many Requests 错误。
如果 Agent 需要分析复杂的代码库或同时处理数千名用户的请求,至少需要 Tier 4 权限。到 2026 年,晋升至 Tier 4 后,每分钟输入 Token (ITPM) 限额将增加到 4,000,000 个。由于这是一个根据累计支付金额自动决定的系统,因此需要采取战略性行动。
service_tier 参数固定为 auto。这使你能在预留容量和标准配额之间灵活切换,从而抵御流量峰值。完成准备后,每分钟请求数 (RPM) 将开放至 4,000 次。现在,即使流量激增,也不会再出现因 API 被封禁而导致服务停止的情况。
扩大的上下文窗口是一把双刃剑。虽然可以使用 100 万个 Token,但如果每次都全部发送,银行账户将无法承受。Anthropic 的 Context Caching 功能可以将重复的系统提示词或参考文档固定在服务器内存中。以 Claude Sonnet 4.6 为例,读取缓存的费用为每百万 Token 0.30 美元,与普通输入费用 3.00 美元相比,仅为十分之一。
只要将缓存命中率提高到 80%,实际处理能力就能提升 5 倍以上。在不增加支出压力的同时,让 Agent 完成更多工作。
并非所有请求都需要在 1 秒内完成。对于数据标注或代码库索引等任务,实时响应并不重要。将这类任务交给 Batch API,成本可以减半。设计的核心在于筛选出只需在 24 小时内获得结果的任务。
在每月消耗 1 亿 Token 的环境下,引入此结构可将运营费用从 660 美元降至 320 美元左右。用省下的钱增加 Agent 的推理次数显然更加划算。
随着基础设施遍布北美,根据请求的端点不同,首个 Token 生成时间 (TTFT) 可能会有数百毫秒的差异。使用 AWS Bedrock 的跨区域推理功能,可以将多个区域的资源整合管理。它会自动避开流量拥堵的区域,将请求转发至可用资源充足的地方。
仅通过优化网络设置,就能缩短 35% 以上的响应时间。随着基础设施规模的扩大,优化路径的技术将决定用户体验。