面向 Claude 4 时代的智能体重构：摒弃复杂分片，用代码实现 3-Agent 循环

从遗留分片到 3-Agent 循环的数据迁移策略

早期 LangChain 或 AutoGPT 推崇的微型分片（Micro-sharding）已经失败了。将步骤拆解为数十个微小节点，逻辑链条看似精妙，实则在每次调用时都会导致上下文断裂，仅增加了非确定性。当使用像 Claude 3.5 或即将推出的 4 模型这样推理能力飞跃提升的 LLM 时，必须转变策略。不要再纠结于处理碎片化的节点，而应将其整合为由 Planner 控制的集中式状态管理结构。

为了实现成功的架构转型，首先请将原有的微型任务封装在单个类的方法中，作为工具箱（Tool Box）。接着定义所有智能体共同引用的单一 State 对象。其中必须包含 plan（分步计划）、history（工具执行日志）和 artifacts（生成数据）字段。

利用 LangGraph 的 Reducer 功能，使每个智能体在完成任务时更新此共享状态。通过物理手段阻断上下文断裂，可以消除重复 Token 的传输。实际上，转向该结构的团队已立即节省了 30% 以上的 API 成本。

为 Evaluator 实现定量评分表代码

智能体输出结果“看起来不错”这种主观判断，在生产环境中无异于定时炸弹。必须引入 LLM-as-a-Judge 模式，并从代码层面强制执行。Evaluator 智能体应将 Generator 的产出拆解为准确性、一致性、可读性和有效性这 4 个指标，并将其转化为数字。

使用 Pydantic 库强制评估结果符合特定的 JSON Schema：

声明 RubricScore 类，将各指标设定为 1~5 之间的整数字段。
在 Prompt 中明确各分值段的具体满足条件（例如：有效性 5 分需达成时间复杂度 $O(n)$ 以下）。
若平均分低于 4.0 分，则触发 Merge Block 在 CI/CD 流水中自动停止部署并发送返工信号。

构建此类自动化验证系统后，原本需要人工对比耗时 5 小时的验证工作可缩短至 10 分钟以内。机械化的评分虽然冷酷，但能显著提高系统的可预测性。

利用 Anthropic Prompt Caching 进行成本优化

一旦智能体循环开始运行，Token 会以惊人的速度堆积。每次都重新发送系统指令和工具定义是在挥霍资金。Claude 的 Prompt Caching 对缓存 Token 仅收取常规费用的 10% 左右。要享受此优惠，必须采用前缀匹配策略，将 Prompt 结构按从静态到动态的顺序（Tools → System → Messages）排列：

将不变量指令和工具定义置于最顶层，并设置 cache_control 断点。
在用户消息中使用 <system-reminder> 标签插入变量信息。只有这样才能保证顶部前缀的缓存不被破坏。
在对话变长的每 20 个 Block 溯回窗口处，战略性地部署额外的断点。

合理设计缓存策略最高可削减 90% 的 API 调用成本。响应速度也会有明显的提升。这是兼顾金钱与时间的唯一途径。

防止死循环的断路器设计

如果 Generator 和 Evaluator 各执己见无法达成共识，智能体就会陷入死锁。这不仅是简单的错误，更是导致成本失控的灾难。为了防止这种情况，需要一个监控任务次数和响应相似度的多层断路器（Circuit Breaker）。特别是当当前响应与前一次响应的余弦相似度达到 0.95 以上时，这是智能体在愚蠢地重复同样的话并陷入循环的明确信号。

在主循环中加入计数器，限制单次会话最大次数（Max-Turn Limit）为 15 次。
设置每会话最大允许成本（Budget Cap），并在 API 网关进行实时监控。
一旦断路器触发，立即将执行追踪摘要发送至 Slack 并请求人工干预（Human-in-the-loop）。

下放全权给智能体并非勇敢而是不负责任。没有安全装置的智能体系统不如不运行。

智能体团队专用可观测性仪表板

三个智能体混作一团的工作过程是一个黑盒。如果不知道瓶颈在哪里，就不可能进行改进。请接入遵循 OpenTelemetry 标准的追踪系统，使智能体间的消息流可视化。通过实现基于 Redis 的检查点（Checkpointing），即使系统崩溃，也无需从头开始，而是从最后一个成功点继续。

从 API 响应头中提取 cache_read_input_tokens 值并绘制在仪表板上。如果缓存命中率低，说明 Prompt 结构存在问题。此外，将循环收敛的速度指标化管理，可以用数字证明 Prompt Engineering 的成果。在 PostgreSQL 中存储 Session ID 和 Artifact 版本，可以精确回溯智能体团队在过去哪个点陷入过困境。不被记录的智能体永远不会变得聪明。

面向 Claude 4 时代的智能体重构：摒弃复杂分片，用代码实现 3-Agent 循环

从遗留分片到 3-Agent 循环的数据迁移策略

为 Evaluator 实现定量评分表代码

使用 Pydantic 库强制评估结果符合特定的 JSON Schema：

声明 RubricScore 类，将各指标设定为 1~5 之间的整数字段。
在 Prompt 中明确各分值段的具体满足条件（例如：有效性 5 分需达成时间复杂度 $O(n)$ 以下）。
若平均分低于 4.0 分，则触发 Merge Block 在 CI/CD 流水中自动停止部署并发送返工信号。

构建此类自动化验证系统后，原本需要人工对比耗时 5 小时的验证工作可缩短至 10 分钟以内。机械化的评分虽然冷酷，但能显著提高系统的可预测性。

利用 Anthropic Prompt Caching 进行成本优化

将不变量指令和工具定义置于最顶层，并设置 cache_control 断点。
在用户消息中使用 <system-reminder> 标签插入变量信息。只有这样才能保证顶部前缀的缓存不被破坏。
在对话变长的每 20 个 Block 溯回窗口处，战略性地部署额外的断点。

合理设计缓存策略最高可削减 90% 的 API 调用成本。响应速度也会有明显的提升。这是兼顾金钱与时间的唯一途径。

防止死循环的断路器设计

在主循环中加入计数器，限制单次会话最大次数（Max-Turn Limit）为 15 次。
设置每会话最大允许成本（Budget Cap），并在 API 网关进行实时监控。
一旦断路器触发，立即将执行追踪摘要发送至 Slack 并请求人工干预（Human-in-the-loop）。

下放全权给智能体并非勇敢而是不负责任。没有安全装置的智能体系统不如不运行。

面向 Claude 4 时代的智能体重构：摒弃复杂分片，用代码实现 3-Agent 循环

Related Video

Anthropic 刚让你的 AI 代理框架变得一文不值

面向 Claude 4 时代的智能体重构：摒弃复杂分片，用代码实现 3-Agent 循环

从遗留分片到 3-Agent 循环的数据迁移策略

为 Evaluator 实现定量评分表代码

利用 Anthropic Prompt Caching 进行成本优化

防止死循环的断路器设计

智能体团队专用可观测性仪表板

Comments (0)

面向 Claude 4 时代的智能体重构：摒弃复杂分片，用代码实现 3-Agent 循环

从遗留分片到 3-Agent 循环的数据迁移策略

为 Evaluator 实现定量评分表代码

利用 Anthropic Prompt Caching 进行成本优化

防止死循环的断路器设计

智能体团队专用可观测性仪表板