耗资 2 万美元构建的 16 个 Claude Agent 军团：C 编译器自主开发的真相

软件工程的范式正在发生变革。Anthropic 研究员 Nicholas Carlini 进行的这项项目，并非仅仅是让 AI 编写代码那么简单。他动用了 16 个 Claude Opus 4.6 实例，在极少人工干预的情况下，从零开始构建了一个基于 Rust 的 C 编译器。

该成果由 10 万行代码组成，成功编译了 Linux 6.9 内核并运行了经典游戏《毁灭战士》(Doom)。然而，比华丽的外表更重要的是，在投入 2 万美元（约 14.5 万人民币） 的 API 费用过程中，所发现的智能体工作流 (Agentic Workflow) 的局限性与潜力。这已经超越了单纯编写提示词的阶段，我们将深入探讨如何从系统层面控制 AI 并使其协作的工程实相。

RALF 循环：阻断 AI 记忆污染的设计

在复杂的系统编程中，单个智能体很快就会触及上下文窗口的极限。随着时间的推移，过去的对话记录会干扰当前的判断，导致幻觉现象的发生。为了解决这个问题，Carlini 引入了 16 个独立的 Docker 容器，并采用了 RALF (Refresh, Act, Learn, Feedback) 循环。

Refresh： 会话开始时初始化过去不必要的记忆。取而代之的是，仅注入包含当前里程碑和失败记录的简报包 (Briefing Pack) 以保持专注度。
Act： 无需人类指令，自主设定优先级并运行编辑器或构建工具。
Learn： 通过易于智能体理解的 Grep-friendly 测试日志，实现错误的自我学习。
Feedback： 将执行内容及为下一位作业者提供的指南记录在 README.md 中并推送到 Git，实现知识同步。

防止任务重复的基于文本的锁定协议

当 16 个智能体同时投入工作时，最大的风险是资源浪费。如果两个智能体试图修复同一个 Bug，不仅会导致代码冲突，还会产生双倍的 API 费用。Carlini 没有使用复杂的数据库，而是利用 Git 仓库内的 文本标记 (Text Flags) 实现了一套轻量级锁定 (Locking) 机制。

智能体在开始特定任务前，会在 current_tasks/ 目录下创建一个与任务名称相同的文件。得益于 Git 的原子提交特性，其他试图创建相同文件的智能体推送请求将被拒绝。这个简单的系统从源头上杜绝了智能体之间的竞态条件 (Race Condition)。

Oracle 策略：验证而非猜测

该项目的神来之笔是将成熟工具 GCC 作为 Oracle（预言机） 运行。其策略不是让 AI 猜测正确答案，而是从系统上强制执行正确答案。当巨大的 Linux 内核构建出现错误时，Carlini 自动化了二分查找 (Binary Search) 算法：

内核文件的一半由 GCC 构建，另一半由 Claude 构建。
通过不断将发生错误的范围缩小一半，从数千个文件中找出出问题的唯一一行代码。
这种方式使调试效率提升了 约 50%，并从物理上阻断了 AI 产生幻觉的可能性。

技术局限：AI 无法逾越的优化之墙

尽管成果斐然，但生成的编译器性能甚至达不到 GCC 最低优化级别 (-O0) 的水平。Claude 智能体军团在以下高阶工程领域表现出了局限性：

内存管理缺陷： 它们没有优化所有权模型，而是选择了将所有数据复制到独立缓冲区的低效方式。
硬件理解不足： 无法克服 x86 16 位实模式严格的内存限制 (32KB)，最终这部分代码不得不由人类介入或借鉴 GCC 的代码。
算法实现缺失： 无法独立进行寄存器分配所需的数学分析，仅停留在逐条翻译指令的水平。

企业引入智能体的决策清单

从工程经理的角度来看，2 万美元绝非高价。因为原本需要 5 名专业人员投入 3 个月以上才能完成的任务，仅用 2 周就完成了。这证明了其性价比约为传统人工成本的 10 倍以上。企业若要引入此模型，应遵循以下决策树：

智能体工作流引入判断标准

问题	是 (Yes)	否 (No)
产出物能否通过测试进行客观验证？	进行下一步	不适合引入（幻觉风险）
是否有可对比的现有工具 (Oracle)？	采用 Oracle 策略	需要人类实时监控
任务是否可以拆分为 100 个以上的单元？	运行并行智能体	建议使用单个智能体

构建必备要素

Grep-friendly 测试框架： 设计一套能让智能体在 1 秒内掌握成功/失败情况的日志结构。
状态记录自动化： 强制智能体在结束前必须将进度记录在 progress.json 等文件中。
人类护栏： 对涉及安全或认证等敏感代码进行隔离，必须经过人工审核。

从代码编写者到架构师：工程师的角色转变

Anthropic 的实验意味着工程师的角色已从代码编写者转向 系统设计者与审计者。现在的核心竞争力不再是亲自编写算法的能力，而是设计逻辑约束条件和验证框架，确保 AI 智能体军团不偏离航道的能力。

2 万美元的费用不仅是一项支出，更是一个里程碑，它展示了在人类精巧设计的支撑下，AI 所能达到的自动化上限。企业现在不应仅仅沉迷于 AI 的自主性，而应专注于将人类的战略引导 (Strategic Steering) 系统化。

耗资 2 万美元构建的 16 个 Claude Agent 军团：C 编译器自主开发的真相

RALF 循环：阻断 AI 记忆污染的设计

Refresh： 会话开始时初始化过去不必要的记忆。取而代之的是，仅注入包含当前里程碑和失败记录的简报包 (Briefing Pack) 以保持专注度。
Act： 无需人类指令，自主设定优先级并运行编辑器或构建工具。
Learn： 通过易于智能体理解的 Grep-friendly 测试日志，实现错误的自我学习。
Feedback： 将执行内容及为下一位作业者提供的指南记录在 README.md 中并推送到 Git，实现知识同步。

防止任务重复的基于文本的锁定协议

Oracle 策略：验证而非猜测

内核文件的一半由 GCC 构建，另一半由 Claude 构建。
通过不断将发生错误的范围缩小一半，从数千个文件中找出出问题的唯一一行代码。
这种方式使调试效率提升了 约 50%，并从物理上阻断了 AI 产生幻觉的可能性。

技术局限：AI 无法逾越的优化之墙

尽管成果斐然，但生成的编译器性能甚至达不到 GCC 最低优化级别 (-O0) 的水平。Claude 智能体军团在以下高阶工程领域表现出了局限性：

内存管理缺陷： 它们没有优化所有权模型，而是选择了将所有数据复制到独立缓冲区的低效方式。
硬件理解不足： 无法克服 x86 16 位实模式严格的内存限制 (32KB)，最终这部分代码不得不由人类介入或借鉴 GCC 的代码。
算法实现缺失： 无法独立进行寄存器分配所需的数学分析，仅停留在逐条翻译指令的水平。

企业引入智能体的决策清单

智能体工作流引入判断标准

问题	是 (Yes)	否 (No)
产出物能否通过测试进行客观验证？	进行下一步	不适合引入（幻觉风险）
是否有可对比的现有工具 (Oracle)？	采用 Oracle 策略	需要人类实时监控
任务是否可以拆分为 100 个以上的单元？	运行并行智能体	建议使用单个智能体

构建必备要素

Grep-friendly 测试框架： 设计一套能让智能体在 1 秒内掌握成功/失败情况的日志结构。
状态记录自动化： 强制智能体在结束前必须将进度记录在 progress.json 等文件中。
人类护栏： 对涉及安全或认证等敏感代码进行隔离，必须经过人工审核。

耗资 2 万美元构建的 16 个 Claude Agent 军团：C 编译器自主开发的真相

Related Video

2万美元，2周，16个Claude智能体：Anthropic首个由AI构建的C编译器

耗资 2 万美元构建的 16 个 Claude Agent 军团：C 编译器自主开发的真相

RALF 循环：阻断 AI 记忆污染的设计

防止任务重复的基于文本的锁定协议

Oracle 策略：验证而非猜测

技术局限：AI 无法逾越的优化之墙

企业引入智能体的决策清单

智能体工作流引入判断标准

构建必备要素

从代码编写者到架构师：工程师的角色转变

Comments (0)

耗资 2 万美元构建的 16 个 Claude Agent 军团：C 编译器自主开发的真相

RALF 循环：阻断 AI 记忆污染的设计

防止任务重复的基于文本的锁定协议

Oracle 策略：验证而非猜测

技术局限：AI 无法逾越的优化之墙

企业引入智能体的决策清单

智能体工作流引入判断标准

构建必备要素

从代码编写者到架构师：工程师的角色转变