Log in to leave a comment
No posts yet
软件工程的范式正在发生变革。Anthropic 研究员 Nicholas Carlini 进行的这项项目,并非仅仅是让 AI 编写代码那么简单。他动用了 16 个 Claude Opus 4.6 实例,在极少人工干预的情况下,从零开始构建了一个基于 Rust 的 C 编译器。
该成果由 10 万行代码组成,成功编译了 Linux 6.9 内核并运行了经典游戏《毁灭战士》(Doom)。然而,比华丽的外表更重要的是,在投入 2 万美元(约 14.5 万人民币) 的 API 费用过程中,所发现的智能体工作流 (Agentic Workflow) 的局限性与潜力。这已经超越了单纯编写提示词的阶段,我们将深入探讨如何从系统层面控制 AI 并使其协作的工程实相。
在复杂的系统编程中,单个智能体很快就会触及上下文窗口的极限。随着时间的推移,过去的对话记录会干扰当前的判断,导致幻觉现象的发生。为了解决这个问题,Carlini 引入了 16 个独立的 Docker 容器,并采用了 RALF (Refresh, Act, Learn, Feedback) 循环。
README.md 中并推送到 Git,实现知识同步。当 16 个智能体同时投入工作时,最大的风险是资源浪费。如果两个智能体试图修复同一个 Bug,不仅会导致代码冲突,还会产生双倍的 API 费用。Carlini 没有使用复杂的数据库,而是利用 Git 仓库内的 文本标记 (Text Flags) 实现了一套轻量级锁定 (Locking) 机制。
智能体在开始特定任务前,会在 current_tasks/ 目录下创建一个与任务名称相同的文件。得益于 Git 的原子提交特性,其他试图创建相同文件的智能体推送请求将被拒绝。这个简单的系统从源头上杜绝了智能体之间的竞态条件 (Race Condition)。
该项目的神来之笔是将成熟工具 GCC 作为 Oracle(预言机) 运行。其策略不是让 AI 猜测正确答案,而是从系统上强制执行正确答案。当巨大的 Linux 内核构建出现错误时,Carlini 自动化了二分查找 (Binary Search) 算法:
尽管成果斐然,但生成的编译器性能甚至达不到 GCC 最低优化级别 (-O0) 的水平。Claude 智能体军团在以下高阶工程领域表现出了局限性:
从工程经理的角度来看,2 万美元绝非高价。因为原本需要 5 名专业人员投入 3 个月以上才能完成的任务,仅用 2 周就完成了。这证明了其性价比约为传统人工成本的 10 倍以上。企业若要引入此模型,应遵循以下决策树:
| 问题 | 是 (Yes) | 否 (No) |
|---|---|---|
| 产出物能否通过测试进行客观验证? | 进行下一步 | 不适合引入(幻觉风险) |
| 是否有可对比的现有工具 (Oracle)? | 采用 Oracle 策略 | 需要人类实时监控 |
| 任务是否可以拆分为 100 个以上的单元? | 运行并行智能体 | 建议使用单个智能体 |
progress.json 等文件中。Anthropic 的实验意味着工程师的角色已从代码编写者转向 系统设计者与审计者。现在的核心竞争力不再是亲自编写算法的能力,而是设计逻辑约束条件和验证框架,确保 AI 智能体军团不偏离航道的能力。
2 万美元的费用不仅是一项支出,更是一个里程碑,它展示了在人类精巧设计的支撑下,AI 所能达到的自动化上限。企业现在不应仅仅沉迷于 AI 的自主性,而应专注于将人类的战略引导 (Strategic Steering) 系统化。