AI Agent 行为太随机?这套解决方案让它们变得确定(Archon)
BBetter Stack
Computing/SoftwareSmall Business/StartupsConsumer ElectronicsInternet Technology
Transcript
00:00:00AI 智能体正变得异常强大,但它们依然充满混沌。
00:00:04我们给它们完全相同的任务,得到的代码、质量,
00:00:09甚至每次的决策都大相径庭。
00:00:12这就是目前与智能体协作的现状。
00:00:15事实证明,情况不必如此。
00:00:17这是 Archon,它现在可以并行运行多个智能体,且零合并冲突,
00:00:22并提供一致的结果。
00:00:24接下来的几分钟,我将向你展示如何设置以及它的工作原理。
00:00:30现在,使用 Claude code、Cursor 或 Codex,我们知道第一次运行效果很好。
00:00:39但第二次运行可能会产生完全不同的计划。
00:00:42上下文会发生偏移。
00:00:44智能体在执行一半时突然改变方向。
00:00:47然后当你尝试扩展它时。
00:00:49两个智能体,甚至三个、四个智能体。
00:00:51这时你的代码仓库就彻底乱套了。
00:00:54而这才是真正的问题所在。
00:00:55你并没有真正节省时间。
00:00:57你一直在重复运行提示词。
00:00:58在修复损坏的代码,寄希望于这次运行别把一切搞砸。
00:01:02如果你正在构建产品,这真的会扼杀开发速度。
00:01:06Archon 通过一种名为“架构工程”的方式解决了这个问题。
00:01:10你不再祈祷智能体乖乖听话,而是由你来定义流程。
00:01:14规划、编码、测试、审查,全部通过 YAML 定义。
00:01:18而“智能体技能”则是智能体会自动加载的可重用指令包。
00:01:23因此,智能体不再盲目猜测,而是遵循一套系统。
00:01:28如果你喜欢能加速工作流的编程工具,请务必订阅。
00:01:32我们经常会发布相关视频。
00:01:34好了,现在让我展示给你看。
00:01:36这是在我的 M4 Pro 上本地运行的,没有使用云端。
00:01:40我输入 archonserv。
00:01:43这会启动这个 UI 界面。
00:01:45我会通过 Claude 将 archon 技能安装到这个仓库中。
00:01:49现在我运行一个简单的流程来修复这个问题。
00:01:54请看这一部分。
00:01:55智能体自动找到技能,加载工作流并逐步执行。
00:02:02你可以在终端或 UI 界面上查看进度。
00:02:04看起来棒极了。
00:02:05这里不需要反复调整提示词。
00:02:07即使执行失败,UI 也会提供完全的透明度。
00:02:11你可以清楚看到哪一步出错了,并修复工作流。
00:02:15这比纯 Claude code 要好得多,后者只会让你迷失在混乱的聊天记录中。
00:02:20这一点很关键。
00:02:21它在独立的 Git 工作树上运行,因此绝不会触及主分支。
00:02:26它正在自动提示,你可以看到它正在生成结果。
00:02:29完成了,干净的 PR,结构一致,结果一致。
00:02:33我们可以查看日志、提示词的执行过程以及完整输出。
00:02:38这就是所谓的一致性。
00:02:40那么,究竟改变了什么?
00:02:42使用 Archon 带来了三个变化。
00:02:45首先是工作流。
00:02:47Archon 使用 YAML DAG(有向无环图)。
00:02:50把它看作是智能体必须遵循的检查清单。
00:02:53当然,有些步骤会使用 AI。
00:02:56而有些步骤是固定死板的。
00:02:58这种组合使它更加可靠。
00:03:00接下来是隔离性。
00:03:01每次运行都在独立的 Git 工作树中,因此智能体不会互相覆盖。
00:03:06这就是为什么没有合并冲突。
00:03:08在技能方面,智能体会自动加载上下文,而不是每次都填充大量提示词。
00:03:14所以与纯粹的智能体相比,你消除了所有的随机性。
00:03:19相比之下,比方说 LangChain。
00:03:22LangChain 很棒,但 Archon 是专为代码设计的,而非通用机器人。
00:03:27与脚本相比,它是可重用的。
00:03:30它有版本控制。
00:03:31它是可被发现的。
00:03:32智能体不再需要盲目猜测。
00:03:34它有一个完整的执行工作流。
00:03:36它遵循这个实际的系统。
00:03:38现在我们可以同时运行多个智能体,而不必担心破坏代码库。
00:03:42你可以生成每次看起来都一样的 PR。
00:03:45最重要的点是,你不再会因为聊天记录而丢失知识。
00:03:49你的流程现在存在于工作流中,这意味着使用它,
00:03:55每一次运行都会变得更一致。
00:03:56有了它,会有更干净的 PR,更可预测的结果。
00:03:58同样的输入,同样的输出。
00:04:00这就是智能体之前所缺失的部分。
00:04:02当然,这并不完美,对吧?
00:04:04但它的优点是什么?
00:04:05它是开源的,本地运行效果极佳,尤其是在 M 系列芯片上。
00:04:10有些工具需要 VPS 配置。
00:04:13但我在这里不需要。
00:04:14YAML 让一切变得透明可视化。
00:04:16这对我们来说是巨大的进步,Git 工作树解决了一个真实存在的问题。
00:04:19但同样,这也意味着一些事情。
00:04:21你必须预先思考。
00:04:23设计工作流需要花费一些精力,而且它仍在不断演进。
00:04:28事物总会变化。
00:04:29它们会演进,但也正在成长。
00:04:31如果你只是做一些快速的提示词交互,你可能根本不需要它。
00:04:34老实说,那纯粹是浪费时间。
00:04:36此外,模型依然很重要。
00:04:38更好的模型显然会为我们生成更好的输出。
00:04:42如果你厌倦了修补智能体的错误,这绝对值得一试。
00:04:46如果你想要一个可以真正依赖、无需反复自我怀疑的工具,
00:04:50这也非常值得。
00:04:52如果你只是想实验一下,是的,我也为此做过实验。
00:04:55我让它保持简单。
00:04:56效果很好。
00:04:57我搞明白了它的核心。
00:04:58但如果你是认真地想用智能体进行构建,这是目前我见过
00:05:02杠杆率最高的工具之一。
00:05:04它将智能体从单纯的演示版,转变成我们可以
00:05:08更可靠地交付产品的工具,并融入我们的工作流中。
00:05:13这其实很简单。
00:05:14在祈祷智能体能做对之前。
00:05:16毕竟它只是个智能体。
00:05:17现在我们来定义它的工作方式。
00:05:20这就是所谓的架构工程的核心主张。
00:05:23如果你喜欢这类编程工具和技巧,请务必订阅 Better Stack 频道。
00:05:27我们下个视频见。