AI Agent 行为太随机?这套解决方案让它们变得确定(Archon)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업가전제품/카메라AI/미래기술

Transcript

00:00:00AI 智能体正变得异常强大,但它们依然充满混沌。
00:00:04我们给它们完全相同的任务,得到的代码、质量,
00:00:09甚至每次的决策都大相径庭。
00:00:12这就是目前与智能体协作的现状。
00:00:15事实证明,情况不必如此。
00:00:17这是 Archon,它现在可以并行运行多个智能体,且零合并冲突,
00:00:22并提供一致的结果。
00:00:24接下来的几分钟,我将向你展示如何设置以及它的工作原理。
00:00:30现在,使用 Claude code、Cursor 或 Codex,我们知道第一次运行效果很好。
00:00:39但第二次运行可能会产生完全不同的计划。
00:00:42上下文会发生偏移。
00:00:44智能体在执行一半时突然改变方向。
00:00:47然后当你尝试扩展它时。
00:00:49两个智能体,甚至三个、四个智能体。
00:00:51这时你的代码仓库就彻底乱套了。
00:00:54而这才是真正的问题所在。
00:00:55你并没有真正节省时间。
00:00:57你一直在重复运行提示词。
00:00:58在修复损坏的代码,寄希望于这次运行别把一切搞砸。
00:01:02如果你正在构建产品,这真的会扼杀开发速度。
00:01:06Archon 通过一种名为“架构工程”的方式解决了这个问题。
00:01:10你不再祈祷智能体乖乖听话,而是由你来定义流程。
00:01:14规划、编码、测试、审查,全部通过 YAML 定义。
00:01:18而“智能体技能”则是智能体会自动加载的可重用指令包。
00:01:23因此,智能体不再盲目猜测,而是遵循一套系统。
00:01:28如果你喜欢能加速工作流的编程工具,请务必订阅。
00:01:32我们经常会发布相关视频。
00:01:34好了,现在让我展示给你看。
00:01:36这是在我的 M4 Pro 上本地运行的,没有使用云端。
00:01:40我输入 archonserv。
00:01:43这会启动这个 UI 界面。
00:01:45我会通过 Claude 将 archon 技能安装到这个仓库中。
00:01:49现在我运行一个简单的流程来修复这个问题。
00:01:54请看这一部分。
00:01:55智能体自动找到技能,加载工作流并逐步执行。
00:02:02你可以在终端或 UI 界面上查看进度。
00:02:04看起来棒极了。
00:02:05这里不需要反复调整提示词。
00:02:07即使执行失败,UI 也会提供完全的透明度。
00:02:11你可以清楚看到哪一步出错了,并修复工作流。
00:02:15这比纯 Claude code 要好得多,后者只会让你迷失在混乱的聊天记录中。
00:02:20这一点很关键。
00:02:21它在独立的 Git 工作树上运行,因此绝不会触及主分支。
00:02:26它正在自动提示,你可以看到它正在生成结果。
00:02:29完成了,干净的 PR,结构一致,结果一致。
00:02:33我们可以查看日志、提示词的执行过程以及完整输出。
00:02:38这就是所谓的一致性。
00:02:40那么,究竟改变了什么?
00:02:42使用 Archon 带来了三个变化。
00:02:45首先是工作流。
00:02:47Archon 使用 YAML DAG(有向无环图)。
00:02:50把它看作是智能体必须遵循的检查清单。
00:02:53当然,有些步骤会使用 AI。
00:02:56而有些步骤是固定死板的。
00:02:58这种组合使它更加可靠。
00:03:00接下来是隔离性。
00:03:01每次运行都在独立的 Git 工作树中,因此智能体不会互相覆盖。
00:03:06这就是为什么没有合并冲突。
00:03:08在技能方面,智能体会自动加载上下文,而不是每次都填充大量提示词。
00:03:14所以与纯粹的智能体相比,你消除了所有的随机性。
00:03:19相比之下,比方说 LangChain。
00:03:22LangChain 很棒,但 Archon 是专为代码设计的,而非通用机器人。
00:03:27与脚本相比,它是可重用的。
00:03:30它有版本控制。
00:03:31它是可被发现的。
00:03:32智能体不再需要盲目猜测。
00:03:34它有一个完整的执行工作流。
00:03:36它遵循这个实际的系统。
00:03:38现在我们可以同时运行多个智能体,而不必担心破坏代码库。
00:03:42你可以生成每次看起来都一样的 PR。
00:03:45最重要的点是,你不再会因为聊天记录而丢失知识。
00:03:49你的流程现在存在于工作流中,这意味着使用它,
00:03:55每一次运行都会变得更一致。
00:03:56有了它,会有更干净的 PR,更可预测的结果。
00:03:58同样的输入,同样的输出。
00:04:00这就是智能体之前所缺失的部分。
00:04:02当然,这并不完美,对吧?
00:04:04但它的优点是什么?
00:04:05它是开源的,本地运行效果极佳,尤其是在 M 系列芯片上。
00:04:10有些工具需要 VPS 配置。
00:04:13但我在这里不需要。
00:04:14YAML 让一切变得透明可视化。
00:04:16这对我们来说是巨大的进步,Git 工作树解决了一个真实存在的问题。
00:04:19但同样,这也意味着一些事情。
00:04:21你必须预先思考。
00:04:23设计工作流需要花费一些精力,而且它仍在不断演进。
00:04:28事物总会变化。
00:04:29它们会演进,但也正在成长。
00:04:31如果你只是做一些快速的提示词交互,你可能根本不需要它。
00:04:34老实说,那纯粹是浪费时间。
00:04:36此外,模型依然很重要。
00:04:38更好的模型显然会为我们生成更好的输出。
00:04:42如果你厌倦了修补智能体的错误,这绝对值得一试。
00:04:46如果你想要一个可以真正依赖、无需反复自我怀疑的工具,
00:04:50这也非常值得。
00:04:52如果你只是想实验一下,是的,我也为此做过实验。
00:04:55我让它保持简单。
00:04:56效果很好。
00:04:57我搞明白了它的核心。
00:04:58但如果你是认真地想用智能体进行构建,这是目前我见过
00:05:02杠杆率最高的工具之一。
00:05:04它将智能体从单纯的演示版,转变成我们可以
00:05:08更可靠地交付产品的工具,并融入我们的工作流中。
00:05:13这其实很简单。
00:05:14在祈祷智能体能做对之前。
00:05:16毕竟它只是个智能体。
00:05:17现在我们来定义它的工作方式。
00:05:20这就是所谓的架构工程的核心主张。
00:05:23如果你喜欢这类编程工具和技巧,请务必订阅 Better Stack 频道。
00:05:27我们下个视频见。

Key Takeaway

Archon 采用架构工程方法,通过 YAML 定义的确定性工作流和独立 Git 工作树,消除了 AI 智能体在编程任务中的随机性与代码冲突。

Highlights

  • Archon 通过 YAML 定义的 DAG(有向无环图)工作流,将 AI 智能体的随机输出转化为确定的一致性结果。

  • 该工具在独立的 Git 工作树中运行,确保多个智能体并行工作时不会产生代码合并冲突或破坏主分支。

  • 系统通过“智能体技能”自动加载可重用的指令包,减少了手动编写冗长提示词的需求并防止上下文偏移。

  • Archon 支持在 M4 Pro 等芯片上进行 100% 本地运行,无需依赖云端服务或 VPS 配置。

  • 用户可以通过终端命令 archonserv 启动可视化 UI 界面,实时追踪工作流中每一个步骤的执行进度与错误原因。

Timeline

当前智能体协作的随机性困境

  • 即使提供完全相同的任务,目前的智能体在每次运行中生成的代码质量和决策逻辑也大相径庭。
  • 上下文偏移导致智能体在执行任务中途突然改变方向,破坏原有计划。
  • 多个智能体同时操作一个代码仓库会导致文件被互相覆盖和仓库状态混乱。

频繁重复运行提示词和修复损坏的代码严重拖慢了开发速度。这种不确定性使得目前的智能体工具难以直接应用于严谨的产品构建过程。开发者往往需要花费更多时间在清理混乱而非功能开发上。

架构工程与 Archon 解决方案

  • 架构工程将祈祷智能体听话转变为由开发者主动定义规划、编码、测试和审查流程。
  • 智能体技能作为可重用的指令包被自动加载,取代了盲目的提示词猜测。
  • 系统在独立的 Git 工作树上生成 PR,实现与主分支的物理隔离。

在 M4 Pro 芯片上本地启动 archonserv 可以通过可视化 UI 监控所有执行步骤。即使某一步骤执行失败,系统也会提供完全的透明度以供修复。最终产出的 PR 结构一致且结果可预测,消除了聊天记录中的知识流失。

Archon 的核心技术机制与对比

  • YAML DAG 充当智能体必须严格遵循的检查清单,其中混合了 AI 生成步骤与固定逻辑步骤。
  • 独立的 Git 工作树环境确保了多个智能体并行运行时不会出现代码覆盖。
  • Archon 专为代码构建场景设计,提供了比通用机器人框架 LangChain 更强的重用性和版本控制。

通过结合确定性的任务清单和 AI 的生成能力,系统实现了输入与输出的高度对应。这种结构化流程使得智能体不再需要每次都处理海量的上下文信息。其结果是产出的代码风格高度统一,符合团队的开发规范。

应用场景与工具评估

  • 该工具完全开源且针对苹果 M 系列芯片优化,无需复杂的服务器配置。
  • 预先设计工作流需要投入额外精力,不适合简单的快速提示词交互。
  • 模型质量依然决定了底层输出的优劣,但 Archon 提供了交付产品所需的可靠杠杆。

虽然设计 YAML 工作流存在一定的学习曲线,但它解决了智能体从演示到生产环境的跨越问题。对于需要高度一致性和可靠性的严肃项目,它是目前杠杆率最高的工具之一。架构工程的核心在于不再依赖运气,而是通过系统定义智能体的工作方式。

Community Posts

View all posts