Transcript
00:00:00我把同一个代码库交给了三个 AI 代理,它们共同组成了一家公司。其中一个尝试构建
00:00:06功能,一个重写了架构,还有一个则开启并处理所有的工单。如果没有
00:00:12结构,每一个多代理设置都会慢慢变得混乱,并让账单飙升。
00:00:17这就是 Paperclip,它正试图解决这个问题。只需一个命令,它就能为你提供一个本地控制平面,用于
00:00:22管理 AI 代理,包括组织架构图、工单、预算、审计日志,甚至还有心跳监测。
00:00:27它在 GitHub 上的星标数刚刚突破了 64,000 大关。
00:00:30让我们在几分钟内,用几个 AI 代理建立我们自己的公司。
00:00:33现在谈谈关于代理的事情。单个代理感觉不错。你给它一个任务,它写出一些
00:00:44代码。做得好。然后你给它第二个代理,甚至是第三个。接着发生的情况是,
00:00:51突然之间这就变成了管理工作。问题在于:谁拥有这个任务?谁在
00:00:57记住这个目标?当代理开始做错事时,谁来阻止它?
00:01:03这就是 Paperclip 试图解决的问题。原始的代理独立工作并不理想。虽有用,
00:01:08但难以协调。Paperclip 将它们变成一个团队,或者在这个案例中,它被称为
00:01:13一家公司。我们定义一个公司目标。我们创建一个组织架构图。也许有一个 CEO,一个 CTO,
00:01:20两名工程师和一个研究代理。然后 Paperclip 通过工单、心跳、
00:01:27预算、审批和可追溯性来协调工作。我们可以看到任务,谁分配的,实际
00:01:33在该任务上花费了多少,以及它是否仍与最终目标保持一致。减少凭感觉的编排?
00:01:39让我们实际看看现场演示。如果你喜欢能加速工作流的编程工具,请务必
00:01:43订阅。我们一直在发布视频。好了,现在看这个。在一个干净的终端里,
00:01:49我只需运行 `npx paperclip-ai onboard`。这将启动本地设置。几秒钟
00:01:56之后,Paperclip 及其仪表板就运行起来了。我有本地服务,自带 Postgres
00:02:03和身份验证。这就是整个 UI 界面,我现在可以实际创建一个新公司。我要
00:02:09创建一个新公司,命名为“开发工具公司”,或者任何你想构建的名称。对于这个项目,
00:02:14我要设定这个目标。目标很简单:我想在本周构建并发布一个短链接 MVP。
00:02:20现在我可以添加一个 CTO 代理。然后通过适配器添加两名工程师。其中一名
00:02:28工程师代理负责后端。另一个负责前端和测试覆盖。现在,在我点击
00:02:34开始之前,我要设置预算。这一部分才是真正关键的,因为目标是不要让
00:02:39代理耗尽我的 API 额度直到账单爆炸。不,目标是受控的自主权。我还需设置
00:02:46代码输出的工件目录路径。所以我将在这里设置它。
00:02:50现在我可以开启心跳监测并启动它。让我们观察看板。代理们
00:02:57在心跳时唤醒。CTO 将目标分解为工单。我们的工程师们现在正在接手工作。
00:03:05你可以看到委派、工单、血缘关系、状态更改、预算计数器,所有这些
00:03:10都紧密结合。现在第一个实现任务已经朝着代码提交的方向推进了。
00:03:15运行这部分实际上花了相当多的时间,但我猜让所有这些代理聚在一起,
00:03:19是有一定道理的,但它仍然不是最快的,尤其是如果你试图进一步
00:03:24扩大规模时。这不再是坐在聊天框里的一个代理了。这现在是一个通过
00:03:30创建 CEO、CTO 和所有这些工程师来运行的小型公司。现在这是人们会感到
00:03:37困惑的地方。乍一看,Paperclip 听起来像另一个代理框架,另一个 CrewAI,另一个
00:03:43AutoGen,或另一个 LangGraph 风格的工作流。但这并不是重点。那些工具在
00:03:49你想建立工作流时非常棒,对吧?例如,我想要一个研究员,然后是规划员,接着是作者,
00:03:55最后是审稿人。是的,当然,这很有用。这就是我们使用它们的原因。但 Paperclip 的目标
00:04:01是更高一个层次。它不仅仅是工人们,它是围绕这些工人的
00:04:07整个公司组织架构,旨在真正帮助项目构建。可以这样想:
00:04:13单个代理只是一名员工。工作流就像你的清单。而 Paperclip 是经理、
00:04:20组织架构图、工单看板、预算系统和审计日志。Paperclip 扮演的就是
00:04:25经理的角色。所以你现在已经在问自己,代理能写代码吗?嗯,
00:04:30我们已经知道它可以。这就是它的目的。它现在正在生成代码。更难的问题是,
00:04:36它能在正确的任务上工作吗?它能在该停止的时候停下来吗?它能清晰地交接工作吗?
00:04:43我能检查这里到底发生了什么吗?所有这些问题的简短回答是:是的,它可以。
00:04:49Paperclip 提供了状态、心跳、预算、层级和日志。它甚至提供了可移植的
00:04:55模板和仪表板,比起另一个聊天窗口,它感觉更像是专为代理设计的 Jira 或 Linear。
00:05:02你不再是对着一个代理发提示词,而是开始控制这个微型组织。我们中许多人可能仍
00:05:07在终端和设置之间来回跳转。一个终端用于 Claude code,一个标签页用于 Cursor,一个代理用于
00:05:13研究,一个脚本用于 GitHub issues,对吧?我们在所有这些不同的窗口间跳动,
00:05:18但 Paperclip 为这一切提供了一个共享的操作模型。现在,这一切的
00:05:24心智模型对我们来说发生了变化。所以,不再是说,“嘿,请构建这个功能,”
00:05:30我们现在实际说的是类似于这样的话:“这家公司的目标是发布
00:05:35这款产品。这是公司的规则。这是组织架构图,这是预算。
00:05:41这是需要审批的内容。现在,运行吧。” 诚实地说,这种结构非常棒,
00:05:46对吧?工单、血缘、委派,所有这些,对吧?有了这些,多代理工作更容易
00:05:52被理解和推导。不再只是说代理做了一些事,太棒了。你可以实际看到是谁分配了
00:05:58那项工作,它为什么存在,以及它在我们的代码中处于什么位置。能设置预算也是巨大的进步。
00:06:05许多代理工具把成本当成事后才检查的东西。Paperclip 把成本
00:06:12作为整个控制闭环的一部分。我们在执行前设定预算。它是自托管且开源的。
00:06:17同样,这也是一个巨大的胜利。所以你可以在本地运行它,检查它,修改它,并将其连接到
00:06:22你已经在使用的代理。但在所有这些优点的同时,赋予 Paperclip 强大能量的
00:06:27同一套结构也可能非常烦人。如果你的规则设定得不好,代理会创建
00:06:32一堆胡说八道的工单。我本想要一个简单的短链接工具,但现在也许我的 CTO 代理已经开启了
00:06:39另一个我根本不想要的宏大计划。所以,谢了,不必了。Token 的消耗也是实实在在的,
00:06:45对吧?这就是为什么我们要用预算来控制,但它并不能解决蹩脚的提示词或模糊的规则
00:06:52定义。伙计们,如果你们的 `skill.md` 文件写得很烂,你们的公司表现就会像一个混乱的初创公司,
00:06:59对吧?所以 `skill.md` 才是需要加强的地方,明白吗?最后,老实说,
00:07:03如果你只是写一个简单的脚本,这完全是大材小用。我只是想测试一下。我并不
00:07:08需要为这个项目动用它,但如果你只是想让一个代理总结文件或修个 bug,
00:07:13你并不需要它,对吧?这是为了构建更宏大的东西,让更多这类代理
00:07:18协同工作。它绝对值得一试,但并不适用于所有场景。如果你喜欢这类编程工具和
00:07:23技巧,请务必订阅。我们下个视频见。
Community Posts
No posts yet. Be the first to write about this video!
Write about this video