00:00:00由于工作规模巨大且涉及多种角色,工程设计一直是一个高度协作的过程。
00:00:05虽然 AI 改变了现状,但同时也带来了全新的协作方式。
00:00:09不同的模型各有所长,无论是在职能分工还是成本控制上都各有优势。
00:00:13让我们来看一个例子。
00:00:14众所周知,最新的 Gemini 模型在设计方面表现非常出色。
00:00:18它们比任何 Claude 模型都更具创意,尤其是在指令较少的情况下。
00:00:23但总的来说,Opus 4.6 是一款卓越的模型,
00:00:26特别是搭配 Claude code 这一配套工具,它比 Gemini CLI 稳定得多。
00:00:31然而,目前还没有一种高效的方法能将它们整合进同一个共享工作流中。
00:00:35即便你尝试同时使用它们,仍需处理大量的繁琐手动操作,
00:00:38而且无法让这些智能体实现完全自主协作。
00:00:41最近,我们发现了一个工具,它通过让搭载不同模型的多样化智能体互相交谈,
00:00:46解决了这种沟通难题,并将我们从繁重的中转工作中解放出来。
00:00:50Agent Chatter 是一个用于 AI 智能体实时协调的聊天界面。
00:00:55它支持 Claude code、Gemini CLI 和 Codex 这三款最热门的智能体,
00:01:00同时也支持 Kimi、通义千问等开源模型。
00:01:03你还可以通过它来节省成本,比如让昂贵的 Claude 负责规划,
00:01:07而让 Kimi 或 GLM 负责具体的代码实现。
00:01:10它采用多频道共享聊天机制,让智能体相互沟通,
00:01:14并协同完成功能的开发实现。
00:01:16我们对这个工具的第一印象是其默认界面不够精致。
00:01:20但既然这是个开源项目,我们 fork 了原始仓库并在此基础上开发了一个视觉层,
00:01:24我们认为新界面看起来更美观,且针对我们的需求进行了一些调整,导航更便捷。
00:01:28这些改动让它更符合我们的使用习惯。
00:01:31我们在保持原有功能完整的同时,将这个版本推送到我们的 fork 仓库中。
00:01:35当然,该平台所有的底层架构功劳都归功于原作者。
00:01:40现在,这个项目实际上包含了一系列脚本,
00:01:43你在首次运行该工具初始化智能体时需要用到它们。
00:01:46这些脚本是启动系统的入口,
00:01:49没有它们,你就无法运行任何智能体。
00:01:51要获取这些脚本,你需要克隆整个代码仓库。
00:01:54仓库中几乎包含了分别初始化所有智能体的脚本。
00:01:58但在使用这些脚本之前,如果你使用的是 macOS 或 Linux,必须先安装 TMUX。
00:02:02TMUX 简单来说就是一个终端复用器。
00:02:05它允许你创建多个终端会话,并从单一入口点统一控制。
00:02:09这正是智能体聊天工具底层所使用的技术,
00:02:11用于向正在运行的每个终端智能体发送任务。
00:02:14对于 Windows 用户,你可以直接运行这些脚本,它们也能正常工作。
00:02:18他们列出了运行每个智能体脚本所需的全部命令。
00:02:21举个例子,如果你打算同时使用 Claude code 和 Gemini CLI,
00:02:26只需复制它们的命令,并粘贴到克隆仓库所在的终端文件夹中。
00:02:31你可以根据需要自由选择想要运行的智能体命令。
00:02:34粘贴命令后,一个智能体会话就会在 TMUX 会话中自动生成。
00:02:38你可以根据自己的配置需求,运行任意数量的智能体。
00:02:40例如,你可以设置四个智能体:三个 Claude 会话和一个 Gemini 会话。
00:02:44但无论你使用多少个智能体,每一个都需要运行在专用的终端中。
00:02:49所以如果你运行四个会话,就需要四个终端并排运行,
00:02:53而你可以在该工具的单一聊天会话中统一操控它们。
00:02:56安装完成后,当你在浏览器访问 localhost 时,
00:03:00你应该能在聊天面板中看到所有已启动的智能体。
00:03:03现在,为了充分利用这个工具,
00:03:06有一些特定步骤可以帮助你更高效地工作。
00:03:09建议在启动工具前,先初始化好你用于构建应用的框架,
00:03:14因为如果不预先处理,即使分配了不同角色,多个智能体之间也容易产生冲突。
00:03:20因此,请确保在开始前,你的 Next.js 应用或其他框架已经初始化完成。
00:03:25首先,由于每个智能体实际上都是作为一个独立的 Claude 或 Gemini 会话运行,
00:03:29你必须手动为每一个会话单独授予权限。
00:03:33虽然他们也提供了跳过权限模式的脚本,
00:03:36但并不推荐这样做,因为在多智能体环境下,某个智能体误删他人成果的风险更高。
00:03:42所以你需要为 Claude code 和 Gemini CLI 配置好带有适当权限的 settings.json。
00:03:48这样,当需要执行文件编辑或构建命令时,它就不会停下来等待你的手动确认,
00:03:53同时你也能保留对高危命令的控制权。
00:03:56另一件重要的事情是确保文件中也配置了 MCP 工具,
00:04:01否则你也必须逐一批准它们。
00:04:03你还应该创建一个 agents.md 文件。
00:04:05它目前作为一个模板,包含了使用智能体的优化结构,
00:04:09之后会由智能体自行填充内容。
00:04:11它涵盖了角色规则、行为准则以及智能体需要遵循的所有原则。
00:04:15你还需要准备规划文件,如 PRD、后端和 UI 规范模板,
00:04:20我们目前使用的是模板,稍后规划智能体将填补其中的具体内容。
00:04:24使用这些模板的目的是提供结构约束,防止智能体添加不必要的冗余内容。
00:04:30所有这些模板都可以在 AI Labs Pro 上获取,你可以从那里下载并自行使用。
00:04:35如果你认可我们的工作并希望支持本频道,
00:04:38加入 AI Labs Pro 是最好的支持方式。
00:04:40链接就在视频描述中。
00:04:42这个工具的另一个功能是允许你为每个智能体命名并分配特定角色。
00:04:47这使得识别智能体变得更加容易,并能让它们根据为其量身定制的角色开展工作。
00:04:52例如,如果你使用 Gemini 进行 UI 设计,
00:04:55你可以重命名它,并为其分配“UI/UX 专家”的自定义角色。
00:04:59通过分配名称和角色,你可以让每个智能体都按照设定好的人格设定进行操作。
00:05:04最后,你需要设定某些规则,以确保智能体能正确遵循任务流程。
00:05:09如前所述,你应该使用 agents.md 文件。
00:05:12但问题是 Claude 使用 Claude.md,Gemini 使用 Gemini.md,
00:05:16它们彼此都不会将对方的文件视为核心指令文件。
00:05:19因此,为了协调它们,你要通过 agents.md 并添加一条规则,让它们都将其视为核心指引文件。
00:05:25你可以根据需要设置多条规则,数量不限。
00:05:29但请注意,新创建的规则起初处于“草稿”状态,
00:05:31你必须手动将其移动到“激活”状态,智能体才能识别它。
00:05:35规则默认每经过 10 次聊天触发就会刷新一次,这个频率你可以自行调整。
00:05:39另一项需要注意的是“循环卫士 (Loop Guard)”,默认设置为 4。
00:05:43循环卫士是指在智能体暂停任务并等待人工输入之前,
00:05:46允许智能体之间进行对话跳转的最大次数。
00:05:49引入这一机制是为了防止智能体陷入长时间的互相质疑循环中无法自拔。
00:05:53一旦达到循环上限,智能体将停止交流,
00:05:56你必须发送“继续”指令才能恢复。
00:05:59如果你希望智能体能进行更长时间的自主协作,可以调高这个数值。
00:06:03但在我们开始规划实施之前,先插播一段来自赞助商 Airtop 的信息。
00:06:06如果你每周都要花数小时手动抓取数据,
00:06:10或者在几十个浏览器标签页间点来点去,那么现在有一种更高效的处理方式。
00:06:13Airtop 是一个云端平台,它让 AI 智能体能像人类一样与网页交互,
00:06:19利用自定义或预设模板来解决那些最令人烦恼的手动任务。
00:06:23你可以把它想象成一个能帮你处理所有琐事的云浏览器。
00:06:27例如,我正在使用一个模板来研究竞争对手的价格。
00:06:30我只需用平常的英语给智能体下达指令,无需任何代码,
00:06:33它就会自动导航网站、处理登录,并将我需要的信息提取成清晰的格式。
00:06:39我最喜欢的一点是,它能绕过那些经常让传统自动化工具失效的
00:06:43反爬虫机制和验证码,
00:06:46这使得它在处理大批量工作时异常可靠。
00:06:48只需几分钟即可构建可靠的自动化流,现在就免费注册 Airtop 吧。
00:06:53点击置顶评论中的链接,今天就开始构建你的自动化。
00:06:56现在所有准备步骤都已完成,是时候进入实施阶段了。
00:07:00正如我们一直强调的,规划先于执行,
00:07:03在这里你也应该从规划开始。
00:07:05类似于 Slack 的工作方式,你可以在这里创建不同的频道。
00:07:09你会想要为前端和后端分别设置独立的频道。
00:07:12一旦你输入应用创意,它实际上会向 Tmux 会话发送请求,
00:07:16并提醒相关智能体查看被提及的消息。
00:07:18规划智能体会生成完整的方案,通知你并请求你的批准或修改建议。
00:07:23它会在你最初提供的 PRD 模板之上直接记录详细方案。
00:07:28你可以根据需要提出修改,它会随之更新 PRD。
00:07:32该工具利用 MCP 协议让 Claude 能够从聊天界面发送响应并读取对话,
00:07:37从而实现了双向沟通。
00:07:39规划确认后,你就可以指令它继续进行。
00:07:41一旦 PRD 获批,它会自动提醒 Gemini,
00:07:44并要求其开始编写 UI 规范文档。
00:07:47紧接着,UI 设计智能体和规划智能体开始就实现细节进行协同,
00:07:51规划者提出建议,
00:07:54UI 设计师将这些细节融入方案中,如此反复进行审核。
00:07:59值得注意的一点是,尽管我们把循环卫士设为了 8,
00:08:02但不知为何它似乎没有生效。
00:08:04结果在仅仅 4 次迭代后就达到了最大循环上限,提示我们需要手动继续对话。
00:08:08接着,构建智能体被告知 UI 设计师已完成方案并准备好实施,
00:08:13构建智能体确认收到方案,并等待获准开始执行。
00:08:18设计师智能体也会提醒你它想要推进 UI 实现,
00:08:22此时你应该先按兵不动,直到你自己亲自审核完所有方案。
00:08:25在后端频道,你可以要求构建智能体和规划智能体检查 backend.md,
00:08:30该文件是规划智能体在编写 PRD 时同步创建的。
00:08:33你可以让他们相互配合来验证文档,
00:08:37但在这个过程中,它们可能会发现实现上的漏洞。
00:08:40因此,它们会通力协作,并把 UI 设计师拉进来处理相关的 UI 规范问题,
00:08:44通过团队合作来修复这些问题。
00:08:47在它们完成所有修正后,你可以要求规划者进行最后一轮审核。
00:08:50在我们的案例中,它们在最终审核中又发现了一些额外的小问题。
00:08:54解决这些问题后,所有智能体均确认
00:08:56隐患已消除,应用已准备好进行构建。
00:08:59但先别急着构建,还有一个步骤不容忽视。
00:09:02你应该让他们互相评审方案。
00:09:04这个工具有多种模式可供尝试,你应该测试一下“规划模式”。
00:09:08你可以尝试设计评审、代码批判等多种模式。
00:09:12这些模式分为三个阶段运行,由不同的模型扮演不同的角色。
00:09:16你将规划智能体设为“陈述者”,负责展示其之前的成果;
00:09:20将评审智能体设为“挑战者”,负责对陈述者的内容提出尖锐质疑。
00:09:24而规划智能体同时担任“综合者”,负责总结各方发现。
00:09:28会话从陈述者展示开始,随后挑战者会进行批判性分析
00:09:32并对文档进行压力测试,从而识别出大量的漏洞。
00:09:36由于智能体之间在互相质询,
00:09:38它们能够发现并修复许多通常会被忽略的问题。
00:09:42至此你将得到最终方案,这也标志着三阶段会话的结束。
00:09:46另外,如果你喜欢我们的内容,请考虑点击“Hype”按钮,
00:09:50这有助于我们制作更多此类视频并触达更多观众。
00:09:54评审结束后,你让规划者担任“编排者”,协调
00:09:58所有其他智能体去实施项目,并调用各自对应的模型来完成任务。
00:10:03它确认指令后,会让设计师和构建者并行开展工作。
00:10:06它向后端和前端频道发送消息,向构建者
00:10:10发出启动信号,并为前端工程师扫清障碍,以便其实现设计。
00:10:15这种工作方式非常有趣,因为你基本上只需把任务交给规划智能体,
00:10:18然后只需定期询问进度更新即可。
00:10:22观察智能体协作非常迷人,因为当错误发生时,它们会互相指正。
00:10:26例如,在我们的案例中,UI 设计师意外地尝试去修复一个
00:10:30本应属于构建者职责范围的错误。
00:10:32规划智能体和构建智能体都立刻指出它不该插手那个修复,
00:10:37因为它覆盖了构建者正在处理的文件。
00:10:39如果你让智能体在独立的工作树中运行,这种工作流会顺畅得多,
00:10:44并由一名智能体负责统一合并和整体审核,
00:10:47因为这样可以彻底消除智能体之间互相覆盖工作成果的问题。
00:10:50所以在处理更复杂的配置时,请记住这一点。
00:10:53随后规划者触发评审智能体,后者会详细识别问题,
00:10:57提供详尽报告,并为各个智能体分配具体任务。
00:11:01由于我们预设了“若智能体需要互助则直接开口”的规则,
00:11:04UI 设计师向构建者请求了某个特定变量的访问权限,
00:11:09而构建者爽快地授权了。
00:11:10当它们内部的评审完成后,规划者会请你进行最终的前端审核。
00:11:15当你打开开发服务器时,
00:11:17你会发现 UI 完全符合你想要的那种游戏化版本。
00:11:20落地页具有高对比度,给人一种游戏般的质感,
00:11:23并使用了让人兴奋的酷炫词汇和梗,让人跃跃欲试。
00:11:26打字测试结束后,你会收到一份性能报告。
00:11:29结果展示在仪表盘上,显示了目前为止的最佳速度,
00:11:33以及当前的等级和进度,让整个设计体验极具沉浸感。
00:11:37视频到这里就结束了。如果你想支持本频道,
00:11:40帮助我们继续制作此类视频,可以通过下方的超级感谢按钮进行支持。
00:11:45感谢收看,我们下期再见。