什么是线束工程师？为什么这个岗位如此重要？

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00感谢 HubSpot 对本视频的赞助。

00:00:03其实在 2025 年 12 月发生了一件非常重大的事情。

00:00:07而大多数人甚至都没有意识到这一点。

00:00:09Andrew Cupsey 上周在推特上提到了这件事。

00:00:10“很难用言语表达过去两个月里，AI 让编程发生了多么巨大的变化，”

00:00:15“特别是自去年 12 月以来。”

00:00:17OpenAI 的 Greg 也谈到了这一点。

00:00:20自 12 月以来，模型和工具的能力出现了阶梯式的提升。

00:00:24几位工程师告诉他，自 2025 年 12 月以来，

00:00:28他们的工作已经发生了根本性的改变。

00:00:29那么，2025 年 12 月究竟发生了什么？

00:00:32简单来说，当时推出的最新模型终于可以胜任

00:00:37完全自主的长期任务了。

00:00:38对于 AI，我们的终极梦想始终是：当我们睡觉时，

00:00:43AI 可以 24/7 全天候自主工作。

00:00:46甚至在 2023 年，最热门的项目（如果你还记得的话）叫作 AutoGPT。

00:00:50那是这种完全自主代理系统的首次亮相。

00:00:54它们的架构相当基础简单：使用 GPT-4 作为模型，

00:00:59根据用户目标自主拆解任务清单，

00:01:03并配备简单的内存存储来记录结果。

00:01:04当时人们在尝试一些疯狂的事，比如设定“赚 10 万美元”的目标，

00:01:08让它无限循环执行任务直到完成。

00:01:11但在那时，由于模型尚未准备好，系统往往会崩溃并以失败告终。

00:01:15但自去年 12 月以来，情况发生了翻天覆地的变化。

00:01:18模型拥有了显著更高的质量和长期连贯性，

00:01:22能够处理规模更大、耗时更长的任务。

00:01:24我们看到业界涌现出了各种不同的实验尝试。

00:01:28首先，从 1 月开始，我们迎来了一个超火的概念，叫作“粗循环”（rough loop），

00:01:33这是一种最基础、最简单的代理迭代循环，旨在强制模型工作更久，

00:01:37从而处理更复杂的任务。

00:01:38我们只是让模型在一些简单的条件检查下循环运行，

00:01:42但已经开始看到显著的差异了。

00:01:43一周后，Cursor 也发布了他们的实验，利用 GPT-5.2

00:01:49从零开始自主构建了一个拥有 300 万行代码的浏览器。

00:01:52Anthropic 也发布了一项实验，他们让一组 Claude 编程助手

00:01:57连续两周从零开始自主开发一个 C 语言编译器。

00:02:01最终，它在零人工干预的情况下交付了一个功能完备的版本。

00:02:05它甚至可以在这个编译器里运行《毁灭战士》（Doom）。

00:02:08与此同时，OpenClaw 开始受到关注，

00:02:13并经历了前所未有的爆发式增长。

00:02:14当时很难理解 OpenClaw 到底是怎么回事，因为从外部看，

00:02:18很容易将 OpenClaw 归类为又一个运行在电脑里的代理，

00:02:23而且还可以通过 Telegram 访问。

00:02:27大家都在想，为什么它会这么受欢迎？

00:02:29直到后来深入使用后我才意识到，真正的区别在于 OpenClaw 代表了

00:02:35这种“始终在线、长期运行、完全自主”的代理类型，

00:02:40这与我们之前使用的、需要人类作为主驱动力

00:02:45通过提示词引导下一步操作的代理系统截然不同。

00:02:46OpenClaw 是始终在线且具有主动性的。

00:02:49这种自主感是由一个相当简单的架构创造的：它拥有内存上下文层、

00:02:53用于自动采取行动的触发器和定时任务（cron job），

00:02:58并拥有完整的电脑访问权限，这是一个极其强大的操作环境。

00:03:02我相信 OpenClaw 是第一个真正开启了 2026 年重大范式转移的项目，

00:03:06即我们正从“副驾驶型”简单任务代理系统，转向那些长期运行的完全自主代理。

00:03:13这种始终在线、随时待命、能够自主交付极其复杂且协调性工作的系统。

00:03:15这是一个你必须理解的关键转变。

00:03:20只要你设计出正确的系统来解锁它的潜力，

00:03:22现在的模型实际上比你想象的要强大得多。

00:03:27这就是我今天想讨论的核心。

00:03:28如何通过“外壳工程”（Harness Engineering）来实现长期运行的自主系统。

00:03:30如果你是第一次听说“外壳工程”，可以把它看作是

00:03:34我们之前讨论过的“上下文工程”或“提示词工程”的进化版。

00:03:38以前，我们真正关注的是如何在有限的上下文窗口内优化提示词，

00:03:41以让模型在单次代理循环对话中表现最佳。

00:03:46但“外壳工程”真正关注的是那些长期运行的任务，

00:03:49也就是说，你如何设计一个可以跨越不同对话、

00:03:53涉及多个不同代理协作的系统。

00:03:57以及如何设计正确的工作流，确保每次对话都能检索到相关的上下文，

00:04:01并配备正确的工具集以榨取模型的最大潜力。

00:04:05这是一个相当新的概念，好消息是业界已经

00:04:09在 Anthropic、Vercel、LangChain 等公司中形成了一些最佳实践。

00:04:14我会逐一讲解，这样你就能看到其中的模式。

00:04:16但在深入探讨之前，随着完全自主代理的范式转移，

00:04:21未来 6 到 12 个月最大的机遇之一，就是为特定垂直领域构建“OpenClaw”。

00:04:25这意味着你需要深入调查并理解某个行业的端到端工作流，

00:04:29并构建一个具备正确环境和工具的自主代理来完成整个流程。

00:04:34这就是为什么我想向你介绍 HubSpot 进行的一项精彩研究，

00:04:39即《AI 在邮件营销中的应用报告》。

00:04:40这份报告非常引人入胜，能帮你了解像邮件营销这样的垂直领域，

00:04:44人们现在究竟是如何使用 AI 的，以及还存在哪些差距。

00:04:47因为这份报告展示了邮件营销中清晰的工作流，

00:04:51以及你可能实现的自动化机会。

00:04:52他们调查了来自顶尖公司的数百名邮件营销人员，

00:04:57以准确了解 AI 如何重塑他们的工作流。

00:04:58他们探讨了为什么营销人员仍然需要进行大量的重度编辑，原因何在，

00:05:03以及他们在邮件营销中应用 AI 时面临的最大挑战。

00:05:06其中的每一个挑战对你来说都是构建完全自主代理的绝佳机会。

00:05:07他们甚至深入研究了营销人员最关心的特定 KPI，

00:05:11以及 AI 在哪些方面已经展现出了显著成果。

00:05:15此外，还有邮件营销人员真正希望从 AI 身上得到什么。

00:05:16所以，如果你是一个正在思考下一个大动作的代理产品开发者，

00:05:20我强烈建议你去看看这个资源。

00:05:24我已经把免费下载链接放在了下方的描述栏中。

00:05:27再次感谢 HubSpot 赞助本视频。

00:05:30现在让我们回到长期运行代理系统的“外壳工程”。

00:05:32从宏观层面来看，我从中总结出了三点核心心得。

00:05:36第一，对于长期任务代理，系统设计的关键在于创建一个“易读的环境”，

00:05:39让每个子代理或每次对话都能清晰地理解当前的进度。

00:05:44通常可以通过一些工作流来强制执行环境的可读性。

00:05:49稍后我会详细解释。

00:05:50第二，验证至关重要。

00:05:54通过允许系统通过更快的反馈循环有效验证其工作，

00:05:56可以显著提高系统的输出质量。

00:05:58第三，我们需要给模型更多的信任，

00:06:03而不是过早地构建那些封装了大量推理和逻辑的专用工具。

00:06:04我们应该给模型最大的上下文和它们原生理解的通用工具，

00:06:08让它们像人类一样去探索。

00:06:11接下来我会结合具体的案例逐一拆解这三点。

00:06:16首先是 Anthropic 关于长期运行代理有效外壳的博客。

00:06:17他们尝试使用 Claude Code SDK 构建一个专门处理超长任务的代理，

00:06:20比如克隆一个 Claude.ai 网站。

00:06:24他们观察到的第一个失败点是：代理往往一次想做太多事情。

00:06:29基本上，它总是试图“毕其功于一役”，一次性搞定整个应用。

00:06:32这导致模型在开发中途就耗尽了上下文，

00:06:37使得下一个会话开始时，功能只实现了一半或文档不全。

00:06:40然后代理就不得不靠猜测来搞清楚发生了什么，

00:06:45花费大量时间试图让基础应用重新跑起来。

00:06:49第二个失败点是：代理倾向于过早宣布任务完成。

00:06:52你可能自己也经历过几次这种情况。

00:06:55Claude Code 或 Cursor 会宣称项目或功能已完成，

00:07:00但一旦你测试，就会发现根本跑不通。

00:07:02他们解决这种模型默认失败行为的方法是：首先，设置初始环境，

00:07:05为提示词要求的核心功能奠定基础，

00:07:07引导代理一步步、一个功能一个功能地工作。

00:07:12这类似于我们通常采用的“计划”或“产品需求文档”（PRD）方法。

00:07:16其次，开始提示每个代理朝着目标取得增量进展，

00:07:20同时在每个会话结束时让环境保持整洁状态。

00:07:23他们设计了一个由两部分组成的解决方案。

00:07:27他们会有一个“初始化代理”，使用专门的提示词要求模型

00:07:32通过 init.sh 脚本设置初始环境，比如配置开发服务器，

00:07:35这样下一个模型就不需要担心这些琐事了。

00:07:40还会生成一个 Claude_progress.txt 文件来记录代理已完成的操作，

00:07:45以及显示新增文件的初始 Git 提交。

00:07:48然后，后续每个会话都会有一个“编码代理”，要求模型取得增量进展，

00:07:53并留下结构化的更新。

00:07:55所有这些努力实际上都是为了一个目的：如何定义一个环境，

00:08:01让代理在开启全新上下文窗口时，能迅速理解工作状态。

00:08:02具体工作流是：初始化代理首先尝试建立一个环境

00:08:07或一套文档系统，用来追踪和维护整体计划。

00:08:11他们设计的环境首先包含一个“功能列表文档”，

00:08:13以防止代理一次性处理过多功能或过早认为项目已完成。

00:08:17他们会让初始化代理将项目拆解成 200 多个功能，

00:08:21并记录在一个类似于这样的本地 JSON 文件中，

00:08:25每个任务都有详细规格说明以及“通过”或“失败”的状态。

00:08:30默认情况下，所有任务都标记为“失败”。

00:08:34这迫使模型始终关注项目总目标和进度，挑选优先级最高的任务并执行下一步。

00:08:39但为了让这个工作流奏效，他们还需要一种方法来强制模型

00:08:41在修改代码后保持环境整洁。在实验中，他们发现最好的方法

00:08:43是要求模型将进度提交到 Git，并附带描述性的注释信息，

00:08:49并在进度文件中写下进度总结。

00:08:50但光有文档和上下文环境是不够的，

00:08:55因为模型默认倾向于在没有经过适当测试的情况下就标记为“已完成”。

00:08:59起初，他们只是提示词要求 Claude Code 在修改代码后始终进行测试，

00:09:05比如在开发服务器上运行单元测试或 API 测试。

00:09:08但这些测试往往无法识别某个功能在端到端流程中是否真的跑通。

00:09:13当他们赋予模型适当的工具来进行自主端到端测试时，情况发生了质变，

00:09:17比如 Puppeteer MCP 或 Chrome 开发工具，代理能够由此

00:09:22发现并修复那些从代码层面看并不明显的 Bug。

00:09:23基本上，他们建立了一套结构：由初始化代理将用户目标拆解为功能列表，

00:09:27同时配套 init.sh 以运行开发服务器，并生成进度文件。

00:09:30这样，下一个编码代理就可以直接阅读功能列表来了解整体项目计划，

00:09:35挑选高优先级任务，并通过进度文件和日志了解当前进度。

00:09:39然后立即运行 init.sh 启动开发服务器，并进行端到端测试以验证环境是否整洁，

00:09:43从而在每次新会话和上下文窗口切换时，获得全局视野和更快的反馈循环。

00:09:47在 OpenAI 的博客中，他们也谈到了非常类似的事情。

00:09:49你必须确保你的应用环境是“易读”的。

00:09:53他们将整个代码仓库作为“系统知识库”或“记录系统”。

00:09:57最初，他们放入了一个巨大的 agents.md 文件，但由于信息量过大，

00:09:59任何代理都难以管理和维护，最终导致了可预见的失败。

00:10:04于是他们设计了一套得当的文档环境结构，将 agents.md 视为“目录”。

00:10:09他们建立了一套文档系统，涵盖了架构、设计文档、执行计划、

00:10:10数据库 Schema、产品规格、前端设计、安全性等等，

00:10:13并将这些目录放入 agents.md 文件中，以便代理在需要时

00:10:16能够准确检索到相关信息。

00:10:19这实现了“渐进式披露”，而 OpenAI 甚至做得更彻底。

00:10:23他们不仅推送代码知识，还将 Google 文档、Slack 消息等

00:10:27各类碎片化信息喂入仓库，作为仓库本地版本的资产。

00:10:32这样代理也能检索到这些信息，因为从代理的角度来看，

00:10:33如果在环境中无法访问，那它在实际上就不存在。

00:10:37但同样，光有文档并不能让代理生成的代码库保持完全连贯。

00:10:42他们还引入了特定的编程工作流来强制执行“不变性”（Invariants）。

00:10:47例如，他们为领域架构分层，设定了明确的跨领域边界，

00:10:49这允许他们通过自定义检查、Linter 和结构化测试来强制执行规则，

00:10:53并在每次 Git 预提交（pre-commit）时自动触发和注入。

00:10:58这类架构在传统软件公司通常要到拥有数百名工程师时才会考虑，

00:11:03但对于编程代理来说，这是早期就必须具备的前提条件。

00:11:04在这些边界内，你可以给予团队和代理充分的自由来表达解决方案，

00:11:09而无需进行微观管理，也不必担心架构会偏离轨道。

00:11:11同时，他们也对代码库做了大量改进。

00:11:16例如，他们让应用可以通过 Git 工作树（worktrees）启动，

00:11:20这样编程助手就可以同时启动并驱动多个不同的实例。

00:11:25他们还将 Chrome 开发工具协议接入了代理运行时，

00:11:29使代理能够通过 DOM 快照、截图和导航来复现 Bug 并验证修复效果。

00:11:33有了这些环境和工作流的设置，仓库终于跨越了一个最低门槛，

00:11:37让编程助手能够端到端地开发一个新功能。

00:11:41现在，每当编程助手收到一条提示词，它就会开始验证当前代码状态、

00:11:46复现报告的 Bug、录制视频演示失败过程、实施修复、

00:11:49通过驱动应用来验证修复、录制第二段视频展示解决效果，并最终合并更改。

00:11:52这两个案例展示了非常宝贵的心得，以及构建完全自主系统所需的必要外壳系统。

00:11:55与此同时，还有一些其他的感悟。

00:11:57通常我们在构建代理，特别是垂直领域代理时，

00:12:01倾向于构建专门的工具来处理特定领域的任务。

00:12:05但学习目标是：大语言模型在使用它们原生理解的通用工具时，

00:12:09表现几乎总是更好。

00:12:13Vercel 发布了一篇精彩的文章，讲述了他们如何重新设计“任务转 SQL”代理。

00:12:17他们曾花费数月构建了一个极其复杂的内部“任务转 SQL”代理 D0，

00:12:21包含了专门的工具、重度的提示词工程和精细的上下文管理。

00:12:25但正如我们许多人经历过的那样，这类系统虽能运作，

00:12:29但非常脆弱、缓慢，且需要持续维护。

00:12:32因为每当出现新的边缘情况，你就得给代理注入新的提示词。

00:12:34但后来他们尝试了一件事，彻底改变了轨迹。

00:12:36他们删除了代理中绝大多数的专用工具，只保留了一个简单的批处理命令工具。

00:12:40凭借这种极其简单的架构，代理的执行速度提高了 3.5 倍，

00:12:43节省了 37% 的 Token，且成功率从 80% 提升到了 100%。

00:12:47Anthropic 团队也分享了类似的经验，他们谈到，

00:12:49与其使用专门的搜索或执行工具，不如只提供一个批处理工具，

00:12:53让它们可以运行 grep、tail、npm、npm run lint 等常用命令。

00:12:58从根本上说，我认为这是因为大语言模型对这些代码原生工具更熟悉，

00:13:02因为它们在训练中接触过数以十亿计的相关 Token，

00:13:06而相比之下，它还需要临时去学习如何生成定制化的工具调用 JSON。

00:13:09我在上周发布的编程工具调用视频中也谈到了这一点。

00:13:12我相信这背后的基本原理是相似的：这种简单架构的基础

00:13:15依然是良好的上下文和文档环境，让模型能利用通用工具

00:13:20来逐步检索上下文。

00:13:25OpenClaw 的情况也是如此。

00:13:30OpenClaw 如此引人注目的原因之一，就在于它们拥有一个出奇简单但极其有效的上下文环境。

00:13:34它们有一系列文档来存储核心信息。有了这个基础，

00:13:38它们只需最基础的工具，如读取、写入、编辑文件、运行批处理命令和发送消息。

00:13:41剩下的能力提升则来自于赋予代理检索相关上下文的环境，

00:13:45加上庞大的技能库来扩展其能力。

00:13:49以上就是关于如何为长期运行的复杂代理进行“外壳工程”的三个实用心得。

00:13:51通过建立易读的上下文环境，让每次会话都能高效获取背景信息；

00:13:55通过正确的工作流和工具，让模型能有效验证其工作并实现快速反馈循环；

00:13:59以及信任代理，给予它们原生理解的通用工具。

00:14:05如果你感兴趣，我将进一步深入分享如何将这些心得

00:14:06转化为具体的开发生命周期流程。

00:14:09在 AI Builder Club 中，我们有关于“氛围编程”（vibe coding）和构建生产级代理的课程与实操。

00:14:13每周，我和行业专家都会分享最新的实践心得。

00:14:15所以，如果你想了解我每天学到的新知识，可以点击下方链接加入我们的社区。

00:14:18希望你喜欢这个视频。

00:14:23谢谢大家，我们下次再见。

00:14:24Tout le risque provient du fait de donner à l'agent un environnement pour extraire le contexte pertinent ainsi que de vastes bibliothèques

00:14:29de compétences pour étendre ses capacités.

00:14:31Ce sont donc trois enseignements pratiques sur la manière de maîtriser l'ingénierie pour des agents

00:14:35complexes à exécution longue.

00:14:36En mettant en place un environnement de contexte lisible pour permettre à chaque session de saisir le contexte efficacement,

00:14:41et en concevant le flux de travail et les outils pour que le modèle puisse vérifier son travail efficacement, favoriser une boucle de rétroaction plus rapide

00:14:46et faire confiance à l'agent avec des outils génériques qu'il comprend nativement.

00:14:50Si cela vous intéresse, je partagerai plus en détail comment je prends ces enseignements

00:14:54pour les transformer en un processus de cycle de vie de développement.

00:14:58Dans l'AI Builder Club, nous proposons des cours et des ateliers sur le 'vibe coding' et la construction d'agents

00:15:02de production.

00:15:03Et chaque semaine, moi-même et des experts du secteur partageons les derniers enseignements pratiques.

00:15:08Donc, si vous souhaitez apprendre ce que j'apprends chaque jour, vous pouvez cliquer sur le lien

00:15:12ci-dessous pour rejoindre la communauté.

00:15:13J'espère que vous avez apprécié cette vidéo.

00:15:14Merci et à la prochaine.

Key Takeaway

AI 代理正从辅助工具进化为能自主执行长期任务的系统，而成功的关键在于通过“外壳工程”构建易读的上下文环境、强化验证机制并利用模型原生的通用工具能力。

Highlights

2025 年 12 月是 AI 发展的分水岭，模型开始具备处理长期、完全自主任务的能力。

“外壳工程”（Harness Engineering）是提示词工程的进化版，专注于跨会话的多代理协作系统设计。

OpenClaw 代表了从“副驾驶型”代理向“始终在线、主动执行”自主代理的范式转移。

构建高效代理系统的三大核心：易读的环境、快速的验证反馈循环、以及对通用工具的信任。

通过将复杂目标拆解为细化功能列表（如 JSON 格式），可以防止模型过早宣布任务完成或中途迷失方向。

大语言模型在调用原生、通用的命令行工具（如 grep, npm）时，表现往往优于专门定制的复杂工具。

Timeline

AI 代理的重大范式转移

视频开篇指出 2025 年 12 月是 AI 历史上的关键时刻，当时推出的模型终于能够胜任完全自主的长程任务。主讲人对比了 2023 年初级且易崩溃的 AutoGPT 与现今具备长期连贯性的模型之间的差异。文中特别提到了 OpenClaw 项目，它通过内存上下文层、触发器和定时任务实现了“始终在线”的主动性。这种转变标志着行业正从简单的“副驾驶”模式转向能够协调复杂工作的完全自主代理系统。理解这一范式转移对于把握 2026 年的技术机遇至关重要。

外壳工程的核心概念与机遇

主讲人引入了“外壳工程”（Harness Engineering）这一术语，将其定义为旨在榨取模型最大潜力的系统工作流设计。不同于以往局限于单次对话的提示词工程，外壳工程关注的是如何设计跨越多个代理和长时间跨度的协作系统。视频中还提到了垂直领域的巨大机遇，即为特定行业（如邮件营销）构建量身定制的自主代理。主讲人借此推荐了 HubSpot 的研究报告，指出通过分析行业痛点和 KPI，开发者可以找到自动化的切入点。这部分强调了通过正确的设计解锁模型潜力的必要性。

构建易读环境与任务拆解策略

本节深入探讨了长期任务代理成功的第一个关键点：创建一个“易读的环境”。Anthropic 的案例显示，代理失败通常是因为一次想做太多事或过早宣布完成，导致上下文耗尽。解决办法是使用“初始化代理”设置环境，并利用类似 Claude_progress.txt 的文件记录进度。通过将项目拆解成数百个细小的功能点并存入 JSON 文件，可以迫使模型保持对总目标的关注。此外，要求模型在每次修改后提交 Git 并附带注释，是保持环境整洁和状态可追溯的有效手段。

验证机制与自动化测试的重要性

视频详细说明了为何单纯的提示词无法保证输出质量，强调了“验证”在自主系统中的核心地位。传统的单元测试往往不足以发现端到端流程中的问题，因此需要赋予代理如 Puppeteer 或 Chrome 开发工具等强大的验证工具。OpenAI 的实践展示了如何将代码库视为“系统知识库”，并通过目录化的文档实现渐进式信息披露。此外，引入特定的编程工作流（如 Linter 和 Git 预提交检查）可以强制执行架构规则，确保代理不会偏离轨道。这种结构化的反馈循环使代理能够自主复现 Bug、实施修复并验证效果。

简化工具与原生能力信任

最后一部分讨论了工具设计的哲学，即“少即是多”。Vercel 的实验证明，删除复杂的专用工具并代之以简单的批处理命令，反而让 SQL 代理的成功率提升至 100% 且速度提高数倍。主讲人认为，大语言模型对训练数据中常见的通用工具（如 grep, npm）有更深的理解，调用这些工具比生成定制的 JSON 更自然。总结来看，外壳工程的三大支柱是：易读上下文、快速反馈循环、以及对通用工具的信任。视频最后邀请观众加入 AI Builder Club，进一步学习如何在生产环境中构建这类高级代理系统。

Community Posts

自主型 AI 的陷阱：超越简单提示词，如何设计系统架构

makedreamMar 20, 20263490

Write about this video