线束工程：2026年将定义独立开发者的核心技能

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

SSolo Swift Crafter

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00好的。

00:00:02现在最强的 AI 模型是哪个？

00:00:04Claude、GPT 还是 Gemini？

00:00:07老实说，我觉得这问错方向了。

00:00:11完全问错了。

00:00:14先自我介绍一下，我是 Daniel。

00:00:16深耕 iOS 开发领域已经超过八年了。

00:00:20我从自由职业起步，做 UI 设计，

00:00:24在不同客户之间奔波，

00:00:25帮别人实现想法，

00:00:27同时也一直在摸索自己的路。

00:00:28然后在 2025 年之后，我决定全身心投入，开始单干。

00:00:33不再接客户单子，也没有了退路。

00:00:36从那时起，我独立开发了 15 多个应用，

00:00:39全部使用 SwiftUI，并且全过程公开透明。

00:00:41老实说，我现在投入了每一分精力，

00:00:44就是为了让这个个人工作室，

00:00:46能够真正长久地经营下去。

00:00:49不是为了快速炮制一堆 MVP 或 AI 生成的垃圾，

00:00:52而是要做能经得起规模化考验的真实应用。

00:00:55没错，这整个过程，

00:00:57这段充满挑战的旅程都记录在 crafterslab 上。

00:01:00网址是 crafterslab.dev，

00:01:01它不是什么教程堆填区，也不是 AI 仿制品工厂。

00:01:06它是我的大本营，

00:01:08是为那些把 AI 当作真正队友的独立开发者而建的。

00:01:12而不是把它当成一个卡住时随便按两下、

00:01:14然后碰运气的自动售货机。

00:01:16如果你在乎工艺，

00:01:18如果你真心想提升技能，

00:01:20并打造出真正持久的产品，

00:01:23那么，这里会让你有宾至如归的感觉。

00:01:24另外，如果你还在 Patreon 上支持我，

00:01:26非常感谢，但要提醒一下，

00:01:29所有内容都已迁移至 crafterslab.dev。

00:01:32那里是现在大家聚集的地方。

00:01:33欢迎加入我们一起创作。

00:01:35这就是引发我思考这些问题的原因。

00:01:38最近有一项研究报告出炉。

00:01:41研究人员发布了一个名为 Epic's Agent 的基准测试。

00:01:45它与那些在网上，

00:01:49引发人们争论不休的其他基准测试的不同之处在于，

00:01:51它是在真实的专业工作环境中测试 AI 代理，

00:01:55而不是考简单的编程题或选择题。

00:01:58我们说的是咨询顾问、律师、

00:02:03分析师每天都要处理的实际任务。

00:02:05每项任务通常需要人类花一到两个小时才能完成。

00:02:08于是他们把所有主流的顶尖模型都测试了一遍。

00:02:11表现最好的模型，完成任务的成功率，

00:02:13只有约 24%，也就是四分之一。

00:02:17即使让同一个模型尝试八次，

00:02:20成功率也仅上升到 40% 左右。

00:02:23请记住，同样的这些模型，

00:02:26在那些让所有人为之疯狂的基准测试中，

00:02:29得分都在 90% 以上。

00:02:32所以要么是那些基准测试有问题，

00:02:33要么就是我们的测量维度错了。

00:02:36我觉得是后者，对吧？

00:02:37好，接下来才是对我们真正关键的部分。

00:02:41研究人员深入分析了 AI 代理失败的原因。

00:02:46答案并不是因为这些模型不够聪明。

00:02:49它们拥有所需的全部知识。

00:02:51推理问题的过程也没什么障碍。

00:02:54失败几乎完全源于，

00:02:56执行能力和协调管理能力。

00:03:00当步骤过多时，这些代理就会迷失方向。

00:03:02它们会不断重复已经失败的方法。

00:03:05甚至完全忘了，

00:03:09最初被要求做的是什么。

00:03:11如果你是一个每天使用 Claude Code，

00:03:14或者 Cursor 的独立开发者，你应该感同身受。

00:03:18你肯定见过 AI 代理陷入死循环，重复三次，

00:03:21去修同一个修不好的逻辑，

00:03:23完全忘记了 20 个步骤前的上下文内容。

00:03:26然后你坐在那儿心想，

00:03:28“也许我该换成 Opus 模型试试？”

00:03:30“也许我需要另一个供应商，”

00:03:32但数据告诉我们，这并不是问题的根源。

00:03:34瓶颈不在于模型本身。

00:03:36而是在于包裹着模型的配套系统。

00:03:38有一个词可以描述它，

00:03:40我认为这个词将定义 2026 年，

00:03:43就像“代理”定义了 2025 年一样。

00:03:46这个词就是“套件”（Harness）。

00:03:47代理套件指的是模型周围的所有基础设施，

00:03:50包括它能看到什么，

00:03:52它能调用哪些工具，

00:03:54出错时如何恢复，

00:03:56以及如何在长时间运行中保持对任务的追踪。

00:03:59OpenAI 专门发布了一篇博客文章，

00:04:02题目就叫《套件工程》。

00:04:04Anthropic 也发布了一份完整的指南，

00:04:07教你如何为长程运行的代理构建有效的套件。

00:04:09还有 Meta 刚刚收购的 AI 公司 Manish，

00:04:13他们也分享了上下文工程方面的经验，

00:04:16因为他们在六个月内，

00:04:19将整个代理框架重构了五次之多。

00:04:22大家说的其实都是同一件事。

00:04:24真正的工程难题在于套件，

00:04:27而不是模型。

00:04:28好，接下来的这部分内容确实让我感到意外，

00:04:32因为它完全颠覆了，

00:04:34大多数人使用这些工具的思路。

00:04:38这里有一个来自 Vercel 的故事。

00:04:41他们有一个文字转 SQL 的代理。

00:04:43你问一个问题，它帮你写 SQL 查询语句，

00:04:46起初他们是按照常规套路来构建这个代理的，对吧？

00:04:49给它配备了一堆专用工具，

00:04:51一个负责解析数据库模式，

00:04:54一个负责写查询语句，还有一个负责验证结果。

00:04:58周围还套了各种复杂的错误处理逻辑，

00:05:01这种做法的准确率大概在 80% 左右。

00:05:04后来他们尝试了一种很大胆的做法。

00:05:06他们删掉了 80% 的工具，直接把它们砍掉，

00:05:11只给代理最基础的功能：执行 Bash 命令、读取文件，

00:05:15以及像 grep 和 cat 这样的标准命令行工具，

00:05:18也就是你我平时会用到的那些东西。

00:05:20结果准确率从 80% 飙升到了 100%。

00:05:25Token 消耗量减少了 40%，

00:05:28而且运行速度快了三倍半。

00:05:31说实话，这挺出人意料的，对吧？

00:05:33负责构建它的工程师说了一句，

00:05:36让我印象非常深刻的话。

00:05:38“模型正在变得越来越聪明，”

00:05:40“上下文窗口也在不断变大。”

00:05:42“所以，也许最好的代理架构，

00:05:44就是几乎没有架构。”

00:05:46这句话简直颠覆了一切，你明白我的意思吗？

00:05:50因为直觉告诉我们，尤其是在你单打独斗，

00:05:54想要提升系统可靠性的时候，

00:05:57你会不断添加更多工具、更多防护栏，

00:06:01以及更复杂的路由逻辑。

00:06:02你以为更多的结构会有所帮助，

00:06:04但那些工具其实并没有帮到模型。

00:06:06反而成了它的绊脚石。

00:06:08这并不是个例。

00:06:10Manus 也经历过同样的觉悟。

00:06:13他们在六个月内，

00:06:16将整个代理框架重构了五次，

00:06:19而他们获得的最大性能提升，

00:06:21并不是通过增加功能实现的。

00:06:23而是通过删减功能实现的。

00:06:25他们去掉了复杂的文档检索，

00:06:28砍掉了花哨的路由逻辑，

00:06:29并用简单的结构化交接取代了管理型代理。

00:06:34每经过一次迭代，系统就变得越简洁、越强大。

00:06:37接下来的这一点，我认为每个在长时间，

00:06:40运行 Claude Code 的独立开发者都应该听听。

00:06:42Manus 发现，他们的代理，

00:06:45平均每个任务要进行约 50 次工具调用。

00:06:49这涉及很多步骤。

00:06:50即便对于那些在技术上，

00:06:53支持海量上下文窗口的模型来说，

00:06:54过了一定界限后，性能也会开始下降。

00:06:58模型并不是突然间忘记了所有内容。

00:07:01更像是信号被淹没在了噪音之中。

00:07:04你在任务刚开始时给出的重要指令，

00:07:07会被成百上千条中间过程的结果所掩盖。

00:07:10所以，他们的解决方法非常简单直接。

00:07:12他们开始把文件系统，

00:07:14当作模型的外部记忆。

00:07:17代理不再把所有内容都塞进上下文窗口，

00:07:20而是把关键信息写入文件，

00:07:23并在需要时重新读取。

00:07:25没错，如果你用过 Claude Code，

00:07:27你肯定见过这个。

00:07:29那些 claude.md 文件、待办清单、进度跟踪，

00:07:34这正是这一模式，

00:07:36每天在你的终端上演的样子。

00:07:37好了，还记得我说过，

00:07:40大家正趋向于同一个想法吗？

00:07:44因为当你观察，

00:07:45目前最成功的三个代理系统时，

00:07:49你会发现它们虽然路径各异，

00:07:51却都殊途同归。

00:07:53OpenAI 的 Codex 采用了分层方法。

00:07:57一个负责规划的编排层，

00:07:59一个负责处理具体任务的执行层，

00:08:02还有一个捕捉错误的恢复层。

00:08:06它非常稳健。

00:08:07你可以把任务交个它然后放心离开。

00:08:09这是一种设计理念。

00:08:10再看 Claude Code，这是我每天都在用的。

00:08:14它的核心其实只有四个工具。

00:08:16读文件、写文件、编辑文件、

00:08:19运行 Bash 命令，仅此而已。

00:08:21大部分的智慧源于模型本身。

00:08:23套件则保持极简。

00:08:25当你需要更多功能时，可以通过 MCP，

00:08:28和按需获取的技能来实现扩展。

00:08:30而 Manus 则采用了一种我称之为，

00:08:33“精简、卸载、隔离”的策略：积极缩小上下文，

00:08:38利用文件系统作为记忆库，

00:08:40通过派生子代理处理繁重任务，

00:08:43最后只取回结果摘要。

00:08:45这三种完全不同的路径，

00:08:47最终都指向了同一个见解。

00:08:50套件的质量比模型本身更重要。

00:08:52对于独立开发者来说，

00:08:55这将改变你真正该花时间，

00:08:57你应该把时间花在什么地方。

00:08:59毕竟，我们的时间不是无限的。

00:09:01你在 Reddit 上争论

00:09:05Claude 还是 GPT 更好用，每花一小时就是在耽误开发。

00:09:08强化学习创始人之一

00:09:11Richard Sutton 曾提出过一个观点，

00:09:14叫做 “惨痛的教训” (The Bitter Lesson)。

00:09:16核心论点是，

00:09:18能够随计算量扩展的方法

00:09:21最终总是会战胜那些

00:09:23依赖人工设计知识的方法，

00:09:26这对我们正在做的事情很有启发。

00:09:27这意味着非常具体的一点：

00:09:29随着模型变得越来越聪明，

00:09:31你的架构 (Harness) 应该变得更简单，

00:09:33而不是更复杂。

00:09:34如果你随着每次模型升级，

00:09:36都在添加更多硬编码逻辑和自定义流水线，

00:09:40那你就是在逆流而上。

00:09:42说实话，这种过度工程化

00:09:44可能正是你的 Agent 总是崩溃的原因。

00:09:47所以，这是我建议尝试的。

00:09:49首先，亲自动手做一下 Vercel 的那个实验。

00:09:52如果你已经搭建了某种 Agent，

00:09:54精简它，移除那些专用工具，

00:09:57只给它一个 Bash 终端和基本的文件访问权限，

00:10:00看看会发生什么。

00:10:02模型本身可能比你围绕它

00:10:03构建的工具流水线更聪明。

00:10:06第二，添加一个进度文件。

00:10:08让你的 Agent 维护一个运行中的待办列表，

00:10:10在每一步操作后进行更新。

00:10:13它在每次行动开始前读取文件，

00:10:15在行动结束时写入文件。

00:10:17这正是 Claude Code 处理

00:10:19那些 Markdown 文件时所采用的模式。

00:10:20这也是 Manish 在经历了五次彻底重写后

00:10:22最终确定的方案。

00:10:24我其实已经在实验室里

00:10:26搭建了一套完整的系统，包含所有 Agent 指令

00:10:29和 .md 模板，如果你好奇的话，随时可以使用。

00:10:33第三，开始学习 MCP 和技能 (Skills)。

00:10:37这些为模型提供了整洁、标准化的方式

00:10:40来与外部工具协同工作，

00:10:42而无需你硬编码每一个集成接口。

00:10:44这才是现在实现可扩展性的地方。

00:10:462025 年是 Agent 之年。

00:10:50在很大程度上，确实如此。

00:10:53但我认为 2026 年是 “架构” (Harness) 之年。

00:10:58同样的模型，完全相同的模型，

00:11:03在 Claude Code 里的表现

00:11:06与在 Cursor 或 CodeX 中截然不同。

00:11:08所以，请仔细选择你的架构，

00:11:11无论你是使用还是构建编程 Agent。

00:11:14如果你还没走，

00:11:17说实话，你太牛了。

00:11:18我知道现在的模型舆论非常嘈杂。

00:11:22每周都有新模型发布、新榜单出现，

00:11:24或者关于谁才是王者的讨论。

00:11:27但真正的数据，以及开发这些产品的

00:11:30公司所展现出的工程趋势，

00:11:32都在指向另一个方向。

00:11:34架构才是致胜的关键。

00:11:37对于独立开发者来说，这其实是个好消息，

00:11:40因为构建一个更好的架构

00:11:42是你今天立刻就能着手去做的事情，

00:11:45而不需要等待下一个模型的发布。

00:11:47如果你想深入了解我

00:11:51具体是如何设置这些 .md 文件、Agent 工作流，

00:11:56以及我是如何为自己的应用整合这一切的，

00:11:59请访问 crafterslab.dev。

00:12:02这不仅仅是教程堆砌或另一个 AI 内容工场。

00:12:06它是我专门为那些把 AI 当作真正队友、

00:12:09真正关心交付质量的

00:12:11独立开发者打造的大本营。

00:12:13在里面，你会看到完整的演示、

00:12:15实用的短视频教程，以及一系列你可以

00:12:19直接拿来使用的 Claude Code 技能，

00:12:21还有可以下载并直接应用到

00:12:24你项目中的各种资源。

00:12:26成员们会在评论区互动、追问、

00:12:29反复交流。

00:12:30这是真实的对话，而不是单向的内容输出。

00:12:34但真正的核心在于 Notion 团队空间，

00:12:37那是我的实时实战手册，你可以近距离

00:12:40观察我是如何运作我开发的每一个应用的，

00:12:42包括真实项目中的 .md 文件、

00:12:46提示词库，以及我随手记录的文档，

00:12:49还有所有后台运行的自动化流程。

00:12:51没有为了上镜而刻意润色，只有真实的过程，

00:12:55包括那些混乱的部分。另外还有 Swift Brain，

00:12:58这是我花费多年心血构建的

00:13:01精选 Swift 和 SwiftUI 库，包含深度讲座、

00:13:04我花钱策划的内部谈话，

00:13:07这些素材在公开的

00:13:10训练数据中是找不到的。

00:13:11这就是我用来构建自定义 MCP、

00:13:16为 Claude Code 或 Cursor 设置技能的秘籍。

00:13:20我一直在实验并分享有效的方法，

00:13:23接着是 Ops Lab。

00:13:25那是所有 AI Agent 指令所在的地方，

00:13:28包括 Notion 模板、Claude Code 技能、

00:13:31工作流和自动化，都已经配置妥当，

00:13:33供你复制、拆解、

00:13:36甚至彻底打碎后按自己的方式重建。

00:13:38核心意义在于让独立开发者不再孤军奋战，

00:13:41这样你即使一个人坐在键盘前，

00:13:44也绝不是在独自开发。

00:13:46所以，如果你想在圈子还小、

00:13:49价格锁定时加入，现在就是最佳时机。

00:13:52这里感觉更像是一个幕后开发者沙龙，

00:13:55而不是那种巨型、冷冰冰的论坛。

00:13:57真心希望能在那儿见到你。

00:14:00一起交流关于架构的心得，

00:14:02也许还能从你接下来的项目中学习。

00:14:05保持创造，保持实验，

00:14:08不要让那些性能榜单的喧嚣

00:14:10分散了你对真正重要事情的关注。

00:14:12回见。

Key Takeaway

在 AI 模型日益强大的背景下，独立开发者应停止追求模型排名，转而通过简化架构、优化套件（Harness）及利用外部记忆系统来提升 AI 代理的实战可靠性。

Highlights

2026年独立开发者的核心竞争力将从选择“最强模型”转向构建高效的“代理套件”（Harness）
Epic's Agent 基准测试显示，顶尖 AI 模型在处理真实专业任务时的成功率远低于理论跑分
AI 代理失败的核心原因并非智力不足，而是由于步骤过多导致的执行力与协调能力缺失
Vercel 的实验证明，减少专用工具并回归基础命令行工具，能显著提升代理的准确率与速度
优秀的代理架构倾向于“精简、卸载、隔离”，并利用文件系统（如 .md 文件）作为外部记忆
Richard Sutton 的“惨痛的教训”预示着随计算量扩展的简单架构最终将战胜人工设计的复杂逻辑

Timeline

重新定义独立开发者的成功路径

主讲人 Daniel 分享了自己作为资深 iOS 开发者的转型历程，强调在 2025 年后全身心投入独立开发的重要性。他指出，现在的重点不应是纠结于 Claude 或 GPT 哪个模型更强，而是如何建立长久经营的个人工作室。他介绍了他创办的 crafterslab.dev 平台，旨在为那些将 AI 视为真实队友而非自动售货机的开发者提供支持。这一阶段的核心观点是，真正的工艺来自于对工具的深度掌握，而非单纯依赖 AI 生成的廉价内容。Daniel 呼吁开发者关注产品的质量与规模化潜力，以此作为独立开发的大本营。

真实基准测试揭示 AI 代理的局限

本段引入了 Epic's Agent 基准测试，该测试在咨询和法律等真实专业环境下评估 AI 代理的表现。数据表明，尽管顶尖模型在标准选择题中得分超过 90%，但在实际任务中的成功率仅为 24% 左右。研究发现失败的根源并非模型缺乏知识或推理能力，而是因为在多步骤执行中容易迷失方向、重复错误或丢失上下文。Daniel 指出，开发者常误以为更换更强的模型能解决问题，但实际瓶颈在于包裹模型的“套件”（Harness）。这一发现定义了 2025 年是代理之年，而 2026 年将是套件工程之年。

套件工程：从 Vercel 与 Manus 的案例中学习

Daniel 详细分析了“代理套件”的概念，即模型周围的基础设施，包括工具调用、错误恢复和任务追踪。他举了 Vercel 的例子，通过删除 80% 的专用工具并仅保留基础 Bash 命令，代理的准确率从 80% 飙升至 100%。Manus 公司的经历也印证了这一点，他们在六个月内重构五次框架，发现“最简洁的架构就是最好的架构”。为了解决长程运行中的信号噪音问题，这些领先系统开始将文件系统视为模型的外部记忆。通过在文件中记录待办事项和进度（如 claude.md），AI 能够有效处理超过 50 次的复杂工具调用。

三大成功代理系统的共同趋势

本章对比了 OpenAI Codex、Claude Code 和 Manus 三种不同的技术路径，发现它们最终殊途同归。Codex 依赖于规划、执行和恢复的分层架构；Claude Code 保持极简套件并利用模型原生智慧；Manus 则采用精简与隔离策略。所有这些成功案例都证明了套件的质量比模型本身更重要，且架构应随着模型变强而变得更简单。Daniel 引用了 AI 界的“惨痛的教训”，警告开发者不要在升级模型时添加更多硬编码逻辑。顺应这一趋势意味着不要逆流而上，避免过度工程化导致的系统崩溃。开发者应当将精力从 Reddit 上的模型争论中转移到优化自己的套件架构上。

实战建议与开发者资源分享

在视频的最后部分，Daniel 提出了三个具体的行动方案：亲自动手简化代理工具、为代理添加进度跟踪文件，以及开始学习标准化扩展工具 MCP。他详细介绍了自己的 Crafters Lab 资源，包括实战手册、Notion 模板、提示词库以及专为 SwiftUI 开发设计的 Swift Brain。他强调该社区是一个互动的开发者沙龙，旨在让独立开发者在独自战斗时不再感到孤单。通过共享后台运行的自动化流程和真实的、未经润色的开发过程，他希望能帮助成员锁定领先优势。最后，他鼓励开发者保持实验精神，专注于真正重要的“架构”构建，而非被频繁发布的性能榜单干扰。

Community Posts

Write about this video