线束工程:2026年将定义独立开发者的核心技能

SSolo Swift Crafter
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00好的。
00:00:02现在最强的 AI 模型是哪个?
00:00:04Claude、GPT 还是 Gemini?
00:00:07老实说,我觉得这问错方向了。
00:00:11完全问错了。
00:00:14先自我介绍一下,我是 Daniel。
00:00:16深耕 iOS 开发领域已经超过八年了。
00:00:20我从自由职业起步,做 UI 设计,
00:00:24在不同客户之间奔波,
00:00:25帮别人实现想法,
00:00:27同时也一直在摸索自己的路。
00:00:28然后在 2025 年之后,我决定全身心投入,开始单干。
00:00:33不再接客户单子,也没有了退路。
00:00:36从那时起,我独立开发了 15 多个应用,
00:00:39全部使用 SwiftUI,并且全过程公开透明。
00:00:41老实说,我现在投入了每一分精力,
00:00:44就是为了让这个个人工作室,
00:00:46能够真正长久地经营下去。
00:00:49不是为了快速炮制一堆 MVP 或 AI 生成的垃圾,
00:00:52而是要做能经得起规模化考验的真实应用。
00:00:55没错,这整个过程,
00:00:57这段充满挑战的旅程都记录在 crafterslab 上。
00:01:00网址是 crafterslab.dev,
00:01:01它不是什么教程堆填区,也不是 AI 仿制品工厂。
00:01:06它是我的大本营,
00:01:08是为那些把 AI 当作真正队友的独立开发者而建的。
00:01:12而不是把它当成一个卡住时随便按两下、
00:01:14然后碰运气的自动售货机。
00:01:16如果你在乎工艺,
00:01:18如果你真心想提升技能,
00:01:20并打造出真正持久的产品,
00:01:23那么,这里会让你有宾至如归的感觉。
00:01:24另外,如果你还在 Patreon 上支持我,
00:01:26非常感谢,但要提醒一下,
00:01:29所有内容都已迁移至 crafterslab.dev。
00:01:32那里是现在大家聚集的地方。
00:01:33欢迎加入我们一起创作。
00:01:35这就是引发我思考这些问题的原因。
00:01:38最近有一项研究报告出炉。
00:01:41研究人员发布了一个名为 Epic's Agent 的基准测试。
00:01:45它与那些在网上,
00:01:49引发人们争论不休的其他基准测试的不同之处在于,
00:01:51它是在真实的专业工作环境中测试 AI 代理,
00:01:55而不是考简单的编程题或选择题。
00:01:58我们说的是咨询顾问、律师、
00:02:03分析师每天都要处理的实际任务。
00:02:05每项任务通常需要人类花一到两个小时才能完成。
00:02:08于是他们把所有主流的顶尖模型都测试了一遍。
00:02:11表现最好的模型,完成任务的成功率,
00:02:13只有约 24%,也就是四分之一。
00:02:17即使让同一个模型尝试八次,
00:02:20成功率也仅上升到 40% 左右。
00:02:23请记住,同样的这些模型,
00:02:26在那些让所有人为之疯狂的基准测试中,
00:02:29得分都在 90% 以上。
00:02:32所以要么是那些基准测试有问题,
00:02:33要么就是我们的测量维度错了。
00:02:36我觉得是后者,对吧?
00:02:37好,接下来才是对我们真正关键的部分。
00:02:41研究人员深入分析了 AI 代理失败的原因。
00:02:46答案并不是因为这些模型不够聪明。
00:02:49它们拥有所需的全部知识。
00:02:51推理问题的过程也没什么障碍。
00:02:54失败几乎完全源于,
00:02:56执行能力和协调管理能力。
00:03:00当步骤过多时,这些代理就会迷失方向。
00:03:02它们会不断重复已经失败的方法。
00:03:05甚至完全忘了,
00:03:09最初被要求做的是什么。
00:03:11如果你是一个每天使用 Claude Code,
00:03:14或者 Cursor 的独立开发者,你应该感同身受。
00:03:18你肯定见过 AI 代理陷入死循环,重复三次,
00:03:21去修同一个修不好的逻辑,
00:03:23完全忘记了 20 个步骤前的上下文内容。
00:03:26然后你坐在那儿心想,
00:03:28“也许我该换成 Opus 模型试试?”
00:03:30“也许我需要另一个供应商,”
00:03:32但数据告诉我们,这并不是问题的根源。
00:03:34瓶颈不在于模型本身。
00:03:36而是在于包裹着模型的配套系统。
00:03:38有一个词可以描述它,
00:03:40我认为这个词将定义 2026 年,
00:03:43就像“代理”定义了 2025 年一样。
00:03:46这个词就是“套件”(Harness)。
00:03:47代理套件指的是模型周围的所有基础设施,
00:03:50包括它能看到什么,
00:03:52它能调用哪些工具,
00:03:54出错时如何恢复,
00:03:56以及如何在长时间运行中保持对任务的追踪。
00:03:59OpenAI 专门发布了一篇博客文章,
00:04:02题目就叫《套件工程》。
00:04:04Anthropic 也发布了一份完整的指南,
00:04:07教你如何为长程运行的代理构建有效的套件。
00:04:09还有 Meta 刚刚收购的 AI 公司 Manish,
00:04:13他们也分享了上下文工程方面的经验,
00:04:16因为他们在六个月内,
00:04:19将整个代理框架重构了五次之多。
00:04:22大家说的其实都是同一件事。
00:04:24真正的工程难题在于套件,
00:04:27而不是模型。
00:04:28好,接下来的这部分内容确实让我感到意外,
00:04:32因为它完全颠覆了,
00:04:34大多数人使用这些工具的思路。
00:04:38这里有一个来自 Vercel 的故事。
00:04:41他们有一个文字转 SQL 的代理。
00:04:43你问一个问题,它帮你写 SQL 查询语句,
00:04:46起初他们是按照常规套路来构建这个代理的,对吧?
00:04:49给它配备了一堆专用工具,
00:04:51一个负责解析数据库模式,
00:04:54一个负责写查询语句,还有一个负责验证结果。
00:04:58周围还套了各种复杂的错误处理逻辑,
00:05:01这种做法的准确率大概在 80% 左右。
00:05:04后来他们尝试了一种很大胆的做法。
00:05:06他们删掉了 80% 的工具,直接把它们砍掉,
00:05:11只给代理最基础的功能:执行 Bash 命令、读取文件,
00:05:15以及像 grep 和 cat 这样的标准命令行工具,
00:05:18也就是你我平时会用到的那些东西。
00:05:20结果准确率从 80% 飙升到了 100%。
00:05:25Token 消耗量减少了 40%,
00:05:28而且运行速度快了三倍半。
00:05:31说实话,这挺出人意料的,对吧?
00:05:33负责构建它的工程师说了一句,
00:05:36让我印象非常深刻的话。
00:05:38“模型正在变得越来越聪明,”
00:05:40“上下文窗口也在不断变大。”
00:05:42“所以,也许最好的代理架构,
00:05:44就是几乎没有架构。”
00:05:46这句话简直颠覆了一切,你明白我的意思吗?
00:05:50因为直觉告诉我们,尤其是在你单打独斗,
00:05:54想要提升系统可靠性的时候,
00:05:57你会不断添加更多工具、更多防护栏,
00:06:01以及更复杂的路由逻辑。
00:06:02你以为更多的结构会有所帮助,
00:06:04但那些工具其实并没有帮到模型。
00:06:06反而成了它的绊脚石。
00:06:08这并不是个例。
00:06:10Manus 也经历过同样的觉悟。
00:06:13他们在六个月内,
00:06:16将整个代理框架重构了五次,
00:06:19而他们获得的最大性能提升,
00:06:21并不是通过增加功能实现的。
00:06:23而是通过删减功能实现的。
00:06:25他们去掉了复杂的文档检索,
00:06:28砍掉了花哨的路由逻辑,
00:06:29并用简单的结构化交接取代了管理型代理。
00:06:34每经过一次迭代,系统就变得越简洁、越强大。
00:06:37接下来的这一点,我认为每个在长时间,
00:06:40运行 Claude Code 的独立开发者都应该听听。
00:06:42Manus 发现,他们的代理,
00:06:45平均每个任务要进行约 50 次工具调用。
00:06:49这涉及很多步骤。
00:06:50即便对于那些在技术上,
00:06:53支持海量上下文窗口的模型来说,
00:06:54过了一定界限后,性能也会开始下降。
00:06:58模型并不是突然间忘记了所有内容。
00:07:01更像是信号被淹没在了噪音之中。
00:07:04你在任务刚开始时给出的重要指令,
00:07:07会被成百上千条中间过程的结果所掩盖。
00:07:10所以,他们的解决方法非常简单直接。
00:07:12他们开始把文件系统,
00:07:14当作模型的外部记忆。
00:07:17代理不再把所有内容都塞进上下文窗口,
00:07:20而是把关键信息写入文件,
00:07:23并在需要时重新读取。
00:07:25没错,如果你用过 Claude Code,
00:07:27你肯定见过这个。
00:07:29那些 claude.md 文件、待办清单、进度跟踪,
00:07:34这正是这一模式,
00:07:36每天在你的终端上演的样子。
00:07:37好了,还记得我说过,
00:07:40大家正趋向于同一个想法吗?
00:07:44因为当你观察,
00:07:45目前最成功的三个代理系统时,
00:07:49你会发现它们虽然路径各异,
00:07:51却都殊途同归。
00:07:53OpenAI 的 Codex 采用了分层方法。
00:07:57一个负责规划的编排层,
00:07:59一个负责处理具体任务的执行层,
00:08:02还有一个捕捉错误的恢复层。
00:08:06它非常稳健。
00:08:07你可以把任务交个它然后放心离开。
00:08:09这是一种设计理念。
00:08:10再看 Claude Code,这是我每天都在用的。
00:08:14它的核心其实只有四个工具。
00:08:16读文件、写文件、编辑文件、
00:08:19运行 Bash 命令,仅此而已。
00:08:21大部分的智慧源于模型本身。
00:08:23套件则保持极简。
00:08:25当你需要更多功能时,可以通过 MCP,
00:08:28和按需获取的技能来实现扩展。
00:08:30而 Manus 则采用了一种我称之为,
00:08:33“精简、卸载、隔离”的策略:积极缩小上下文,
00:08:38利用文件系统作为记忆库,
00:08:40通过派生子代理处理繁重任务,
00:08:43最后只取回结果摘要。
00:08:45这三种完全不同的路径,
00:08:47最终都指向了同一个见解。
00:08:50套件的质量比模型本身更重要。
00:08:52对于独立开发者来说,
00:08:55这将改变你真正该花时间,
00:08:57你应该把时间花在什么地方。
00:08:59毕竟,我们的时间不是无限的。
00:09:01你在 Reddit 上争论
00:09:05Claude 还是 GPT 更好用,每花一小时就是在耽误开发。
00:09:08强化学习创始人之一
00:09:11Richard Sutton 曾提出过一个观点,
00:09:14叫做 “惨痛的教训” (The Bitter Lesson)。
00:09:16核心论点是,
00:09:18能够随计算量扩展的方法
00:09:21最终总是会战胜那些
00:09:23依赖人工设计知识的方法,
00:09:26这对我们正在做的事情很有启发。
00:09:27这意味着非常具体的一点:
00:09:29随着模型变得越来越聪明,
00:09:31你的架构 (Harness) 应该变得更简单,
00:09:33而不是更复杂。
00:09:34如果你随着每次模型升级,
00:09:36都在添加更多硬编码逻辑和自定义流水线,
00:09:40那你就是在逆流而上。
00:09:42说实话,这种过度工程化
00:09:44可能正是你的 Agent 总是崩溃的原因。
00:09:47所以,这是我建议尝试的。
00:09:49首先,亲自动手做一下 Vercel 的那个实验。
00:09:52如果你已经搭建了某种 Agent,
00:09:54精简它,移除那些专用工具,
00:09:57只给它一个 Bash 终端和基本的文件访问权限,
00:10:00看看会发生什么。
00:10:02模型本身可能比你围绕它
00:10:03构建的工具流水线更聪明。
00:10:06第二,添加一个进度文件。
00:10:08让你的 Agent 维护一个运行中的待办列表,
00:10:10在每一步操作后进行更新。
00:10:13它在每次行动开始前读取文件,
00:10:15在行动结束时写入文件。
00:10:17这正是 Claude Code 处理
00:10:19那些 Markdown 文件时所采用的模式。
00:10:20这也是 Manish 在经历了五次彻底重写后
00:10:22最终确定的方案。
00:10:24我其实已经在实验室里
00:10:26搭建了一套完整的系统,包含所有 Agent 指令
00:10:29和 .md 模板,如果你好奇的话,随时可以使用。
00:10:33第三,开始学习 MCP 和技能 (Skills)。
00:10:37这些为模型提供了整洁、标准化的方式
00:10:40来与外部工具协同工作,
00:10:42而无需你硬编码每一个集成接口。
00:10:44这才是现在实现可扩展性的地方。
00:10:462025 年是 Agent 之年。
00:10:50在很大程度上,确实如此。
00:10:53但我认为 2026 年是 “架构” (Harness) 之年。
00:10:58同样的模型,完全相同的模型,
00:11:03在 Claude Code 里的表现
00:11:06与在 Cursor 或 CodeX 中截然不同。
00:11:08所以,请仔细选择你的架构,
00:11:11无论你是使用还是构建编程 Agent。
00:11:14如果你还没走,
00:11:17说实话,你太牛了。
00:11:18我知道现在的模型舆论非常嘈杂。
00:11:22每周都有新模型发布、新榜单出现,
00:11:24或者关于谁才是王者的讨论。
00:11:27但真正的数据,以及开发这些产品的
00:11:30公司所展现出的工程趋势,
00:11:32都在指向另一个方向。
00:11:34架构才是致胜的关键。
00:11:37对于独立开发者来说,这其实是个好消息,
00:11:40因为构建一个更好的架构
00:11:42是你今天立刻就能着手去做的事情,
00:11:45而不需要等待下一个模型的发布。
00:11:47如果你想深入了解我
00:11:51具体是如何设置这些 .md 文件、Agent 工作流,
00:11:56以及我是如何为自己的应用整合这一切的,
00:11:59请访问 crafterslab.dev。
00:12:02这不仅仅是教程堆砌或另一个 AI 内容工场。
00:12:06它是我专门为那些把 AI 当作真正队友、
00:12:09真正关心交付质量的
00:12:11独立开发者打造的大本营。
00:12:13在里面,你会看到完整的演示、
00:12:15实用的短视频教程,以及一系列你可以
00:12:19直接拿来使用的 Claude Code 技能,
00:12:21还有可以下载并直接应用到
00:12:24你项目中的各种资源。
00:12:26成员们会在评论区互动、追问、
00:12:29反复交流。
00:12:30这是真实的对话,而不是单向的内容输出。
00:12:34但真正的核心在于 Notion 团队空间,
00:12:37那是我的实时实战手册,你可以近距离
00:12:40观察我是如何运作我开发的每一个应用的,
00:12:42包括真实项目中的 .md 文件、
00:12:46提示词库,以及我随手记录的文档,
00:12:49还有所有后台运行的自动化流程。
00:12:51没有为了上镜而刻意润色,只有真实的过程,
00:12:55包括那些混乱的部分。另外还有 Swift Brain,
00:12:58这是我花费多年心血构建的
00:13:01精选 Swift 和 SwiftUI 库,包含深度讲座、
00:13:04我花钱策划的内部谈话,
00:13:07这些素材在公开的
00:13:10训练数据中是找不到的。
00:13:11这就是我用来构建自定义 MCP、
00:13:16为 Claude Code 或 Cursor 设置技能的秘籍。
00:13:20我一直在实验并分享有效的方法,
00:13:23接着是 Ops Lab。
00:13:25那是所有 AI Agent 指令所在的地方,
00:13:28包括 Notion 模板、Claude Code 技能、
00:13:31工作流和自动化,都已经配置妥当,
00:13:33供你复制、拆解、
00:13:36甚至彻底打碎后按自己的方式重建。
00:13:38核心意义在于让独立开发者不再孤军奋战,
00:13:41这样你即使一个人坐在键盘前,
00:13:44也绝不是在独自开发。
00:13:46所以,如果你想在圈子还小、
00:13:49价格锁定时加入,现在就是最佳时机。
00:13:52这里感觉更像是一个幕后开发者沙龙,
00:13:55而不是那种巨型、冷冰冰的论坛。
00:13:57真心希望能在那儿见到你。
00:14:00一起交流关于架构的心得,
00:14:02也许还能从你接下来的项目中学习。
00:14:05保持创造,保持实验,
00:14:08不要让那些性能榜单的喧嚣
00:14:10分散了你对真正重要事情的关注。
00:14:12回见。

Key Takeaway

在 AI 模型日益强大的背景下,独立开发者应停止追求模型排名,转而通过简化架构、优化套件(Harness)及利用外部记忆系统来提升 AI 代理的实战可靠性。

Highlights

2026年独立开发者的核心竞争力将从选择“最强模型”转向构建高效的“代理套件”(Harness)

Epic's Agent 基准测试显示,顶尖 AI 模型在处理真实专业任务时的成功率远低于理论跑分

AI 代理失败的核心原因并非智力不足,而是由于步骤过多导致的执行力与协调能力缺失

Vercel 的实验证明,减少专用工具并回归基础命令行工具,能显著提升代理的准确率与速度

优秀的代理架构倾向于“精简、卸载、隔离”,并利用文件系统(如 .md 文件)作为外部记忆

Richard Sutton 的“惨痛的教训”预示着随计算量扩展的简单架构最终将战胜人工设计的复杂逻辑

Timeline

重新定义独立开发者的成功路径

主讲人 Daniel 分享了自己作为资深 iOS 开发者的转型历程,强调在 2025 年后全身心投入独立开发的重要性。他指出,现在的重点不应是纠结于 Claude 或 GPT 哪个模型更强,而是如何建立长久经营的个人工作室。他介绍了他创办的 crafterslab.dev 平台,旨在为那些将 AI 视为真实队友而非自动售货机的开发者提供支持。这一阶段的核心观点是,真正的工艺来自于对工具的深度掌握,而非单纯依赖 AI 生成的廉价内容。Daniel 呼吁开发者关注产品的质量与规模化潜力,以此作为独立开发的大本营。

真实基准测试揭示 AI 代理的局限

本段引入了 Epic's Agent 基准测试,该测试在咨询和法律等真实专业环境下评估 AI 代理的表现。数据表明,尽管顶尖模型在标准选择题中得分超过 90%,但在实际任务中的成功率仅为 24% 左右。研究发现失败的根源并非模型缺乏知识或推理能力,而是因为在多步骤执行中容易迷失方向、重复错误或丢失上下文。Daniel 指出,开发者常误以为更换更强的模型能解决问题,但实际瓶颈在于包裹模型的“套件”(Harness)。这一发现定义了 2025 年是代理之年,而 2026 年将是套件工程之年。

套件工程:从 Vercel 与 Manus 的案例中学习

Daniel 详细分析了“代理套件”的概念,即模型周围的基础设施,包括工具调用、错误恢复和任务追踪。他举了 Vercel 的例子,通过删除 80% 的专用工具并仅保留基础 Bash 命令,代理的准确率从 80% 飙升至 100%。Manus 公司的经历也印证了这一点,他们在六个月内重构五次框架,发现“最简洁的架构就是最好的架构”。为了解决长程运行中的信号噪音问题,这些领先系统开始将文件系统视为模型的外部记忆。通过在文件中记录待办事项和进度(如 claude.md),AI 能够有效处理超过 50 次的复杂工具调用。

三大成功代理系统的共同趋势

本章对比了 OpenAI Codex、Claude Code 和 Manus 三种不同的技术路径,发现它们最终殊途同归。Codex 依赖于规划、执行和恢复的分层架构;Claude Code 保持极简套件并利用模型原生智慧;Manus 则采用精简与隔离策略。所有这些成功案例都证明了套件的质量比模型本身更重要,且架构应随着模型变强而变得更简单。Daniel 引用了 AI 界的“惨痛的教训”,警告开发者不要在升级模型时添加更多硬编码逻辑。顺应这一趋势意味着不要逆流而上,避免过度工程化导致的系统崩溃。开发者应当将精力从 Reddit 上的模型争论中转移到优化自己的套件架构上。

实战建议与开发者资源分享

在视频的最后部分,Daniel 提出了三个具体的行动方案:亲自动手简化代理工具、为代理添加进度跟踪文件,以及开始学习标准化扩展工具 MCP。他详细介绍了自己的 Crafters Lab 资源,包括实战手册、Notion 模板、提示词库以及专为 SwiftUI 开发设计的 Swift Brain。他强调该社区是一个互动的开发者沙龙,旨在让独立开发者在独自战斗时不再感到孤单。通过共享后台运行的自动化流程和真实的、未经润色的开发过程,他希望能帮助成员锁定领先优势。最后,他鼓励开发者保持实验精神,专注于真正重要的“架构”构建,而非被频繁发布的性能榜单干扰。

Community Posts

View all posts