00:00:00如果你想省钱,或者单纯讨厌大语言模型的说话方式,
00:00:03那么这期内容可能很适合你。这是一种名为“Caveman”的新趋势技能,
00:00:07它承诺在保持完整技术准确性的同时,减少高达 75% 的输出词元。
00:00:10这一切都要归功于凯文的“睿智箴言”:
00:00:12“何必浪费时间?”
00:00:13“少说废话,事竟成。”
00:00:16这适用于 Claude、Codex 等各种模型,它能将冗长、
00:00:20没人想看的废话回复,转化为简洁明了的总结,且技术精度不减,
00:00:24它甚至支持自定义,并拥有文言文模式、精简提交、单行代码审查
00:00:29以及输入压缩工具等额外功能。
00:00:30起初这听起来可能有点疯狂,但背后其实是有科学依据的,
00:00:34让我们深入了解一下。
00:00:40我之前在一个 Next.js 演示应用中测试了 Claude code,
00:00:44该应用包含一个模拟认证系统。我问它:“你能解释一下
00:00:48这个应用是如何实现身份验证的吗?”
00:00:49这是在没有安装 Caveman 技能时的正常 Claude code 表现,
00:00:53你可以看到它立刻开始说废话,比如“这是一个模拟认证系统”。
00:00:56它用破折号说明:没有后端,没有密码,没有真正的安全性,
00:01:00存在只是为了演示 Better Stack RUM 用户追踪。
00:01:03接着它又继续解释核心文件及其运作方式,
00:01:06一切都是那种标准的、平铺直叙的英语。
00:01:08如果我们问同样的问题,但这次使用 Caveman 技能,
00:01:11你会发现它直接进入正题,而且非常简洁。
00:01:13第一句话是:仅供演示,客户端认证,无真实安全,
00:01:17专为 Better Stack RUM 追踪演示构建。
00:01:18它没有任何冗词赘句、破折号之类的东西。
00:01:21它不需要构建完整的句子,
00:01:25而是直接告诉你技术信息。
00:01:26在“运作方式”部分、流程和集成点也是如此。
00:01:29你可以看到,它不再用平淡的英语句子描述流程,
00:01:33而是简述为:应用加载 -> 检查本地存储中的已保存用户。
00:01:36所以它更加精炼,老实说,这正是我所关心的。
00:01:39我不介意它是否符合英语语法,
00:01:43我只想要其中的技术信息。
00:01:44这种简洁性是我喜欢这个技能的主因,但它的另一个卖点是,
00:01:47这意味着它应该能减少输出词元,理论上
00:01:51可以让你的 Claude code 订阅更耐用,甚至节省 API 费用。
00:01:55但我认为这里有一个小小的陷阱。
00:01:57这是我之前运行的一项对比测试结果,我对比了
00:02:00基准 Claude code 响应、要求它“精简”的响应,
00:02:04以及使用 Caveman 技能的响应。
00:02:07测试包含 10 个提示词,比如“git rebase 与 git merge 有什么区别”。
00:02:11你可以看到结果非常理想。
00:02:14使用 Caveman 技能相比基准测试,输出词元减少了 45%,
00:02:18相比仅要求 Claude code “保持精简”也减少了 39%。
00:02:22这显然与成本挂钩,输出词元部分将节省 45% 的费用,
00:02:26基准测试大约花费 8 美分,而 Caveman 只需要
00:02:31大约 4 美分。
00:02:32所以最初看起来一切都很棒。
00:02:34然而,当你考虑到输入词元的成本时,事情就变得有趣了。
00:02:37很明显,在使用 Caveman 技能时,我们需要加载一个 Markdown 文件,
00:02:38它的文本量比我们单句的提示词要多得多。
00:02:41在基准测试中,我们只发送一个句子,费用微乎其微,
00:02:45但使用技能时,你可以看到成本增加到了
00:02:49大约 4 美分。
00:02:50如果把输入和输出词元的成本相加,你会发现 Caveman
00:02:54平均比基准测试贵 10%,因为我们在输出端省下的钱,
00:02:58全赔在输入端了。
00:03:01但这并不意味着 Caveman 输了,
00:03:04因为这种情况仅适用于非常特定的场景。
00:03:05只有当你只发送一个简短提示且没有后续追问时才成立。
00:03:10如果你开始进行追问,就可以触发提示词缓存定价,
00:03:14那时形势就会倒向 Caveman,我们实际上能实现
00:03:1939% 的成本节约。
00:03:20虽然扯得有点远,但这证明了使用 Caveman 是有逻辑依据的,
00:03:23而且我们还没考虑到另一个潜在优势:
00:03:27今年的一项研究表明,强制大模型进行简短回答,
00:03:31在某些基准测试中能将准确率提高 26%。
00:03:34也许凯文才是最聪明的那个,而订阅本频道的你也很聪明。
00:03:38你可以通过使用 vacel 技能包并运行这样的命令
00:03:41来亲自尝试这个技能,在这里我们也能看到它是如何要求智能体的。
00:03:45我们制定了一些规则,比如去掉 a、an 和 the 等冠词,去掉填充词、客套话,
00:03:49去掉模棱两可的措辞。
00:03:50然后还有使用简短的同义词:用 big 代替 extensive,用 fix 代替
00:03:54implement a solution for,同时我们也明确了需要保留的内容,
00:03:58比如技术术语、代码块和错误信息。
00:04:00接着我们设定了结构模式,它应该包含:
00:04:03对象、动作、理由和下一步。
00:04:05非常简洁明了。
00:04:07这里甚至还有“强度模式”来改变它的精简程度。
00:04:10范围从 light 一直到 ultra。
00:04:12我一直用的是 full 模式,这是默认设置,但在 ultra 模式下,
00:04:17它会缩写一切,剥离连词,用箭头表示因果,
00:04:21能用一个词绝不用两个。
00:04:22甚至还有一个“文言文模式”,因为古汉语
00:04:26实际上是词元效率最高的语言。
00:04:27不幸的是我看不懂,所以对我来说没啥用。
00:04:30这些还不是 Caveman 的全部,它还有一些针对
00:04:33特定场景的技能。
00:04:34我们有 caveman commit,用约定式提交格式编写精炼准确的消息。
00:04:38我们有 caveman review,为每个发现编写一行简洁的代码审查意见。
00:04:42我们还有一个 compress 技能,可以将你的自然语言文件进行“穴居人化”,
00:04:46这样你再次使用时就能节省一些输入词元。
00:04:49如果你对其中任何功能感兴趣,请在评论区告诉我,
00:04:52顺便订阅一下,我们下期再见。