这个 Claude 技巧让你的 Token 成本减半

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00如果你想省钱，或者单纯讨厌大语言模型的说话方式，

00:00:03那么这期内容可能很适合你。这是一种名为“Caveman”的新趋势技能，

00:00:07它承诺在保持完整技术准确性的同时，减少高达 75% 的输出词元。

00:00:10这一切都要归功于凯文的“睿智箴言”：

00:00:12“何必浪费时间？”

00:00:13“少说废话，事竟成。”

00:00:16这适用于 Claude、Codex 等各种模型，它能将冗长、

00:00:20没人想看的废话回复，转化为简洁明了的总结，且技术精度不减，

00:00:24它甚至支持自定义，并拥有文言文模式、精简提交、单行代码审查

00:00:29以及输入压缩工具等额外功能。

00:00:30起初这听起来可能有点疯狂，但背后其实是有科学依据的，

00:00:34让我们深入了解一下。

00:00:40我之前在一个 Next.js 演示应用中测试了 Claude code，

00:00:44该应用包含一个模拟认证系统。我问它：“你能解释一下

00:00:48这个应用是如何实现身份验证的吗？”

00:00:49这是在没有安装 Caveman 技能时的正常 Claude code 表现，

00:00:53你可以看到它立刻开始说废话，比如“这是一个模拟认证系统”。

00:00:56它用破折号说明：没有后端，没有密码，没有真正的安全性，

00:01:00存在只是为了演示 Better Stack RUM 用户追踪。

00:01:03接着它又继续解释核心文件及其运作方式，

00:01:06一切都是那种标准的、平铺直叙的英语。

00:01:08如果我们问同样的问题，但这次使用 Caveman 技能，

00:01:11你会发现它直接进入正题，而且非常简洁。

00:01:13第一句话是：仅供演示，客户端认证，无真实安全，

00:01:17专为 Better Stack RUM 追踪演示构建。

00:01:18它没有任何冗词赘句、破折号之类的东西。

00:01:21它不需要构建完整的句子，

00:01:25而是直接告诉你技术信息。

00:01:26在“运作方式”部分、流程和集成点也是如此。

00:01:29你可以看到，它不再用平淡的英语句子描述流程，

00:01:33而是简述为：应用加载 -> 检查本地存储中的已保存用户。

00:01:36所以它更加精炼，老实说，这正是我所关心的。

00:01:39我不介意它是否符合英语语法，

00:01:43我只想要其中的技术信息。

00:01:44这种简洁性是我喜欢这个技能的主因，但它的另一个卖点是，

00:01:47这意味着它应该能减少输出词元，理论上

00:01:51可以让你的 Claude code 订阅更耐用，甚至节省 API 费用。

00:01:55但我认为这里有一个小小的陷阱。

00:01:57这是我之前运行的一项对比测试结果，我对比了

00:02:00基准 Claude code 响应、要求它“精简”的响应，

00:02:04以及使用 Caveman 技能的响应。

00:02:07测试包含 10 个提示词，比如“git rebase 与 git merge 有什么区别”。

00:02:11你可以看到结果非常理想。

00:02:14使用 Caveman 技能相比基准测试，输出词元减少了 45%，

00:02:18相比仅要求 Claude code “保持精简”也减少了 39%。

00:02:22这显然与成本挂钩，输出词元部分将节省 45% 的费用，

00:02:26基准测试大约花费 8 美分，而 Caveman 只需要

00:02:31大约 4 美分。

00:02:32所以最初看起来一切都很棒。

00:02:34然而，当你考虑到输入词元的成本时，事情就变得有趣了。

00:02:37很明显，在使用 Caveman 技能时，我们需要加载一个 Markdown 文件，

00:02:38它的文本量比我们单句的提示词要多得多。

00:02:41在基准测试中，我们只发送一个句子，费用微乎其微，

00:02:45但使用技能时，你可以看到成本增加到了

00:02:49大约 4 美分。

00:02:50如果把输入和输出词元的成本相加，你会发现 Caveman

00:02:54平均比基准测试贵 10%，因为我们在输出端省下的钱，

00:02:58全赔在输入端了。

00:03:01但这并不意味着 Caveman 输了，

00:03:04因为这种情况仅适用于非常特定的场景。

00:03:05只有当你只发送一个简短提示且没有后续追问时才成立。

00:03:10如果你开始进行追问，就可以触发提示词缓存定价，

00:03:14那时形势就会倒向 Caveman，我们实际上能实现

00:03:1939% 的成本节约。

00:03:20虽然扯得有点远，但这证明了使用 Caveman 是有逻辑依据的，

00:03:23而且我们还没考虑到另一个潜在优势：

00:03:27今年的一项研究表明，强制大模型进行简短回答，

00:03:31在某些基准测试中能将准确率提高 26%。

00:03:34也许凯文才是最聪明的那个，而订阅本频道的你也很聪明。

00:03:38你可以通过使用 vacel 技能包并运行这样的命令

00:03:41来亲自尝试这个技能，在这里我们也能看到它是如何要求智能体的。

00:03:45我们制定了一些规则，比如去掉 a、an 和 the 等冠词，去掉填充词、客套话，

00:03:49去掉模棱两可的措辞。

00:03:50然后还有使用简短的同义词：用 big 代替 extensive，用 fix 代替

00:03:54implement a solution for，同时我们也明确了需要保留的内容，

00:03:58比如技术术语、代码块和错误信息。

00:04:00接着我们设定了结构模式，它应该包含：

00:04:03对象、动作、理由和下一步。

00:04:05非常简洁明了。

00:04:07这里甚至还有“强度模式”来改变它的精简程度。

00:04:10范围从 light 一直到 ultra。

00:04:12我一直用的是 full 模式，这是默认设置，但在 ultra 模式下，

00:04:17它会缩写一切，剥离连词，用箭头表示因果，

00:04:21能用一个词绝不用两个。

00:04:22甚至还有一个“文言文模式”，因为古汉语

00:04:26实际上是词元效率最高的语言。

00:04:27不幸的是我看不懂，所以对我来说没啥用。

00:04:30这些还不是 Caveman 的全部，它还有一些针对

00:04:33特定场景的技能。

00:04:34我们有 caveman commit，用约定式提交格式编写精炼准确的消息。

00:04:38我们有 caveman review，为每个发现编写一行简洁的代码审查意见。

00:04:42我们还有一个 compress 技能，可以将你的自然语言文件进行“穴居人化”，

00:04:46这样你再次使用时就能节省一些输入词元。

00:04:49如果你对其中任何功能感兴趣，请在评论区告诉我，

00:04:52顺便订阅一下，我们下期再见。

Key Takeaway

通过应用 Caveman 技能精简大模型指令并消除冗余表达，用户可在保持技术精度的前提下将输出词元成本降低 45% 并显著提升响应准确度。

Highlights

使用 Caveman 技能可将大语言模型的输出词元减少 45%，并比简单的“保持精简”指令多节省 39% 的词元。

在多轮对话中触发提示词缓存定价后，Caveman 模式能实现 39% 的整体成本节约。

2026 年的一项研究表明，强制大模型进行简短回答在某些基准测试中能提升 26% 的准确率。

Ultra 模式会剥离所有连词并使用箭头表示因果关系，实现极致的输出压缩。

古汉语（文言文）模式是目前词元效率最高的输出语言选项。

Caveman review 技能为每个发现的问题仅提供一行简洁的代码审查意见。

Timeline

Caveman 技能的核心概念与表现

Caveman 是一种旨在减少高达 75% 输出词元且不损失技术准确性的技能。
该技能将标准的完整英语句子转化为直接的技术信息流。
系统通过去掉冗词和符号直接展示核心流程，例如将应用加载描述为“应用加载 -> 检查本地存储”。

大语言模型通常会生成包含大量社交客套和背景解释的冗长回复。Caveman 技能通过模拟极其精简的交流方式，跳过所有非必要的语法结构。在 Next.js 身份验证系统的测试中，该技能直接输出客户端认证的局限性，而非构建平铺直叙的解释性段落。

成本结构分析与词元节省数据

对比基准测试显示，使用 Caveman 技能使输出端费用从 8 美分降至 4 美分。
单次简短提示词场景下，加载技能带来的输入成本会导致整体费用上升约 10%。
在包含后续追问的长对话中，利用提示词缓存可使总成本实际降低 39%。

虽然输出词元的减少非常显著，但加载 Caveman 技能所需的 Markdown 文件会增加初始输入的成本。在处理单一问题时，输入端增加的开销可能抵消输出端的节省。然而，在持续的开发场景中，缓存机制让输入成本趋于平稳，从而发挥出输出端 45% 节省带来的经济优势。

规则设定、强度模式与特定场景工具

核心规则包括删除冠词、填充词以及使用简短同义词替代复杂表述。
强度模式覆盖从 Light 到 Ultra 的不同层级，最高级别会移除所有连词。
扩展功能集成了针对 Git 提交消息、单行代码审查及自然语言压缩的专门工具。

该技能通过制定严格的语言规则来强制执行简洁性，例如用“big”代替“extensive”。技术术语、代码块和错误信息会被强制保留以确保实用性。此外，针对不同需求提供了专门的子技能，如 caveman commit 用于编写符合约定式提交格式的精炼消息，而 compress 技能则用于预先处理输入文件以节省后续的词元消耗。

Community Posts

降低 Claude 3.5 Sonnet API 成本 40% 的提示词优化法

makedream10天前3870

Write about this video