Claude Code 太贵了?这个 MCP 服务帮你省钱(Context Mode 详解)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00如果你一直在用 Claude Code 编程,可能已经遇到过上下文膨胀的问题。
00:00:05问题在于,Claude Code 中的每一次 MCP 工具调用都极其昂贵,因为
00:00:11这些调用的完整输出会直接塞进模型 200k 的上下文窗口中。而且你拥有的
00:00:17工具越多,上下文耗尽的速度就越快。在某些情况下,
00:00:22活跃使用智能体 30 分钟后,上下文就会开始压缩。
00:00:28这时 AI 就会开始遗忘文件、任务和关键决策。更不用说
00:00:34你还要为这些 Token 花很多钱。但现在有一个 MCP 服务端解决了这个核心问题。
00:00:40它叫 Context Mode。在今天的视频中,我们将看看 Context Mode 的功能、
00:00:44工作原理,并通过一个小演示亲自上手试用。
00:00:48这会非常有趣,让我们开始吧。
00:00:55为了理解为什么会发生这种情况,我们来看看数据。一个 Playwright 网页快照
00:01:00大约是 56 KB。读取 20 个 GitHub Issue 是 59 KB。如果在
00:01:08规划阶段多次执行这些操作,可能在智能体写下一行代码前,就已经消耗了 70% 的窗口。
00:01:14Context Mode 充当了一个虚拟化层。
00:01:20AI 不再直接与你的操作系统对话,而是与沙箱对话。它不再转储
00:01:26海量输出,而是使用 FTS5(即全文搜索)将它们索引到本地 SQLite 数据库中。
00:01:34结果非常显著。例如,那个 56k 的 Playwright 快照被压缩到了 299
00:01:41字节,缩减了 99%。再比如,这个分析 CSV 被压缩到了 222 字节,
00:01:49缩减率接近 100%。但节省 Token 只是解决问题的一方面。真正的实用性
00:01:56在于会话的连续性。我们都见过智能体压缩历史记录后,突然就
00:02:03找不到 10 分钟前写的代码了。但 Context Mode 使用钩子监控每一次文件编辑、
00:02:09Git 操作和子智能体任务。当对话压缩时,Context Mode 会构建一个
00:02:15优先级分层的快照(通常小于 2 KB)并重新注入。这本质上是为你的
00:02:22编程会话创建了一个存档点。这样你就可以假设性地将谈话时间从 30
00:02:27分钟延长到大约 3 小时。它还会追踪决策和错误。例如,如果 AI 尝试过
00:02:34某种修复但在 20 分钟前失败了,即使在上下文重置后,它也不会重复同样的错误。
00:02:40安装过程非常简单。如果你正在使用 Claude Code,首先运行以下命令
00:02:46添加 Context Mode 市场。然后运行插件安装命令。完成后,
00:02:53就准备就绪了。安装后,它会自动处理 MCP 服务端、钩子和
00:02:57路由指令。如果你使用 Gemini CLI 或 VS Code Copilot,可以运行
00:03:03npm install context-mode 并在设置中添加配置。现在来看看 Context Mode 的实战。我
00:03:10这里有一个简单的 Python 命令,用于创建一个模拟访问日志文件,其中包含
00:03:15一堆模拟 API 请求及其状态码。每隔一百行就有一个 500
00:03:22错误日志。现在我们可以启动 Claude 并询问:嘿,使用 Context Mode 索引 access.log。
00:03:30我想找到所有 500 错误模式,并总结与之相关的 IP 地址。在
00:03:36后台,Context Mode 会将 access.log 文件中 5000 行内容分块存入它自己的
00:03:44SQLite FTS5 数据库。Claude 只会收到文件已索引的确认,而不是原始的 5000 行
00:03:51文件内容。现在 Claude 可以智能地搜索索引数据库来查询内容,而不是
00:03:57解析整个文件。在这里我们可以看到 Claude 返回的结果。但更重要的是,
00:04:02让我们来看看节省的成本。我们可以通过运行 context-mode :cts-stats 来查看
00:04:09当前会话中 Context Mode 节省了多少数据。你可以直接在这里看到结果。
00:04:15Context Mode 没有将整个 20 KB 丢进对话,而是将其中约 5 KB 的
00:04:21原始数据保留在沙箱中。对于这样一个小文件,这个结果已经非常令人印象深刻了。
00:04:27它避免了约 1200 个 Token 进入上下文窗口。总的来说,在这个小测试中,
00:04:34我们获得了 25% 的缩减。这听起来可能不多,但请记住,
00:04:41在标准的 Claude 会话中,这些数据会一直存在,并随你发送的每一条
00:04:47消息被重复发送。通过将其保留在沙箱中,我们已经开始延长
00:04:53这个会话的寿命。虽然这个演示文件很小,但如果你处理更大的文件,
00:04:58节省的量可能会非常巨大。如果你正在进行大规模的代码库研究项目或分析
00:05:03生产级别的日志,这 1200 个 Token 的节省可以轻易变成 100,000 个 Token。但这里的目标
00:05:11不仅仅是为了节省 API 成本(尽管这是一个不错的额外加成),还为了保持
00:05:18模型的智力。当你清除上下文窗口中的噪音时,你就为
00:05:24实际的推理留出了更多空间。你给了 Claude 成为更优秀工程师所需的空间。
00:05:30所以,如果你正在使用 AI 智能体构建复杂的项目,请尝试一下这个工具,看看
00:05:35在智能体开始压缩并遗忘事情之前,你能将会话延长多久。
00:05:41如果你喜欢这类技术解析,请点击视频下方的点赞按钮
00:05:45告诉我们。也不要忘记订阅我们的频道。我是来自 Better Stack 的
00:05:50Andris,我们下个视频再见。

Key Takeaway

Context Mode 通过虚拟化 MCP 工具调用和本地索引技术,在显著降低 Token 成本的同时,解决了 AI 智能体长会话中的遗忘问题并提升了推理效率。

Highlights

Claude Code 在处理大量 MCP 工具调用时容易出现上下文膨胀,导致 AI 遗忘关键任务和决策。

Context Mode 作为一个虚拟化层,通过本地 SQLite 数据库和 FTS5 全文搜索索引输出,而非直接存入上下文。

该工具能将海量数据(如 Playwright 快照)压缩达 99% 以上,极大地节省了 Token 消耗。

Context Mode 具备“存档点”功能,通过优先级分层的快照在对话压缩时重新注入关键信息。

它能追踪历史决策和失败记录,防止 AI 在重置上下文后重复之前的错误。

安装过程简便,支持 Claude Code、Gemini CLI 及 VS Code Copilot 等多种环境。

除了节省 API 成本,其核心价值在于通过消除背景噪音来提升模型的推理能力和智力表现。

Timeline

Claude Code 的上下文瓶颈问题

视频开篇指出了 Claude Code 用户普遍面临的上下文膨胀挑战。由于每一次 MCP 工具调用的完整输出都会被塞进 200k 的上下文窗口,导致工具越多,窗口耗尽越快。演讲者提到,在活跃使用 30 分钟后,AI 往往会因为上下文压缩而开始遗忘文件和关键任务。这不仅影响了智能体的工作效率,还产生了高昂的 Token 费用。本节引出了名为 Context Mode 的解决方案,旨在通过优化处理流程来解决这些核心痛点。

Context Mode 的工作原理与数据压缩

这一章节通过具体数据展示了 Context Mode 如何充当操作系统与 AI 之间的虚拟化层。当处理 Playwright 网页快照或大量 GitHub Issue 时,传统方式会消耗 70% 的窗口空间,而该工具则利用 SQLite FTS5 技术将数据索引到本地。实验数据显示,56 KB 的快照可压缩至 299 字节,缩减率高达 99%。这种创新的索引方式避免了将海量原始数据直接转储到模型中。通过这种机制,开发者可以在不牺牲信息量的前提下大幅节省上下文配额。

会话连续性与决策追踪机制

除了节省 Token,Context Mode 还通过监控文件编辑、Git 操作和任务钩子来维持会话的连续性。它会创建一个优先级分层的快照,并在对话压缩时重新注入不足 2 KB 的关键存档点。这意味着原本只能维持 30 分钟的高质量对话可以延长到约 3 小时。更重要的是,它记录了 AI 之前的决策和失败案例,确保模型不会重蹈覆辙。这种记忆增强功能使得 AI 在处理复杂、长周期的工程任务时表现得更加稳健。这对于需要跨多阶段协作的开发场景至关重要。

安装步骤与兼容性说明

作者详细演示了 Context Mode 的安装流程,强调了其高度的易用性。对于 Claude Code 用户,只需通过几个简单的命令行操作添加市场并安装插件即可完成配置。安装后,系统会自动处理 MCP 服务端路由和钩子指令,无需繁琐的手动干预。此外,该工具也展现了良好的兼容性,支持通过 npm 安装并在 Gemini CLI 或 VS Code Copilot 中使用。这一节为想要立即动手的开发者提供了清晰的操作指南。通过这些步骤,用户可以快速将该优化层集成到现有的 AI 工作流中。

实战演示:日志处理与成本分析

在实战环节中,视频展示了如何利用 Context Mode 处理包含 5000 行 API 请求的 Python 访问日志。AI 不再解析整个文件,而是通过查询索引后的 SQLite 数据库来快速定位 500 错误模式。通过运行特定的统计命令,我们可以看到在处理 20 KB 文件时成功节省了约 1200 个 Token。演讲者指出,虽然在小文件上缩减率为 25%,但在处理大规模代码库或生产级日志时,节省量可轻易达到 100,000 个 Token。这一演示直观地证明了该工具在处理繁重文本任务时的卓越性能。实际操作体现了从原始文本处理到智能索引查询的质变。

总结:提升 AI 的工程推理能力

视频最后总结认为,Context Mode 的终极目标不仅是节省 API 成本,更是为了保持模型的“智力”。通过清除上下文窗口中的冗余噪音,可以为实际的逻辑推理留出更多空间。这使得 Claude 能够专注于解决复杂的工程问题,而不是被海量重复的背景数据干扰。作者鼓励构建复杂项目的开发者尝试该工具,以延长会话寿命并优化智能体表现。结尾处,Better Stack 的 Andris 呼吁观众订阅频道并关注更多此类深度技术解析。这一总结升华了工具的价值,将其定义为 AI 辅助工程的核心增强组件。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video