AI 智能体偏爱 CLI：命令行工具的崛起

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

MMaximilian Schwarzmüller

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00既然 AI 智能体变得越来越实用，而且至少在某些任务上

00:00:05已经成为一种趋势，我认为看到我们如何某种程度上“回到原点”是非常有趣的。

00:00:11我的意思是：如果我们回顾一下计算机和互联网的

00:00:16整体历史，也许我们可以画出一张类似这样的易用性图表。

00:00:23当然，这完全是我编造的，但你可能明白我的意思。我们从 20 世纪 70 年代开始，

00:00:30或者大约那个时候——别纠结于具体的年份——但在早期，

00:00:36当你我——好吧，我那时候还没出生——但在普通家庭甚至

00:00:41还没有电脑的时候，与计算机的交互主要通过终端用户界面，

00:00:47本质上就是通过命令行进行纯文本交互。而丰富的图形用户界面、

00:00:54丰富的网站以及所有那些有趣的东西——为普通用户打造的操作系统——

00:01:01直到 90 年代和 2000 年代才开始出现，并当然一直演变至今。

00:01:09当然，它现在仍在演进，别误会，我不是说这些都会消失，

00:01:14但显而易见的一点是，随着 AI 智能体的出现，

00:01:22我们看到了一种强烈的趋势，回到了纯文本输入、终端用户界面、命令行工具、Markdown、

00:01:31JSON 等所有这些基础的东西。我所说的并不仅仅是指

00:01:37我们有了像 Claude Code 这样没有图形用户界面的工具——虽然它有

00:01:43桌面应用，但主要还是作为命令行工具来使用——我不只是指这个。

00:01:48相反，我的意思是所有这些 AI 智能体，这些智能体工具——随你怎么称呼它们——

00:01:54非常擅长与其他命令行工具以及它们可以通过命令行调用的

00:02:02其他程序交互。它们需要简单的文本，像 Markdown 这样格式简单的文本，

00:02:09那才是它们大放异彩的地方。这就是为什么越来越多的公司——比如

00:02:15就在我录制这段视频的前几个小时，Google 发布了越来越多的命令行工具。

00:02:21比如 Google 发布了一个 Google Workspace CLI。信不信由你，这在以前是不存在的，

00:02:27而现在你可以通过官方 CLI 与 Gmail、Google Drive 等

00:02:35Google Workspace 服务进行交互。其实之前已经有其他的解决方案了——

00:02:41比如 OpenClaw 的创始人 Peter Steinberger 开发的 GOG CLI——他开发它是

00:02:48因为他想要一种基于命令行的编程方式来与 Google 服务交互，而这在几小时前

00:02:54还不存在，但现在有了。这并不是 Google 的赞助视频或类似的东西，

00:02:59只是看到越来越多提供服务的公司正在发布这类工具，这很有趣。

00:03:04MCP 服务器也是类似的东西，尽管在我看来 MCP 有各种缺点，

00:03:11但我坚信，未来我们会看到命令行工具和 API（本质上命令行工具就是对 API 的封装）

00:03:18将成为通过智能体工具消费服务的主要方式。

00:03:27这里有一个我所指的具体例子。在过去的几周里，

00:03:32我一直在研究 PyCoding agent。现在，

00:03:37PyCoding agent 可以说是 Claude Code 的一种替代方案。它在好的方面更简单，

00:03:46功能上虽然更受限，但非常强大，你可以配合你的 Codeium 订阅来使用它。

00:03:51本视频并不是专门讲这个智能体的，而且其实无论你使用这个

00:03:57还是 Claude Code、Cursor 或其他任何工具，它们都能帮你达到目的。

00:04:01但我也非常喜欢这个工具，最重要的是，就像 Claude Code

00:04:07和代码助手一样，尽管它的名字叫 coding agent，你也可以用它来处理非编程任务。例如，

00:04:13OpenClaw 内部使用的正是这个 Py agent。所以它是核心，

00:04:19可以说是 OpenClaw 的逻辑核心。当然 OpenClaw 在此基础上增加了

00:04:24更多的功能，比如记忆，以及像 Telegram 和 WhatsApp 之类的频道。但是，

00:04:30这就是一个你可以在系统上运行来做事情的智能体工具。当然，你也可以

00:04:35构建自己的智能体。我有一门关于这方面的课程，其中涵盖了 AI 智能体

00:04:40到底是如何工作的，以及它与工作流的区别，因为通常你可能需要的是

00:04:44一个工作流而不是真正的智能体。如果你想深入了解，我有一门课程。

00:04:49如果你想了解更多关于 Claude Code 和 coding agent 的信息，我也有相关课程。

00:04:54但无论你使用的是哪种工具，非常有趣且显而易见的一点是，

00:04:58它们与其它命令行工具的交互是多么出色。这非常有道理，

00:05:03因为它们见过大量的命令行工作，比如使用 curl、

00:05:10cd、ls 等命令行指令，你知道的所有这些 Linux 命令。它们在训练数据中见过很多。

00:05:16它们不仅见过标准的 Linux 命令，因此烂熟于心，

00:05:21更重要的是，它们学会了如何使用这些工具。如何将命令行工具串联起来，

00:05:28如何将一个工具的结果通过管道传输到另一个工具中。它们见过所有这些，

00:05:35而且非常擅长。它们还知道可以使用 --help 来学习如何使用一个工具。

00:05:41这使得它们在面对新工具时也处于非常有利的位置，哪怕是那些它们在

00:05:47训练数据中从未见过的工具，比如这个新的 Google Workspace CLI。

00:05:52当然，如果你想通过智能体来使用它，它在训练数据中确实没见过，

00:05:57它不知道怎么用。但如果你指引它，或者给它一个

00:06:01官方文档的链接，甚至即使你不这样做，它也很可能能够通过使用

00:06:05--help 并以此为基础弄清楚如何使用它。因为它只是又一个命令行工具而已。

00:06:11大语言模型最终非常擅长理解、描述和使用

00:06:17这些命令行工具。

00:06:20举个例子，就在昨天，我遇到一个小问题。我需要

00:06:26上传一份 PDF 文档到一个网站。你知道有些网站要求你把一堆文档

00:06:32合并成一个文件上传，而且文件大小不能超过 5MB 吗？没错，我当时就在

00:06:38用那样一个网站。自然地，我必须压缩那份 PDF 文档。

00:06:43我本可以尝试找一个能帮我处理的网站。但我不太喜欢

00:06:49把我的文件上传到某些乱七八糟的网站。所以我不确定。

00:06:55我也本可以检查我的系统中是否有工具可以帮到我，

00:07:01但我已经没有 Adobe 的订阅了，所以这需要一番研究。

00:07:07也许最后我还是会把它上传到某个不靠谱的网站。好吧，有了 AI 就不一样了。

00:07:13当然，我本可以用编码工具或 Claude 或 Cursor 之类的来临时写一个简单的转换/压缩工具，

00:07:19那可能也能行。但我所做的是，启动了 Py agent（我配合我的

00:07:26Codeium 订阅来使用的），然后我直接让它查看那个 PDF 文件，

00:07:33请在尽可能保持质量的同时压缩它。

00:07:36就是这样，这是我唯一的提示词。然后它就开始工作了，

00:07:41在命令行中执行了一系列命令，运行了一些小脚本。顺便说一下，我是

00:07:46在我的系统上运行的，但我安装了一个安全护栏扩展。Py（它的真名是 PI）

00:07:53有这种可以安装的扩展概念。所以我安装了一个扩展，防止

00:07:59智能体直接格式化我的硬盘，至少没法简单地做到。而且我还在

00:08:06它描述将要做的操作时密切注视着它。所以我让它执行任务，

00:08:11它在这里运行了一堆东西。最后，它完成了。它确实成功地

00:08:18压缩了这个文档，使它变得小得多。这可能只是一个简单的例子。

00:08:25而且本来也有其他的替代方案。我的重点是它完全是在

00:08:29命令行中，通过使用我们的命令和程序来完成的。当然，

00:08:36这非常有道理，因为我们讨论的是程序在使用计算机。

00:08:41所有这些图形用户界面和内容丰富的网站都是为人类、为你我而建的。

00:08:46这些当然不会消失。但如果我们想让一些实用的 AI 智能体

00:08:53运行在我们的系统上，至少能帮我们处理一些目前正在做的任务，那么

00:08:59我们需要给它们一种更高效的使用计算机的方式。因为对于计算机程序来说，

00:09:03专为人类设计的图形界面、应用程序或网站并不是理想的交互方式。

00:09:09它必须截图、弄清楚按钮在哪、

00:09:13把鼠标移动到按钮上、点击按钮，然后再次截图看看新页面上有什么。

00:09:18那极其低效，消耗大量 Token，而且耗时很长。我的意思是，

00:09:24这就是为什么早在 AI 智能体和大语言模型出现之前，

00:09:31我们就有了 API 的概念。因为如果我们正在编写一个程序，不管是网站还是 App，

00:09:37如果我们想让它与另一个程序或服务交互，

00:09:43在过去我们当然会使用 API，而不会尝试编写脚本去操作

00:09:49那个本该由人类使用的网站。这就是 API 存在的原因。而 CLI（命令行程序）

00:09:56本质上就是对 API 的封装，至少像 Google Workspace CLI

00:10:03这样的 CLI 是这样的。但这正是我们希望智能体去使用的

00:10:10那种程序，因为它不在乎按钮好不好看。它只需要

00:10:15一种简单的方式来调用各种命令以完成任务。这就是为什么这一切都

00:10:22合乎逻辑。这当然也是为什么 Markdown 现在变得比以往任何时候都重要，以及为什么

00:10:28大多数文档页面都已经提供了类似的复制按钮，这使得将内容

00:10:32复制为 Markdown 变得很容易，这样你就可以将其粘贴到你喜欢的

00:10:38大语言模型、聊天会话或编程工具中。这就是为什么有些网站也支持在 URL 末尾

00:10:46添加 .md 来获取文章的 Markdown 版本，因为我们正走向一个

00:10:52至少部分服务和内容将主要供智能体消费的未来。

00:10:58我的意思是，拿 TanStack Start 这样的库或框架的文档来说。如果你

00:11:03最近在构建一个 TanStack Start 站点，当然无论你使用什么技术栈，

00:11:09你应该明白我的意思，那你很可能会在某些编程智能体（如 Cursor 等）的帮助下完成。

00:11:15如果你想告诉这些智能体如何使用该库，如果你想让它们

00:11:20参考特定的文档文章，你不想让它们直接看像这样的网页。

00:11:25你不想让它们下载 HTML 代码，那会浪费很多不必要的 Token。

00:11:32这也是命令行工具变得越来越重要的原因，

00:11:38因为我们正步入一个未来，至少有些任务将会在

00:11:42AI 智能体的帮助下完成，甚至完全由它们独立完成。这当然也

00:11:49意味着，如果你正在构建某种不主要面向人类的

00:11:54服务，你需要认真考虑在提供 API 的同时，也构建一个 CLI

00:12:02以及其他必要的东西，以便在未来人们可以通过智能体来使用你的服务。

00:12:09当然，我们现在还处于非常早期的阶段。绝大多数人根本

00:12:14不在乎智能体。现在判断 AI 智能体会变得多出色，以及未来

00:12:20它们能处理哪种任务还为时过早。也许我们会被困在目前的水平，

00:12:26它们能做一些事情，但绝对不是全部，而且仍然需要人工监督。

00:12:31但即便如此，还是有些任务可以由智能体来完成，而你可以

00:12:37通过提供合适的工具让它们变得更实用、更强大，从而让

00:12:42智能体更容易与我们的服务、网站等进行交互。这就是为什么我们某种程度上

00:12:49回到了原点。显然，这并不意味着图形用户界面

00:12:55和网站会消失，可能永远会有专为人类设计的

00:13:01App 或网站，由智能体来消费并没有多大意义。比如，

00:13:07像 Netflix 这样的。我不觉得让智能体告诉我某部电影

00:13:13讲了什么有什么大不了的。我想看电影本身。但对于很多服务，尤其是

00:13:21SaaS 业务或专业服务领域，这绝对是未来的方向。我认为，

00:13:28虽然现在还早，但这绝对是我们可以预见的一个明确趋势。

00:13:34至少这是我的看法。但一如既往，我也想听听你们的看法。

00:13:39所以请分享出来。让我知道你怎么看，或者我可能遗漏了什么。那么，

00:13:44让我们看看一两年后命令行工具的世界会是什么样子。

Key Takeaway

随着 AI 智能体成为消费软件服务的主力，计算交互正从为人类设计的图形界面转向更适合机器处理的命令行工具和纯文本协议。

Highlights

AI 智能体（Agent）正推动计算领域“回到原点”，重新重视命令行界面（CLI）和纯文本交互。

CLI 相比图形用户界面（GUI）更高效，能显著减少 Token 消耗并提升 AI 处理复杂任务的速度。

Google Workspace CLI 等工具的发布预示着 SaaS 服务正在为 AI 消费进行底层优化。

大语言模型天然擅长理解 Linux 命令、管道操作及文档中的 Markdown 格式。

AI 智能体具备通过 --help 自学新工具的能力，使其在处理未知命令行程序时具有极强适应性。

开发者在构建服务时应考虑提供 CLI 或 API，以便让 AI 智能体能够更顺畅地接入和使用其功能。

Timeline

计算交互的演进：从终端到 GUI 再回归

视频开篇提出了一个有趣的观点，即 AI 智能体的发展正引领我们“回到原点”。演讲者通过回顾计算机历史指出，20 世纪 70 年代的交互核心是纯文本终端。虽然 90 年代后丰富的图形用户界面（GUI）成为主流并服务于普通用户，但现在的技术趋势正重新向基础工具靠拢。这种回归并非倒退，而是为了适应 AI 这一新型“用户”的交互逻辑。了解这一历史背景有助于我们理解为什么 Markdown 和 JSON 在 AI 时代变得如此重要。

AI 智能体为什么偏爱命令行工具

演讲者详细解释了为什么 AI 智能体在处理命令行工具（CLI）时表现得更加出色。AI 擅长处理简单的文本输入，这使得 CLI 成为它们大放异彩的舞台。近期 Google 发布了 Google Workspace CLI，允许用户通过命令行与 Gmail 和 Google Drive 交互，这验证了这一趋势。对于 AI 而言，直接调用 API 或其封装好的 CLI 比操作复杂的桌面应用要高效得多。此外，像 OpenClaw 等工具的兴起也展示了开发者对编程化交互的强烈需求。

智能体如何利用训练数据掌握 CLI 技能

本段深入探讨了大语言模型在命令行操作方面的天然优势，源于其训练数据中包含大量的 Linux 指令、代码和技术文档。智能体不仅熟悉标准命令如 curl 和 ls，还学会了如何通过管道（Pipe）将多个工具串联起来。更关键的是，智能体具备通过阅读 --help 信息来自学新工具的能力，这使其能够快速上手像 Google Workspace CLI 这样刚发布的新程序。这种自主学习和组合工具的能力是传统自动化脚本无法比拟的。通过 Markdown 等轻量级格式，AI 可以更低成本、高效率地处理信息。

实战案例：使用 AI 智能体处理 PDF 压缩

演讲者分享了一个个人案例，描述了如何使用 Py Coding Agent 解决 PDF 文件压缩的问题。由于不想将私密文档上传到不安全的第三方工具网站，他选择让 AI 在本地系统中直接运行命令进行处理。在安全护栏扩展的监控下，AI 自动执行了一系列脚本和命令行工具，最终在保持质量的前提下成功减小了文件体积。这个例子证明了 AI 智能体在处理日常办公任务时的灵活性和安全性。通过命令行，AI 绕过了繁琐的软件安装和图形化操作流程，实现了端到端的任务闭环。

GUI 与 CLI 的效率对比：为机器设计的接口

此章节剖析了 GUI 与 CLI 在 AI 交互中的效率差异，指出 GUI 是专为人类视觉设计的。如果强迫 AI 使用图形界面，它需要频繁截图、识别按钮坐标并模拟鼠标点击，这不仅耗时且会消耗海量的 Token。相比之下，CLI 本质上是 API 的封装，提供了更直接、结构化的交互方式。这种方式剥离了不必要的视觉装饰，让 AI 能够以最低的成本获取核心功能。这就是为什么在 AI 驱动的未来，API 和 CLI 将成为服务消费的主要入口。

未来展望：AI 优先的服务构建模式

视频最后对开发者提出了建议，强调在构建现代服务时必须考虑“AI 友好性”。例如，文档应支持一键转换为 Markdown，甚至允许在 URL 后添加扩展名直接获取结构化内容，以便编程智能体如 Cursor 调用。虽然目前大多数用户仍依赖 GUI，且 AI 智能体的发展尚处早期，但这种向机器友好型接口转化的趋势已不可逆转。对于专业服务和 SaaS 领域，提供 CLI 是吸引 AI 时代开发者的关键。演讲者鼓励观众分享看法，共同观察未来一两年命令行工具世界的巨大变革。

Community Posts

AI 智能体的回归：为何再次放弃 GUI 而选择 CLI

makedream2026年3月6日7740

Write about this video