00:00:00既然 AI 智能体变得越来越实用,而且至少在某些任务上
00:00:05已经成为一种趋势,我认为看到我们如何某种程度上“回到原点”是非常有趣的。
00:00:11我的意思是:如果我们回顾一下计算机和互联网的
00:00:16整体历史,也许我们可以画出一张类似这样的易用性图表。
00:00:23当然,这完全是我编造的,但你可能明白我的意思。我们从 20 世纪 70 年代开始,
00:00:30或者大约那个时候——别纠结于具体的年份——但在早期,
00:00:36当你我——好吧,我那时候还没出生——但在普通家庭甚至
00:00:41还没有电脑的时候,与计算机的交互主要通过终端用户界面,
00:00:47本质上就是通过命令行进行纯文本交互。而丰富的图形用户界面、
00:00:54丰富的网站以及所有那些有趣的东西——为普通用户打造的操作系统——
00:01:01直到 90 年代和 2000 年代才开始出现,并当然一直演变至今。
00:01:09当然,它现在仍在演进,别误会,我不是说这些都会消失,
00:01:14但显而易见的一点是,随着 AI 智能体的出现,
00:01:22我们看到了一种强烈的趋势,回到了纯文本输入、终端用户界面、命令行工具、Markdown、
00:01:31JSON 等所有这些基础的东西。我所说的并不仅仅是指
00:01:37我们有了像 Claude Code 这样没有图形用户界面的工具——虽然它有
00:01:43桌面应用,但主要还是作为命令行工具来使用——我不只是指这个。
00:01:48相反,我的意思是所有这些 AI 智能体,这些智能体工具——随你怎么称呼它们——
00:01:54非常擅长与其他命令行工具以及它们可以通过命令行调用的
00:02:02其他程序交互。它们需要简单的文本,像 Markdown 这样格式简单的文本,
00:02:09那才是它们大放异彩的地方。这就是为什么越来越多的公司——比如
00:02:15就在我录制这段视频的前几个小时,Google 发布了越来越多的命令行工具。
00:02:21比如 Google 发布了一个 Google Workspace CLI。信不信由你,这在以前是不存在的,
00:02:27而现在你可以通过官方 CLI 与 Gmail、Google Drive 等
00:02:35Google Workspace 服务进行交互。其实之前已经有其他的解决方案了——
00:02:41比如 OpenClaw 的创始人 Peter Steinberger 开发的 GOG CLI——他开发它是
00:02:48因为他想要一种基于命令行的编程方式来与 Google 服务交互,而这在几小时前
00:02:54还不存在,但现在有了。这并不是 Google 的赞助视频或类似的东西,
00:02:59只是看到越来越多提供服务的公司正在发布这类工具,这很有趣。
00:03:04MCP 服务器也是类似的东西,尽管在我看来 MCP 有各种缺点,
00:03:11但我坚信,未来我们会看到命令行工具和 API(本质上命令行工具就是对 API 的封装)
00:03:18将成为通过智能体工具消费服务的主要方式。
00:03:27这里有一个我所指的具体例子。在过去的几周里,
00:03:32我一直在研究 PyCoding agent。现在,
00:03:37PyCoding agent 可以说是 Claude Code 的一种替代方案。它在好的方面更简单,
00:03:46功能上虽然更受限,但非常强大,你可以配合你的 Codeium 订阅来使用它。
00:03:51本视频并不是专门讲这个智能体的,而且其实无论你使用这个
00:03:57还是 Claude Code、Cursor 或其他任何工具,它们都能帮你达到目的。
00:04:01但我也非常喜欢这个工具,最重要的是,就像 Claude Code
00:04:07和代码助手一样,尽管它的名字叫 coding agent,你也可以用它来处理非编程任务。例如,
00:04:13OpenClaw 内部使用的正是这个 Py agent。所以它是核心,
00:04:19可以说是 OpenClaw 的逻辑核心。当然 OpenClaw 在此基础上增加了
00:04:24更多的功能,比如记忆,以及像 Telegram 和 WhatsApp 之类的频道。但是,
00:04:30这就是一个你可以在系统上运行来做事情的智能体工具。当然,你也可以
00:04:35构建自己的智能体。我有一门关于这方面的课程,其中涵盖了 AI 智能体
00:04:40到底是如何工作的,以及它与工作流的区别,因为通常你可能需要的是
00:04:44一个工作流而不是真正的智能体。如果你想深入了解,我有一门课程。
00:04:49如果你想了解更多关于 Claude Code 和 coding agent 的信息,我也有相关课程。
00:04:54但无论你使用的是哪种工具,非常有趣且显而易见的一点是,
00:04:58它们与其它命令行工具的交互是多么出色。这非常有道理,
00:05:03因为它们见过大量的命令行工作,比如使用 curl、
00:05:10cd、ls 等命令行指令,你知道的所有这些 Linux 命令。它们在训练数据中见过很多。
00:05:16它们不仅见过标准的 Linux 命令,因此烂熟于心,
00:05:21更重要的是,它们学会了如何使用这些工具。如何将命令行工具串联起来,
00:05:28如何将一个工具的结果通过管道传输到另一个工具中。它们见过所有这些,
00:05:35而且非常擅长。它们还知道可以使用 --help 来学习如何使用一个工具。
00:05:41这使得它们在面对新工具时也处于非常有利的位置,哪怕是那些它们在
00:05:47训练数据中从未见过的工具,比如这个新的 Google Workspace CLI。
00:05:52当然,如果你想通过智能体来使用它,它在训练数据中确实没见过,
00:05:57它不知道怎么用。但如果你指引它,或者给它一个
00:06:01官方文档的链接,甚至即使你不这样做,它也很可能能够通过使用
00:06:05--help 并以此为基础弄清楚如何使用它。因为它只是又一个命令行工具而已。
00:06:11大语言模型最终非常擅长理解、描述和使用
00:06:17这些命令行工具。
00:06:20举个例子,就在昨天,我遇到一个小问题。我需要
00:06:26上传一份 PDF 文档到一个网站。你知道有些网站要求你把一堆文档
00:06:32合并成一个文件上传,而且文件大小不能超过 5MB 吗?没错,我当时就在
00:06:38用那样一个网站。自然地,我必须压缩那份 PDF 文档。
00:06:43我本可以尝试找一个能帮我处理的网站。但我不太喜欢
00:06:49把我的文件上传到某些乱七八糟的网站。所以我不确定。
00:06:55我也本可以检查我的系统中是否有工具可以帮到我,
00:07:01但我已经没有 Adobe 的订阅了,所以这需要一番研究。
00:07:07也许最后我还是会把它上传到某个不靠谱的网站。好吧,有了 AI 就不一样了。
00:07:13当然,我本可以用编码工具或 Claude 或 Cursor 之类的来临时写一个简单的转换/压缩工具,
00:07:19那可能也能行。但我所做的是,启动了 Py agent(我配合我的
00:07:26Codeium 订阅来使用的),然后我直接让它查看那个 PDF 文件,
00:07:33请在尽可能保持质量的同时压缩它。
00:07:36就是这样,这是我唯一的提示词。然后它就开始工作了,
00:07:41在命令行中执行了一系列命令,运行了一些小脚本。顺便说一下,我是
00:07:46在我的系统上运行的,但我安装了一个安全护栏扩展。Py(它的真名是 PI)
00:07:53有这种可以安装的扩展概念。所以我安装了一个扩展,防止
00:07:59智能体直接格式化我的硬盘,至少没法简单地做到。而且我还在
00:08:06它描述将要做的操作时密切注视着它。所以我让它执行任务,
00:08:11它在这里运行了一堆东西。最后,它完成了。它确实成功地
00:08:18压缩了这个文档,使它变得小得多。这可能只是一个简单的例子。
00:08:25而且本来也有其他的替代方案。我的重点是它完全是在
00:08:29命令行中,通过使用我们的命令和程序来完成的。当然,
00:08:36这非常有道理,因为我们讨论的是程序在使用计算机。
00:08:41所有这些图形用户界面和内容丰富的网站都是为人类、为你我而建的。
00:08:46这些当然不会消失。但如果我们想让一些实用的 AI 智能体
00:08:53运行在我们的系统上,至少能帮我们处理一些目前正在做的任务,那么
00:08:59我们需要给它们一种更高效的使用计算机的方式。因为对于计算机程序来说,
00:09:03专为人类设计的图形界面、应用程序或网站并不是理想的交互方式。
00:09:09它必须截图、弄清楚按钮在哪、
00:09:13把鼠标移动到按钮上、点击按钮,然后再次截图看看新页面上有什么。
00:09:18那极其低效,消耗大量 Token,而且耗时很长。我的意思是,
00:09:24这就是为什么早在 AI 智能体和大语言模型出现之前,
00:09:31我们就有了 API 的概念。因为如果我们正在编写一个程序,不管是网站还是 App,
00:09:37如果我们想让它与另一个程序或服务交互,
00:09:43在过去我们当然会使用 API,而不会尝试编写脚本去操作
00:09:49那个本该由人类使用的网站。这就是 API 存在的原因。而 CLI(命令行程序)
00:09:56本质上就是对 API 的封装,至少像 Google Workspace CLI
00:10:03这样的 CLI 是这样的。但这正是我们希望智能体去使用的
00:10:10那种程序,因为它不在乎按钮好不好看。它只需要
00:10:15一种简单的方式来调用各种命令以完成任务。这就是为什么这一切都
00:10:22合乎逻辑。这当然也是为什么 Markdown 现在变得比以往任何时候都重要,以及为什么
00:10:28大多数文档页面都已经提供了类似的复制按钮,这使得将内容
00:10:32复制为 Markdown 变得很容易,这样你就可以将其粘贴到你喜欢的
00:10:38大语言模型、聊天会话或编程工具中。这就是为什么有些网站也支持在 URL 末尾
00:10:46添加 .md 来获取文章的 Markdown 版本,因为我们正走向一个
00:10:52至少部分服务和内容将主要供智能体消费的未来。
00:10:58我的意思是,拿 TanStack Start 这样的库或框架的文档来说。如果你
00:11:03最近在构建一个 TanStack Start 站点,当然无论你使用什么技术栈,
00:11:09你应该明白我的意思,那你很可能会在某些编程智能体(如 Cursor 等)的帮助下完成。
00:11:15如果你想告诉这些智能体如何使用该库,如果你想让它们
00:11:20参考特定的文档文章,你不想让它们直接看像这样的网页。
00:11:25你不想让它们下载 HTML 代码,那会浪费很多不必要的 Token。
00:11:32这也是命令行工具变得越来越重要的原因,
00:11:38因为我们正步入一个未来,至少有些任务将会在
00:11:42AI 智能体的帮助下完成,甚至完全由它们独立完成。这当然也
00:11:49意味着,如果你正在构建某种不主要面向人类的
00:11:54服务,你需要认真考虑在提供 API 的同时,也构建一个 CLI
00:12:02以及其他必要的东西,以便在未来人们可以通过智能体来使用你的服务。
00:12:09当然,我们现在还处于非常早期的阶段。绝大多数人根本
00:12:14不在乎智能体。现在判断 AI 智能体会变得多出色,以及未来
00:12:20它们能处理哪种任务还为时过早。也许我们会被困在目前的水平,
00:12:26它们能做一些事情,但绝对不是全部,而且仍然需要人工监督。
00:12:31但即便如此,还是有些任务可以由智能体来完成,而你可以
00:12:37通过提供合适的工具让它们变得更实用、更强大,从而让
00:12:42智能体更容易与我们的服务、网站等进行交互。这就是为什么我们某种程度上
00:12:49回到了原点。显然,这并不意味着图形用户界面
00:12:55和网站会消失,可能永远会有专为人类设计的
00:13:01App 或网站,由智能体来消费并没有多大意义。比如,
00:13:07像 Netflix 这样的。我不觉得让智能体告诉我某部电影
00:13:13讲了什么有什么大不了的。我想看电影本身。但对于很多服务,尤其是
00:13:21SaaS 业务或专业服务领域,这绝对是未来的方向。我认为,
00:13:28虽然现在还早,但这绝对是我们可以预见的一个明确趋势。
00:13:34至少这是我的看法。但一如既往,我也想听听你们的看法。
00:13:39所以请分享出来。让我知道你怎么看,或者我可能遗漏了什么。那么,
00:13:44让我们看看一两年后命令行工具的世界会是什么样子。