别再使用 Claude Code 了,除非你用了这个 Fable 5 智能体操作系统

CChase AI
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00嘿 Jarvis,给我今天的简报。
00:00:03早上好。
00:00:04你在全平台的粉丝数约为 46.6 万,本周增长了约 3000 人。
00:00:12最新视频每天的播放量约为 4000 次,目前总计 1.7 万次。
00:00:18今天 AI 领域的大新闻:美国政府指令迫使 Anthropic 暂停了公众对其顶级 mythos 类的访问。
00:00:27今天日程上最重要的事情是:剪辑并发布 Jarvis HUD 的揭秘视频。
00:00:33你想让我处理每日收件箱审计,还是有其他打算?
00:00:37那么我们到底在看什么呢?
00:00:39嗯,这就是 Jarvis,我们的 Claude Fable 5 操作系统。
00:00:43现在,当我们说 Fable 5 时,是指它是由 Fable 5 构建的,但这并不要求我们必须拥有 Fable 5 才能运行它。
00:00:51事实上,你在这里看到的很多东西其实是完全本地化的,它可以在你想要的任何模型上运行。
00:00:58如果你看过我之前的“代理操作系统”(Agentic OS)视频,那你应该了解情况了。
00:01:01我们采用了 Claude Code 并在此基础上增加了一层架构,这让我们获得了一些在终端里无法实现的功能。
00:01:08比如可视化指标、转化为按钮的技能,这绝非什么“生产力剧场”。
00:01:15对于那些在多个领域同时操作的人来说,这是一种真正的助力,而且我们也可以轻松地将其封装给非技术背景的客户或团队成员。
00:01:26而 Jarvis 正是这种代理操作系统模型的下一次演进。
00:01:30其骨干依然是健壮、完全可定制的 Claude Code 技能架构,它能把你日常所做的一切、手动的工作流、日常任务,都转化为技能和自动化。
00:01:43而正是在这个基础上,我们构建了这一切。
00:01:46在今天的视频中,我将向你展示它是如何工作的、真正的价值所在,以及你该如何为自己创建这样的系统。
00:01:53我认为你可以从这个项目中学习到很多东西,特别是我们采用的本地语音模型动态。
00:01:58在深入探讨之前,先由今天的赞助商——也就是我——简单说两句。
00:02:02在 Chase AI+ 中,你不仅可以获得我在今天视频中所展示的精确设置,还可以获得 Claude Code 大师课,这是从零开始成为 AI 开发者的第一选择,特别是在你没有技术背景的情况下。
00:02:14我每周都会更新课程,此外还包括 Codex 大师课。
00:02:18所以如果你是一个努力保持在 AI 最前沿的人,这里就是为你准备的。
00:02:23我们目前正在提供会员优惠,所以如果你有兴趣了解,请查看置顶评论。
00:02:28那么,让我们先快速了解一下 Jarvis,这样你就能明白你到底在看什么了。
00:02:34在此之后,我们将深入探究其内部原理,了解它是如何运作的,从而明白如何自定义并亲自构建它。
00:02:41首先是语音交互功能,再次强调,它是完全本地化的,这使它相比于通过 11Labs 等服务路由,响应速度相对更快、更灵敏。
00:02:53在视频开头,你听到了 Jarvis 给我详细介绍了最新视频的情况、粉丝数、AI 新闻等信息。
00:03:01那并不是一段硬编码的脚本。
00:03:03当询问 Jarvis“给我今天的简报”或“今天发生了什么”时,它会自动查看 Obsidian 库中生成的各种报告,并确定其中哪些真正重要,我应该了解哪些内容。
00:03:18正如你所见,过程中出现了一些弹出窗口,这些小弹窗是基于它正在交流的内容而相关的报告或链接。
00:03:29所以记住,它说“你的上一个视频表现如何如何”,于是它弹出了这个“最新发布”窗口,带我进入相关视频。
00:03:37它提到了关于 Anthropic 的内容,你知道的,基本就是 Fable 5 被政府叫停了。
00:03:42它做了什么?
00:03:43它调出了该新闻的来源文章。
00:03:44它还谈到了更多有关 AI 新闻和趋势的内容,这些全部来自晨报。
00:03:49所以如果我点击这里,就能看到完整的内容。
00:03:52这份内容存在于 Obsidian 中。
00:03:54整个系统都与 Obsidian 关联。
00:03:56虽然我可以就在这里阅读,但我也可以点击“在 Obsidian 中打开”,它就会在 Obsidian 内调出原始报告。
00:04:04我可以点击不同的链接,所以它们之间是完全互通的。
00:04:07你可能还记得它在最后询问:“需要我为你进行收件箱分类吗?”
00:04:12“需要我进入你的 Gmail 看看哪些内容很重要、需要回复吗?”
00:04:15那正是一项技能,这些技能和自动化都在右侧展示。
00:04:21这让我能够只需点击按钮,即可立即运行任何 Cloud Code 技能或自动化。
00:04:26再说一次,如果你还记得我们前几周在 Obsidian 里创建的 Cloud OS,这完全是同一个概念。
00:04:33这里的附加价值更多是针对那些非技术团队或非技术客户,
00:04:39他们希望能够使用 Cloud Code 运行技能和自动化,但又不是那种会打开终端操作的人。
00:04:44这让他们通过点击按钮就能获得所有这些功能,而且,再次强调,是完全可自定义的。
00:04:49所以,假设我想获得一份完整的收件箱摘要。
00:04:52如果我点击右上角的“收件箱摘要”,你可以看到它立即显示已进入队列。
00:05:00我们在这里看到了它,并且出现了一个显示“收件箱摘要”的新弹窗,还有一个显示自动化执行进度的小进度条。
00:05:09一旦完成,它不仅会生成书面报告,甚至能给我口头汇报,比如:“嘿,这是正在发生的事情,这是你应该关心的内容。”
00:05:16所以它给了我一个快速的口头汇报,然后我可以看到实际的报告,而该报告一如既往地链接在 Obsidian 中。
00:05:34因此这些弹窗非常有用且相关,它们将我们链接到真正关心的事物上,并且我可以随时清除它们。
00:05:39现在我们再看看右边的一些内容。
00:05:41其实已经提到过了。
00:05:43我们有这些可以随时更换的不同技能。
00:05:45点击一下,它们就开始运行。
00:05:47在这下面是日程表。
00:05:50这只是我关联了 Google 日历的每日日程。
00:05:53如果我点击它,就会打开我的日历。
00:05:56我们还有一个小音频部分。
00:05:58如果你在它真正说话时有留意的话,可以看到它在上下跳动,这能让你知道它是否在正常运作。
00:06:05在它下方,我们有一个关于AI新闻进展的摘要。
00:06:10现在,你在这里看到的一切,以及我们讨论过的所有东西,都是完全可定制的。
00:06:15也许你并不在乎在这里显示 Google 日历日程。
00:06:18也许你不在乎音频显示,或者不需要 AI 新闻源。
00:06:21没关系。
00:06:22这种“代理操作系统”类系统的美妙之处在于它不是一种“一刀切”的方案。
00:06:29这只是一套我向你展示的工具,你可以拿去随心所欲地使用。
00:06:34你知道,你的指标会和我的不同。
00:06:36你想要一键访问的东西会和我想要的非常不同。
00:06:40这一切都取决于你每天的工作流以及你或你的业务在做什么。
00:06:44但这种系统的好处在于,当我们谈论为客户甚至团队成员创建它时,你可以根据他们的需求将其打造为任何你想要的样子。
00:06:51左边也是同样的道理。
00:06:53对于我的生命体征(指标),我展示的是订阅数、最新视频的情况等。
00:06:58我有一个追踪过去五小时 Claude Token 使用量的小插件。
00:07:01还有一些像指令之类的东西。
00:07:03所以指令就是:“嘿,这是你今天应该做的最重要的三件事。”
00:07:06同样是完全动态的,Claude Code 会根据我的日程安排来决定这些。
00:07:10然后我还有一个文档追踪器。
00:07:13所以 Jarvis 创建或引用的所有内容不仅仅是以弹窗形式出现。
00:07:18它都在这里。
00:07:18所以如果我想点击它,就像晨报一样,它就在那儿。
00:07:22这就是用户界面。
00:07:23这就是 Jarvis 的可视化一面。
00:07:25现在让我们谈谈实际的“螺丝螺帽”。
00:07:28这里面到底发生了什么?
00:07:29因为老实说,那才是真正重要的。
00:07:32如果我们就在这里停下,它只是一个华丽的 UI,那么,再次说明,我们谈论的就只是“生产力剧场”。
00:07:37如果它要成为真正能推动目标达成的东西,而不是整天坐在终端前,它就需要一个坚实的骨干。
00:07:43而这正是我们现在所看到的。
00:07:45所以让我们走一遍当你与 Jarvis 对话并让它做某事时会发生的过程,因为它有多种不同的执行路径。
00:07:53假设你告诉 Jarvis:给我今天的晨报更新。
00:08:00你每天早上都会运行某种自动化程序。
00:08:03它抓取对你而言相关的信息,而你想让 Jarvis 告诉你。
00:08:07你不想去阅读它。
00:08:07你想要它要么运行它,要么如果已经运行过了,直接告诉你结果。
00:08:12所以你对着 Jarvis 说出来:嘿,今天晨报的内容是什么?
00:08:18由于你是使用麦克风进行此操作,音频会传给 Faster Whisper。
00:08:25Faster Whisper 是一个免费的、本地部署的程序,它会将你的话转录出来。
00:08:34现在,市面上有成千上万种不同的本地音频转录工具。
00:08:39你可以用任何你想要的替换它。
00:08:40我选择这个只是因为它表现得很好。
00:08:42所以它把你的语音变成了文本记录。
00:08:46现在我们该用它做什么?
00:08:47因为我们之前讨论过 Fable 5 和所有这些东西。
00:08:50难道每个转录内容都需要发送到 Cloud Code,然后运行 Fable 5 来进行分析吗?
00:08:55当然不是。
00:08:56这一切都是用 Fable 5 构建的,但幕后运行的大部分内容要么是 Opus,要么是 Sonnet,
00:09:02或者坦白说,你可以在其中很多地方使用本地模型,因为 Jarvis 虽然能做到,
00:09:08你可以让它使用 Fable 并运行得很好。
00:09:11它不像是在从零创建项目。
00:09:13这更多是处于个人助理的范畴,或者为了一个只想在简单易懂的 UI 下,
00:09:17并在一个美观、易懂的界面中反复处理相似的任务。
00:09:22所以,这就是大致的情况。
00:09:24总之我们获取了你的话,并将其转录了出来。
00:09:26现在我们需要弄清楚怎么处理它。
00:09:28我们有三个选项。
00:09:30首先要问的问题是:我们能否通过正则表达式(regex)来路由这个转录记录或问题?
00:09:39所以会发生的情况是:这段脚本(这种确定性的代码片段,不涉及 AI),
00:09:45将查看你的转录内容并说:嗯,它是否匹配了一些我们预先编码好的、已知需要自动执行某些操作的特定短语?
00:09:52我们这是什么意思?
00:09:55嗯,在开头我是怎么说的?
00:09:56我说的是“今天的简报”,对吧?
00:09:58我使用了“简报”(rundown)这个词。
00:10:00“简报”是一个特定的触发词。
00:10:03“简报”是一个特定的触发词,正则表达式可以捕获它,并自动将其路由到特定的执行操作。
00:10:11而那个特定的执行操作就是你在开头听到的内容。
00:10:14查看报告,告诉我发生了什么,给我今天的简报,对吧?
00:10:19就是一个基础摘要,所以它会自动捕获该关键词并执行具体操作。
00:10:24我们喜欢这样,因为既然它只是代码,它不花任何钱,不涉及 AI,而且速度非常非常快,对吧?
00:10:32在完美的世界里,我们可以做所有这些事情,并得到非常非常快速的响应。
00:10:36但并非一切都能这样,因为很多时候你让 AI 系统做的事情可能会有些模糊,对吧?
00:10:43它需要一点智能来弄清楚做什么以及如何路由它。
00:10:47这就是选项二的用武之地,也就是我们要引入 Haiku。
00:10:51现在,为什么要使用 Haiku?
00:10:52为什么要用 Anthropic 最“笨”的模型?
00:10:54嗯,因为它便宜而且快。
00:10:57我们在这里做的整件事,仅仅是路由。
00:11:01除非是正则表达式,否则我不会做任何处理,那些是我知道可以直接路由的事情。
00:11:06我们只是试图在这一阶段弄清楚响应需要发送到哪里,以及谁需要执行它。
00:11:11所以 Haiku 在这方面其实非常出色。
00:11:13你让 Jarvis 做的大部分事情都不是太复杂。
00:11:18它只需要明白走哪条路径,而 Haiku 帮我们搞定了。
00:11:22同样,我们谈论的是每个请求仅需几分之一美分。
00:11:26现在是第三个选项,也是我系统里包含的一个选项,但(这取决于你想要做什么),就是让它作为一个完全的本地模型。
00:11:34你根本不需要使用 Haiku。
00:11:35你可以在本地计算机上使用模型,这再次偏向了这个系统的“本地化”一面,并且能做到同样的事情。
00:11:42它会查看转录内容以弄清楚如何路由它。
00:11:45这里我们只是在路由。
00:11:46所以总结一下:你说话,它被转录,然后我们使用正则表达式、Haiku 或本地模型来决定如何处理它。
00:11:54所以放大来看,我们现在已经给了 Jarvis 这个请求。
00:11:59“告诉我晨报的内容。”
00:12:01所以会发生的是:Haiku 会说,好吧,让我们看看 Obsidian。
00:12:06这个报告已经存在了吗?
00:12:08如果这是一个已经在磁盘上的报告,嗯,那我们就可以非常快且容易地查看、阅读并进行回复。
00:12:16如果它不存在于 Obsidian 中,嗯,那它会做什么呢?
00:12:19嗯,它会告诉 Claude Code 去创建晨报。
00:12:24现在,再次说明,Haiku 在进行路由,但它不会是执行此任务的那个。
00:12:28我们需要一个更强大的模型。
00:12:30所以默认情况下会是 Opus,但你可以将其更改为 Sonnet。
00:12:34如果你很疯狂,你可以在 Fable 5 最终回来时将其切换到 Fable 5。
00:12:38所以如果它还没被创建,我们该怎么做?
00:12:42我们有一个无头(headless)版本的 Claude Code。
00:12:44它就像打开 Claude Code,但它是不可见的。
00:12:47并且它使用 -p 参数。
00:12:49需要注意的是,在未来几天内,使用带有 -p 的无头 Claude Code 是不会消耗你的订阅额度的。
00:12:57明白吗?
00:12:57它将消耗每月额外赠送给你的那 200 美元 API 额度。
00:13:02这会是个问题吗?
00:13:04在大规模使用时?
00:13:05会的。
00:13:06这就是为什么你想用 Sonnet 来处理很多这些事情。
00:13:10在现实中这真会是个问题吗?
00:13:13我认为不见得。
00:13:15像 Jarvis 这样的东西目的是什么?
00:13:17它是为了扮演这种个人助理、任务管理的角色。
00:13:21我们不是在用 Jarvis 构建 Facebook。
00:13:24你知道,如果你真的在做那个,你会硬核地在终端里操作。
00:13:27这只是个人助理类的事情,是给非技术团队成员用的。
00:13:31在一定的复杂程度下,你不会使用这个。
00:13:33这不是该工作的工具。
00:13:35话虽如此,因为这样,如果你大部分时间使用 Sonnet,你很有可能用完 200 美元的额度吗?
00:13:44我认为不会。
00:13:46这不是什么大问题,但值得思考。
00:13:48如果这对你来说是个问题,那别用 Cloud Code 就行了。
00:13:52这虽然叫 Fable 5 OS,但说实话。
00:13:55你可以用 Codex 来代替它。
00:13:56你甚至可以用本地模型替换整个系统。
00:13:59不一定非得用 Cloud Code。
00:14:02这套基础设施是可定制的,可以随心所欲地更换。
00:14:07回到我们的例子,我们说想要一份晨报。
00:14:10如果它不在 Obsidian 里,系统就会启动一个无头版的 Cloud Code 来创建这份报告。
00:14:16然后报告会被上传到 Obsidian,系统会读取报告并生成一份包含总结的回复。
00:14:25这个总结会发送给 Kokoro。
00:14:29Kokoro 是另一个开源本地模型,它会将 Cloud Code 创建的总结转录稿转换成语音。
00:14:39把它想成我们电脑上的一个小型 11Labs。
00:14:43然后 Kokoro 会说,嘿,在今天的晨报里,吧啦吧啦之类的,这些内容会传达给你。
00:14:49你今天在 Jarvis 身上听到的声音就是来自 Kokoro。
00:14:53这可以换成任何你想要的声音。
00:14:55所以再次强调,本地化,可定制。
00:14:56但这就是整个流程的运行方式,当你要求 Jarvis 做某事时,这就是它走的路径。
00:15:04所以,最后再总结一次,我知道你们很多人一定很困惑,到底发生了什么?
00:15:10你要求 Jarvis 做某事。
00:15:13这个请求需要被转化为一段文字记录。
00:15:16Faster Whisper 可以免费做到这一点。
00:15:18一旦有了文字记录,我们需要搞清楚,该如何路由这个请求?
00:15:22我们可以使用正则表达式、廉价的 Haiku 模型或本地模型。
00:15:28从那里,我们通常需要弄清楚,这是否是 Obsidian 中已经存在的东西,还是我们需要调用 Cloud Code 来为我们生成这个报告或请求?
00:15:38一旦它生成了需要生成的内容,它要么会在 Obsidian 中创建一个报告,要么可能是一个 HTML 页面。
00:15:44无论哪种方式,它都会执行必要的操作,然后将响应发送给 Kokoro,将其转化为我们可以听到的声音,最后回到我们这里。
00:15:53够简单了吧。
00:15:54现在,更进一步,来看看幕后到底发生了什么。
00:15:57当我们说晨报时,当我们说执行技能 A、B 和 C 时,我们实际上在谈论什么?
00:16:01嗯,我们在谈论这个。
00:16:03我们所谈论的是真正作为一切骨干的技能架构。
00:16:08因为什么是早间简报呢?
00:16:09嗯,那可以指任何事情。
00:16:10所谓技能,就是由其他微型技能组成的技能,它会给我一份大报告,说:去检查这些来源获取此信息,去查看这些社交媒体页面获取此信息,诸如此类。
00:16:24但是,正如我一直强调的,这种技能架构的强大程度取决于你如何构建它。
00:16:30我们要怎么做呢?
00:16:31如果你看过我的其他视频,你就知道我在这方面的说辞。
00:16:34你需要做的是,找到一种方法来梳理你的日常工作流程。
00:16:38当我提到日常工作流程时,我是什么意思?
00:16:40我是指,你在个人生活或工作中每天都在做什么?
00:16:43比如,那些一遍又一遍重复的常见任务是什么?
00:16:47对于那些已经知道如何使用 Cloud Code 的人,你有没有真正坐下来对着 Cloud Code 说:嘿,这是我每天要做的事。
00:16:55我们能把所有这些事情拆解成独立的任务吗?
00:16:58然后我们能把这些任务变成技能吗?
00:17:01如果合理的话,把这些技能变成自动化流程。
00:17:04这就是你如何构建这样的技能架构。
00:17:06这正是它所有力量的所在。
00:17:08例如,你在这里看到的很多内容就是我不同技能中做的,比如内容研究。
00:17:14同样,你们大多数人可能不做内容创作,所以会有完全不同的东西。
00:17:17但是,道理是一样的。
00:17:19那么,我做研究时会做什么?
00:17:20显然,我需要看看像 YouTube 这样的平台。
00:17:24所以我把在 YouTube 上搜索信息变成了一个名为“YT 流水线”的技能,它查看 YouTube 视频,将它们发送到 Notebook LM,然后给我总结。
00:17:35我需要能够对某些主题进行深度研究,这不仅限于 YouTube,还要查看其他内容,无论是 Twitter、互联网上的其他信息等等。
00:17:43嗯,我把这变成了一个完全定制的深度研究技能。
00:17:47我有一个完整的 GraphRag 系统,配合 LightRag,它包含了我过去所做的大量信息。
00:17:52所以,我做了什么?
00:17:53我把整个查询系统变成了一个技能。
00:17:56诸如此类,没完没了。
00:17:58然后我在我个人和商业生活的各个领域都重复了这一点,无论是内容、我的社区、我的代理机构、销售等等。
00:18:07在实际操作层面,你会怎么做呢?实际上,你只需要打开 Cloud Code,用意识流的方式说:这是我每天做的事。
00:18:15然后你可以问:嘿,我们能把这些变成技能吗?
00:18:17在 Chase Heia Plus 里(链接在下方),我有一个完整的脚本,你可以输入到 Cloud Code 中,如果你需要的话,它会引导你完成。
00:18:25把上面所有这些结合起来,当我们谈论这些技能时,如果你告诉 Jarvis 执行技能 X、Y 和 Z,它会经过转录过程和路由,当我们调用无头 Cloud Code 在后台运行以执行某事时。
00:18:42如果它执行的只是一个简单的技能,你知道你会得到一个 A 正确且 B 一致的输出,因为你已经规划好了流程。
00:18:53没有什么事情是靠运气的。
00:18:55而且任何时候我们能创建本质上更确定性的 AI 系统,效果就越好。
00:19:02我们越少受到 AI 一般问题的困扰,比如,也许它会做我想做的事,也许不会,对吧?
00:19:08当我们创建技能时,我们已经将某些事物编码化了。
00:19:11所以把这些加在一起,你就有了 Jarvis,你可以看到在幕后,这不仅仅是一个带有不错指标的花哨 UI。
00:19:22在它下面还有很多东西。
00:19:23再次强调,像这样的东西的真正威力在于它是一个 Web 应用程序,我们可以打包它并与团队成员及客户共享。
00:19:30他们只需要告诉你,如果你是为他们创建的人,他们在定制方面想要什么。
00:19:36真正的力量在于整个技能架构,以及你将引导他们对不同任务进行编码的事实。
00:19:46因为那时他们就可以坐在这里,或者任何人都可以坐在我坐的这把椅子上,获得我每天使用 Cloud Code 的 80% 到 90% 的能力,也就是这些不同的技能和自动化。
00:19:56对他们来说,这只是点击一下的事情。
00:19:58这才是你真正给予他们的。
00:20:00如果他们想要别的东西,我们还有整个语音部分。
00:20:03但最终,这只是在所有这一切之上的一层外衣。
00:20:07所以,这就是整个系统。
00:20:09我真的很喜欢它,主要是因为它的可定制性,以及我们可以添加很多本地化的东西。
00:20:14所以你可以非常有创意地处理它能做什么以及它能连接什么。
00:20:18再说一次,没有什么能阻止你引入更多外部来源,比如把它变成一个 Slack 代理等等。
00:20:26伙计们,我就讲到这里了。
00:20:30同样,如果你想要我在 Chase AM+ 中的确切设置,置顶评论里有链接。
00:20:36除此之外,让我知道你们的想法,我们回头见。

Key Takeaway

通过将 Claude Code 架构与可视化 UI 及本地化处理工具(如 Faster Whisper 和 Kokoro)相结合,Jarvis 将复杂的终端自动化任务转化为非技术人员也能通过点击按钮执行的个性化代理系统。

Highlights

  • Jarvis 是一个构建于 Claude Code 技能架构之上的代理操作系统,支持完全本地化运行且不依赖特定的模型服务。

  • 系统通过本地运行的 Faster Whisper 进行音频转录,利用正则表达式、Haiku 模型或本地模型实现请求的自动化路由。

  • Jarvis 的可视化界面允许非技术人员通过点击按钮执行复杂自动化任务,无需操作终端。

  • Kokoro 开源模型负责将系统生成的文本回复转换为语音,模拟个人助理的交互体验。

  • 系统完全与 Obsidian 集成,所有生成的报告、链接及追踪信息均可在 Obsidian 中直接调取和查看。

  • 使用带有 -p 参数的无头 Claude Code 可实现后台任务自动执行,并利用每月额外赠送的 200 美元 API 额度。

  • 用户可根据个人或业务工作流完全自定义该系统的技能架构,将其转化为特定的工具,如内容流水线或研究查询系统。

Timeline

Jarvis 代理操作系统概览

  • Jarvis 增加了 Claude Code 终端无法实现的可视化指标和按钮交互功能。
  • 该架构旨在将日常手动工作流转化为可自动执行的技能。
  • 系统架构允许在非技术人员或团队成员间轻松部署。

Jarvis 并非单纯的终端脚本,而是在 Claude Code 之上构建了一层 Web 应用程序架构。它能够将日常任务转化为技能,并提供即时的状态反馈。这种设计填补了专业技术工具与终端用户应用之间的鸿沟,允许即便不熟悉命令行的人员也能调用强大的 AI 自动化能力。

交互逻辑与可视化反馈

  • 语音交互由完全本地化的模型处理,响应速度比云端路由更快。
  • 系统与 Obsidian 深度集成,能够根据语音指令自动查询、生成并链接相关报告。
  • 用户界面包含实时指标显示、日程表和自动化执行进度条。

Jarvis 的核心交互逻辑在于将用户的语音请求转化为关联 Obsidian 的自动化操作。系统能够主动识别重要信息,并以小弹窗的形式展示相关联的报告或视频链接。这种界面设计让用户能够随时通过右侧的按钮手动运行或监控特定的技能自动化流程。

幕后执行路径与技术架构

  • 语音输入首先经过 Faster Whisper 进行免费、本地化的文字转录。
  • 路由决策层支持正则表达式处理触发词、Haiku 处理模糊指令或本地模型处理。
  • 无头模式的 Claude Code 在后台执行任务,生成的总结最终由 Kokoro 模型转换为语音反馈。

当用户下达指令时,系统通过三个主要步骤执行:转录、路由和执行。转录阶段完全本地化以提高效率;路由阶段利用代码确定性逻辑或轻量模型来降低成本;执行阶段则调用 Claude Code(或其它模型)在后台处理复杂任务。最终的结果通过 Kokoro 模型输出,实现了完整的闭环体验。

构建与自定义技能架构

  • 技能架构的核心在于拆解个人的重复性日常任务。
  • 系统具备高度的可定制性,允许集成第三方来源或根据业务需求更换执行模型。
  • 该系统实现了将开发者 80% 到 90% 的自动化能力封装为简单的点击操作。

系统强大的根源在于技能架构的构建。用户需要通过意识流梳理工作流,将重复任务拆解为可编程的“技能”。这种方式将复杂的 Claude Code 操作抽象为非技术人员可用的点击式功能。用户可以自由扩展 Jarvis 的能力,包括接入 Slack 代理或其它外部服务,满足多样化的个人或商业需求。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video