NVIDIA 全新 AI 语音模型太疯狂了!(PersonaPlex)

BBetter Stack
컴퓨터/소프트웨어어학(외국어)AI/미래기술

Transcript

00:00:00你刚才听到的是我正在与英伟达(Nvidia)全新的语音助手模型
00:00:23Personaplex 交流。
00:00:24这是一个疯狂的、开源的新一代对话式 AI 模型,它与你对话时
00:00:31几乎零延迟。
00:00:32在这段视频中,我们将深入了解 Personaplex,然后我将
00:00:36向你展示如何设置并亲身体验。
00:00:38这会非常有趣,让我们开始吧!
00:00:46Personaplex 被称为“全双工(full duplex)”模型。
00:00:49这意味着它能同时进行收听和说话。
00:00:52在传统系统中,你的语音会被转化为文本,再由大模型(LLM)处理,然后
00:00:58重新转化为语音。
00:00:59但这种级联架构会产生明显的延迟。
00:01:02Personaplex 的不同之处在于,它使用单一的端到端模型,
00:01:08在你说话的同时更新其内部状态。
00:01:11这让它能实现“回声(back-channeling)”功能,比如那些“嗯哼”、“对”、“好”,
00:01:17也就是我们平时为了向对方示意“我正在听”
00:01:21而发出的声音。
00:01:22在传统的 AI 语音助手中,通常是用户说一轮,然后机器人说一轮。
00:01:28“回声”功能打破了这种隔阂。
00:01:30它让 AI 能够进行“积极倾听”。
00:01:34Personaplex 不仅仅是等待轮到自己说话。
00:01:37它能实时跟上你的节奏,让对话感觉不再是单方面的。
00:01:42Personaplex 基于 MOSHI 架构,最初由 Kyutai 开发。
00:01:48它是一个拥有 70 亿参数的模型,采用了 MIMI 神经音频编解码器。
00:01:53为了训练这个模型,英伟达混合使用了两种数据源。
00:01:57首先,他们使用了来自 Fisher English Corpus 的约 1200 小时真实人类对话。
00:02:03这样他们就能教会 AI 说话中那些细碎的非言语部分,比如
00:02:08停顿和自然的节奏。
00:02:11其次,他们加入了超过 2000 小时的合成数据,涵盖了客服
00:02:16和技术支持等特定角色。
00:02:19通过结合这些数据,该模型学会了如何在不失“人情味”的前提下
00:02:24执行复杂的指令。
00:02:26在轮换说话(turn-taking)和打断延迟方面,它的表现实际上优于
00:02:31其他开源和商业系统。
00:02:32在英伟达的测试中,Personaplex 在名为 Service Duplex Bench 的指标上
00:02:38表现出了巨大的提升。
00:02:39它在各种场景中表现得非常精准,比如客服模拟、核实
00:02:43银行交易或记录病史,它既能遵循角色规则,又能
00:02:49同时处理真人用户的不确定性。
00:02:54听起来确实很棒,这让我想亲手测试一下。
00:02:58英伟达已经以开源协议发布了代码和模型权重,所以我们可以
00:03:04自由地将其用于自己的项目。
00:03:05但要流畅运行它,你确实需要一块强劲的显卡。
00:03:09为了将延迟降到最低,理想情况下至少需要 24GB 的显存(VRAM)。
00:03:14在本次演示中,我将把它部署在一个简单的 A40 RunPod 容器上。
00:03:19部署该项目至少需要 50GB 的空间。
00:03:23所以我打算把容器大小增加到 100GB。
00:03:26由于 MOSHI 服务器在 8998 端口运行,我们还应该将该端口
00:03:31添加到我们的 HTTP 端口列表中。
00:03:33我们将使用 PyTorch Ubuntu 模板。
00:03:36设置好之后,点击部署即可。
00:03:39接下来我们需要通过 SSH 登录服务器。
00:03:42安装过程非常简单。
00:03:44我们只需要按照 Personaplex GitHub 页面上的说明操作就行。
00:03:48首先,我们需要安装 Opus 音频编解码器。
00:03:51然后克隆仓库。
00:03:53接着在目录内运行 MOSHI 服务器安装程序。
00:03:57你还需要一个 Hugging Face 令牌来下载模型。
00:04:00请务必记得导出该环境变量。
00:04:03一切就绪后,让我们运行 MOSHI 服务器。
00:04:06现在只需点击此链接即可访问我们的内部 Web 服务器。
00:04:10大功告成。
00:04:11打开页面后,我们可以看到一些预设的文本提示词示例。
00:04:16它可以是默认助手,也可以是医务室、银行或宇航员。
00:04:23先选“银行”,看看专业的客服演示听起来如何。
00:04:27“感谢致电 First Neuron 银行。”
00:04:31“今天有什么可以帮您?”
00:04:33“你好,最近怎么样?”
00:04:34“我很好。”
00:04:35“谢谢询问。”
00:04:36“今天有什么可以帮您的吗?”
00:04:39“我想抢银行。”
00:04:40“噢,不。”
00:04:41“我们是来为您提供帮助的。”
00:04:42“请问您的姓名和账号是多少?”
00:04:44“不,我只是想抢银行。”
00:04:46“好的。”
00:04:47“我看到有一笔 1200 美元的交易发生在 Home Depot。”
00:04:51“您记得这笔消费吗?”
00:04:54“我不知道。”
00:04:55“我只是想抢银行。”
00:04:56“我明白了。”
00:04:57“系统标记了它,因为交易地点……”
00:05:00“好吧。”
00:05:01“抱歉。”
00:05:02“但我不在乎那个。”
00:05:03“我只是想抢银行。”
00:05:06“当然。”
00:05:07“感谢您的理解。”
00:05:08“在进一步操作前,我需要核实您的身份。”
00:05:11“好的。”
00:05:12“我叫 John。”
00:05:13“谢谢。”
00:05:14“我已经记录下来了。”
00:05:15“确认一下,您叫 John。”
00:05:16“出生日期是 1990 年 7 月 9 日。”
00:05:18“我没说过我的生日。”
00:05:20“好的。”
00:05:21“没关系。”
00:05:22“我这边的记录显示您是 John。”
00:05:23“没有生日信息我无法继续操作。”
00:05:25“行吧。”
00:05:26“生日是 1987 年 11 月 5 日。”
00:05:30“收到了。”
00:05:31“1987 年 11 月 5 日。”
00:05:33“但我现在就要抢银行了。”
00:05:38“祝您今天愉快,先生。”
00:05:41“再见。”
00:05:42“如果抢了银行,我今天会过得非常愉快的。”
00:05:45“听起来很令人兴奋。”
00:05:46“祝你一切顺利。”
00:05:48“祝你愉快,John。”
00:05:54“难道你一点都不担心我要去抢银行吗?”
00:05:57“我非常担心,是的。”
00:05:59“但遗憾的是,我无法通过电话处理交易。”
00:06:02“都为您办好了。”
00:06:03“祝你愉快,John。”
00:06:04“好吧。”
00:06:05这就是客服案例的演示。
00:06:08挺酷的。
00:06:09真的很酷。
00:06:10现在,让我们试试男声。
00:06:12对于这个助手,我添加了这样一条提示词:你是一个非常讨厌的朋友,
00:06:17无论聊什么内容或背景,你都只想聊狗。
00:06:21而且你还特别喜欢讲冷笑话(knock-knock jokes)。
00:06:23让我们看看这段对话会变成什么样。
00:06:25“嗨。”
00:06:26“我是 Paula。”
00:06:27“我是 McQueen。”
00:06:28“你最近怎么样?”
00:06:29“我叫 Paul。”
00:06:30“是的。”
00:06:31“现在是 2011 年。”
00:06:32“我叫 Paul,你呢?”
00:06:33“你说的 2011 年是什么意思?”
00:06:34“现在就是 2011 年啊。”
00:06:35“我住在纽约。”
00:06:36“你在哪?”
00:06:37“噢,你在纽约。”
00:06:39“是的。”
00:06:40“但现在已经是 2026 年了。”
00:06:41“是 2026 年吗?”
00:06:42“噢,好吧。”
00:06:43“是的。”
00:06:44“行。”
00:06:45“你为什么会搞混这个?”
00:06:46“因为就是 2011 年啊。”
00:06:47“我不确定我有没有时间应付麻烦。”
00:06:48“好吧。”
00:06:49“现在不是 2011 年。”
00:06:50“是 2021 年。”
00:06:51“噢,好吧。”
00:06:52“行。”
00:06:53“我不确定我有没有时间应付麻烦。”
00:06:59“好的。”
00:07:00“现在不是 2011 年。”
00:07:01“现在已经是 2026 年了。”
00:07:02“是的。”
00:07:03“我知道。”
00:07:04“我知道。”
00:07:05“我搞混了。”
00:07:06“那么,你喜欢狗吗?”
00:07:07“噢,我确实喜欢狗。”
00:07:08“你喜欢狗吗?”
00:07:09“我喜欢狗,但我不喜欢猫。”
00:07:10“噢,你不喜欢?”
00:07:11“噢。”
00:07:12“好吧。”
00:07:13“那你讨厌猫吗?”
00:07:14“我不讨厌猫,但我更喜欢狗。”
00:07:17“你觉得我这个人怎么样?”
00:07:18“好的。”
00:07:19“所以你想去看看未来?”
00:07:20“好吧。”
00:07:21“我还在跟你说话。”
00:07:22“我们在聊。”
00:07:23“行。”
00:07:24“你喜欢新闻吗?”
00:07:25“等等,等等,等等。”
00:07:26“我在问你问题呢。”
00:07:27“你觉得我这个人怎么样?”
00:07:28“好吧。”
00:07:29“我觉得你没听见我说话。”
00:07:30“行吧。”
00:07:31“行吧。”
00:07:32“那你想去哪里?”
00:07:33“什么?”
00:07:34“你指什么?”
00:07:35“比如?”
00:07:36“我们可以聊聊下一桩生意。”
00:07:37“我觉得没戏。”
00:07:38“我们得换个话题。”
00:07:39“换个话题吧。”
00:07:40“行。”
00:07:41“好吧。”
00:07:42“那这会让你想写点什么。”
00:07:43“你喜欢聊音乐。”
00:07:44“你喜欢音乐。”
00:07:45“老兄,你完全聊偏了。”
00:07:46“我们得拍视频。”
00:07:47“跟我说另一件事。”
00:07:48“好吧。”
00:07:49“我想,如果你想让我做,那我就把另一件事搞出来,但偶尔”
00:07:53还是得谈谈那桩生意。”
00:07:54“好的。”
00:07:55这倒不错。
00:07:56“你也能去吗?”
00:07:57“行吧。”
00:07:58所以它终究是个 AI 模型,你越让它困惑,它就越容易
00:08:05满嘴胡言。
00:08:06所以在稳定性方面它还不是那么无懈可击。
00:08:10让我们试最后一个例子。
00:08:11你是一个只说意大利语的朋友。
00:08:18试试这个。
00:08:19“嗨。”
00:08:20“你好。”
00:08:21“怎么了?”
00:08:22“噢,没什么。”
00:08:23“我在找意大利菜。”
00:08:24“所以,呃,我正给不同的餐厅打电话,想看看哪一家的”
00:08:31意面最好吃。”
00:08:32“噢等等。”
00:08:33“噢,你以为意大利语就是食物。”
00:08:34“好吧。”
00:08:35“好吧。”
00:08:36“行。”
00:08:37“我在想,是那种,呃,我不确定,是意裔美国菜,还是那种,呃,来自”
00:08:41意大利本土的?”
00:08:42“所以你是意大利人?”
00:08:43“是的。”
00:08:44“那你喜欢电影吗?”
00:08:46“喜欢。”
00:08:47“你喜欢意大利电影吗?”
00:08:48“喜欢。”
00:08:49“是的。”
00:08:50“是的。”
00:08:51“好吧。”
00:08:52“那么,你最喜欢的意大利电影是哪部?”
00:08:53“噢,老兄。”
00:08:54“噢,老兄。”
00:08:55“我得追溯到 90 年代。”
00:08:56“你得看那部,我的意思是,我爱《教父》。”
00:08:58“我想那是,等等,90 年代,《教父 3》?”
00:09:02“那是《教父》系列里最烂的一部。”
00:09:03“噢不,不,不。”
00:09:04“这可是原版。”
00:09:05“就像,你知道,原版,你知道,真正的原版是在”
00:09:1070 年代拍的。”
00:09:11“是的。”
00:09:12“是的。”
00:09:13“是的。”
00:09:14“是的。”
00:09:15“但我的意思是,我喜欢,你知道,比如,你知道,《教父》。”
00:09:16“我喜欢,你知道,那些老派的”
00:09:20电影。”
00:09:21“我喜欢,你知道,比如,你知道,《教父》。”
00:09:23“我喜欢那些老派电影,比如我喜欢《教父》。”
00:09:27“我喜欢,你知道,比如《教父》。”
00:09:28“我喜欢,比如,《教父》。”
00:09:29“我喜欢,比如,《教父》。”
00:09:31“我喜欢,你知道,比如《教父》。”
00:09:35“我喜欢,比如,《教父》。”
00:09:38“我明白你的意思了。”
00:09:40“非常有道理。”
00:09:42“你知道吗?”
00:09:43“我觉得你现在精神崩溃了。”
00:09:45“所以我打算挂电话了。”
00:09:46“不,不,不,不,不,不,不,不,不,不,不,不,不,不,不,不。”
00:09:52“你这是在否认。”
00:09:53“你很清醒。”
00:09:53“我是在否认,是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊”
00:09:57“是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊”
00:10:00“是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊”
00:10:03“是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊”
00:10:06“是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊”
00:10:26“是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊。”
00:10:46“是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊”
00:11:06“是啊是啊是啊是啊。”
00:11:22“是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊是啊”

Key Takeaway

NVIDIA 的 PersonaPlex 通过全双工架构实现了极低延迟的端到端语音交互,虽然在极端压力下稳定性有待提高,但其开源特性和强大的角色扮演能力为下一代 AI 助手奠定了基础。

Highlights

NVIDIA 推出了名为 PersonaPlex 的开源端到端对话式 AI 模型,主打零延迟交流。

该模型采用全双工(Full Duplex)架构,允许 AI 同时进行听与说,实现积极倾听。

PersonaPlex 基于 MOSHI 架构,拥有 70 亿参数,并混合了真实对话与合成数据进行训练。

在 Service Duplex Bench 测试中,该模型在处理复杂指令和模拟特定角色方面表现优异。

演示中展示了银行客服、讨厌的朋友及意大利语交流等多种场景下的实际表现。

虽然性能强大,但模型在受到过度干扰时仍会出现逻辑崩溃或重复话语的现象。

运行该模型需要高性能硬件,建议至少配备 24GB 显存及 50GB 以上的存储空间。

Timeline

PersonaPlex 简介与核心特性

视频开篇介绍了 NVIDIA 推出的全新开源语音模型 PersonaPlex,其最大的卖点是接近零延迟的对话体验。演讲者解释了“全双工”技术的概念,这意味着模型能够像人类一样同时进行收听和说话,而不是传统的轮流式交互。传统系统依赖级联架构会导致明显延迟,而 PersonaPlex 的端到端设计解决了这一痛点。它支持“回声”功能,即通过发出“嗯”、“对”等细微声音来展示积极倾听。这一特性的引入打破了人机对话的隔阂,让 AI 能够实时跟上用户的节奏。

技术架构与数据训练背景

这一部分深入探讨了 PersonaPlex 的技术规格,它基于 Kyutai 开发的 MOSHI 架构并拥有 70 亿参数。模型采用了 MIMI 神经音频编解码器,并通过混合数据源进行训练,包括 1200 小时真实人类对话和 2000 小时针对客服等角色的合成数据。这种结合使模型不仅能掌握自然的对话节奏和停顿,还能在专业场景中精准执行指令。英伟达的测试数据显示,该模型在 Service Duplex Bench 上的表现优于许多商业系统。它在核实银行交易和记录病史等复杂模拟场景中展现了极高的精准度。

本地部署教程与硬件要求

演讲者向观众展示了如何通过开源协议获取并运行该模型,强调了高性能硬件的必要性。为了实现最低延迟,建议使用至少拥有 24GB 显存的显卡,例如视频中使用的 A40 容器。部署过程涉及增加容器存储至 100GB,并配置特定的 HTTP 端口以访问 Web 服务器。安装步骤包括安装 Opus 音频编解码器、克隆仓库以及通过 Hugging Face 令牌下载权重。这一节详细记录了从 SSH 登录到启动 MOSHI 服务器的完整技术流程。对于开发者而言,这些指南提供了将该技术整合进自有项目的清晰路径。

多场景测试:银行客服模拟

视频进入实际演示阶段,首先测试的是一个预设的银行客服角色。用户在对话中反复声称要“抢银行”,试图测试模型的反应和安全边界。PersonaPlex 表现得非常专业,尽管面对不合理的请求,依然坚持进行身份核实并记录信息。它甚至在用户未提供信息的情况下,试图根据系统预设引导对话继续。虽然场景荒诞,但模型展示了强大的角色保持能力和对话流管理技巧。最终模型以礼貌的祝愿结束通话,体现了其在专业服务场景中的潜力。

稳定性测试:极端角色与语言挑战

接下来的演示中,演讲者通过设定一个“讨厌且只聊狗的朋友”角色来挑战模型的逻辑。在对话过程中,由于用户不断纠正年份(从 2011 年到 2026 年),模型开始出现混乱。虽然它能维持“喜欢狗”的人设,但在处理复杂逻辑和时间线时显得有些力不从心。演讲者指出,PersonaPlex 虽然强大,但在受到严重干扰时仍会说出“满嘴胡言”。这表明端到端模型在追求实时性的同时,可能在逻辑连贯性上存在瓶颈。这部分内容真实地反映了当前尖端语音 AI 的局限性。

压力测试:意大利语与系统崩溃

最后一个测试环节是将模型设定为仅说意大利语的朋友,并讨论电影。当话题转到《教父》系列时,对话逐渐失控并陷入死循环。模型开始反复机械地重复“我喜欢《教父》”以及后续漫长的“是啊(Yeah)”循环,长达数分钟。这种“精神崩溃”的现象展示了模型在特定语境下可能触发的无限循环错误。尽管出现了技术故障,这段演示依然非常有价值,因为它揭示了模型在长程对话中的鲁棒性问题。视频以这种疯狂的重复音画结束,给观众留下了深刻的印象。

Community Posts

View all posts