00:00:00这是微软推出的 Vibe Voice,我用它克隆了我自己的声音。
00:00:04这是一个开源语音技术栈,已经有人拿它和 11 Labs、Chatterbox 以及 Whisper 做比较了。
00:00:10但它支持离线运行,而且一次性就能生成 90 分钟的多角色音频。
00:00:15能生成 90 分钟左右的音频听起来有点疯狂。所以对开发者来说,它真的好用吗?
00:00:20还是说它只是另一个会悄悄烧掉我们 GPU 的研究性仓库?我会演示几个 Demo,
00:00:26然后我们再来看看它与其他产品的对比。我们经常会发布新视频,
00:00:29请务必订阅。
00:00:31你可以从他们的 GitHub 仓库或 Hugging Face 上获取这一切。在进行对比之前,
00:00:40我们先来看看输出效果。我已经预演并设置好了,正在前端运行,
00:00:45这样我们就能专注于重点。我用过其他工具,所以我很期待 Vibe Voice
00:00:51听起来怎么样,表现如何,以及我们如何从输出中获得实用的东西。
00:00:56我将演示多角色输出、实时 TTS(文本转语音)以及声音克隆。
00:01:02这是一个简短的播客风格脚本,包含三个角色,有清晰的轮流对话和音频情感。
00:01:08通常大多数 TTS 演示听起来还行,但随后就会开始跑调或不稳定,
00:01:14但听听这里发生了什么。说话者的一致性似乎非常稳,
00:01:18转换过程也没有崩。我们来听一下。
00:01:26我的意思是,听起来很不错,对吧?20 秒后听起来也没有那种脱离语境的感觉,
00:01:41对吧?看,这就是重点。微软开发这个不只是为了短小的玩票项目。
00:01:46它是为长文本音频生成而设计的,而且支持离线。但当添加情感标签时,
00:01:52它就开始掉链子了。不像 Chatterbox,它可以根据词语自动生成情感,
00:01:58而 Vibe Voice 这方面表现并不理想。我不喜欢这一点。在这方面 Chatterbox 还是赢了。
00:02:02但如果你是在构建 AI 播客、文档朗读、长文本智能体
00:02:07或者仅仅是训练数据,它可能会表现得相当不错。
00:02:11现在让我们切换到实时模式。它的运行速度比多角色模式快得多,
00:02:16说实话,多角色模式生成确实花了很长时间。现在这是增量流式传输,想想看
00:02:22聊天机器人回复、语音智能体和助手。首字延迟大约在 300 毫秒左右,
00:02:28这是可以接受的。虽然不是我用过最快的。我们来听听这个。
00:02:32想象一下在日本的樱花树下喝热巧克力。
00:02:35好的。没错,他们说它甚至可以唱歌或生成背景音乐。如果你强行尝试的话,
00:02:40呃,没成功。我试过了,行不通。但这里的重点是,
00:02:43它达到生产级别的实时要求了吗?我不这么认为。但对于实验和智能体开发,
00:02:48是的,它挺不错的。现在来看点好玩的。我们聊聊声音克隆,因为那
00:02:53真的非常酷。这是我当时的设置:首先,我用语音备忘录录了一段自己的声音。
00:02:58我用的是 Mac。然后我把文件转成 WAV 格式,并用这个命令启动了 Gradio。
00:03:04通过这个交互界面,我可以选择我自己的声音作为目标语言。
00:03:10就这样,只是一段普通的录音。你预期的效果可能是接近我的声音,
00:03:14但明显能听出是假的。听听这个。这是用 Vibe Voice 克隆的我的声音。
00:03:19说实话,听起来真的很棒。甚至好得有点过头了,因为这些话我根本没说过。虽然
00:03:25听起来确实像我,但如果你熟悉我,可能还是能听出是假的。至少我希望如此。
00:03:30虽然并不完美,但它很一致、很稳定,而且可以用于长文本输出。这
00:03:36太棒了。微软说这个技术栈可以一次性处理长文本生成,而在实践中,
00:03:41一旦音频变长,它明显比 Whisper 风格的流水线更稳定,对吧?
00:03:47如果你尝试过克隆一段较长的语音而不只是短句,你就知道为什么这很重要了。所以,
00:03:52演示确实让人印象深刻。声音克隆玩起来很有趣,但我查阅了
00:03:56文档、Issue 和一些讨论帖,其他开发者的评价褒贬不一。先说优点,再聊
00:04:02你会遇到的问题。优点大体上还是很扎实的。它绝对支持长文本,
00:04:08对吧?大多数 TTS 系统在运行几分钟后都会出现跑调、语气平淡或崩溃。Vibe Voice
00:04:14专为长音频设计,在我的长文本演示中也确实证明了这一点。然后是效率和表现力。
00:04:20它使用了低频音频分词器(tokenizer),这让上下文处理更轻松。加上扩散模型和
00:04:27LLM 骨干网络,你无需庞大的计算量就能获得富有表现力的语音。它的设计对开发者更友好,
00:04:33对吧?这很不错。它是 MIT 协议授权的。支持离线运行。在消费级 GPU 上,实时运行大约需要 7GB 显存。
00:04:40而且还附带了微调代码,特别是针对 ASR(语音识别)。这不是某种封闭的系统,它非常出色。
00:04:47最后,像其他一些开源项目一样,它有结构化的 ASR 输出。这简直是完胜。
00:04:53开箱即用的说话人日志(diarization)和时间戳可以节省大量的下游处理时间。
00:04:59如果你构建过转录流水线,就知道这绝对不是件小事。现在来说说我确实感受到的
00:05:04缺点,我也观察到了这些问题。这在某种程度上还只是个科研软件。
00:05:11微软出于对深度伪造(deepfake)的担忧,删除了一些 TTS 代码路径,这说明了一切。它的 SDK
00:05:17并不完美,不够精致。显然存在一些音频瑕疵,就像我在
00:05:23其他软件中发现的那样。你可能会听到一些机械的语调。有时节奏会感觉不对,
00:05:28而在超过两三个人的多角色场景中,效果会下降。开发者们似乎很喜欢分词器,
00:05:33但讨厌显存占用突增。而且语言覆盖范围有限。中文和英文
00:05:40表现很好,但如果你需要其他类型的语言,Vibe Voice 就不行了。最后,
00:05:46缺点是零语义理解——它能读出文本,但不理解其含义。
00:05:51情感标签虽然有帮助,但如果加入这些标签,还是经常会出现小故障。所以说实话,
00:05:56它是一个进行实验的绝佳工具,但从长期来看,我不确定
00:06:02它是否能经受住考验。现在,来回答你真正想知道的问题:相比于你工作流中
00:06:06已经在使用的工具,它值得你投入时间吗?Vibe Voice 和其他
00:06:11常见的竞争对手相比如何?我们先来看 Vibe Voice 对阵 Chatterbox。我之前做过视频,
00:06:16玩过 Chatterbox。那东西真的很棒。Chatterbox 拥有低于 200
00:06:22毫秒的延迟、更强的情感张力和更好的短文本智能体回复。所以你可能会觉得
00:06:28Chatterbox 稳赢,但 Vibe Voice 在长文本方面完胜。Chatterbox 是为 30 分钟以内的
00:06:35独白或播客输出而设计的,而 Vibe Voice 处理长文本的效果要好得多。所以各有千秋。
00:06:42然后当然还有 Vibe Voice 对阵 11 Labs。这个对比很简单,对吧?11 Labs
00:06:48稳赢,因为它的发音更考究、有零样本声音克隆和极佳的用户体验,但 Vibe Voice
00:06:54赢在成本。它是免费的、离线的、开源的,对吧?这是巨大的优势。
00:07:00我们不需要为软件付费。再看 Vibe Voice 对比 Whisper 甚至 Cozy Voice。一旦音频变长
00:07:06且需要结构化,它就优于 Whisper。它比 Cozy Voice 更有表现力,虽然基于 Qwen 的 TTS
00:07:13模型在方言方面正在赶超,但 Vibe Voice 在内容长度上依然领先。如果你是一个喜欢在本地构建、
00:07:18支持开源并关注长文本音频的开发者,我认为 Vibe Voice 值得你一试。如果你想要
00:07:23更加开箱即用、达到生产级别的工具,老实说,你现在可以先跳过它。
00:07:28它只是一个非常酷、值得玩玩的项目,包括那个声音克隆。Vibe Voice 虽然还很粗糙,
00:07:33但很强大,也令人兴奋。它是我们很长一段时间以来看到的、用于长文本 AI 语音的
00:07:37最强开源语音技术栈之一。去试试 Hugging Face 的 Demo,读读文档,我们下期视频再见。
00:07:43read some docs, and we'll see you in another video.