我用微软开源模型克隆了自己的声音

BBetter Stack
컴퓨터/소프트웨어창업/스타트업가전제품/카메라AI/미래기술

Transcript

00:00:00这是微软推出的 Vibe Voice,我用它克隆了我自己的声音。
00:00:04这是一个开源语音技术栈,已经有人拿它和 11 Labs、Chatterbox 以及 Whisper 做比较了。
00:00:10但它支持离线运行,而且一次性就能生成 90 分钟的多角色音频。
00:00:15能生成 90 分钟左右的音频听起来有点疯狂。所以对开发者来说,它真的好用吗?
00:00:20还是说它只是另一个会悄悄烧掉我们 GPU 的研究性仓库?我会演示几个 Demo,
00:00:26然后我们再来看看它与其他产品的对比。我们经常会发布新视频,
00:00:29请务必订阅。
00:00:31你可以从他们的 GitHub 仓库或 Hugging Face 上获取这一切。在进行对比之前,
00:00:40我们先来看看输出效果。我已经预演并设置好了,正在前端运行,
00:00:45这样我们就能专注于重点。我用过其他工具,所以我很期待 Vibe Voice
00:00:51听起来怎么样,表现如何,以及我们如何从输出中获得实用的东西。
00:00:56我将演示多角色输出、实时 TTS(文本转语音)以及声音克隆。
00:01:02这是一个简短的播客风格脚本,包含三个角色,有清晰的轮流对话和音频情感。
00:01:08通常大多数 TTS 演示听起来还行,但随后就会开始跑调或不稳定,
00:01:14但听听这里发生了什么。说话者的一致性似乎非常稳,
00:01:18转换过程也没有崩。我们来听一下。
00:01:26我的意思是,听起来很不错,对吧?20 秒后听起来也没有那种脱离语境的感觉,
00:01:41对吧?看,这就是重点。微软开发这个不只是为了短小的玩票项目。
00:01:46它是为长文本音频生成而设计的,而且支持离线。但当添加情感标签时,
00:01:52它就开始掉链子了。不像 Chatterbox,它可以根据词语自动生成情感,
00:01:58而 Vibe Voice 这方面表现并不理想。我不喜欢这一点。在这方面 Chatterbox 还是赢了。
00:02:02但如果你是在构建 AI 播客、文档朗读、长文本智能体
00:02:07或者仅仅是训练数据,它可能会表现得相当不错。
00:02:11现在让我们切换到实时模式。它的运行速度比多角色模式快得多,
00:02:16说实话,多角色模式生成确实花了很长时间。现在这是增量流式传输,想想看
00:02:22聊天机器人回复、语音智能体和助手。首字延迟大约在 300 毫秒左右,
00:02:28这是可以接受的。虽然不是我用过最快的。我们来听听这个。
00:02:32想象一下在日本的樱花树下喝热巧克力。
00:02:35好的。没错,他们说它甚至可以唱歌或生成背景音乐。如果你强行尝试的话,
00:02:40呃,没成功。我试过了,行不通。但这里的重点是,
00:02:43它达到生产级别的实时要求了吗?我不这么认为。但对于实验和智能体开发,
00:02:48是的,它挺不错的。现在来看点好玩的。我们聊聊声音克隆,因为那
00:02:53真的非常酷。这是我当时的设置:首先,我用语音备忘录录了一段自己的声音。
00:02:58我用的是 Mac。然后我把文件转成 WAV 格式,并用这个命令启动了 Gradio。
00:03:04通过这个交互界面,我可以选择我自己的声音作为目标语言。
00:03:10就这样,只是一段普通的录音。你预期的效果可能是接近我的声音,
00:03:14但明显能听出是假的。听听这个。这是用 Vibe Voice 克隆的我的声音。
00:03:19说实话,听起来真的很棒。甚至好得有点过头了,因为这些话我根本没说过。虽然
00:03:25听起来确实像我,但如果你熟悉我,可能还是能听出是假的。至少我希望如此。
00:03:30虽然并不完美,但它很一致、很稳定,而且可以用于长文本输出。这
00:03:36太棒了。微软说这个技术栈可以一次性处理长文本生成,而在实践中,
00:03:41一旦音频变长,它明显比 Whisper 风格的流水线更稳定,对吧?
00:03:47如果你尝试过克隆一段较长的语音而不只是短句,你就知道为什么这很重要了。所以,
00:03:52演示确实让人印象深刻。声音克隆玩起来很有趣,但我查阅了
00:03:56文档、Issue 和一些讨论帖,其他开发者的评价褒贬不一。先说优点,再聊
00:04:02你会遇到的问题。优点大体上还是很扎实的。它绝对支持长文本,
00:04:08对吧?大多数 TTS 系统在运行几分钟后都会出现跑调、语气平淡或崩溃。Vibe Voice
00:04:14专为长音频设计,在我的长文本演示中也确实证明了这一点。然后是效率和表现力。
00:04:20它使用了低频音频分词器(tokenizer),这让上下文处理更轻松。加上扩散模型和
00:04:27LLM 骨干网络,你无需庞大的计算量就能获得富有表现力的语音。它的设计对开发者更友好,
00:04:33对吧?这很不错。它是 MIT 协议授权的。支持离线运行。在消费级 GPU 上,实时运行大约需要 7GB 显存。
00:04:40而且还附带了微调代码,特别是针对 ASR(语音识别)。这不是某种封闭的系统,它非常出色。
00:04:47最后,像其他一些开源项目一样,它有结构化的 ASR 输出。这简直是完胜。
00:04:53开箱即用的说话人日志(diarization)和时间戳可以节省大量的下游处理时间。
00:04:59如果你构建过转录流水线,就知道这绝对不是件小事。现在来说说我确实感受到的
00:05:04缺点,我也观察到了这些问题。这在某种程度上还只是个科研软件。
00:05:11微软出于对深度伪造(deepfake)的担忧,删除了一些 TTS 代码路径,这说明了一切。它的 SDK
00:05:17并不完美,不够精致。显然存在一些音频瑕疵,就像我在
00:05:23其他软件中发现的那样。你可能会听到一些机械的语调。有时节奏会感觉不对,
00:05:28而在超过两三个人的多角色场景中,效果会下降。开发者们似乎很喜欢分词器,
00:05:33但讨厌显存占用突增。而且语言覆盖范围有限。中文和英文
00:05:40表现很好,但如果你需要其他类型的语言,Vibe Voice 就不行了。最后,
00:05:46缺点是零语义理解——它能读出文本,但不理解其含义。
00:05:51情感标签虽然有帮助,但如果加入这些标签,还是经常会出现小故障。所以说实话,
00:05:56它是一个进行实验的绝佳工具,但从长期来看,我不确定
00:06:02它是否能经受住考验。现在,来回答你真正想知道的问题:相比于你工作流中
00:06:06已经在使用的工具,它值得你投入时间吗?Vibe Voice 和其他
00:06:11常见的竞争对手相比如何?我们先来看 Vibe Voice 对阵 Chatterbox。我之前做过视频,
00:06:16玩过 Chatterbox。那东西真的很棒。Chatterbox 拥有低于 200
00:06:22毫秒的延迟、更强的情感张力和更好的短文本智能体回复。所以你可能会觉得
00:06:28Chatterbox 稳赢,但 Vibe Voice 在长文本方面完胜。Chatterbox 是为 30 分钟以内的
00:06:35独白或播客输出而设计的,而 Vibe Voice 处理长文本的效果要好得多。所以各有千秋。
00:06:42然后当然还有 Vibe Voice 对阵 11 Labs。这个对比很简单,对吧?11 Labs
00:06:48稳赢,因为它的发音更考究、有零样本声音克隆和极佳的用户体验,但 Vibe Voice
00:06:54赢在成本。它是免费的、离线的、开源的,对吧?这是巨大的优势。
00:07:00我们不需要为软件付费。再看 Vibe Voice 对比 Whisper 甚至 Cozy Voice。一旦音频变长
00:07:06且需要结构化,它就优于 Whisper。它比 Cozy Voice 更有表现力,虽然基于 Qwen 的 TTS
00:07:13模型在方言方面正在赶超,但 Vibe Voice 在内容长度上依然领先。如果你是一个喜欢在本地构建、
00:07:18支持开源并关注长文本音频的开发者,我认为 Vibe Voice 值得你一试。如果你想要
00:07:23更加开箱即用、达到生产级别的工具,老实说,你现在可以先跳过它。
00:07:28它只是一个非常酷、值得玩玩的项目,包括那个声音克隆。Vibe Voice 虽然还很粗糙,
00:07:33但很强大,也令人兴奋。它是我们很长一段时间以来看到的、用于长文本 AI 语音的
00:07:37最强开源语音技术栈之一。去试试 Hugging Face 的 Demo,读读文档,我们下期视频再见。
00:07:43read some docs, and we'll see you in another video.

Key Takeaway

Vibe Voice 是微软推出的一款主打长文本生成和离线运行的开源语音工具,虽然在情感细腻度上稍逊一筹,但其卓越的稳定性和声音克隆能力使其成为开发者构建复杂语音应用的高价值选择。

Highlights

微软推出的 Vibe Voice 是一款支持离线运行的开源语音技术栈,能一次性生成长达 90 分钟的多角色音频。

该模型在长文本处理上表现极佳,比传统的 Whisper 风格流水线更具稳定性,不易出现跑调或崩溃。

具备实时 TTS 功能,首字延迟约为 300 毫秒,虽然不是业内最快,但适用于智能体开发和实验。

声音克隆功能令人惊艳,仅需一段普通的录音即可生成高度一致且自然的声音效果。

采用 MIT 协议开源,对开发者友好,提供微调代码并支持在消费级 GPU(约 7GB 显存)上运行。

主要缺点包括情感表达不如 Chatterbox 自然,且为了防止深度伪造(deepfake)删除了一些 TTS 代码路径。

Timeline

Vibe Voice 简介与核心优势

视频开篇介绍了微软新推出的开源模型 Vibe Voice,并展示了其克隆博主声音的实际效果。该技术栈最大的卖点在于支持完全离线运行,并且能够处理长达 90 分钟的多角色音频生成任务。演讲者将其与市面上流行的 11 Labs 和 Whisper 等工具进行了横向对比,引发了关于其性能是否名副其实的讨论。对于开发者而言,它不仅是一个研究性仓库,更是一个具备实用潜力的工具包。这一章节设定了视频的基调,即通过实测来验证这款工具在生产环境中的真实表现。

多角色演示与长文本表现

博主演示了一个包含三个角色的播客脚本,展示了 Vibe Voice 在处理复杂对话时的稳定性。与许多在运行 20 秒后就开始跑调的 TTS 工具不同,Vibe Voice 能够保持高度的说话人一致性。然而,该模型在情感标签的处理上表现一般,无法像 Chatterbox 那样根据语境自动生成生动的情感。尽管如此,它在处理 AI 播客、长文档朗读和训练数据方面依然具有显著优势。这一部分强调了该模型在“长距离作战”中的可靠性,这是许多竞品难以企及的痛点。

实时模式与增量流式传输

在实时模式下,Vibe Voice 采用了增量流式传输技术,这对于构建聊天机器人和语音助手至关重要。实测显示其首字延迟(TTFB)大约在 300 毫秒左右,虽然在速度上并非顶尖,但处于可接受的范围内。博主尝试让模型生成背景音乐或唱歌,但实验结果显示这些功能目前尚未成熟或无法正常工作。虽然目前的性能可能还未完全达到严苛的商业生产级别,但对于实验性项目和智能体开发来说已经绰绰有余。这一节揭示了模型在响应速度和多功能尝试方面的真实边界。

声音克隆实测与技术细节

博主详细演示了克隆自己声音的过程,仅需一段手机录制的 WAV 格式音频并通过 Gradio 界面即可完成。克隆出的声音质量高得惊人,甚至让博主感到一丝焦虑,因为生成的话语听起来极其自然。微软的技术架构允许一次性处理超长文本,这在实践中比基于 Whisper 的传统流水线要稳定得多。对于需要处理较长语音克隆任务的用户来说,这种一致性是避免违和感的关键所在。这一部分通过具体的 Demo 展示了模型在声音复刻方面的强大威力。

开发者视角:优缺点深度分析

从技术底层来看,Vibe Voice 使用了低频音频分词器和扩散模型,这大大降低了对计算资源的要求。它支持 MIT 协议且可在 7GB 显存的消费级显卡上运行,并附带了宝贵的 ASR 微调代码和结构化输出功能。然而,缺点也同样明显,例如 SDK 略显粗糙、存在机械音以及在多于三人的场景下效果下降。由于对安全问题的顾虑,微软移除了一部分关键代码,导致其在零语义理解和语言覆盖面(主要支持中英)上存在短板。这一章节为专业开发者提供了客观的参考依据,权衡了易用性与技术局限。

竞品对比与最终总结建议

在最后的对比环节,Vibe Voice 与 Chatterbox、11 Labs 以及 Cozy Voice 进行了全方位对标。相比之下,Chatterbox 在短文本和延迟上胜出,而 11 Labs 则在发音精致度和用户体验上领先,但 Vibe Voice 在成本和长文本稳定性上具有碾压优势。博主建议,如果你偏好本地构建、注重开源且主要处理长音频,那么 Vibe Voice 绝对值得尝试。但如果你追求即插即用的生产级效果,目前或许可以先持观望态度。视频以鼓励观众前往 Hugging Face 体验 Demo 并在文档中深入研究作为结束。

Community Posts

View all posts