00:00:00这是 SpeechBrain,一个基于 PyTorch 的开源工具包,让我们能构建并发布语音
00:00:05AI 功能。它使用了预训练模型,涵盖了从去噪、说话人确认
00:00:10到自动语音识别 (ASR) 等功能。无需训练,也无需微调。这里先做个快速的音频验证。你可能
00:00:15正期待着更好的音质。没错,在这里这很自然。根据这个结果,
00:00:19我不是同一个人,因为我在第二个片段里使用了语音转换器。
00:00:23所以语音验证确实有效。现在来看看它还能做什么。我们一直
00:00:28有新视频推出。记得订阅哦。在运行前几个演示前,先做个简单分析。
00:00:38SpeechBrain 拥有 ASR 增强、分离、说话人 ID、TTS,真的是全栈功能。
00:00:44如果你真的要开发产品,这里有几个关键点:9000 多个 GitHub 星标,与 Hugging Face 深度
00:00:51集成,一行代码安装,再写几行就能加载模型。它是专为那些想
00:00:56快速交付、不想浪费时间看文档的人设计的。这是我运行它时所扩展的
00:01:02初始代码。很多代码是我在官方文档网站上找到的。我选择使用
00:01:08Gradio 来构建 UI。Gradio 是一个 Python 机器学习应用库,处理这类任务
00:01:14非常得心应手。好,如果你没见过这部分,它看起来可能像假的。大多数增强功能的演示
00:01:20都会用完美的音频来作弊。我偏要反其道而行之。我现在要播放一些很大声的
00:01:24背景噪音。主要是音乐。准备好了。我正在正常说话,并录下自己
00:01:31在音乐声中说话的声音。这是原始音频。是的,听起来很糟。现在看增强后的输出。
00:01:37我正在正常说话。同样的声音,噪音被剔除了,没有任何后期处理的技巧。这就是
00:01:44重点所在。它在几秒钟内就能运行。你可以把它应用到通话 App、播客、音频清理、边缘设备,
00:01:51或者任何麦克风环境不佳的场景。代码也很简单:加载模型,调用增强批处理,搞定。
00:01:57但老实说,文档有点粗糙,所以我不得不扩展代码,因为它在我的 Mac 上运行
00:02:02时一直出问题。接下来是说话人验证,我在开头
00:02:07提到过。为了符合大家的预期,很多人一听到“语音认证”就觉得很复杂。但
00:02:13其实不然,至少用这个工具不复杂。我现在要录入我的声音。嘿,这是我的
00:02:20声音。这是第一段录音。然后我在第二段录音里做同样的事。
00:02:26嘿,这是我的声音。现在进行验证,是同一个说话人。匹配得分很高。这证实了是同一个人。我们拿到了
00:02:36得分。在输出中也有排名。如果我在不使用语音转换器的情况下再试一次,
00:02:42看看效果如何。你早餐吃了什么?好,现在我换个语调。别
00:02:48笑我。你早餐吃了什么?相似度分数下降了一点,
00:02:56但它依然输出我确实是同一个说话人。这个模型是在 VoxCeleb 上
00:03:01预训练的。再次配合语音转换器快速试一下。这是我正常的声音。现在如果我
00:03:08开启语音转换器,这是我正常的声音。回放给你们听听,第二段剪辑
00:03:17听起来是这样的:这是我正常的声音。好,听起来很生硬吧?你能
00:03:22听出转换器的痕迹。是的,它们完全不匹配,输出结果也证实了这一点。
00:03:27如果你正在构建语音认证的多用户应用,或者任何需要识别“谁在说话”的功能,
00:03:32它就是为此而生的。在最后的演示中,是的,这原本应该是核心功能。实时
00:03:37转录 ASR 的演示通常听起来很厉害,直到你亲自试这段话。现在我只是
00:03:43正常说话。实际上这个功能运行得并不好,文档也没什么
00:03:48帮助,所以我不知道该怎么评价。老实说,这感觉就像普通的语音
00:03:53转文字。它本该自动订阅,但遇到了无数问题,甚至连
00:03:58基本功能都没做到。是的,它确实能转录,但无数其他库也能做到。这个功能
00:04:04并不让人惊艳,至少对我来说,让它自动转录根本行不通。所以,
00:04:08这里有一些非常酷的东西,对吧?我们看到了语音验证、背景噪音
00:04:13消除,但有些部分还没调优好。这就是关于 SpeechBrain 的总结。
00:04:18总的来说,它依然很快、很开放,依然是为开发者打造的。你们可以
00:04:22自己去体验。我把链接放在了简介里,我们下个
00:04:26视频见。