00:00:00这本来发封邮件就能解决。
00:00:02这本来发封邮件就能解决。
00:00:04同样的句子,却是两种截然不同的表现。
00:00:07我只是输入了“开头正常,然后慢慢变成愤怒的咆哮”。
00:00:11就这么简单。
00:00:12不需要标记语言,也没有 API 会把你的数据传到别处。
00:00:15这就是 Qwen2-TTS。
00:00:17他们新推出的开源语音模型,让你能指挥语气,而且它真的听得懂。
00:00:22让我们来看看它与 Eleven Labs 甚至 ChatTTS 相比表现如何。
00:00:30许多开源语音模型都缺乏情感。
00:00:34我用过 ChatTTS,效果其实还不错。
00:00:37既然知道 Qwen 也有这个功能,我不仅想看看它的克隆效果,
00:00:41还想看看它的语言情感表达与其他模型相比如何。
00:00:44说实话,我感到非常惊喜。
00:00:47ChatTTS 有一个情感滑块,而在这里,
00:00:50你直接输入想要的声音效果,这给了我们更多的自由度。
00:00:55轻量版模型支持三秒语音克隆,我们等会儿会测试一下。
00:00:59当我们升级到 1.7B 模型时,虽然失去了克隆功能,
00:01:02但获得了 97 毫秒延迟的实时流式传输,
00:01:05支持 10 种语言的自然中外语切换,而且是 100% 本地运行。
00:01:09它是免费的。
00:01:09采用 Apache 2.0 协议。
00:01:11这意味着更快的原型开发、私密的语音代理和无障碍工具。
00:01:16如果你总是在寻找最新工具,请务必订阅。
00:01:19我们经常会发布新视频。
00:01:21现在,克隆很容易。
00:01:22情感表达则更难。
00:01:23所以让我们来挑战一下。
00:01:25我们将先测试克隆功能。
00:01:28首先,我上传一段我预录好的声音作为参考音频。
00:01:32然后在“参考文本”中,我需要打出音频里说的内容。
00:01:37这边的“目标文本”就是我想要输出的内容。
00:01:42搞定。
00:01:43实际上,运行时间比我想象的要长得多。
00:01:46我本来希望质量能匹配得上,让我们听听看。
00:01:49用这个模型听起来怎么样?
00:01:51我是说,对于一个轻量级模型,尤其是 Qwen 来说,表现还可以,
00:01:55但你显然能听出一些地方带有合成感。
00:01:59所以它绝对谈不上惊艳。
00:02:01我发现最好的语音克隆音频是微软的 Vibe Voice,那简直神了。
00:02:07这个只能说还过得去。
00:02:08好了。
00:02:09语音克隆测试完毕。
00:02:10打个勾。
00:02:11现在让我们换成更强大的 1.7B 模型,转而尝试在文本中
00:02:16加入情感,看看 Qwen 如何处理。
00:02:19让我给你们展示一些真正实用的东西。
00:02:22我会在指令框输入:像悬疑剧旁白一样讲述,
00:02:26节奏缓慢铺垫,最后带上一声释然的笑。
00:02:28而文本内容,我想让它说一段关于 Qwen 的基本介绍。
00:02:32为什么不呢?
00:02:33来听听看。
00:02:34阿里巴巴新款开源文本转语音模型,
00:02:37终于让你感觉是在和真正的配音演员对话了。
00:02:42好的。
00:02:42我们确实听出了一点小偏差。
00:02:44它没有捕捉到每一个语调细节,但大部分都对了。
00:02:47没有下拉菜单,没有预设。
00:02:49我们完全是在引导它发出想要的声音。
00:02:51现在让我们创造一个更有真实互动感的声音。
00:02:55假设我们正在做一个项目。
00:02:57让我们输入一些内容。
00:02:58我要说一段关于编写测试的代码。
00:03:01然后在指令框里输入:年轻、
00:03:03充满热情的程序员声音,带点讽刺但很友好。
00:03:07这可不是我在选择“预设声音 12”。
00:03:10我是在精确描述我想要的性格听起来是什么样的。
00:03:13听听看。
00:03:14编写代码测试意味着仔细检查你的程序是否按预期运行。
00:03:20现在你可能会想,它和其他模型相比如何?
00:03:22嗯,Eleven Labs 依然是王者,但它要花钱,而且数据会离开你的机器。
00:03:26ChatTTS 非常出色。
00:03:28是我用过最好的之一,情感表达也很好。
00:03:31如果你追求极致的语音克隆,我还是坚持推荐 Vibe Voice,好得离谱。
00:03:36但当你想用自然语言描述声音并快速迭代时,Qwen2-TTS 赢了。
00:03:41显然,它有很多优点。
00:03:43我喜欢用自然语言控制来实现最快迭代。
00:03:47它完全本地化且私密,支持流式传输,适合
00:03:50实时 AI 代理,且语音设计感更加直观。
00:03:55那么,我不喜欢它的地方,或者说……
00:03:57我不满意的地方是它是一个较新的模型,对吧?
00:04:00所以它在某些语言上还不够成熟。
00:04:03和任何 TTS 一样,推荐使用 GPU 以获得最佳性能。
00:04:06虽然 CPU 也能跑。
00:04:07但速度会慢很多。
00:04:09情感表达很大程度上取决于你的提示词和指令写得有多好。
00:04:13如果你的方向很模糊,输出的效果也会很平淡。
00:04:16那么,关键问题是:安装过程痛苦吗?
00:04:19不,一点也不。
00:04:20非常简单直接。
00:04:22克隆仓库,安装依赖,启动 Web UI,打开 localhost。
00:04:26这就是我做的全部工作,从零到跑通演示只用了几分钟。
00:04:32没有 API 密钥。
00:04:33没有账单。
00:04:34全部都在你自己的机器上。
00:04:35这才是开源语音该有的样子。
00:04:38这就是为什么玩这些开源语音工具、看它们各自的长处非常酷。
00:04:43Qwen2-TTS,快速、私密,且更受开发者掌控。
00:04:46所以,自己去试试吧。
00:04:48链接我已经放在下面了。
00:04:49如果你想要更多像这样的本地工具,请务必订阅。
00:04:52我们下个视频再见。