Qwen TTS 刚刚改变了开源语音技术的游戏规则

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский

Computing/SoftwareSmall Business/StartupsLanguagesInternet Technology

Transcript

00:00:00这本来发封邮件就能解决。

00:00:02这本来发封邮件就能解决。

00:00:04同样的句子，却是两种截然不同的表现。

00:00:07我只是输入了“开头正常，然后慢慢变成愤怒的咆哮”。

00:00:11就这么简单。

00:00:12不需要标记语言，也没有 API 会把你的数据传到别处。

00:00:15这就是 Qwen2-TTS。

00:00:17他们新推出的开源语音模型，让你能指挥语气，而且它真的听得懂。

00:00:22让我们来看看它与 Eleven Labs 甚至 ChatTTS 相比表现如何。

00:00:30许多开源语音模型都缺乏情感。

00:00:34我用过 ChatTTS，效果其实还不错。

00:00:37既然知道 Qwen 也有这个功能，我不仅想看看它的克隆效果，

00:00:41还想看看它的语言情感表达与其他模型相比如何。

00:00:44说实话，我感到非常惊喜。

00:00:47ChatTTS 有一个情感滑块，而在这里，

00:00:50你直接输入想要的声音效果，这给了我们更多的自由度。

00:00:55轻量版模型支持三秒语音克隆，我们等会儿会测试一下。

00:00:59当我们升级到 1.7B 模型时，虽然失去了克隆功能，

00:01:02但获得了 97 毫秒延迟的实时流式传输，

00:01:05支持 10 种语言的自然中外语切换，而且是 100% 本地运行。

00:01:09它是免费的。

00:01:09采用 Apache 2.0 协议。

00:01:11这意味着更快的原型开发、私密的语音代理和无障碍工具。

00:01:16如果你总是在寻找最新工具，请务必订阅。

00:01:19我们经常会发布新视频。

00:01:21现在，克隆很容易。

00:01:22情感表达则更难。

00:01:23所以让我们来挑战一下。

00:01:25我们将先测试克隆功能。

00:01:28首先，我上传一段我预录好的声音作为参考音频。

00:01:32然后在“参考文本”中，我需要打出音频里说的内容。

00:01:37这边的“目标文本”就是我想要输出的内容。

00:01:42搞定。

00:01:43实际上，运行时间比我想象的要长得多。

00:01:46我本来希望质量能匹配得上，让我们听听看。

00:01:49用这个模型听起来怎么样？

00:01:51我是说，对于一个轻量级模型，尤其是 Qwen 来说，表现还可以，

00:01:55但你显然能听出一些地方带有合成感。

00:01:59所以它绝对谈不上惊艳。

00:02:01我发现最好的语音克隆音频是微软的 Vibe Voice，那简直神了。

00:02:07这个只能说还过得去。

00:02:08好了。

00:02:09语音克隆测试完毕。

00:02:10打个勾。

00:02:11现在让我们换成更强大的 1.7B 模型，转而尝试在文本中

00:02:16加入情感，看看 Qwen 如何处理。

00:02:19让我给你们展示一些真正实用的东西。

00:02:22我会在指令框输入：像悬疑剧旁白一样讲述，

00:02:26节奏缓慢铺垫，最后带上一声释然的笑。

00:02:28而文本内容，我想让它说一段关于 Qwen 的基本介绍。

00:02:32为什么不呢？

00:02:33来听听看。

00:02:34阿里巴巴新款开源文本转语音模型，

00:02:37终于让你感觉是在和真正的配音演员对话了。

00:02:42好的。

00:02:42我们确实听出了一点小偏差。

00:02:44它没有捕捉到每一个语调细节，但大部分都对了。

00:02:47没有下拉菜单，没有预设。

00:02:49我们完全是在引导它发出想要的声音。

00:02:51现在让我们创造一个更有真实互动感的声音。

00:02:55假设我们正在做一个项目。

00:02:57让我们输入一些内容。

00:02:58我要说一段关于编写测试的代码。

00:03:01然后在指令框里输入：年轻、

00:03:03充满热情的程序员声音，带点讽刺但很友好。

00:03:07这可不是我在选择“预设声音 12”。

00:03:10我是在精确描述我想要的性格听起来是什么样的。

00:03:13听听看。

00:03:14编写代码测试意味着仔细检查你的程序是否按预期运行。

00:03:20现在你可能会想，它和其他模型相比如何？

00:03:22嗯，Eleven Labs 依然是王者，但它要花钱，而且数据会离开你的机器。

00:03:26ChatTTS 非常出色。

00:03:28是我用过最好的之一，情感表达也很好。

00:03:31如果你追求极致的语音克隆，我还是坚持推荐 Vibe Voice，好得离谱。

00:03:36但当你想用自然语言描述声音并快速迭代时，Qwen2-TTS 赢了。

00:03:41显然，它有很多优点。

00:03:43我喜欢用自然语言控制来实现最快迭代。

00:03:47它完全本地化且私密，支持流式传输，适合

00:03:50实时 AI 代理，且语音设计感更加直观。

00:03:55那么，我不喜欢它的地方，或者说……

00:03:57我不满意的地方是它是一个较新的模型，对吧？

00:04:00所以它在某些语言上还不够成熟。

00:04:03和任何 TTS 一样，推荐使用 GPU 以获得最佳性能。

00:04:06虽然 CPU 也能跑。

00:04:07但速度会慢很多。

00:04:09情感表达很大程度上取决于你的提示词和指令写得有多好。

00:04:13如果你的方向很模糊，输出的效果也会很平淡。

00:04:16那么，关键问题是：安装过程痛苦吗？

00:04:19不，一点也不。

00:04:20非常简单直接。

00:04:22克隆仓库，安装依赖，启动 Web UI，打开 localhost。

00:04:26这就是我做的全部工作，从零到跑通演示只用了几分钟。

00:04:32没有 API 密钥。

00:04:33没有账单。

00:04:34全部都在你自己的机器上。

00:04:35这才是开源语音该有的样子。

00:04:38这就是为什么玩这些开源语音工具、看它们各自的长处非常酷。

00:04:43Qwen2-TTS，快速、私密，且更受开发者掌控。

00:04:46所以，自己去试试吧。

00:04:48链接我已经放在下面了。

00:04:49如果你想要更多像这样的本地工具，请务必订阅。

00:04:52我们下个视频再见。

Key Takeaway

Qwen2-TTS 是一款革命性的开源语音模型，通过自然语言指令精准控制情感表达，为本地化、私密且高效的语音合成提供了全新方案。

Highlights

Qwen2-TTS 最大的亮点是支持通过自然语言指令直接控制语音的情感和语气，无需标记语言。
该模型完全开源（Apache 2.0 协议），支持 100% 本地运行，保护数据隐私且无 API 费用。
1.7B 版本模型具备 97 毫秒的超低延迟实时流式传输能力，并支持 10 种语言的自然切换。
轻量版模型支持三秒快速语音克隆，虽然效果略带合成感，但足以应对基础需求。
相比付费的 Eleven Labs，Qwen2-TTS 在描述性语音设计和快速迭代方面具有显著优势。
安装过程极其简单，开发者只需克隆仓库并安装依赖即可在几分钟内跑通 Web UI 演示。

Timeline

Qwen2-TTS 初印象与核心功能

视频开头通过两段语气截然不同的相同句子展示了 Qwen2-TTS 强大的情感控制能力。演讲者强调该模型只需输入简单的文本指令，如“慢慢变成愤怒的咆哮”，即可改变输出效果，而无需复杂的标记语言。这种直观的交互方式打破了传统 TTS 模型的限制，且数据无需传输到外部 API。Qwen2-TTS 作为阿里巴巴新推出的开源工具，旨在让用户像指挥配音演员一样引导 AI 的语气。这一节奠定了全片的基调，即开源语音技术正在进入高度可控的新阶段。

模型对比与技术规格

演讲者将 Qwen2-TTS 与 ChatTTS 和 Eleven Labs 等知名模型进行了横向对比。相比 ChatTTS 使用情感滑块，Qwen 允许直接输入描述性文字，提供了更高的自由度和创作空间。视频详细介绍了两个版本：轻量版支持三秒语音克隆，而 1.7B 大版本则专注于 97 毫秒的超低延迟流式传输。该模型采用 Apache 2.0 协议，支持包括中外语切换在内的 10 种语言，非常适合开发私密语音代理。这些技术参数证明了其在原型开发和无障碍工具领域的巨大应用潜力。

语音克隆功能深度实测

本段进入实际操作环节，首先对轻量版模型的语音克隆功能进行了压力测试。演讲者上传了一段预录音频作为参考，并输入相应的参考文本和目标文本进行合成。测试结果显示，虽然克隆速度略慢且在某些细节上带有合成感，但在轻量级模型中表现已算尚可。演讲者坦言，虽然其克隆质量不如微软的 Vibe Voice 那样“神级”，但作为开源工具已足够过关。这一节客观地评估了模型的优缺点，帮助用户建立合理的心理预期。

1.7B 模型的情感指令挑战

演讲者切换到功能更强大的 1.7B 模型，重点测试其对复杂情感指令的理解能力。他尝试让 AI 以“悬疑剧旁白”的风格讲述 Qwen 的介绍，并要求在结尾加上一声释然的笑，效果令人惊喜。随后又测试了“年轻、热情且带点讽刺”的程序员声音，展示了模型如何通过性格描述而非预设菜单来生成声音。实验证明，Qwen2-TTS 能较好地捕捉语调细节，让合成语音听起来更像真实的互动。这种基于自然语言的语音设计感非常直观，极大地降低了配音创作的门槛。

综合评价、安装流程与总结

在最后的总结中，演讲者认为 Eleven Labs 虽强但昂贵，而 Qwen2-TTS 在本地化、私密性和自然语言控制方面胜出。他指出模型的表现高度依赖于提示词的质量，模糊的指令会导致平淡的输出，且建议使用 GPU 以获得最佳性能。安装过程被描述为“极其简单”，几分钟内即可在本地 localhost 启动 Web UI。视频强调了“无 API 密钥、无账单”的纯粹开源体验，认为这才是开源语音应有的样子。最后，演讲者鼓励开发者亲自尝试这一工具，并订阅频道以获取更多本地 AI 工具的资讯。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video