00:00:00一个仅有 8200 万参数的模型刚刚击败了规模大得多的 TTS 系统,而且它可以在
00:00:06笔记本电脑上本地运行,速度比大多数付费 API 还要快。
00:00:09上个月我付费使用了一个云端 TTS,但仍然能感觉到延迟。
00:00:13这对我来说毫无道理。
00:00:14这些开源模型是怎么击败它的?
00:00:17这就是 Kokoro 82M,已经有一些开发者开始集成它了。
00:00:22让我们来看看它是如何运作的,更重要的是,听听它的音质如何。
00:00:30好了,如果你正在构建文本转语音功能,通常要在两个糟糕的选项中做选择。
00:00:36第一个选项显然是云端 API,对吧?
00:00:39它们起步很快,但现在你得面临账单、延迟波动,而且每次
00:00:44你的应用说话时都多了一个外部依赖。
00:00:46另一个选项是像这些大型开源模型,但现在你需要
00:00:51更多的硬件和内存,而且老实说,速度还是不够快。
00:00:56所以本该感觉流畅的体验,最终却变得缓慢、昂贵,或者
00:01:00干脆直接崩溃。
00:01:02这就是 Kokoro 的用武之地。
00:01:04它的训练数据少于 100 小时,但依然在排行榜上名列前茅。
00:01:09它以极小的体积击败了更大的模型,采用 Apache 2.0 协议,可在 CPU 上运行,
00:01:15在 Apple Silicon 上更是快如闪电,语音生成速度简直惊人。
00:01:19因此,现在本地语音应用和实时智能体终于开始变得更有意义了。
00:01:24如果你喜欢这类编程工具和技巧,请务必订阅。
00:01:27我们一直会有新视频发布。
00:01:29好了,现在让我给你们展示一下。
00:01:31我现在正是在一台 Mac M4 Pro 上本地运行这一切。
00:01:34设置只需大约 30 秒,我只需运行这条 pip 命令。
00:01:39我是在 conda 环境中运行的,但也仅此而已。
00:01:42我直接用了他们官方仓库里的整个 Python 脚本,为了测试它我没改
00:01:47任何东西,只需拖放,我们就能得到所有这些输出。
00:01:51我可以在这里选择语音和语言,但第一轮我打算保持
00:01:56默认设置,因为说实话,它的音质已经非常好了。
00:02:00我来运行一下,然后我们听听看。
00:02:02Better Stack 是领先的可观测性平台。
00:02:05它让监控变得简单。
00:02:07它集成了 AI SRE、日志、指标、追踪和错误跟踪。
00:02:12并将事件响应集中在一处。
00:02:14不骗你,效果真的很好,而且生成速度非常快。
00:02:19现在如果我切换一下,试试法语并切换到法语语音。
00:02:24稍微改动一下文本,再次运行。
00:02:26Better Stack 是用于并行可观测性的平台。
00:02:29它简化了监控流程。
00:02:31好的,我的法语有点生疏了,所以别逐字翻译,但听起来
00:02:36也相当不错。
00:02:37不过你们可以自己评判一下。
00:02:39它全部保存为 WAV 文件,所以我可以随意下载。
00:02:43无需云端。
00:02:44无需 GPU。
00:02:45这太疯狂了。
00:02:47那么 Kokoro 82M 到底是什么?
00:02:49从高层次来看,它是一个带有轻量级声码器的 StyleTTS2 模型。
00:02:55这意味着它的设计目标是在不占用巨大空间的情况下保证音质,这正是
00:02:59它的核心优势。
00:03:00大多数其他选项都倾向于做得更大。
00:03:01比如 XTTS、Cozy Voice、F5 TTS,参数量都在数亿到十亿以上。
00:03:08像 11 Labs 或 OpenAI 这样的云端工具虽然解决了硬件问题,但现在我们要
00:03:13按请求付费,并且还要上传我们的数据。
00:03:16Kokoro 走的是另一个方向。
00:03:19它体积小,启动快,且在本地运行,此外占用的内存也少得多。
00:03:24但缺点是,它开箱即用并不支持零样本语音克隆,相反
00:03:29它专注于效率和质量,让我们能更快地交付产品。
00:03:33我们仍然可以获得 8 种语言、54 种语音,以及通过导入 Misaki 实现的良好控制。
00:03:39我能预见到这在各种智能体中都会非常适用,但是
00:03:42你无法获得任何情感起伏,而这正是我原本非常想看到的。
00:03:47没有情感的 AI 听起来仍然会有浓重的 AI 味,我想
00:03:52有时这也许是件好事,对吧?
00:03:53但如果能玩转那些情感表达肯定很有趣。
00:03:56那么开发者为什么要使用它呢?
00:03:58好吧,如果我还没展示清楚,我们再提一下,因为它解决了通常
00:04:02会导致语音功能失效的问题。
00:04:04首先是速度。
00:04:05如果你的智能体停顿太久,就不再感觉真实,而 Kokoro 大幅减少了这种延迟。
00:04:11其次是离线使用。
00:04:13无需联网,无需 API 密钥,我不会遇到任何意外故障。
00:04:16这太棒了。
00:04:17隐私保护也非常重要,因为 Kokoro 把一切都留在本地,所以对我及你们中的许多人来说,
00:04:22这可能是一个巨大的胜利。
00:04:23最后是规模化成本。
00:04:26因为它非常轻量,你可以在一台机器上运行更多的实例。
00:04:30优点和缺点分别是什么,我非常喜欢它的快速和小巧。
00:04:33对于长内容,它的听感很自然。
00:04:35这真的很酷。
00:04:36我试过很多这类模型。
00:04:38它是 Apache 2.0 协议,所以你可以直接发布,而且设置好后基本是免费的。
00:04:43所有这些特点都非常、非常贴心。
00:04:44我喜欢这些点。
00:04:45那真的很酷。
00:04:46但也有一些我不喜欢的地方。
00:04:47没有原生的语音克隆,这取决于你是否需要语音克隆,如果有的话
00:04:51就更好了。
00:04:52情感表达非常中性。
00:04:54非常适合旁白,但不适合任何富有戏剧性的内容。
00:04:56我的意思是,这里真的无法改变情感,此外非英语语音
00:05:02仍有提升空间。
00:05:03所以这些功能需要添加,也可能不需要,取决于你怎么看。
00:05:07那么它完美吗?
00:05:08不完美。
00:05:09但对于我们大多数人实际面临的问题:成本、延迟、隐私、部署,
00:05:14它现在似乎解决了最关键的那些。
00:05:18去尝试一下并告诉我你的想法。
00:05:19Kokoro 82M 证明了你不需要庞大的模型就能获得极好的 TTS 效果。
00:05:24更小意味着更快,更快意味着可用,而可用通常意味着你
00:05:29真的可以把它发布出去。
00:05:30如果你正在构建语音智能体或本地工具,这值得一试。
00:05:34如果你喜欢这类编程工具和技巧,请务必订阅 Better Stack 频道。
00:05:38我们下个视频再见。