我尝试了 ElevenLabs 的开源替代品 (Voicebox)

BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology

Transcript

00:00:00人们说这是语音AI界的Ollama。它可以克隆声音、生成语音、在任何应用中听写,
00:00:07并用你真正拥有的声音与智能体对话。这就是VoiceBox,它就是这么说的。
00:00:13就在这里。它是ElevenLabs的免费本地替代品,老实说,这太疯狂了。
00:00:19它在GitHub上拥有约3万个星标。它在本地运行,接下来的60秒内,
00:00:24我将向大家展示如何在编辑器内进行本地语音克隆、生成和听写。
00:00:29这到底对我们有多大用处?上手难度如何?我们马上来一探究竟。
00:00:39VoiceBox是一个开源的本地AI语音工作室。可以简单这样理解:
00:00:46Ollama是针对本地文本模型的,而VoiceBox致力于成为语音界的Ollama。所以它不仅是文字转语音。
00:00:54它还能进行语音克隆、系统级听写、创意编辑,甚至还有故事、
00:01:00时间线功能,并且能连接到AI智能体。这为我们提供了真正的控制权和更好的隐私保护。
00:01:06我想在构建东西时不用问自己:测试这个功能又用了多少点数?VoiceBox
00:01:12不会问这个问题,因为它在我们的机器上运行。所以没有订阅费用,没有
00:01:17字符限制。此外,它集成了克隆、基于Whisper的听写、多轨编辑器、
00:01:23Atari桌面应用、MCP支持和本地REST API。所以,不必使用五个独立的工具,
00:01:29你只需要一个桌面应用就能搞定一切。视频中我将做三件事。
00:01:36我将克隆一个声音,让它说话,然后在编辑器中使用听写功能。
00:01:41之后,我会展示为什么智能体集成非常强大,或者至少
00:01:46我们会谈谈它。如果你喜欢能加速工作流的编码工具,请务必
00:01:50订阅。我们会不断推出新视频。好了,我现在是在Mac M4上运行它。
00:01:55这就是VoiceBox。我已经准备好了一个语音配置文件,整个流程非常简单。现在你可以
00:02:02通过Docker来启动它,没错,但我试过了,光是启动容器就花了近30分钟。
00:02:08所以对于这次演示,我选择了直接使用桌面应用,速度快得多,而且老实说
00:02:13非常好用。我可以在这里命名音频,添加描述,甚至告诉它如何与
00:02:19模型交互。然后我可以选择录制自己的声音或上传短文件让它分析,同时
00:02:26附带上音频的转录文本。现在我输入一行我实际想用的文字。比如
00:02:32作为开发者,这让我能够完全掌控语音AI,而无需支付云服务费用,也不必担心隐私
00:02:38问题。我选择我的语音配置文件。我可以选择我想要的模型,然后点击
00:02:44生成。首次运行时需要下载模型,所以可能需要
00:02:50一些时间。运行结束后,我们会得到波形图。让我们听听看。
00:02:57作为开发者,这让我能够完全掌控语音AI,而无需支付云服务费用,也不必担心隐私
00:03:02问题。这段音频是在我的机器上本地生成的,是我克隆了自己的声音。没有经过浏览器标签页。
00:03:09我不需要API密钥,但接下来的部分才让它感觉像是一个真正的工作流。系统级
00:03:16听写功能。我按下全局快捷键,就能说出我当时的想法。如果你喜欢
00:03:22寻找像这样的编码工具和技巧,请关注我们的频道。现在它直接落入我的编辑器中。
00:03:29所以,我觉得这对于做笔记、写注释或任何类似的事情都非常有用。
00:03:33但在所有这些说话比打字更快的时刻,这非常重要。这
00:03:38不仅是你与电脑交流。你的智能体现在也可以回话了。
00:03:43Claude Code、Cursor,或者你自己的本地智能体都可以通过VoiceBox触发语音,
00:03:49而不是仅仅把内容扔进终端。我们已经能从AI那里获得反馈了。
00:03:55为什么不让它对我们说话呢?现在让我们把它与我们熟悉的工具进行对比。
00:03:59显然,我们有Eleven Labs。Eleven Labs很棒,值得赞扬。我之前做过相关对比。
00:04:05它是托管的。我们知道质量非常惊人。但话说回来,它是云端的,是
00:04:11基于订阅的。所以我们要为此付费。而且我们要把内容上传到云端。
00:04:16VoiceBox则完全相反。为什么?因为它在本地运行,免费,无限制。我们
00:04:22控制所有输入的数据。Eleven Labs可能在全天候使用时仍有优势,
00:04:27但我认为我会保留VoiceBox,因为我喜欢它的易用性。而且老实说,听起来确实
00:04:33很不错。对于我们开发者来说,最好的工具并不总是输出效果最华丽的那个。很多时候我们其实
00:04:38并不太在意那个。有时是你能真正控制的工具。然后还有
00:04:43整个开源社区。你本可以使用Piper、Whisper和一堆独立的脚本。
00:04:50但关键在于,朋友们,它们都是独立的。我们有一个用于转录的工具,
00:04:56一个用于克隆的,一个用于TTS,一个用于UI,所有这些我们只是凑在一起使用。
00:05:03VoiceBox将整个工作流封装进了一个工作室应用中。输入、输出、编辑、配置文件、
00:05:09文档、智能体集成,甚至你还可以使用MCP服务器。正如我所说,
00:05:14这意味着Claude或Cursor可以将VoiceBox当作工具调用,而不是让你的智能体只能
00:05:20通过文本回复。它现在可以直接回话了。但你想听到自己回话吗?我不知道。
00:05:25也许可以换个声音。但想象一下你的编码智能体说:构建失败。三个测试
00:05:30模块破坏了认证模块。这听起来很不真实,直到你意识到你一天中有多少次
00:05:36已经从工具中获得了反馈。VoiceBox只是赋予了这些更新一个声音。
00:05:42那么为什么比起其他工具我这么喜欢这个呢?好吧,隐私和成本。老实说,
00:05:48那些确实是大赢家,至少对我而言。这是轻松的胜利。对于语音样本、音频、
00:05:53内部内容或任何真正敏感的东西,本地优先是我们想要的。这很棒。
00:05:57然后是智能体集成,我没有在完整测试中展示,但开发者已经在
00:06:02讨论将它集成到Claude Code、Cursor中了。VoiceBox为这些系统提供了
00:06:08语音层,而无需托管的语音提供商。工作流非常简洁。我喜欢
00:06:14它都在一个我们能控制的UI中。它非常简单。如果你使用Apple Silicon,
00:06:18尤其是本地性能是它感觉如此良好的原因之一。但要注意的是,
00:06:23所有这些要记在心里。它今年才发布。还处于早期阶段。所以会有
00:06:28一些问题。如果你使用Windows,一些用户会遇到麻烦,特别是在
00:06:33GPU检测、模型设置和导出方面。如果发生了这种情况,只需重启应用。我在我的Mac上也遇到过
00:06:39这个问题。重启就能修复。长文本一致性可能仍落后于Eleven Labs。
00:06:46情感控制正在改进,但这取决于你选择的模型。如果你选择
00:06:50Shatterbox TTS Turbo,那么这些情感就是内置的。
00:06:55所以你应该安装VoiceBox吗?老实说,非常简单。绝对值得一试,
00:07:00因为它消除了我们从那些勉强拼凑在一起的工作流中感受到的许多摩擦。
00:07:04其核心价值不仅仅是语音质量。真正重要的是我们在这里获得的控制权。
00:07:09是对数据的控制、对成本的控制、对集成的控制。这就是
00:07:15一切真正重要的原因。上手也非常简单。猴子都能学会。去
00:07:20VoiceBox网站或GitHub发布页,下载适合你平台的安装程序,启动应用,
00:07:25然后拉取你需要的本地模型。但整个核心理念非常强大,
00:07:30而且它已经足够实用,完全值得安装。如果你喜欢这样的编码工具,
00:07:35请务必订阅BetterStack频道。我们在下一期视频见。

Key Takeaway

VoiceBox 将语音克隆、听写与智能体集成封装在一个本地桌面上,为开发者提供了无需云端订阅即可实现的高效语音 AI 工作流。

Highlights

  • VoiceBox 在 GitHub 上拥有约 3 万个星标,是一个完全开源且可在本地运行的语音 AI 工作室。

  • 该工具集成了语音克隆、基于 Whisper 的听写、多轨编辑器、MCP 支持和本地 REST API,无需支付订阅费用或担心字符限制。

  • 相比托管式的 Eleven Labs,VoiceBox 提供了对数据、成本和工作流的完全本地控制。

  • 在 Mac M4 环境下运行桌面版应用,启动与生成过程比 Docker 容器方案快得多。

  • 通过 MCP 服务器,Claude 或 Cursor 等 AI 智能体可以直接调用 VoiceBox 进行语音反馈,而非仅限于文本响应。

Timeline

VoiceBox 的核心定位与优势

  • VoiceBox 被定位为语音界的 Ollama,专注于本地运行的 AI 语音处理。
  • 该工具消除了云端订阅费用和字符限制,同时增强了用户隐私保护。
  • 单一桌面应用集成了原本需要五个独立工具才能完成的语音克隆、听写和编辑功能。

VoiceBox 作为一个开源的本地 AI 语音工作室,旨在让开发者在构建应用时不必受限于 API 点数消耗。它通过本地执行语音克隆、Whisper 听写及多轨编辑,将原本分散的工作流整合在一起。这种本地化的运行模式确保了敏感数据不会离开本地机器,且完全免费。

功能实测与智能体集成

  • 语音配置文件录入简单,模型首次生成时需下载相关资源,随后在本地生成波形图。
  • 全局快捷键触发系统级听写,能够将语音快速转化为编辑器内的文本。
  • AI 智能体如 Claude Code 或 Cursor 可通过 VoiceBox 实现直接语音回话,增强交互反馈。

在 Mac M4 等 Apple Silicon 设备上,VoiceBox 的桌面应用表现稳定且快速。用户只需通过语音配置文件输入文本,模型即可在本地即时生成音频。此外,系统级听写功能进一步优化了笔记和注释的记录效率,让智能体不再仅仅通过终端文本输出信息,而是能够直接使用语音与开发者对话。

行业对比与安装指南

  • Eleven Labs 在全天候使用场景和长文本一致性方面仍具优势,但 VoiceBox 在成本与隐私上表现更佳。
  • 该工具处于早期发布阶段,Windows 环境下可能存在 GPU 检测或导出问题,通常通过重启解决。
  • 用户可以通过官网或 GitHub 直接下载安装程序,通过拉取本地模型快速上手。

尽管 Eleven Labs 的输出效果非常华丽,但 VoiceBox 通过赋予开发者对工具链、数据隐私和成本的完全控制权,成为了更具吸引力的替代方案。虽然目前的长期文本一致性和情感控制水平仍在持续改进,但其工作流的简洁性使其成为一个值得安装的工具。开发者仅需下载平台对应的安装程序并加载模型,即可获得一套可定制的本地语音系统。

Community Posts

View all posts