ElevenLabsのオープンソース代替品(Voicebox)を試してみた

BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology

Transcript

00:00:00これは音声AI界のOllamaと言われています。声のクローン、音声生成、あらゆるアプリへのディクテーションができ、
00:00:07自分の所有する声でエージェントと会話も可能です。これがVoiceBoxです。そう語られています。
00:00:13無料でElevenLabsのローカル代替ツールですが、正直、とんでもない性能です。
00:00:19GitHubで約3万のスターを獲得しています。ローカルで動作します。この先の60秒で、
00:00:24ローカル環境での声のクローン、音声生成、エディタ内でのディクテーションをお見せします。
00:00:29これがどれほど有用で、導入がどれほど簡単か。これから検証していきます。
00:00:39さて、VoiceBoxはオープンソースのローカルAI音声スタジオです。簡単に言うと、
00:00:46ローカルLLMにおけるOllamaのような存在です。VoiceBoxは音声版のそれを目指しています。単なるテキスト読み上げではありません。
00:00:54声のクローン、システム全体のディクテーション、クリエイティブな編集、ストーリーやタイムラインの機能があり、
00:01:00AIエージェントとも接続できます。これにより、真のコントロールとプライバシーが手に入ります。
00:01:06テストするたびに「クレジットをどれだけ消費したか」を気にする必要はありません。VoiceBoxは
00:01:12自分のマシンで動作するため、そうした制限とは無縁です。サブスクリプションも、
00:01:17文字数制限もありません。さらに、クローニング、Whisperによるディクテーション、マルチトラックエディタ、
00:01:23Atariデスクトップアプリ、MCPサポート、ローカルREST APIが統合されています。バラバラなツールを使う代わりに、
00:01:29すべてが1つのデスクトップアプリにまとまっています。この動画では3つのことを行います。
00:01:36声のクローン、音声読み上げ、そしてエディタ内でのディクテーションです。その後に、
00:01:41なぜエージェント統合が非常に素晴らしいのか、その点についても触れていきます。ワークフローを高速化する
00:01:46コーディングツールが好きなら、ぜひチャンネル登録を。新しい動画を次々と公開しています。
00:01:50さて、Mac M4で実行してみます。
00:01:55これがVoiceBoxです。すでにボイスプロファイルは用意してありますが、手順は非常にシンプルでした。Dockerで
00:02:02立ち上げることもできますが、実際にやってみたところ、コンテナの起動に30分近くかかりました。
00:02:08そのため、今回はデスクトップアプリ版を選択しました。その方が断然速く、非常に
00:02:13優秀です。ここで音源に名前を付けたり、説明を追加したり、モデルへの指示を出したりできます。
00:02:19あとは自分で録音するか、短いファイルをアップロードして解析させ、その音声を文字起こしとして含めるだけです。
00:02:26では、実際に使いたいセリフを入力します。開発者として、これはクラウドのコストや
00:02:32プライバシーの問題を気にせず、音声AIを完全にコントロールできる手段となります。
00:02:38ボイスプロファイルを選び、モデルを選択して「生成」を押すだけです。
00:02:44初回実行時はモデルのダウンロードが必要なので、多少時間はかかるかもしれませんが、
00:02:50実行が終われば波形が表示されます。聴いてみましょう。
00:02:57開発者として、これはクラウドのコストやプライバシーの問題を気にせず、
00:03:02音声AIを完全にコントロールできる手段となります。この音声は自分のマシンで生成され、私自身の声をクローンしたものです。ブラウザのタブは使っていません。
00:03:09APIキーも不要でした。しかし、ここからが真のワークフローです。システム全体での
00:03:16ディクテーション機能です。グローバルホットキーを押せば、その時考えていることを何でも入力できます。
00:03:22このようなコーディングツールやテクニックが好きなら、ぜひチャンネルをチェックしてください。エディタに直接入力されます。
00:03:29メモやコメントなど、何にでも使えるので非常に便利です。
00:03:33話すことがタイピングより速いという場面は多々あり、これは大きなメリットです。
00:03:38自分からコンピュータに話しかけるだけでなく、エージェントが話し返してくれるようになります。
00:03:43Claude Code、Cursor、あるいは独自ローカルエージェントが、端末にテキストを出すだけでなく、
00:03:49VoiceBoxを介して話すことができます。AIからフィードバックをもらう環境はすでにあります。
00:03:55なぜ、それを声にしてくれないのか?では、他のツールと比較してみましょう。
00:03:59ElevenLabsは素晴らしいです。以前比較動画も出しました。品質が非常に高いことは誰もが知っています。
00:04:05しかし、クラウドベースであり、
00:04:11サブスクリプション制です。お金を払い、データをクラウドに上げなければなりません。
00:04:16VoiceBoxはその真逆です。ローカルで動作し、無料で、無制限です。
00:04:22入力するデータもすべて制御できます。ElevenLabsの方が優れている場合もあるかもしれませんが、
00:04:27導入の容易さと、実際に出力される音声も十分に良いため、私はVoiceBoxを使い続けると思います。
00:04:33開発者にとって最高のツールとは、必ずしも出力が最も美しいものではありません。
00:04:38実際、見た目ばかりを求めているわけではありません。自分でコントロールできることが重要なのです。
00:04:43オープンソースの側面もあります。PiperやWhisperなど、多くの個別のスクリプトを使って
00:04:50実現することも可能ですが、ポイントはそれらがすべてバラバラであるという点です。文字起こし用、
00:04:56クローン用、TTS用、UI用……それらを無理やりつなぎ合わせる必要があります。
00:05:03VoiceBoxは、そのすべてのワークフローを1つのスタジオアプリにパッケージ化しています。
00:05:09入力、出力、編集、プロファイル、ドキュメント、エージェント連携、さらにMCPサーバーも使えます。
00:05:14つまり、ClaudeやCursorがVoiceBoxをツールとして呼び出せるということです。テキストだけでなく、
00:05:20音声で回答してくれます。自分の声で話しかけられるのは……少し変かもしれませんね。
00:05:25声を変えることもできるかもしれません。想像してみてください。AIが「ビルドに失敗しました。認証モジュールでエラーが発生しました」と
00:05:30語りかけてくる様子を。日々どれだけ多くのフィードバックを受けているかを考えれば、
00:05:36それを音声にすることで直感的に理解できるようになります。
00:05:42なぜ私がこれを高く評価するのか。やはりプライバシーとコストです。これは非常に大きな強みです。
00:05:48音声データや社内コンテンツなど、機密性の高いものを扱う際は、ローカルファーストが理想です。
00:05:53素晴らしいですね。
00:05:57エージェントとの統合についてはまだ十分に検証していませんが、開発者たちはすでに
00:06:02Claude CodeやCursorへの統合について議論しています。VoiceBoxは、そうしたシステムに
00:06:08クラウドサービスなしで音声レイヤーを追加できるのです。ワークフローも非常に綺麗です。
00:06:14UIも扱いやすく、何よりApple Siliconであれば、
00:06:18ローカルでのパフォーマンスが抜群に良いのが嬉しいですね。
00:06:23ただし、今年出たばかりのプロジェクトであることを忘れないでください。まだ初期段階なので、
00:06:28特にWindowsユーザーは、GPU検出やモデル設定、エクスポートなどで不具合に直面するかもしれません。
00:06:33その場合は、アプリを再起動すれば解決します。Macでも同様の現象がありましたが、再起動で直りました。
00:06:39長文の安定性に関しては、ElevenLabsにはまだ及びません。
00:06:46感情表現の制御も向上していますが、使用するモデルに依存します。
00:06:50「Shatterbox TTS Turbo」を選択すれば、感情パラメータが組み込まれています。
00:06:55結論として、VoiceBoxをインストールすべきか?その操作は非常に簡単でした。
00:07:00バラバラのツールをつなぎ合わせる摩擦から解放されるため、絶対に試す価値はあります。
00:07:04真の価値は音声の品質そのものだけでなく、コントロール性にあります。
00:07:09データ、コスト、統合性など、あらゆる面を自分で支配できるのです。それが重要なのです。
00:07:15導入は非常に簡単です。誰でもできます。公式サイトかGitHubのリリースから、
00:07:20自身のOS向けのインストーラーをダウンロードして起動し、必要なローカルモデルを取得するだけです。
00:07:25コンセプト自体が非常に強力ですし、今すぐにでも実用できるレベルです。
00:07:30このようなコーディングツールが好きなら、ぜひBetterStackチャンネルの登録を。
00:07:35また別の動画でお会いしましょう。

Key Takeaway

VoiceBoxは、ElevenLabs等の有料クラウドサービスに依存することなく、ローカル環境で音声クローンやディクテーション、エージェント統合を完結させるための高度なオープンソース・オールインワン・ツールである。

Highlights

  • VoiceBoxはローカル環境で動作するオープンソースの音声スタジオであり、ElevenLabsの無料かつ無制限の代替手段となる。

  • GitHubで約3万のスターを獲得しているVoiceBoxは、声のクローン、音声生成、システム全体のディクテーションを単一のアプリで統合する。

  • Dockerによるコンテナ起動よりもデスクトップアプリ版の方が導入と実行が高速で、Apple Siliconでのパフォーマンスが特に優れている。

  • Claude CodeやCursorなどのAIエージェントとMCPサポートを介して連携し、AIからのフィードバックを音声で受け取ることが可能。

  • クラウドサービスを介さないため、機密性の高い音声データや社内コンテンツを扱う際にプライバシーとコストの完全な制御を実現する。

Timeline

VoiceBoxの概要と利点

  • VoiceBoxは音声AIにおけるローカルLLM向け「Ollama」のような存在を目指している。
  • サブスクリプション料金や文字数制限が存在せず、ローカル環境で完全に動作する。
  • 文字起こし、音声クローン、マルチトラックエディタ、エージェント接続が1つのデスクトップアプリに統合されている。

クラウドベースのAIサービスが持つコストやデータプライバシーの懸念を排除する目的で開発された。個別のスクリプトを組み合わせる従来の手法とは異なり、全てのワークフローが単一のインターフェースにパッケージ化されている。

導入と実演

  • Mac M4環境において、デスクトップアプリ版を利用することで高速なセットアップと実行が可能である。
  • ボイスプロファイル作成は自身の録音または短いファイルのアップロードによって容易に行える。
  • システム全体で機能するディクテーション機能により、グローバルホットキーで任意のアプリへの直接入力が可能。

Docker経由の起動は時間がかかるため、デスクトップ版の利用が推奨される。APIキーなしでブラウザタブも経由せずに生成される音声は、ローカル環境で完全に制御可能であり、入力作業の効率化にも貢献する。

エージェント統合と競合比較

  • MCPサポートにより、ClaudeやCursorなどのエージェントがVoiceBoxを通じて音声で応答できる。
  • ElevenLabsは品質面で優れているが、クラウド依存とコスト発生が避けられない。
  • 機密性の高い社内開発環境において、ローカルファーストの運用は大きな強みとなる。

テキスト情報だけでなく、ビルドエラー等のフィードバックを音声化することで、開発者はより直感的なAIとの対話が可能になる。バラバラなツールを統合する摩擦から解放される点が最大の利点。

現状の課題と結論

  • 初期段階のプロジェクトであるため、GPU検出やモデル設定で不具合が発生した場合はアプリの再起動が有効である。
  • 長文の安定性ではElevenLabsに劣る場面があるが、モデル選択により感情表現の制御が可能である。
  • 公式サイトまたはGitHubからのインストーラー利用により、誰でも簡単に導入できる。

技術的な未成熟さはあるものの、コントロール性とプライバシーという観点から、開発者にとって実用的なレベルに達している。個別のツールを繋ぎ合わせる必要がないため、試す価値が高い。

Community Posts

View all posts