00:00:00これはMicrosoftのVibe Voiceです。自分の声をクローンするのに使ってみました。
00:00:04オープンソースの音声スタックで、すでにElevenLabsやChatterbox、Whisperと比較されています。
00:00:10オフラインで動作し、一度に90分間のマルチスピーカー音声を生成できます。
00:00:1590分、あるいはそれに近い長さというのは驚異的です。では、開発者にとって実際に使えるものなのか、
00:00:20それともGPUを密かに消耗させるだけの単なる研究用リポジトリなのでしょうか。デモをいくつか実行し、
00:00:26他とどう違うか見ていきましょう。定期的に動画を公開していますので、
00:00:29ぜひチャンネル登録をお願いします。
00:00:31これらはすべて、彼らのリポジトリかHugging Faceから入手できます。さて、比較を始める前に、
00:00:40まず出力結果を見てみましょう。準備とセットアップは済ませてありますので、
00:00:45重要なポイントに集中できます。他のツールも使ってきたので、Vibe Voiceが
00:00:51どんな音質で、どこまで耐えられるのか、そしてどう活用できるのか非常に興味があります。
00:00:56マルチスピーカー出力、リアルタイムTTS、そして音声クローニングの順で進めていきます。
00:01:02これは3人の話者による短いポッドキャスト風のスクリプトで、交代や感情表現が含まれています。
00:01:08一般的なTTSのデモでは、最初は良くても徐々に不自然になりがちですが、
00:01:14ここで何が起きるか聞いてみてください。話者の一貫性が保たれており、
00:01:18切り替わりも崩れていません。それでは聞いてみましょう。
00:01:26なかなか良いですよね。20秒経っても文脈を見失っているようには聞こえません。
00:01:41そう、そこが大きなポイントです。Microsoftはこれを単なる遊び用ではなく、
00:01:46長尺の文脈を持つ音声生成やオフライン利用のために作りました。ただ、感情タグを追加すると、
00:01:52少し崩れ始めます。Chatterboxのように言葉に基づいて自動で感情を乗せる機能は、
00:01:58実際にはあまり良くありませんでした。これに関してはChatterboxの勝ちですね。
00:02:02しかし、AIポッドキャストやドキュメントの朗読、長尺のAIエージェント、
00:02:07あるいは学習データの作成などには、かなり役立つはずです。
00:02:11さて、リアルタイムモードに切り替えてみましょう。生成に時間がかかったマルチスピーカー版よりも
00:02:16はるかに高速に動作します。これは逐次ストリーミングなので、チャットボットの応答や
00:02:22音声アシスタントに向いています。最初のレイテンシは約300ミリ秒で、
00:02:28実用的ではありますが、最速というわけではありません。聞いてみましょう。
00:02:32「日本の桜の下でホットチョコレートを飲んでいるところを想像してみてください」
00:02:35なるほど。歌ったりBGMを生成したりもできると言われていますが、
00:02:40無理にやらせてみたところ、うまくいきませんでした。ですが、ここで重要なのは、
00:02:43これが商用レベルのリアルタイム性能かという点です。まだそこまでとは言えませんが、実験用としては十分です。
00:02:48さて、ここからが本番です。音声クローニングについて話しましょう。これは本当に素晴らしい機能でした。
00:02:53まず、Macのボイスメモを使って自分の声を録音しました。
00:02:58そのファイルをWAVに変換し、コマンドからGradioを起動します。
00:03:04このインターフェースから、自分の声をターゲット言語として選択できます。
00:03:10手順はそれだけ。ごく普通の録音です。自分の声に近いけれど、
00:03:14明らかに偽物だとわかるものを予想していましたが、これを聞いてください。「Vibe Voiceでクローンされた私の声です」
00:03:19正直、驚くほど良い音質です。私はこんなこと喋っていないので、少し怖いくらいです。
00:03:25私に似てはいますが、私のことをよく知っている人なら偽物だと見抜けるかもしれません。そう願いたいですね。
00:03:30完璧ではありませんが、安定しており、長尺の出力でも破綻しません。これは素晴らしいことです。
00:03:36Microsoftによると、このスタックは長尺生成を一度に行うことができ、実際、
00:03:41Whisperのようなパイプラインよりも、音声が長くなった時の安定性が目に見えて高いです。
00:03:47短いクリップ以上の音声クローニングを試したことがある人なら、この重要性がわかるはずです。
00:03:52デモは印象的で楽しめましたが、ドキュメントやフォーラムを確認すると、
00:03:56他の開発者からは賛否両論ありました。まずはメリット、その次に直面する課題について話します。
00:04:02メリットは非常に強力です。まず、間違いなく長尺に対応していること。
00:04:08多くのTTSは数分で平坦になったり壊れたりしますが、Vibe Voiceは長尺向けに設計されており、
00:04:14デモでもそれが証明されました。次に効率性と表現力です。
00:04:20低周波のオーディオトークナイザーを使用することで文脈を管理しやすくしています。そして拡散モデルと
00:04:27LLMを組み合わせることで、過度な負荷をかけずに表情豊かな音声を実現しています。また、
00:04:33MITライセンスでオフライン動作し、VRAM 7GB程度の家庭用GPUでリアルタイム動作する点も開発者フレンドリーです。
00:04:40ASR(自動音声認識)用のファインチューニングコードも含まれています。これは制限のない、
00:04:47非常に自由度の高いツールです。最後に、他のオープンソース同様、
00:04:53構造化されたASR出力が可能です。話者分離やタイムスタンプが最初から備わっているのは、
00:04:59文字起こしパイプラインを構築したことがある人なら、そのありがたみがわかるでしょう。
00:05:04一方で、欠点も感じました。これはまだ「研究用ソフトウェア」の域を出ていません。
00:05:11Microsoftがディープフェイクへの懸念から一部のコードを削除したことがすべてを物語っています。SDKは
00:05:17洗練されているとは言えません。また、音声に特有の癖が出ることもあります。
00:05:23ロボットのような抑揚になったり、間がおかしくなったり、3人以上のマルチスピーカーだと
00:05:28精度が落ちます。開発者たちはトークナイザーを高く評価する一方で、VRAMのスパイクには悩まされています。
00:05:33対応言語も限られています。中国語と英語は素晴らしいですが、
00:05:40それ以外の言語が必要な場合、Vibe Voiceは適していません。
00:05:46最後に、意味的な理解がゼロであるという欠点があります。文字は読みますが、中身は理解していません。
00:05:51感情タグで補えますが、タグを追加すると動作が不安定になることが多々あります。
00:05:56正直なところ、実験的なツールとしては素晴らしいですが、長期的に見て
00:06:02これが主流であり続けるかは不透明です。さて、皆さんが知りたい「時間を割く価値があるか」という点ですが、
00:06:06既存のワークフローと比較して、Vibe Voiceは他の競合とどう渡り合えるのでしょうか。
00:06:11まずVibe Voice対Chatterbox。以前、動画でChatterboxを
00:06:16取り上げましたが、あれは本当に優秀でした。Chatterboxはレイテンシが200ミリ秒以下で、
00:06:22感情表現が豊かであり、短い応答には最適でした。一見、
00:06:28Chatterboxの勝ちに見えますが、Vibe Voiceは長尺において圧倒しています。
00:06:35Chatterboxが30分以下の独白や対話向けなのに対し、Vibe Voiceは長尺をより上手く扱えます。
00:06:42ここは一長一短ですね。次にVibe VoiceとElevenLabsを比較しましょう。これは簡単です。
00:06:48発音の洗練度、ゼロショットクローニング、UXの面ではElevenLabsが勝ちますが、
00:06:54Vibe Voiceの強みはコストです。無料でオフライン、しかもオープンソースであることは大きな利点です。
00:07:00Vibe VoiceとWhisper、あるいはCozyVoiceの比較では、長尺で構造化された音声において
00:07:06Whisperを上回ります。CozyVoiceよりも表現力があり、Qwenベースのモデルも追いついてきてはいますが、
00:07:13コンテンツの長さという点では、まだVibe Voiceに分があります。
00:07:18ローカル環境で構築し、オープンソースを好み、長尺音声を重視する開発者なら、試す価値は十分にあります。
00:07:23もし即戦力の商用レベルを求めているなら、今のところは
00:07:28スルーしてもいいでしょう。とはいえ、音声クローニングを含め、触ってみる価値のある面白いプロジェクトです。
00:07:33Vibe Voiceは荒削りですが、パワフルで刺激的です。長尺のAI音声においては、
00:07:37久々に登場した非常に強力なオープンソーススタックです。Hugging Faceのデモや
00:07:43ドキュメントをぜひチェックしてみてください。それでは、また次の動画で。