00:00:00これはメールで済んだ話かもしれません。
00:00:02これはメールで済んだはずの内容です。
00:00:04全く同じ文章ですが、話し方が完全に異なります。
00:00:07「普通に始めて、徐々にイライラした口調に」と入力しただけです。
00:00:11それだけです。
00:00:12マークアップも、データを外部に送るAPIも不要。
00:00:15これがQwen2-TTSです。
00:00:17トーンを指定でき、指示を理解する新しいオープンソース音声モデルです。
00:00:22Eleven LabsやChatterboxと比べてどうなのか見てみましょう。
00:00:30多くのオープンソース音声モデルには、感情が欠けています。
00:00:34Chatterboxも試しましたが、あれはなかなか良かったです。
00:00:37Qwenにこの機能があると知り、音声クローンだけでなく、
00:00:41感情表現が他と比べてどうなのか確かめたくなりました。
00:00:44正直なところ、嬉しい驚きがありました。
00:00:47Chatterboxには感情スライダーがありますが、Qwenでは、
00:00:50どう聞こえてほしいかを文字で入力するだけで、より自由度が高いです。
00:00:55軽量モデルでは3秒の音声クローンが可能で、後ほど試してみます。
00:00:591.7Bモデルにアップグレードするとクローン機能はなくなりますが、
00:01:0297ミリ秒の低遅延でリアルタイムストリーミングが可能になり、
00:01:05自然なコードスイッチングを含む10言語に対応し、100%ローカルで動作します。
00:01:09しかも無料です。
00:01:09Apache 2.0ライセンスです。
00:01:11つまり、高速な試作、プライベート音声エージェント、支援ツールに最適です。
00:01:16最新ツールを常にチェックしたい方は、ぜひチャンネル登録をお願いします。
00:01:19常に新しい動画を公開しています。
00:01:21クローンは簡単ですが、
00:01:22感情の表現はより困難です。
00:01:23ですので、限界まで試してみましょう。
00:01:25まずはクローン機能のテストから始めます。
00:01:28リファレンスとして、あらかじめ録音しておいた自分の音声をアップロードします。
00:01:32次に、リファレンステキストにその音声の内容を入力します。
00:01:37そして、ターゲットテキストに出力したい文章を入力します。
00:01:42以上です。
00:01:43実は、実行には予想以上に時間がかかりました。
00:01:46品質が伴っていることを期待して、聞いてみましょう。
00:01:49「このモデルを使った音声はどう聞こえますか?」
00:01:51軽量モデル、特にQwenにしては悪くないですが、
00:01:55明らかにAI生成だとわかる箇所もいくつかありました。
00:01:59決して驚くほど素晴らしいというわけではありません。
00:02:01これまでで最高だったのはMicrosoftのVibe Voiceで、あれは衝撃的でした。
00:02:07これは「まあまあ」といったところです。
00:02:08オーケー。
00:02:09これで音声クローンのテストは完了です。
00:02:10チェック。
00:02:11では、1.7Bモデルに切り替えて、テキストに感情を加えていき、
00:02:16Qwenがどう処理するか見てみましょう。
00:02:19実際に役立ちそうな例をお見せします。
00:02:22指示ボックスに「サスペンス風のナレーターで。徐々に盛り上げて、
00:02:26最後はホッとした笑い声を」と入力します。
00:02:28テキストには、Qwenについての基本的な情報を入れます。
00:02:32せっかくですからね。
00:02:33聞いてみましょう。
00:02:34「Alibabaの新しいオープンソースTTSモデルは、
00:02:37ついに本物の声優と話しているような感覚を与えてくれます」
00:02:42なるほど。
00:02:42少しズレている部分もありましたね。
00:02:44すべてのトーンを拾ったわけではありませんが、多くは正解でした。
00:02:47ドロップダウンもプリセットもありません。
00:02:49自分たちが望む音を直接指示しているのです。
00:02:51次は、実際にやり取りしそうな人物の声を想定してみましょう。
00:02:55何かプロジェクトを立ち上げているとします。
00:02:57内容を入力しましょう。
00:02:58テストコードの作成についての文章にします。
00:03:01指示ボックスには「若くて熱心な開発者の声で。
00:03:03少し皮肉屋だけどフレンドリーに」と入力します。
00:03:07単に「音声プリセット12」を選んでいるのではありません。
00:03:10どんな性格の声にしたいかを正確に描写したのです。
00:03:13聞いてみましょう。
00:03:14「コードテストを書くとは、プログラムが正しく動くか慎重に確認することです」
00:03:20さて、他と比べてどうなのか気になるでしょう。
00:03:22Eleven Labsは依然として王座にありますが、費用がかかり、データも外部に送られます。
00:03:26Chatterboxも優秀です。
00:03:28私が使った中でも上位に入り、感情表現も優れています。
00:03:31音声クローンを最優先するなら、私は今でもVibe Voiceを推します。あれは怖いくらい凄いです。
00:03:36Qwen2-TTSの強みは、声を自然な言葉で描写し、素早く試行錯誤できる点にあります。
00:03:41明らかに優れた点がいくつかあります。
00:03:43自然言語による操作は、素早いイテレーションに最適です。
00:03:47完全ローカルかつプライベートで、リアルタイムエージェントにも対応しており、
00:03:50音声のデザインもより直感的に感じられます。
00:03:55逆に、あまり良くない点についても触れておきます。
00:03:57これは新しいモデルですからね。
00:04:00一部の言語では、まだ成熟の余地があります。
00:04:03他のTTS同様、最高のパフォーマンスにはGPUを推奨します。
00:04:06CPUでも動作はしますが、
00:04:07単に処理が遅くなります。
00:04:09また、感情の質はプロンプトの指示の良し悪しに大きく依存します。
00:04:13指示が曖昧だと、出力も曖昧になってしまいます。
00:04:16さて、セットアップは大変でしょうか?
00:04:19いいえ、全くそんなことはありません。
00:04:20非常に簡単です。
00:04:22リポジトリをクローンし、依存関係をインストールして、Web UIを起動し、localhostを開くだけ。
00:04:26ゼロからデモが動く状態まで、文字通り数分で終わりました。
00:04:32APIキーも不要です。
00:04:33課金も発生しません。
00:04:34すべて自分のマシン内で完結します。
00:04:35これこそが、オープンソースの音声ツールの理想的な姿です。
00:04:38こうしたツールを試して、それぞれの特徴を知るのは本当に面白いです。
00:04:43Qwen2-TTSは、高速でプライベート、そして開発者が制御しやすいツールです。
00:04:46ぜひ自分で試してみてください。
00:04:48リンクは概要欄に貼っておきます。
00:04:49このようなローカルツールをさらに知りたい方は、ぜひ登録をお願いします。
00:04:52では、また次の動画でお会いしましょう。