00:00:00わずか8200万パラメータのモデルが、はるかに巨大なTTSシステムを打ち負かしました。しかも
00:00:06ノートPC上で、ほとんどの有料APIよりも高速に動作します。
00:00:09先月、クラウドTTSにお金を払いましたが、それでもラグが発生しました。
00:00:13それは私には納得がいかないことでした。
00:00:14一体どうして、一部のオープンソースモデルがこれに勝っているのでしょうか?
00:00:17これが「Kokoro 82M」です。すでに一部の開発者によって導入され始めています。
00:00:22これがどのように機能するのか、そして何より、どのような音声なのか見ていきましょう。
00:00:30さて、テキスト読み上げ(TTS)を使って開発する場合、通常は2つの「良くない選択肢」のどちらかを選ぶことになります。
00:00:36最初の選択肢は、当然ながらクラウドAPIですよね?
00:00:39導入は簡単ですが、請求が発生し、レイテンシの急増に悩み、アプリが話すたびに
00:00:44また一つ依存関係が増えることになります。
00:00:46次の選択肢は、巨大なオープンモデルのようなものですが、今度はより多くの
00:00:51ハードウェアとメモリが必要になり、正直なところ、それでもそれほど速くはありません。
00:00:56スムーズであるべきものが、結局は遅く、高価に感じられたり、
00:01:00ただ壊れてしまったりするのです。
00:01:02ここでKokoroの出番です。
00:01:04これは100時間未満のデータでトレーニングされましたが、依然としてリーダーボードのトップにランクされています。
00:01:09わずかなサイズで、はるかに大きなモデルを凌駕し、Apache 2.0ライセンスで、CPUでも動作します。
00:01:15Apple Silicon上では驚くほど高速に動作し、正直言って異常な速さで音声を生成します。
00:01:19これで、ローカルの音声アプリやリアルタイムエージェントが、ようやく現実味を帯びてきます。
00:01:24このようなコーディングツールやヒントが気に入ったら、ぜひチャンネル登録をお願いします。
00:01:27動画は随時公開しています。
00:01:29それでは、実際にお見せしましょう。
00:01:31これらすべてを、Mac M4 Pro上でローカルに実行しています。
00:01:34セットアップは約30秒で終わります。このpipコマンドを実行するだけです。
00:01:39conda環境を使っていますが、それだけです。
00:01:42公式リポジトリにあるPythonスクリプトをそのまま使っており、テストのために
00:01:47何も変更する必要はありませんでした。ドラッグ・アンド・ドロップするだけで、これらすべての出力が得られます。
00:01:51ここで声や言語を選択できますが、最初のラウンドでは
00:01:56設定をそのままにしておきます。正直、そのままでも非常に音が良いからです。
00:02:00実行してみますので、聴いてみてください。
00:02:02「Better Stackは、主要なオブザーバビリティ・プラットフォームです。」
00:02:05「モニタリングをシンプルにします。」
00:02:07「AI SRE、ログ、メトリクス、トレース、エラー追跡機能を備えています。」
00:02:12「そして、インシデント対応をすべて一箇所にまとめます。」
00:02:14嘘偽りなく、かなり良かったですし、非常に速く出力されました。
00:02:19今度は切り替えて、フランス語にして、フランス語の声に変えてみましょう。
00:02:24テキストを少し変更して、もう一度実行します。
00:02:26「Better Stackは、並行して行われるオブザーバビリティのためのプラットフォームです。」
00:02:29「それはモニタリングを簡素化します。」
00:02:31私のフランス語はなまっているので、一言一句訳さないでほしいのですが、これも
00:02:36かなり良く聞こえました。
00:02:37皆さんが判断してみてください。
00:02:39すべてWAVファイルとして保存されるので、好きな時にダウンロードできます。
00:02:43クラウドは不要です。
00:02:44GPUも不要です。
00:02:45これはかなり凄いことです。
00:02:47では、Kokoro 82Mとは具体的に何なのでしょうか?
00:02:49大まかに言えば、軽量なボコーダーを備えたStyleTTS2モデルです。
00:02:55つまり、巨大化することなく、音が良くなるように作られているということです。それが
00:02:59他のモデルとの決定的な違いです。
00:03:00他のほとんどの選択肢は、より巨大化する方向へ向かいます。
00:03:01XTTS、Cozy Voice、F5 TTSなどは、数億から10億以上のパラメータを持っています。
00:03:0811 LabsやOpenAIのようなクラウドツールはハードウェアの問題を解決しますが、
00:03:13リクエストごとに料金を支払い、データを外部に送信することになります。
00:03:16Kokoroは逆の方向を目指しています。
00:03:19小型で起動が速く、ローカルで動作し、しかもメモリ消費量も大幅に抑えられています。
00:03:24欠点としては、標準ではゼロショット音声クローニングができないことですが、代わりに
00:03:29効率性と品質に重点を置いており、はるかに迅速に導入することができます。
00:03:33それでも8つの言語、54の音声、そしてMisakiのインポートによるかなり優れたコントロールが可能です。
00:03:39これが様々なタイプのエージェントにうまく適合するのが目に見えるようですが、
00:03:42感情の表現は一切ありません。それが今回、私が見たかったことなのですが。
00:03:47感情のないAIは、やはりAIらしい響きが強くなります。まあ、それは
00:03:52時には良いこともあるでしょうが。
00:03:53でも、感情をいじれるようになったら面白そうですよね。
00:03:56では、なぜ開発者はこれを使っているのでしょうか?
00:03:58まだお見せしていなかったので触れておきますが、音声機能でよく発生する問題を
00:04:02解決してくれるからです。
00:04:04まずはスピードです。
00:04:05エージェントの一時停止が長すぎてリアルさが損なわれる場合、Kokoroはその遅延を大幅に削減します。
00:04:11次にオフライン利用です。
00:04:13インターネットも不要、APIキーも不要、予期せぬ失敗もありません。
00:04:16素晴らしいことです。
00:04:17プライバシーも大きな要素です。Kokoroはすべてをローカルに保持するため、私にとっても、
00:04:22そして多くの皆さんにとっても、大きな利点になるでしょう。
00:04:23そして最後に、スケール時のコストです。
00:04:26非常に軽量なので、1台のマシンではるかに多くのインスタンスを実行できます。
00:04:30良かった点とそうでなかった点ですが、高速で小型な点は気に入りました。
00:04:33長編コンテンツでも自然な響きでした。
00:04:35これは本当にクールでした。
00:04:36私はこれ系のモデルをたくさん試してきました。
00:04:38Apache 2.0なので製品化も可能ですし、セットアップ後は基本的に無料です。
00:04:43これらはすべて、本当に、本当に素晴らしい点です。
00:04:44気に入っています。
00:04:45カッコいいですね。
00:04:46しかし、気に入らなかった点もあります。
00:04:47ネイティブの音声クローニングがない点。クローニングが必要かどうかによりますが、
00:04:51あっても良かったかなと。
00:04:52感情はかなりニュートラルです。
00:04:54ナレーションには最適ですが、ドラマチックなものには向いていません。
00:04:56感情を変える能力は全くありませんし、英語以外の音声は
00:05:02まだ改善の余地があります。
00:05:03そこは追加される必要があるかもしれませんが、考え方次第ですね。
00:05:07では、完璧かと言われれば?
00:05:08いいえ。
00:05:09しかし、コスト、レイテンシ、プライバシー、デプロイといった、私たちの多くが直面している問題に対しては、
00:05:14現時点で正しい解決策を提示しているようです。
00:05:18ぜひ遊んでみて、感想を教えてください。
00:05:19Kokoro 82Mは、優れたTTSを得るために巨大なモデルは必要ないことを証明しています。
00:05:24小さいということは速いということであり、速いということは使えるということであり、使えるということは、
00:05:29実際に世に出せるということです。
00:05:30音声エージェントやローカルツールを構築しているなら、試してみる価値があります。
00:05:34このようなコーディングツールやヒントが気に入ったら、Better Stackチャンネルの登録を忘れずに。
00:05:38また別の動画でお会いしましょう。