この超軽量な82Mモデルが、主要なTTS APIを圧倒(ローカル実行可能)

BBetter Stack
Computing/SoftwareSmall Business/StartupsLanguagesConsumer Electronics

Transcript

00:00:00わずか8200万パラメータのモデルが、はるかに巨大なTTSシステムを打ち負かしました。しかも
00:00:06ノートPC上で、ほとんどの有料APIよりも高速に動作します。
00:00:09先月、クラウドTTSにお金を払いましたが、それでもラグが発生しました。
00:00:13それは私には納得がいかないことでした。
00:00:14一体どうして、一部のオープンソースモデルがこれに勝っているのでしょうか?
00:00:17これが「Kokoro 82M」です。すでに一部の開発者によって導入され始めています。
00:00:22これがどのように機能するのか、そして何より、どのような音声なのか見ていきましょう。
00:00:30さて、テキスト読み上げ(TTS)を使って開発する場合、通常は2つの「良くない選択肢」のどちらかを選ぶことになります。
00:00:36最初の選択肢は、当然ながらクラウドAPIですよね?
00:00:39導入は簡単ですが、請求が発生し、レイテンシの急増に悩み、アプリが話すたびに
00:00:44また一つ依存関係が増えることになります。
00:00:46次の選択肢は、巨大なオープンモデルのようなものですが、今度はより多くの
00:00:51ハードウェアとメモリが必要になり、正直なところ、それでもそれほど速くはありません。
00:00:56スムーズであるべきものが、結局は遅く、高価に感じられたり、
00:01:00ただ壊れてしまったりするのです。
00:01:02ここでKokoroの出番です。
00:01:04これは100時間未満のデータでトレーニングされましたが、依然としてリーダーボードのトップにランクされています。
00:01:09わずかなサイズで、はるかに大きなモデルを凌駕し、Apache 2.0ライセンスで、CPUでも動作します。
00:01:15Apple Silicon上では驚くほど高速に動作し、正直言って異常な速さで音声を生成します。
00:01:19これで、ローカルの音声アプリやリアルタイムエージェントが、ようやく現実味を帯びてきます。
00:01:24このようなコーディングツールやヒントが気に入ったら、ぜひチャンネル登録をお願いします。
00:01:27動画は随時公開しています。
00:01:29それでは、実際にお見せしましょう。
00:01:31これらすべてを、Mac M4 Pro上でローカルに実行しています。
00:01:34セットアップは約30秒で終わります。このpipコマンドを実行するだけです。
00:01:39conda環境を使っていますが、それだけです。
00:01:42公式リポジトリにあるPythonスクリプトをそのまま使っており、テストのために
00:01:47何も変更する必要はありませんでした。ドラッグ・アンド・ドロップするだけで、これらすべての出力が得られます。
00:01:51ここで声や言語を選択できますが、最初のラウンドでは
00:01:56設定をそのままにしておきます。正直、そのままでも非常に音が良いからです。
00:02:00実行してみますので、聴いてみてください。
00:02:02「Better Stackは、主要なオブザーバビリティ・プラットフォームです。」
00:02:05「モニタリングをシンプルにします。」
00:02:07「AI SRE、ログ、メトリクス、トレース、エラー追跡機能を備えています。」
00:02:12「そして、インシデント対応をすべて一箇所にまとめます。」
00:02:14嘘偽りなく、かなり良かったですし、非常に速く出力されました。
00:02:19今度は切り替えて、フランス語にして、フランス語の声に変えてみましょう。
00:02:24テキストを少し変更して、もう一度実行します。
00:02:26「Better Stackは、並行して行われるオブザーバビリティのためのプラットフォームです。」
00:02:29「それはモニタリングを簡素化します。」
00:02:31私のフランス語はなまっているので、一言一句訳さないでほしいのですが、これも
00:02:36かなり良く聞こえました。
00:02:37皆さんが判断してみてください。
00:02:39すべてWAVファイルとして保存されるので、好きな時にダウンロードできます。
00:02:43クラウドは不要です。
00:02:44GPUも不要です。
00:02:45これはかなり凄いことです。
00:02:47では、Kokoro 82Mとは具体的に何なのでしょうか?
00:02:49大まかに言えば、軽量なボコーダーを備えたStyleTTS2モデルです。
00:02:55つまり、巨大化することなく、音が良くなるように作られているということです。それが
00:02:59他のモデルとの決定的な違いです。
00:03:00他のほとんどの選択肢は、より巨大化する方向へ向かいます。
00:03:01XTTS、Cozy Voice、F5 TTSなどは、数億から10億以上のパラメータを持っています。
00:03:0811 LabsやOpenAIのようなクラウドツールはハードウェアの問題を解決しますが、
00:03:13リクエストごとに料金を支払い、データを外部に送信することになります。
00:03:16Kokoroは逆の方向を目指しています。
00:03:19小型で起動が速く、ローカルで動作し、しかもメモリ消費量も大幅に抑えられています。
00:03:24欠点としては、標準ではゼロショット音声クローニングができないことですが、代わりに
00:03:29効率性と品質に重点を置いており、はるかに迅速に導入することができます。
00:03:33それでも8つの言語、54の音声、そしてMisakiのインポートによるかなり優れたコントロールが可能です。
00:03:39これが様々なタイプのエージェントにうまく適合するのが目に見えるようですが、
00:03:42感情の表現は一切ありません。それが今回、私が見たかったことなのですが。
00:03:47感情のないAIは、やはりAIらしい響きが強くなります。まあ、それは
00:03:52時には良いこともあるでしょうが。
00:03:53でも、感情をいじれるようになったら面白そうですよね。
00:03:56では、なぜ開発者はこれを使っているのでしょうか?
00:03:58まだお見せしていなかったので触れておきますが、音声機能でよく発生する問題を
00:04:02解決してくれるからです。
00:04:04まずはスピードです。
00:04:05エージェントの一時停止が長すぎてリアルさが損なわれる場合、Kokoroはその遅延を大幅に削減します。
00:04:11次にオフライン利用です。
00:04:13インターネットも不要、APIキーも不要、予期せぬ失敗もありません。
00:04:16素晴らしいことです。
00:04:17プライバシーも大きな要素です。Kokoroはすべてをローカルに保持するため、私にとっても、
00:04:22そして多くの皆さんにとっても、大きな利点になるでしょう。
00:04:23そして最後に、スケール時のコストです。
00:04:26非常に軽量なので、1台のマシンではるかに多くのインスタンスを実行できます。
00:04:30良かった点とそうでなかった点ですが、高速で小型な点は気に入りました。
00:04:33長編コンテンツでも自然な響きでした。
00:04:35これは本当にクールでした。
00:04:36私はこれ系のモデルをたくさん試してきました。
00:04:38Apache 2.0なので製品化も可能ですし、セットアップ後は基本的に無料です。
00:04:43これらはすべて、本当に、本当に素晴らしい点です。
00:04:44気に入っています。
00:04:45カッコいいですね。
00:04:46しかし、気に入らなかった点もあります。
00:04:47ネイティブの音声クローニングがない点。クローニングが必要かどうかによりますが、
00:04:51あっても良かったかなと。
00:04:52感情はかなりニュートラルです。
00:04:54ナレーションには最適ですが、ドラマチックなものには向いていません。
00:04:56感情を変える能力は全くありませんし、英語以外の音声は
00:05:02まだ改善の余地があります。
00:05:03そこは追加される必要があるかもしれませんが、考え方次第ですね。
00:05:07では、完璧かと言われれば?
00:05:08いいえ。
00:05:09しかし、コスト、レイテンシ、プライバシー、デプロイといった、私たちの多くが直面している問題に対しては、
00:05:14現時点で正しい解決策を提示しているようです。
00:05:18ぜひ遊んでみて、感想を教えてください。
00:05:19Kokoro 82Mは、優れたTTSを得るために巨大なモデルは必要ないことを証明しています。
00:05:24小さいということは速いということであり、速いということは使えるということであり、使えるということは、
00:05:29実際に世に出せるということです。
00:05:30音声エージェントやローカルツールを構築しているなら、試してみる価値があります。
00:05:34このようなコーディングツールやヒントが気に入ったら、Better Stackチャンネルの登録を忘れずに。
00:05:38また別の動画でお会いしましょう。

Key Takeaway

Kokoro 82Mは、8200万という極小のパラメータ数で有料API以上の低遅延と高品質な音声をローカル環境に提供し、開発者が抱えるコストとプライバシーの課題を解決する。

Highlights

Kokoro 82Mはわずか8200万パラメータのサイズでありながら、主要な有料TTS APIを上回る推論速度を実現している。

Apache 2.0ライセンスを採用しており、GPUを必要とせずApple Siliconや一般的なCPU上でのローカル実行が可能である。

100時間未満の学習データ量にもかかわらず、主要なTTSリーダーボードで上位にランクインしている。

英語を含む8つの言語と54種類の音声プロファイルに対応し、Misakiインポートによる細かな音声制御をサポートする。

数億から10億以上のパラメータを持つXTTSやF5 TTSと比較して、圧倒的な低メモリ消費量と高速な起動時間を両立している。

Timeline

既存TTSシステムが抱えるコストと遅延の課題

  • 従来のクラウドAPIは導入が容易な反面、継続的な利用料金とネットワークラグが発生する。
  • 大規模なオープンソースモデルは高いハードウェア性能と膨大なメモリを要求し、動作速度が実用的ではない。
  • アプリケーションが発話するたびに外部依存関係が増えることで、システムの複雑性が増大する。

有料のクラウドTTSサービスを利用してもレイテンシの問題は解決せず、リアルタイム性の求められるアプリ開発において障害となる。ノートPCで動作する軽量なモデルの欠如が、ローカル音声アプリの実現を阻んでいる。

Kokoro 82Mの技術的特徴とローカル実行性能

  • pipコマンドによるセットアップは約30秒で完了し、標準的なPythonスクリプトで即座に音声生成が可能である。
  • Mac M4 Proなどのローカル環境において、追加のチューニングなしで高品質な音声を生成する。
  • 出力はすべてWAVファイルとしてローカルに保存されるため、インターネット接続は不要である。

Apple Silicon上での動作は極めて高速であり、フランス語など多言語への切り替えも容易である。GPUに依存せず、CPUのみで多くの有料APIを凌駕するパフォーマンスを発揮する。

StyleTTS2アーキテクチャによる効率化と競合比較

  • 軽量なボコーダーを備えたStyleTTS2モデルを採用し、モデルサイズを抑えつつ音質の向上を実現している。
  • 10億パラメータを超えるXTTSやCozy Voiceとは対照的に、小型化と起動速度に特化している。
  • 音声クローニングや感情表現の機能は限定的だが、その分リソース効率と導入速度に優れる。

他の主要モデルが巨大化の道を辿る中、Kokoroは逆の方向性を目指している。感情表現を持たないニュートラルな音声特性は、実用的なエージェントやナレーション用途に適している。

開発者がKokoroを採用する4つのメリット

  • 応答の一時停止時間を削減することで、音声エージェントの対話におけるリアルさを向上させる。
  • データの外部送信が一切行われないため、高いプライバシー保護が必要な用途に適応する。
  • 1台のマシンで複数のインスタンスを並行稼働できるため、スケーリング時のコストを大幅に抑制できる。

Apache 2.0ライセンスにより製品化が容易であり、長編コンテンツでも自然な響きを維持する。コスト、遅延、プライバシー、デプロイという開発者が直面する主要な問題を、小型化というアプローチで解決している。

Community Posts

View all posts