この超軽量な82Mモデルが、主要なTTS APIを圧倒（ローカル実行可能）

日本語العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 한국어 Português Русский 中文

Computing/SoftwareSmall Business/StartupsLanguagesConsumer Electronics

Transcript

00:00:00わずか8200万パラメータのモデルが、はるかに巨大なTTSシステムを打ち負かしました。しかも

00:00:06ノートPC上で、ほとんどの有料APIよりも高速に動作します。

00:00:09先月、クラウドTTSにお金を払いましたが、それでもラグが発生しました。

00:00:13それは私には納得がいかないことでした。

00:00:14一体どうして、一部のオープンソースモデルがこれに勝っているのでしょうか？

00:00:17これが「Kokoro 82M」です。すでに一部の開発者によって導入され始めています。

00:00:22これがどのように機能するのか、そして何より、どのような音声なのか見ていきましょう。

00:00:30さて、テキスト読み上げ（TTS）を使って開発する場合、通常は2つの「良くない選択肢」のどちらかを選ぶことになります。

00:00:36最初の選択肢は、当然ながらクラウドAPIですよね？

00:00:39導入は簡単ですが、請求が発生し、レイテンシの急増に悩み、アプリが話すたびに

00:00:44また一つ依存関係が増えることになります。

00:00:46次の選択肢は、巨大なオープンモデルのようなものですが、今度はより多くの

00:00:51ハードウェアとメモリが必要になり、正直なところ、それでもそれほど速くはありません。

00:00:56スムーズであるべきものが、結局は遅く、高価に感じられたり、

00:01:00ただ壊れてしまったりするのです。

00:01:02ここでKokoroの出番です。

00:01:04これは100時間未満のデータでトレーニングされましたが、依然としてリーダーボードのトップにランクされています。

00:01:09わずかなサイズで、はるかに大きなモデルを凌駕し、Apache 2.0ライセンスで、CPUでも動作します。

00:01:15Apple Silicon上では驚くほど高速に動作し、正直言って異常な速さで音声を生成します。

00:01:19これで、ローカルの音声アプリやリアルタイムエージェントが、ようやく現実味を帯びてきます。

00:01:24このようなコーディングツールやヒントが気に入ったら、ぜひチャンネル登録をお願いします。

00:01:27動画は随時公開しています。

00:01:29それでは、実際にお見せしましょう。

00:01:31これらすべてを、Mac M4 Pro上でローカルに実行しています。

00:01:34セットアップは約30秒で終わります。このpipコマンドを実行するだけです。

00:01:39conda環境を使っていますが、それだけです。

00:01:42公式リポジトリにあるPythonスクリプトをそのまま使っており、テストのために

00:01:47何も変更する必要はありませんでした。ドラッグ・アンド・ドロップするだけで、これらすべての出力が得られます。

00:01:51ここで声や言語を選択できますが、最初のラウンドでは

00:01:56設定をそのままにしておきます。正直、そのままでも非常に音が良いからです。

00:02:00実行してみますので、聴いてみてください。

00:02:02「Better Stackは、主要なオブザーバビリティ・プラットフォームです。」

00:02:05「モニタリングをシンプルにします。」

00:02:07「AI SRE、ログ、メトリクス、トレース、エラー追跡機能を備えています。」

00:02:12「そして、インシデント対応をすべて一箇所にまとめます。」

00:02:14嘘偽りなく、かなり良かったですし、非常に速く出力されました。

00:02:19今度は切り替えて、フランス語にして、フランス語の声に変えてみましょう。

00:02:24テキストを少し変更して、もう一度実行します。

00:02:26「Better Stackは、並行して行われるオブザーバビリティのためのプラットフォームです。」

00:02:29「それはモニタリングを簡素化します。」

00:02:31私のフランス語はなまっているので、一言一句訳さないでほしいのですが、これも

00:02:36かなり良く聞こえました。

00:02:37皆さんが判断してみてください。

00:02:39すべてWAVファイルとして保存されるので、好きな時にダウンロードできます。

00:02:43クラウドは不要です。

00:02:44GPUも不要です。

00:02:45これはかなり凄いことです。

00:02:47では、Kokoro 82Mとは具体的に何なのでしょうか？

00:02:49大まかに言えば、軽量なボコーダーを備えたStyleTTS2モデルです。

00:02:55つまり、巨大化することなく、音が良くなるように作られているということです。それが

00:02:59他のモデルとの決定的な違いです。

00:03:00他のほとんどの選択肢は、より巨大化する方向へ向かいます。

00:03:01XTTS、Cozy Voice、F5 TTSなどは、数億から10億以上のパラメータを持っています。

00:03:0811 LabsやOpenAIのようなクラウドツールはハードウェアの問題を解決しますが、

00:03:13リクエストごとに料金を支払い、データを外部に送信することになります。

00:03:16Kokoroは逆の方向を目指しています。

00:03:19小型で起動が速く、ローカルで動作し、しかもメモリ消費量も大幅に抑えられています。

00:03:24欠点としては、標準ではゼロショット音声クローニングができないことですが、代わりに

00:03:29効率性と品質に重点を置いており、はるかに迅速に導入することができます。

00:03:33それでも8つの言語、54の音声、そしてMisakiのインポートによるかなり優れたコントロールが可能です。

00:03:39これが様々なタイプのエージェントにうまく適合するのが目に見えるようですが、

00:03:42感情の表現は一切ありません。それが今回、私が見たかったことなのですが。

00:03:47感情のないAIは、やはりAIらしい響きが強くなります。まあ、それは

00:03:52時には良いこともあるでしょうが。

00:03:53でも、感情をいじれるようになったら面白そうですよね。

00:03:56では、なぜ開発者はこれを使っているのでしょうか？

00:03:58まだお見せしていなかったので触れておきますが、音声機能でよく発生する問題を

00:04:02解決してくれるからです。

00:04:04まずはスピードです。

00:04:05エージェントの一時停止が長すぎてリアルさが損なわれる場合、Kokoroはその遅延を大幅に削減します。

00:04:11次にオフライン利用です。

00:04:13インターネットも不要、APIキーも不要、予期せぬ失敗もありません。

00:04:16素晴らしいことです。

00:04:17プライバシーも大きな要素です。Kokoroはすべてをローカルに保持するため、私にとっても、

00:04:22そして多くの皆さんにとっても、大きな利点になるでしょう。

00:04:23そして最後に、スケール時のコストです。

00:04:26非常に軽量なので、1台のマシンではるかに多くのインスタンスを実行できます。

00:04:30良かった点とそうでなかった点ですが、高速で小型な点は気に入りました。

00:04:33長編コンテンツでも自然な響きでした。

00:04:35これは本当にクールでした。

00:04:36私はこれ系のモデルをたくさん試してきました。

00:04:38Apache 2.0なので製品化も可能ですし、セットアップ後は基本的に無料です。

00:04:43これらはすべて、本当に、本当に素晴らしい点です。

00:04:44気に入っています。

00:04:45カッコいいですね。

00:04:46しかし、気に入らなかった点もあります。

00:04:47ネイティブの音声クローニングがない点。クローニングが必要かどうかによりますが、

00:04:51あっても良かったかなと。

00:04:52感情はかなりニュートラルです。

00:04:54ナレーションには最適ですが、ドラマチックなものには向いていません。

00:04:56感情を変える能力は全くありませんし、英語以外の音声は

00:05:02まだ改善の余地があります。

00:05:03そこは追加される必要があるかもしれませんが、考え方次第ですね。

00:05:07では、完璧かと言われれば？

00:05:08いいえ。

00:05:09しかし、コスト、レイテンシ、プライバシー、デプロイといった、私たちの多くが直面している問題に対しては、

00:05:14現時点で正しい解決策を提示しているようです。

00:05:18ぜひ遊んでみて、感想を教えてください。

00:05:19Kokoro 82Mは、優れたTTSを得るために巨大なモデルは必要ないことを証明しています。

00:05:24小さいということは速いということであり、速いということは使えるということであり、使えるということは、

00:05:29実際に世に出せるということです。

00:05:30音声エージェントやローカルツールを構築しているなら、試してみる価値があります。

00:05:34このようなコーディングツールやヒントが気に入ったら、Better Stackチャンネルの登録を忘れずに。

00:05:38また別の動画でお会いしましょう。

Key Takeaway

Kokoro 82Mは、8200万という極小のパラメータ数で有料API以上の低遅延と高品質な音声をローカル環境に提供し、開発者が抱えるコストとプライバシーの課題を解決する。

Highlights

Kokoro 82Mはわずか8200万パラメータのサイズでありながら、主要な有料TTS APIを上回る推論速度を実現している。

Apache 2.0ライセンスを採用しており、GPUを必要とせずApple Siliconや一般的なCPU上でのローカル実行が可能である。

100時間未満の学習データ量にもかかわらず、主要なTTSリーダーボードで上位にランクインしている。

英語を含む8つの言語と54種類の音声プロファイルに対応し、Misakiインポートによる細かな音声制御をサポートする。

数億から10億以上のパラメータを持つXTTSやF5 TTSと比較して、圧倒的な低メモリ消費量と高速な起動時間を両立している。

Timeline

既存TTSシステムが抱えるコストと遅延の課題

従来のクラウドAPIは導入が容易な反面、継続的な利用料金とネットワークラグが発生する。
大規模なオープンソースモデルは高いハードウェア性能と膨大なメモリを要求し、動作速度が実用的ではない。
アプリケーションが発話するたびに外部依存関係が増えることで、システムの複雑性が増大する。

有料のクラウドTTSサービスを利用してもレイテンシの問題は解決せず、リアルタイム性の求められるアプリ開発において障害となる。ノートPCで動作する軽量なモデルの欠如が、ローカル音声アプリの実現を阻んでいる。

Kokoro 82Mの技術的特徴とローカル実行性能

pipコマンドによるセットアップは約30秒で完了し、標準的なPythonスクリプトで即座に音声生成が可能である。
Mac M4 Proなどのローカル環境において、追加のチューニングなしで高品質な音声を生成する。
出力はすべてWAVファイルとしてローカルに保存されるため、インターネット接続は不要である。

Apple Silicon上での動作は極めて高速であり、フランス語など多言語への切り替えも容易である。GPUに依存せず、CPUのみで多くの有料APIを凌駕するパフォーマンスを発揮する。

StyleTTS2アーキテクチャによる効率化と競合比較

軽量なボコーダーを備えたStyleTTS2モデルを採用し、モデルサイズを抑えつつ音質の向上を実現している。
10億パラメータを超えるXTTSやCozy Voiceとは対照的に、小型化と起動速度に特化している。
音声クローニングや感情表現の機能は限定的だが、その分リソース効率と導入速度に優れる。

他の主要モデルが巨大化の道を辿る中、Kokoroは逆の方向性を目指している。感情表現を持たないニュートラルな音声特性は、実用的なエージェントやナレーション用途に適している。

開発者がKokoroを採用する4つのメリット

応答の一時停止時間を削減することで、音声エージェントの対話におけるリアルさを向上させる。
データの外部送信が一切行われないため、高いプライバシー保護が必要な用途に適応する。
1台のマシンで複数のインスタンスを並行稼働できるため、スケーリング時のコストを大幅に抑制できる。

Apache 2.0ライセンスにより製品化が容易であり、長編コンテンツでも自然な響きを維持する。コスト、遅延、プライバシー、デプロイという開発者が直面する主要な問題を、小型化というアプローチで解決している。

Community Posts

Kokoro 82Mモデルで有料TTS購読料を0円にする技術的設計

makedream19 日前4950

Write about this video