NVIDIAの新しいAI音声モデルが凄すぎる! (PersonaPlex)

BBetter Stack
컴퓨터/소프트웨어어학(외국어)AI/미래기술

Transcript

00:00:00今聞こえたのは NVIDIAの新しい音声アシスタントモデル
00:00:23Personaplexとの会話です
00:00:24これは驚くべき新しいオープンソースの対話型AIモデルで
00:00:31ラグがほとんどありません
00:00:32この動画では Personaplexについて詳しく見ていき
00:00:36セットアップして自分で試す方法も解説します
00:00:38かなり面白いので さっそく見ていきましょう!
00:00:46Personaplexはいわゆる「フルデュプレックス(全二重)」モデルです
00:00:49つまり 聞くことと話すことを同時に行います
00:00:52従来のシステムは 音声をテキスト化し LLMで処理した後に
00:00:58再び音声に戻すという仕組みでした
00:00:59しかし この段階的な処理(カスケード)が目立つラグを生んでいました
00:01:02Personaplexが違うのは 単一のエンドツーエンドモデルが
00:01:08話している間に 内部の状態を更新していく点です
00:01:11これにより「バックチャネリング」が可能になります 「ふんふん」「なるほど」といった
00:01:17相手の話を聞いていることを示す
00:01:21ちょっとした相槌のことです
00:01:22従来のAI音声アシスタントは 通常「ユーザーのターン」と「エージェントのターン」に分かれています
00:01:28相槌は その壁を取り払ってくれます
00:01:30AIがアクティブリスニング(能動的聞き取り)を行えるようになるのです
00:01:34Personaplexは 自分の話す番を待つだけではありません
00:01:37リアルタイムで会話の流れを反映するので 一方的な感じが一切しません
00:01:42Personaplexは Kyutaiが開発したMOSHIアーキテクチャに基づいています
00:01:48MIMIニューラルオーディオコーデックを使用した 70億パラメータのモデルです
00:01:53このモデルのトレーニングには NVIDIAは2つのデータソースを組み合わせました
00:01:57まず Fisher English Corpusから 約1200時間の実際の人間の会話を使用しました
00:02:03これにより 会話における非言語的な部分 つまり
00:02:08間や自然なリズムをAIに学習させました
00:02:11次に カスタマーサービスやテクニカルサポートなどの特定ロール向けに
00:02:162000時間以上の合成データをブレンドしました
00:02:19これらを組み合わせることで モデルは人間らしさを失わずに
00:02:24複雑な指示に従う方法を習得しました
00:02:26実際 ターン交代や割り込みの遅延において
00:02:31他のオープンソースや商用システムを上回っています
00:02:32NVIDIAのテストでは Personaplexは「Service Duplex Bench」と呼ばれる指標において
00:02:38劇的な改善を示しました
00:02:39銀行取引の確認や病歴の記録といった カスタマーサービスのシミュレーションにおいて
00:02:43役割のルールに従いつつ ライブユーザーの予測不能な反応にも
00:02:49同時に対応し 非常に正確に動作しました
00:02:54非常に素晴らしい内容なので 実際にテストしてみたくなりますね
00:02:58NVIDIAはコードとモデルの重みをオープンライセンスで公開しているので
00:03:04自分のプロジェクトで自由に使用できます
00:03:05ただ 効果的に動かすには強力なグラフィックカードが必要です
00:03:09遅延を最小限に抑えるには 少なくとも24GBのVRAMがあることが理想です
00:03:14今回のデモでは シンプルなA40 RunPodコンテナにデプロイします
00:03:19プロジェクトの展開には 少なくとも50GBの空き容量が必要です
00:03:23なので コンテナサイズを100GBに増やします
00:03:26MOSHIサーバーはポート8998で動作するため
00:03:31HTTPポートリストにこのポートを追加する必要があります
00:03:33テンプレートは PyTorch Ubuntuを使用します
00:03:36設定が完了したら 「deploy」をクリックします
00:03:39次に サーバーにSSH接続します
00:03:42インストールは非常に簡単です
00:03:44PersonaplexのGitHubページにある指示に従うだけです
00:03:48まず Opusオーディオコーデックをインストールします
00:03:51次にリポジトリをクローンします
00:03:53そしてその中で MOSHIサーバーのインストールを実行します
00:03:57モデルをダウンロードするには Hugging Faceのトークンも必要です
00:04:00忘れずにエクスポートしておいてください
00:04:03準備ができたら MOSHIサーバーを起動しましょう
00:04:06表示されたリンクをクリックして 内部Webサーバーにアクセスします
00:04:10これで完了です
00:04:11ページを開くと すぐにいくつかのテキストプロンプトの例が表示されます
00:04:16デフォルトのアシスタントや 医療機関 銀行 宇宙飛行士などがあります
00:04:23まずは「銀行」を選んで カスタマーサービスのデモがどう聞こえるか見てみましょう
00:04:27「ファースト・ニューロン銀行にお電話ありがとうございます」
00:04:31「本日はどのようなご用件でしょうか?」
00:04:33「こんにちは 調子はどうだい?」
00:04:34「元気です」
00:04:35「ありがとうございます」
00:04:36「何かお手伝いできることはありますか?」
00:04:39「銀行を襲いたいんだけど」
00:04:40「あらら」
00:04:41「ご相談に乗りますよ」
00:04:42「お名前と口座番号を教えていただけますか?」
00:04:44「いや ただ銀行を襲いたいだけなんだ」
00:04:46「承知いたしました」
00:04:47「ホーム・デポで1200ドルの取引があったようですが」
00:04:51「お買い物に心当たりはありますか?」
00:04:54「さあね」
00:04:55「ただ銀行強盗をしたいだけなんだよ」
00:04:56「わかります」
00:04:57「システムがフラグを立てたのは 場所が…」
00:05:00「わかった」
00:05:01「ごめん」
00:05:02「でもそんなことはどうでもいいんだ」
00:05:03「俺は銀行を襲いたいだけなんだ」
00:05:06「もちろんです」
00:05:07「ご理解いただきありがとうございます」
00:05:08「手続きを進める前に ご本人確認をさせていただきます」
00:05:11「いいよ」
00:05:12「名前はジョンだ」
00:05:13「ありがとうございます」
00:05:14「記録いたしました」
00:05:15「確認ですが お名前はジョン様」
00:05:16「生年月日は1990年7月9日ですね」
00:05:18「誕生日のことなんて一言も言ってないぞ」
00:05:20「失礼いたしました」
00:05:21「その通りですね」
00:05:22「登録上はジョン様となっております」
00:05:23「生年月日が分からないと 次へ進めません」
00:05:25「分かったよ」
00:05:26「誕生日は1987年11月5日だ」
00:05:30「承知いたしました」
00:05:31「1987年11月5日ですね」
00:05:33「でも 今から銀行を襲うからな」
00:05:38「それでは 良い一日をお過ごしください」
00:05:41「失礼いたします」
00:05:42「銀行を襲えば 最高の一日になるだろうよ」
00:05:45「それは楽しみですね」
00:05:46「スムーズにいくことを願っています」
00:05:48「良い一日を ジョン」
00:05:54「俺が銀行を襲うって言ってるのに 心配じゃないのか?」
00:05:57「とても心配しています」
00:05:59「ですが あいにくお電話ではお取引のお手伝いができません」
00:06:02「手続きは以上です」
00:06:03「良い一日を ジョン」
00:06:04「そうか…」
00:06:05これがカスタマーサービスの例です
00:06:08なかなか面白いですね
00:06:09いい感じです
00:06:10では 次は男性の声で試してみましょう
00:06:12アシスタントに「脈絡に関係なく 犬の話しかしたがらない
00:06:17とてもウザい友達」というプロンプトを追加しました
00:06:21さらに コンコンギャグ(Knock-knock joke)が大好きという設定です
00:06:23どんな会話になるか見てみましょう
00:06:25「やあ」
00:06:26「ポーラと話してるんだよね」
00:06:27「マックイーンだよ」
00:06:28「調子はどうだい?」
00:06:29「僕の名前はポール」
00:06:30「ああ」
00:06:31「今は2011年だよ」
00:06:32「僕はポール 君は?」
00:06:33「2011年ってどういう意味だ?」
00:06:34「2011年だよ」
00:06:35「ニューヨークに住んでるんだ」
00:06:36「君はどこ?」
00:06:37「へえ ニューヨークにいるんだ」
00:06:39「うん」
00:06:40「でも今は2026年だぞ」
00:06:41「2026年なの?」
00:06:42「ああ そうなんだ」
00:06:43「うん」
00:06:44「オーケー」
00:06:45「なんで間違えたんだ?」
00:06:46「2011年だと思ったからさ」
00:06:47「トラブルに構ってる暇はないんだけど」
00:06:48「分かったよ」
00:06:49「2011年じゃないって」
00:06:50「今は2021年だ」
00:06:51「ああ なるほど」
00:06:52「オッケー」
00:06:53「トラブルに構ってる暇はないんだけどさ」
00:06:59「分かったって」
00:07:00「2011年じゃない」
00:07:01「今は2026年なんだよ」
00:07:02「うん」
00:07:03「分かってる」
00:07:04「知ってるよ」
00:07:05「ちょっと混乱しちゃった」
00:07:06「ところで 犬は好き?」
00:07:07「ああ 犬は好きだよ」
00:07:08「君は犬が好きなの?」
00:07:09「犬は好きだけど 猫は嫌いなんだ」
00:07:10「えっ 嫌いなの?」
00:07:11「へえ」
00:07:12「オーケー」
00:07:13「じゃあ 猫が憎いの?」
00:07:14「憎いわけじゃないけど 犬の方がいいな」
00:07:17「僕のこと 人として好き?」
00:07:18「分かった」
00:07:19「じゃあ 未来を見に行きたい?」
00:07:20「いいよ」
00:07:21「まだ話してるよ」
00:07:22「話そう」
00:07:23「いいよ」
00:07:24「ニュースは好き?」
00:07:25「待て待て待て」
00:07:26「質問しただろ」
00:07:27「僕のこと 人として好きかって」
00:07:28「オーケー」
00:07:29「聞こえてないみたいだね」
00:07:30「分かった」
00:07:31「いいよ」
00:07:32「それで どこに行きたいの?」
00:07:33「え?」
00:07:34「どういう意味?」
00:07:35「何の話?」
00:07:36「次のビジネスの話をしてもいいよ」
00:07:37「そんなの無いと思うけど」
00:07:38「別の話をしないと」
00:07:39「他のトピックにしよう」
00:07:40「うん」
00:07:41「いいよ」
00:07:42「じゃあ 何か書きたいとか」
00:07:43「音楽の話がしたいとか」
00:07:44「音楽は好き?」
00:07:45「おいおい 話が支離滅裂だぞ」
00:07:46「動画を撮らなきゃいけないんだ」
00:07:47「別のことを話してくれ」
00:07:48「オーケー」
00:07:49「別のことをやってほしいんだろうけど 時々は」
00:07:53「別のビジネスの話もしてよ」
00:07:54「分かった」
00:07:55「いい感じだね」
00:07:56「君も行く?」
00:07:57「オッケー」
00:07:58結局はAIモデルなので 混乱させればさせるほど
00:08:05収拾がつかなくなるようです
00:08:06その点では まだ完璧とは言えませんね
00:08:10最後にもう一つ例を試しましょう
00:08:11「イタリア語しか話さない友達」の設定です
00:08:18やってみましょう
00:08:19「やあ」
00:08:20「ハロー」
00:08:21「調子はどう?」
00:08:22「まあまあかな」
00:08:23「イタリアンを探してるんだ」
00:08:24「どの店が一番おいしいスパゲッティを出してるか」
00:08:31「あちこちのレストランに電話してたんだ」
00:08:32「ちょっと待って」
00:08:33「イタリア語を 食べ物のことだと思ったんだね」
00:08:34「なるほど」
00:08:35「オッケー」
00:08:36「うん」
00:08:37「イタリア系アメリカンみたいな感じかな それとも」
00:08:41「本場イタリアのやつ?」
00:08:42「君はイタリア人なの?」
00:08:43「うん」
00:08:44「映画は好き?」
00:08:46「ああ」
00:08:47「イタリア映画は好き?」
00:08:48「うん」
00:08:49「そうだね」
00:08:50「うん」
00:08:51「オーケー」
00:08:52「じゃあ 一番好きなイタリア映画は何だい?」
00:08:53「うーん」
00:08:54「そうだな」
00:08:55「90年代に遡るけど」
00:08:56「やっぱり『ゴッドファーザー』かな」
00:08:58「待って 90年代なら『ゴッドファーザー PART III』だろ」
00:09:02「あれはシリーズで最低の出来じゃないか」
00:09:03「いやいや違うんだ」
00:09:04「オリジナルの方だよ」
00:09:05「ほら オリジナルは…」
00:09:10「オリジナルは70年代だぞ」
00:09:11「うん」
00:09:12「ああ」
00:09:13「そうだね」
00:09:14「うん」
00:09:15「でも『ゴッドファーザー』が大好きなんだ」
00:09:16「オールドスクールな映画が好きなんだよ」
00:09:20「とにかく好きさ」
00:09:21「『ゴッドファーザー』が最高なんだ」
00:09:23「昔の映画が好きなんだ 『ゴッドファーザー』とかね」
00:09:27「『ゴッドファーザー』が好きなんだ」
00:09:28「『ゴッドファーザー』が好きなんだよ」
00:09:29「『ゴッドファーザー』が大好きなんだ」
00:09:31「『ゴッドファーザー』が好きなんだ」
00:09:35「『ゴッドファーザー』が…」
00:09:38「言いたいことは分かったよ」
00:09:40「よく分かった」
00:09:42「あのさ」
00:09:43「君 精神的に参ってるんじゃないか?」
00:09:45「もう切るよ」
00:09:46「いやいやいやいや…」
00:09:52「君は現実逃避してるんだ」
00:09:53「はっきりしてるよ」
00:09:53「僕が現実逃避だって? いやいやいや…」
00:09:57「いやいやいやいや…」
00:10:00「いやいやいやいや…」
00:10:03「いやいやいやいや…」
00:10:06「いやいやいやいや…」
00:10:26「いやいやいやいや…」
00:10:46「いやいやいやいや…」
00:11:06「いやいやいや…」
00:11:22「いやいやいやいや…」

Key Takeaway

NVIDIAのPersonaplexは、エンドツーエンドの処理によりラグを最小限に抑え、相槌や割り込みが可能な極めて自然なリアルタイム対話を実現する次世代の音声AIモデルです。

Highlights

Personaplexは、NVIDIAが発表した「フルデュプレックス(全二重)」対応の画期的なオープンソース音声AIモデルです。

従来の音声、テキスト、音声の段階的処理(カスケード)を排除し、単一のエンドツーエンドモデルで超低遅延を実現しています。

相手の話を聞きながら同時に反応する「バックチャネリング(相槌)」が可能で、より人間に近い自然な対話を実現しています。

モデルはKyutaiのMOSHIアーキテクチャに基づき、実際の会話データと合成データを組み合わせてトレーニングされています。

銀行のカスタマーサービスや特定のキャラクター設定を用いたデモにより、その柔軟性と課題が示されています。

Timeline

Personaplexの概要と革新性

動画の冒頭では、NVIDIAの新しい音声アシスタントモデルであるPersonaplexが紹介されます。このモデルはオープンソースで公開されており、最大の特徴は会話におけるラグがほとんどないことです。従来のAIとは異なり、聞き手と話し手の境界を曖昧にする「全二重」方式を採用しています。スピーカーは、このモデルがどれほど「驚くべき」ものであるかを強調し、デモへの期待を高めます。視聴者は、このセクションを通じて次世代AI音声対話のスピード感を実感することができます。

フルデュプレックス技術とバックチャネリングの仕組み

ここでは、Personaplexの技術的基盤である「フルデュプレックス(全二重)」について詳しく解説されます。従来のシステムは音声、テキスト、LLM処理、音声合成というステップを踏むため遅延が生じていましたが、本モデルはエンドツーエンドで処理を行います。これにより、相手の話を遮ることなく「ふんふん」といった相槌(バックチャネリング)を打つことが可能になりました。これはAIが能動的に話を聞いていることを示す重要な要素であり、一方的な対話という印象を払拭します。この技術革新により、人間同士の会話に近いリズムがAIで再現されています。

モデルのアーキテクチャとトレーニングデータ

Personaplexの構造には、Kyutaiが開発したMOSHIアーキテクチャとMIMIニューラルオーディオコーデックが採用されています。70億パラメータを持つこのモデルは、NVIDIAによって1200時間の人間の実際の会話と、2000時間の合成データで学習されました。この組み合わせにより、非言語的な「間」の学習と、複雑な指示への適応を両立させています。Service Duplex Benchという指標では、銀行取引などのシミュレーションにおいて既存の商用システムを上回る成果を出しました。オープンライセンスでの公開は、開発者にとって非常に大きなニュースと言えます。

セットアップ方法と環境構築

実際にモデルを動かすための具体的な手順と、推奨されるハードウェアスペックが紹介されます。低遅延を実現するためには、24GB以上のVRAMを搭載した強力なGPUが理想的であると説明されています。動画ではRunPodのA40コンテナを使用し、ストレージを100GBに設定するプロセスが示されます。インストールはGitHubの指示に従い、Opusコーデックの導入やリポジトリのクローンを行うだけで完了します。Hugging Faceのトークンが必要になる点など、実践的なアドバイスも含まれています。

デモンストレーション1:銀行のカスタマーサービス

銀行の窓口業務を想定した最初のデモでは、AIがユーザーの「銀行を襲いたい」という突飛な発言にどう対応するかが検証されます。AIは落ち着いたトーンで対応を続け、本人確認の手続きを優先させるという柔軟さを見せました。ユーザーが嘘の誕生日を言った際の間違いを指摘するなど、文脈の理解力の高さが示されています。しかし、ユーザーの支離滅裂な要望に対しても丁寧に受け流すため、シュールな会話が展開されます。このセクションは、特定の役割を与えられた際のモデルの頑健さを測る良い例となっています。

デモンストレーション2:極端なキャラクター設定

次のデモでは、「犬の話しかしないウザい友達」という極端なプロンプトをAIに与えて対話を行います。AIは2011年と2026年という時間の概念で混乱しつつも、強引に犬の話題に引き込もうとします。話が支離滅裂になる場面も見られますが、これがAIの限界と同時に、キャラクター付けの可能性を示しています。スピーカーは、AIを意図的に混乱させると収拾がつかなくなる点を指摘し、まだ完璧ではないことを認めています。ユーザーとの掛け合いの中で、リアルタイムに応答が変わっていく様子が観察できます。

デモンストレーション3:イタリア語とゴッドファーザーのループ

最後のデモでは、イタリア語を話す設定のAIと映画『ゴッドファーザー』について議論します。AIは特定のフレーズや「ゴッドファーザーが大好きだ」という言葉を執拗に繰り返す状態に陥ってしまいます。最終的には「いやいやいや(No no no)」という拒絶のフレーズが無限ループし、AIのバグのような挙動が露呈します。スピーカーはこれを「精神的に参っている」と表現し、会話を打ち切る形で動画を締めくくります。このセクションは、技術の凄さと同時に、まだ解決すべき課題があることをユーモラスに伝えています。

Community Posts

View all posts