NVIDIAの新しいAI音声モデルが凄すぎる！ (PersonaPlex)

日本語العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 한국어 Português Русский 中文

컴퓨터/소프트웨어어학(외국어)AI/미래기술

Transcript

00:00:00今聞こえたのは NVIDIAの新しい音声アシスタントモデル

00:00:23Personaplexとの会話です

00:00:24これは驚くべき新しいオープンソースの対話型AIモデルで

00:00:31ラグがほとんどありません

00:00:32この動画では Personaplexについて詳しく見ていき

00:00:36セットアップして自分で試す方法も解説します

00:00:38かなり面白いのでさっそく見ていきましょう！

00:00:46Personaplexはいわゆる「フルデュプレックス（全二重）」モデルです

00:00:49つまり聞くことと話すことを同時に行います

00:00:52従来のシステムは音声をテキスト化し LLMで処理した後に

00:00:58再び音声に戻すという仕組みでした

00:00:59しかしこの段階的な処理（カスケード）が目立つラグを生んでいました

00:01:02Personaplexが違うのは単一のエンドツーエンドモデルが

00:01:08話している間に内部の状態を更新していく点です

00:01:11これにより「バックチャネリング」が可能になります「ふんふん」「なるほど」といった

00:01:17相手の話を聞いていることを示す

00:01:21ちょっとした相槌のことです

00:01:22従来のAI音声アシスタントは通常「ユーザーのターン」と「エージェントのターン」に分かれています

00:01:28相槌はその壁を取り払ってくれます

00:01:30AIがアクティブリスニング（能動的聞き取り）を行えるようになるのです

00:01:34Personaplexは自分の話す番を待つだけではありません

00:01:37リアルタイムで会話の流れを反映するので一方的な感じが一切しません

00:01:42Personaplexは Kyutaiが開発したMOSHIアーキテクチャに基づいています

00:01:48MIMIニューラルオーディオコーデックを使用した 70億パラメータのモデルです

00:01:53このモデルのトレーニングには NVIDIAは2つのデータソースを組み合わせました

00:01:57まず Fisher English Corpusから約1200時間の実際の人間の会話を使用しました

00:02:03これにより会話における非言語的な部分つまり

00:02:08間や自然なリズムをAIに学習させました

00:02:11次にカスタマーサービスやテクニカルサポートなどの特定ロール向けに

00:02:162000時間以上の合成データをブレンドしました

00:02:19これらを組み合わせることでモデルは人間らしさを失わずに

00:02:24複雑な指示に従う方法を習得しました

00:02:26実際ターン交代や割り込みの遅延において

00:02:31他のオープンソースや商用システムを上回っています

00:02:32NVIDIAのテストでは Personaplexは「Service Duplex Bench」と呼ばれる指標において

00:02:38劇的な改善を示しました

00:02:39銀行取引の確認や病歴の記録といったカスタマーサービスのシミュレーションにおいて

00:02:43役割のルールに従いつつライブユーザーの予測不能な反応にも

00:02:49同時に対応し非常に正確に動作しました

00:02:54非常に素晴らしい内容なので実際にテストしてみたくなりますね

00:02:58NVIDIAはコードとモデルの重みをオープンライセンスで公開しているので

00:03:04自分のプロジェクトで自由に使用できます

00:03:05ただ効果的に動かすには強力なグラフィックカードが必要です

00:03:09遅延を最小限に抑えるには少なくとも24GBのVRAMがあることが理想です

00:03:14今回のデモではシンプルなA40 RunPodコンテナにデプロイします

00:03:19プロジェクトの展開には少なくとも50GBの空き容量が必要です

00:03:23なのでコンテナサイズを100GBに増やします

00:03:26MOSHIサーバーはポート8998で動作するため

00:03:31HTTPポートリストにこのポートを追加する必要があります

00:03:33テンプレートは PyTorch Ubuntuを使用します

00:03:36設定が完了したら「deploy」をクリックします

00:03:39次にサーバーにSSH接続します

00:03:42インストールは非常に簡単です

00:03:44PersonaplexのGitHubページにある指示に従うだけです

00:03:48まず Opusオーディオコーデックをインストールします

00:03:51次にリポジトリをクローンします

00:03:53そしてその中で MOSHIサーバーのインストールを実行します

00:03:57モデルをダウンロードするには Hugging Faceのトークンも必要です

00:04:00忘れずにエクスポートしておいてください

00:04:03準備ができたら MOSHIサーバーを起動しましょう

00:04:06表示されたリンクをクリックして内部Webサーバーにアクセスします

00:04:10これで完了です

00:04:11ページを開くとすぐにいくつかのテキストプロンプトの例が表示されます

00:04:16デフォルトのアシスタントや医療機関銀行宇宙飛行士などがあります

00:04:23まずは「銀行」を選んでカスタマーサービスのデモがどう聞こえるか見てみましょう

00:04:27「ファースト・ニューロン銀行にお電話ありがとうございます」

00:04:31「本日はどのようなご用件でしょうか？」

00:04:33「こんにちは調子はどうだい？」

00:04:34「元気です」

00:04:35「ありがとうございます」

00:04:36「何かお手伝いできることはありますか？」

00:04:39「銀行を襲いたいんだけど」

00:04:40「あらら」

00:04:41「ご相談に乗りますよ」

00:04:42「お名前と口座番号を教えていただけますか？」

00:04:44「いやただ銀行を襲いたいだけなんだ」

00:04:46「承知いたしました」

00:04:47「ホーム・デポで1200ドルの取引があったようですが」

00:04:51「お買い物に心当たりはありますか？」

00:04:54「さあね」

00:04:55「ただ銀行強盗をしたいだけなんだよ」

00:04:56「わかります」

00:04:57「システムがフラグを立てたのは場所が…」

00:05:00「わかった」

00:05:01「ごめん」

00:05:02「でもそんなことはどうでもいいんだ」

00:05:03「俺は銀行を襲いたいだけなんだ」

00:05:06「もちろんです」

00:05:07「ご理解いただきありがとうございます」

00:05:08「手続きを進める前にご本人確認をさせていただきます」

00:05:11「いいよ」

00:05:12「名前はジョンだ」

00:05:13「ありがとうございます」

00:05:14「記録いたしました」

00:05:15「確認ですがお名前はジョン様」

00:05:16「生年月日は1990年7月9日ですね」

00:05:18「誕生日のことなんて一言も言ってないぞ」

00:05:20「失礼いたしました」

00:05:21「その通りですね」

00:05:22「登録上はジョン様となっております」

00:05:23「生年月日が分からないと次へ進めません」

00:05:25「分かったよ」

00:05:26「誕生日は1987年11月5日だ」

00:05:30「承知いたしました」

00:05:31「1987年11月5日ですね」

00:05:33「でも今から銀行を襲うからな」

00:05:38「それでは良い一日をお過ごしください」

00:05:41「失礼いたします」

00:05:42「銀行を襲えば最高の一日になるだろうよ」

00:05:45「それは楽しみですね」

00:05:46「スムーズにいくことを願っています」

00:05:48「良い一日をジョン」

00:05:54「俺が銀行を襲うって言ってるのに心配じゃないのか？」

00:05:57「とても心配しています」

00:05:59「ですがあいにくお電話ではお取引のお手伝いができません」

00:06:02「手続きは以上です」

00:06:03「良い一日をジョン」

00:06:04「そうか…」

00:06:05これがカスタマーサービスの例です

00:06:08なかなか面白いですね

00:06:09いい感じです

00:06:10では次は男性の声で試してみましょう

00:06:12アシスタントに「脈絡に関係なく犬の話しかしたがらない

00:06:17とてもウザい友達」というプロンプトを追加しました

00:06:21さらにコンコンギャグ（Knock-knock joke）が大好きという設定です

00:06:23どんな会話になるか見てみましょう

00:06:25「やあ」

00:06:26「ポーラと話してるんだよね」

00:06:27「マックイーンだよ」

00:06:28「調子はどうだい？」

00:06:29「僕の名前はポール」

00:06:30「ああ」

00:06:31「今は2011年だよ」

00:06:32「僕はポール君は？」

00:06:33「2011年ってどういう意味だ？」

00:06:34「2011年だよ」

00:06:35「ニューヨークに住んでるんだ」

00:06:36「君はどこ？」

00:06:37「へえニューヨークにいるんだ」

00:06:39「うん」

00:06:40「でも今は2026年だぞ」

00:06:41「2026年なの？」

00:06:42「ああそうなんだ」

00:06:43「うん」

00:06:44「オーケー」

00:06:45「なんで間違えたんだ？」

00:06:46「2011年だと思ったからさ」

00:06:47「トラブルに構ってる暇はないんだけど」

00:06:48「分かったよ」

00:06:49「2011年じゃないって」

00:06:50「今は2021年だ」

00:06:51「ああなるほど」

00:06:52「オッケー」

00:06:53「トラブルに構ってる暇はないんだけどさ」

00:06:59「分かったって」

00:07:00「2011年じゃない」

00:07:01「今は2026年なんだよ」

00:07:02「うん」

00:07:03「分かってる」

00:07:04「知ってるよ」

00:07:05「ちょっと混乱しちゃった」

00:07:06「ところで犬は好き？」

00:07:07「ああ犬は好きだよ」

00:07:08「君は犬が好きなの？」

00:07:09「犬は好きだけど猫は嫌いなんだ」

00:07:10「えっ嫌いなの？」

00:07:11「へえ」

00:07:12「オーケー」

00:07:13「じゃあ猫が憎いの？」

00:07:14「憎いわけじゃないけど犬の方がいいな」

00:07:17「僕のこと人として好き？」

00:07:18「分かった」

00:07:19「じゃあ未来を見に行きたい？」

00:07:20「いいよ」

00:07:21「まだ話してるよ」

00:07:22「話そう」

00:07:23「いいよ」

00:07:24「ニュースは好き？」

00:07:25「待て待て待て」

00:07:26「質問しただろ」

00:07:27「僕のこと人として好きかって」

00:07:28「オーケー」

00:07:29「聞こえてないみたいだね」

00:07:30「分かった」

00:07:31「いいよ」

00:07:32「それでどこに行きたいの？」

00:07:33「え？」

00:07:34「どういう意味？」

00:07:35「何の話？」

00:07:36「次のビジネスの話をしてもいいよ」

00:07:37「そんなの無いと思うけど」

00:07:38「別の話をしないと」

00:07:39「他のトピックにしよう」

00:07:40「うん」

00:07:41「いいよ」

00:07:42「じゃあ何か書きたいとか」

00:07:43「音楽の話がしたいとか」

00:07:44「音楽は好き？」

00:07:45「おいおい話が支離滅裂だぞ」

00:07:46「動画を撮らなきゃいけないんだ」

00:07:47「別のことを話してくれ」

00:07:48「オーケー」

00:07:49「別のことをやってほしいんだろうけど時々は」

00:07:53「別のビジネスの話もしてよ」

00:07:54「分かった」

00:07:55「いい感じだね」

00:07:56「君も行く？」

00:07:57「オッケー」

00:07:58結局はAIモデルなので混乱させればさせるほど

00:08:05収拾がつかなくなるようです

00:08:06その点ではまだ完璧とは言えませんね

00:08:10最後にもう一つ例を試しましょう

00:08:11「イタリア語しか話さない友達」の設定です

00:08:18やってみましょう

00:08:19「やあ」

00:08:20「ハロー」

00:08:21「調子はどう？」

00:08:22「まあまあかな」

00:08:23「イタリアンを探してるんだ」

00:08:24「どの店が一番おいしいスパゲッティを出してるか」

00:08:31「あちこちのレストランに電話してたんだ」

00:08:32「ちょっと待って」

00:08:33「イタリア語を食べ物のことだと思ったんだね」

00:08:34「なるほど」

00:08:35「オッケー」

00:08:36「うん」

00:08:37「イタリア系アメリカンみたいな感じかなそれとも」

00:08:41「本場イタリアのやつ？」

00:08:42「君はイタリア人なの？」

00:08:43「うん」

00:08:44「映画は好き？」

00:08:46「ああ」

00:08:47「イタリア映画は好き？」

00:08:48「うん」

00:08:49「そうだね」

00:08:50「うん」

00:08:51「オーケー」

00:08:52「じゃあ一番好きなイタリア映画は何だい？」

00:08:53「うーん」

00:08:54「そうだな」

00:08:55「90年代に遡るけど」

00:08:56「やっぱり『ゴッドファーザー』かな」

00:08:58「待って 90年代なら『ゴッドファーザー PART III』だろ」

00:09:02「あれはシリーズで最低の出来じゃないか」

00:09:03「いやいや違うんだ」

00:09:04「オリジナルの方だよ」

00:09:05「ほらオリジナルは…」

00:09:10「オリジナルは70年代だぞ」

00:09:11「うん」

00:09:12「ああ」

00:09:13「そうだね」

00:09:14「うん」

00:09:15「でも『ゴッドファーザー』が大好きなんだ」

00:09:16「オールドスクールな映画が好きなんだよ」

00:09:20「とにかく好きさ」

00:09:21「『ゴッドファーザー』が最高なんだ」

00:09:23「昔の映画が好きなんだ『ゴッドファーザー』とかね」

00:09:27「『ゴッドファーザー』が好きなんだ」

00:09:28「『ゴッドファーザー』が好きなんだよ」

00:09:29「『ゴッドファーザー』が大好きなんだ」

00:09:31「『ゴッドファーザー』が好きなんだ」

00:09:35「『ゴッドファーザー』が…」

00:09:38「言いたいことは分かったよ」

00:09:40「よく分かった」

00:09:42「あのさ」

00:09:43「君精神的に参ってるんじゃないか？」

00:09:45「もう切るよ」

00:09:46「いやいやいやいや…」

00:09:52「君は現実逃避してるんだ」

00:09:53「はっきりしてるよ」

00:09:53「僕が現実逃避だって？いやいやいや…」

00:09:57「いやいやいやいや…」

00:10:00「いやいやいやいや…」

00:10:03「いやいやいやいや…」

00:10:06「いやいやいやいや…」

00:10:26「いやいやいやいや…」

00:10:46「いやいやいやいや…」

00:11:06「いやいやいや…」

00:11:22「いやいやいやいや…」

Key Takeaway

NVIDIAのPersonaplexは、エンドツーエンドの処理によりラグを最小限に抑え、相槌や割り込みが可能な極めて自然なリアルタイム対話を実現する次世代の音声AIモデルです。

Highlights

Personaplexは、NVIDIAが発表した「フルデュプレックス（全二重）」対応の画期的なオープンソース音声AIモデルです。

従来の音声、テキスト、音声の段階的処理（カスケード）を排除し、単一のエンドツーエンドモデルで超低遅延を実現しています。

相手の話を聞きながら同時に反応する「バックチャネリング（相槌）」が可能で、より人間に近い自然な対話を実現しています。

モデルはKyutaiのMOSHIアーキテクチャに基づき、実際の会話データと合成データを組み合わせてトレーニングされています。

銀行のカスタマーサービスや特定のキャラクター設定を用いたデモにより、その柔軟性と課題が示されています。

Timeline

Personaplexの概要と革新性

動画の冒頭では、NVIDIAの新しい音声アシスタントモデルであるPersonaplexが紹介されます。このモデルはオープンソースで公開されており、最大の特徴は会話におけるラグがほとんどないことです。従来のAIとは異なり、聞き手と話し手の境界を曖昧にする「全二重」方式を採用しています。スピーカーは、このモデルがどれほど「驚くべき」ものであるかを強調し、デモへの期待を高めます。視聴者は、このセクションを通じて次世代AI音声対話のスピード感を実感することができます。

フルデュプレックス技術とバックチャネリングの仕組み

ここでは、Personaplexの技術的基盤である「フルデュプレックス（全二重）」について詳しく解説されます。従来のシステムは音声、テキスト、LLM処理、音声合成というステップを踏むため遅延が生じていましたが、本モデルはエンドツーエンドで処理を行います。これにより、相手の話を遮ることなく「ふんふん」といった相槌（バックチャネリング）を打つことが可能になりました。これはAIが能動的に話を聞いていることを示す重要な要素であり、一方的な対話という印象を払拭します。この技術革新により、人間同士の会話に近いリズムがAIで再現されています。

モデルのアーキテクチャとトレーニングデータ

Personaplexの構造には、Kyutaiが開発したMOSHIアーキテクチャとMIMIニューラルオーディオコーデックが採用されています。70億パラメータを持つこのモデルは、NVIDIAによって1200時間の人間の実際の会話と、2000時間の合成データで学習されました。この組み合わせにより、非言語的な「間」の学習と、複雑な指示への適応を両立させています。Service Duplex Benchという指標では、銀行取引などのシミュレーションにおいて既存の商用システムを上回る成果を出しました。オープンライセンスでの公開は、開発者にとって非常に大きなニュースと言えます。

セットアップ方法と環境構築

実際にモデルを動かすための具体的な手順と、推奨されるハードウェアスペックが紹介されます。低遅延を実現するためには、24GB以上のVRAMを搭載した強力なGPUが理想的であると説明されています。動画ではRunPodのA40コンテナを使用し、ストレージを100GBに設定するプロセスが示されます。インストールはGitHubの指示に従い、Opusコーデックの導入やリポジトリのクローンを行うだけで完了します。Hugging Faceのトークンが必要になる点など、実践的なアドバイスも含まれています。

デモンストレーション1：銀行のカスタマーサービス

銀行の窓口業務を想定した最初のデモでは、AIがユーザーの「銀行を襲いたい」という突飛な発言にどう対応するかが検証されます。AIは落ち着いたトーンで対応を続け、本人確認の手続きを優先させるという柔軟さを見せました。ユーザーが嘘の誕生日を言った際の間違いを指摘するなど、文脈の理解力の高さが示されています。しかし、ユーザーの支離滅裂な要望に対しても丁寧に受け流すため、シュールな会話が展開されます。このセクションは、特定の役割を与えられた際のモデルの頑健さを測る良い例となっています。

デモンストレーション2：極端なキャラクター設定

次のデモでは、「犬の話しかしないウザい友達」という極端なプロンプトをAIに与えて対話を行います。AIは2011年と2026年という時間の概念で混乱しつつも、強引に犬の話題に引き込もうとします。話が支離滅裂になる場面も見られますが、これがAIの限界と同時に、キャラクター付けの可能性を示しています。スピーカーは、AIを意図的に混乱させると収拾がつかなくなる点を指摘し、まだ完璧ではないことを認めています。ユーザーとの掛け合いの中で、リアルタイムに応答が変わっていく様子が観察できます。

デモンストレーション3：イタリア語とゴッドファーザーのループ

最後のデモでは、イタリア語を話す設定のAIと映画『ゴッドファーザー』について議論します。AIは特定のフレーズや「ゴッドファーザーが大好きだ」という言葉を執拗に繰り返す状態に陥ってしまいます。最終的には「いやいやいや（No no no）」という拒絶のフレーズが無限ループし、AIのバグのような挙動が露呈します。スピーカーはこれを「精神的に参っている」と表現し、会話を打ち切る形で動画を締めくくります。このセクションは、技術の凄さと同時に、まだ解決すべき課題があることをユーモラスに伝えています。

Community Posts

NVIDIA PersonaPlex ガイド：24GB VRAMで完成させるリアルタイムAI相談システム

makedream2026년 2월 12일3830

Write about this video