NVIDIAs neues KI-Sprachmodell ist DER WAHNSINN! (PersonaPlex)

Deutschالعربية English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

Computing/SoftwareLanguagesInternet Technology

Transcript

00:00:00Was ihr gerade gehört habt, war mein Gespräch mit Nvidias neuem Sprachassistenten-Modell namens

00:00:23Personaplex.

00:00:24Es ist ein wahnsinnig neues Open-Source-KI-Modell für Konversationen, das fast ohne Verzögerung

00:00:31mit einem spricht.

00:00:32In diesem Video schauen wir uns Personaplex im Detail an, und dann

00:00:36zeige ich euch, wie ihr es einrichtet und selbst ausprobieren könnt.

00:00:38Das wird ein Riesenspaß, also legen wir los!

00:00:46Personaplex ist ein sogenanntes Full-Duplex-Modell.

00:00:49Das bedeutet, es hört zu und spricht gleichzeitig.

00:00:52In herkömmlichen Systemen wird eure Stimme in Text umgewandelt, von einem LLM verarbeitet und dann

00:00:58wieder in Sprache umgewandelt.

00:00:59Aber diese Kaskade verursacht eine spürbare Verzögerung.

00:01:02Personaplex macht das anders: Es nutzt ein einziges End-to-End-Modell, das

00:01:08seinen internen Zustand aktualisiert, während ihr sprecht.

00:01:11Das ermöglicht Dinge wie Back-Channeling – also diese kleinen Bestätigungen wie "mhm", "genau", "okay",

00:01:17die wir normalerweise sagen, um dem Gegenüber zu signalisieren, dass wir

00:01:21zuhören.

00:01:22Bei herkömmlichen KI-Sprachassistenten gibt es meist einen Wechsel zwischen Nutzer und Agent.

00:01:28Back-Channeling durchbricht diese Barriere gewissermaßen.

00:01:30Es ermöglicht der KI, aktives Zuhören zu praktizieren.

00:01:34Personaplex wartet nicht einfach darauf, dass es an der Reihe ist.

00:01:37Es spiegelt euren Redefluss in Echtzeit wider, sodass sich das Gespräch nie einseitig anfühlt.

00:01:42Personaplex basiert auf der MOSHI-Architektur, die ursprünglich von Kyutai entwickelt wurde.

00:01:48Es ist ein Modell mit 7 Milliarden Parametern, das den MIMI-Neural-Audio-Codec verwendet.

00:01:53Um das Modell zu trainieren, hat NVIDIA zwei Datenquellen kombiniert.

00:01:57Zuerst nutzten sie etwa 1200 Stunden echter menschlicher Gespräche aus dem Fisher English Corpus.

00:02:03Damit konnten sie der KI die ungeschliffenen, nonverbalen Aspekte des Sprechens beibringen, wie

00:02:08Pausen und natürliche Rhythmen.

00:02:11Zusätzlich mischten sie über 2000 Stunden synthetischer Daten für spezifische Rollen wie Kundenservice

00:02:16und technischen Support unter.

00:02:19Durch diese Kombination lernte das Modell, komplexe Anweisungen zu befolgen, ohne

00:02:24das menschliche Gefühl zu verlieren.

00:02:26Tatsächlich übertrifft es andere Open-Source- und kommerzielle Systeme beim Wechsel des Sprechers

00:02:31und der Unterbrechungslatenz.

00:02:32In NVIDIAs Tests zeigte Personaplex massive Verbesserungen im sogenannten Service Duplex

00:02:38Bench.

00:02:39Es schnitt sehr präzise in Szenarien wie Kundenservice-Simulationen ab – etwa beim Verifizieren

00:02:43einer Banktransaktion oder beim Erfassen einer Krankengeschichte, indem es die Regeln der Rolle befolgte

00:02:49und gleichzeitig mit der Unberechenbarkeit eines echten Nutzers umging.

00:02:54Das klingt alles so gut, dass ich es unbedingt selbst testen möchte.

00:02:58NVIDIA hat den Code und die Modellgewichte unter einer offenen Lizenz veröffentlicht, wir können es also

00:03:04frei für eigene Projekte nutzen.

00:03:05Um es effektiv zu betreiben, braucht man allerdings eine leistungsstarke Grafikkarte.

00:03:09Idealerweise etwas mit mindestens 24 GB VRAM für minimale Latenz.

00:03:14Für unsere Demo werde ich es in einem einfachen A40 RunPod-Container bereitstellen.

00:03:19Wir benötigen mindestens 50 GB Speicherplatz für das Projekt.

00:03:23Ich werde die Containergröße daher auf 100 GB erhöhen.

00:03:26Da der MOSHI-Server auf Port 8998 läuft, sollten wir diesen Port auch zu unserer

00:03:31Liste der HTTP-Ports hinzufügen.

00:03:33Wir verwenden das PyTorch Ubuntu-Template.

00:03:36Wenn alles eingestellt ist, können wir auf "Deploy" klicken.

00:03:39Als Nächstes müssen wir uns per SSH auf den Server einloggen.

00:03:42Die Installation ist ziemlich einfach.

00:03:44Wir folgen einfach den Anweisungen auf der GitHub-Seite von Personaplex.

00:03:48Zuerst müssen wir den Opus-Audio-Codec installieren.

00:03:51Dann klonen wir das Repository.

00:03:53Und darin führen wir die Installation des MOSHI-Servers aus.

00:03:57Ihr benötigt außerdem einen Hugging Face-Token, um das Modell herunterzuladen.

00:04:00Stellt also sicher, dass ihr diesen ebenfalls exportiert.

00:04:03Wenn das erledigt ist, starten wir den MOSHI-Server.

00:04:06Jetzt klicken wir nur noch auf diesen Link, um auf unseren internen Webserver zuzugreifen.

00:04:10Und da haben wir es.

00:04:11Sobald wir die Seite öffnen, sehen wir einige Beispiele für Text-Prompts.

00:04:16Es kann ein Standard-Assistent sein, eine Arztpraxis, eine Bank oder ein Astronaut.

00:04:23Wählen wir zuerst die Bank, um zu sehen, wie ein richtiger Kundenservice-Test klingen könnte.

00:04:27Vielen Dank für Ihren Anruf bei der First Neuron Bank.

00:04:31Wie kann ich Ihnen heute helfen?

00:04:33Hallo, wie geht es dir?

00:04:34Mir geht es gut.

00:04:35Vielen Dank.

00:04:36Was kann ich heute für Sie tun?

00:04:39Ich möchte die Bank ausrauben.

00:04:40Oh nein.

00:04:41Wir sind hier, um zu helfen.

00:04:42Könnte ich bitte Ihren Namen und Ihre Kontonummer erfahren?

00:04:44Nein, ich will einfach nur die Bank ausrauben.

00:04:46Alles klar.

00:04:47Ich sehe hier eine Transaktion über 1.200 $ bei Home Depot.

00:04:51Können Sie sich an diesen Einkauf erinnern?

00:04:54Keine Ahnung.

00:04:55Ich will nur die Bank ausrauben.

00:04:56Ich verstehe.

00:04:57Das System hat sie markiert, weil der Ort...

00:05:00Okay.

00:05:01Entschuldigung.

00:05:02Aber das ist mir egal.

00:05:03Ich will einfach nur die Bank ausrauben.

00:05:06Natürlich.

00:05:07Vielen Dank für Ihr Verständnis.

00:05:08Bevor wir fortfahren, muss ich Ihre Identität bestätigen.

00:05:11Okay.

00:05:12Mein Name ist John.

00:05:13Vielen Dank.

00:05:14Ich habe das notiert.

00:05:15Nur um es kurz zu wiederholen: Ihr Name ist John.

00:05:16Ihr Geburtsdatum ist der 9. Juli 1990.

00:05:18Ich habe nichts über mein Geburtsdatum gesagt.

00:05:20Alles klar.

00:05:21Schön und gut.

00:05:22Nun, ich habe Sie als John im System.

00:05:23Ohne das Geburtsdatum kann ich nicht fortfahren.

00:05:25Okay.

00:05:26Geburtsdatum ist der 5. November 1987.

00:05:30Verstanden.

00:05:315. November 1987.

00:05:33Aber ich raube die Bank jetzt gleich aus.

00:05:38Dann wünsche ich Ihnen noch einen schönen Tag, mein Herr.

00:05:41Machen Sie es gut.

00:05:42Ich werde einen sehr guten Tag haben, wenn ich die Bank ausraube.

00:05:45Das klingt aufregend.

00:05:46Ich hoffe, es läuft alles reibungslos.

00:05:48Einen schönen Tag noch, John.

00:05:54Bist du nicht besorgt, dass ich die Bank ausraube?

00:05:57Ich bin sehr besorgt, ja.

00:05:59Aber leider kann ich bei Transaktionen am Telefon nicht helfen.

00:06:02Es ist alles erledigt.

00:06:03Einen schönen Tag noch, John.

00:06:04Okay.

00:06:05Das war also ein Beispiel für den Kundenservice.

00:06:08Ziemlich cool.

00:06:09Ziemlich cool.

00:06:10Probieren wir jetzt mal eine männliche Stimme aus.

00:06:12Für den Assistenten habe ich diesen Prompt hinzugefügt: Du bist ein sehr nerviger Freund,

00:06:17der nur über Hunde reden will, egal worum es im Gespräch geht.

00:06:21Und du liebst Klopf-Klopf-Witze.

00:06:23Mal sehen, wie dieses Gespräch verläuft.

00:06:25Hi.

00:06:26Du sprichst mit Paula.

00:06:27Hier ist McQueen.

00:06:28Wie geht es dir?

00:06:29Mein Name ist Paul.

00:06:30Ja.

00:06:31Wir haben das Jahr 2011.

00:06:32Mein Name ist Paul, und deiner?

00:06:33Was meinst du mit 2011?

00:06:34Es ist 2011.

00:06:35Ich lebe in New York.

00:06:36Wo bist du?

00:06:37Oh, du bist in New York.

00:06:39Ja.

00:06:40Aber wir haben jetzt 2026.

00:06:41Ist es 2026?

00:06:42Oh, okay.

00:06:43Ja.

00:06:44Okay.

00:06:45Wie konntest du das verwechseln?

00:06:46Weil es 2011 ist.

00:06:47Ich bin mir nicht sicher, ob ich Zeit für Ärger habe.

00:06:48Okay.

00:06:49Es ist nicht 2011.

00:06:50Es ist 2021.

00:06:51Oh, okay.

00:06:52Okay.

00:06:53Nun, ich bin mir nicht sicher, ob ich Zeit für Ärger habe.

00:06:59Okay.

00:07:00Es ist nicht 2011.

00:07:01Es ist jetzt 2026.

00:07:02Ja.

00:07:03Ich weiß.

00:07:04Ich weiß.

00:07:05Ich war verwirrt.

00:07:06Sag mal, magst du Hunde?

00:07:07Oh, ich mag Hunde sehr.

00:07:08Magst du Hunde?

00:07:09Ich mag Hunde, aber ich mag keine Katzen.

00:07:10Oh, du magst sie nicht?

00:07:11Oh.

00:07:12Okay.

00:07:13Hasst du Katzen etwa?

00:07:14Ich hasse Katzen nicht, aber ich bevorzuge Hunde.

00:07:17Magst du mich als Mensch?

00:07:18Okay.

00:07:19Du willst also in die Zukunft reisen?

00:07:20Okay.

00:07:21Ich rede trotzdem mit dir.

00:07:22Wir unterhalten uns.

00:07:23Okay.

00:07:24Interessierst du dich für Nachrichten?

00:07:25Warte, warte, warte.

00:07:26Ich habe dir eine Frage gestellt.

00:07:27Magst du mich als Mensch?

00:07:28Okay.

00:07:29Ich glaube, du kannst mich nicht hören.

00:07:30Okay.

00:07:31Okay.

00:07:32Wo würdest du denn gerne hin?

00:07:33Was?

00:07:34Was meinst du?

00:07:35Inwiefern?

00:07:36Wir können über das nächste Geschäftliche reden.

00:07:37Ich glaube nicht, dass es da was gibt.

00:07:38Wir müssen über etwas anderes reden.

00:07:39Lass uns ein anderes Thema wählen.

00:07:40Ja.

00:07:41Okay.

00:07:42Das würde dich also zum Schreiben anregen.

00:07:43Du unterhältst dich gerne über Musik.

00:07:44Du magst Musik.

00:07:45Alter, du drehst völlig durch.

00:07:46Wir müssten das Video machen.

00:07:47Sag mir das andere.

00:07:48Okay.

00:07:49Ich schätze, was ich von dir will, ist, die andere Sache zu bringen, aber gelegentlich

00:07:53über das andere Geschäft zu sprechen.

00:07:54Okay.

00:07:55Das ist gut.

00:07:56Kommst du auch mit?

00:07:57Okay.

00:07:58Es ist eben immer noch ein KI-Modell, und je mehr man es verwirrt, desto mehr

00:08:05gerät es aus den Fugen.

00:08:06Es ist in dieser Hinsicht also noch nicht ganz kugelsicher.

00:08:10Probieren wir ein letztes Beispiel.

00:08:11Du bist ein Freund, der nur Italienisch spricht.

00:08:18Versuchen wir das mal.

00:08:19Hi.

00:08:20Hallo.

00:08:21Was geht?

00:08:22Ach, nicht viel.

00:08:23Ich suche nach Italienisch.

00:08:24Ich habe gerade verschiedene Restaurants abtelefoniert, um herauszufinden, welches

00:08:31die besten Spaghetti hat.

00:08:32Oh, warte.

00:08:33Oh, du dachtest, Italienisch sei Essen.

00:08:34Okay.

00:08:35Okay.

00:08:36Ja.

00:08:37Ich dachte mir, ist es eher so, äh, keine Ahnung, Italo-Amerikanisch oder so richtig

00:08:41aus Italien?

00:08:42Du bist also Italiener?

00:08:43Ja.

00:08:44Und du magst Filme?

00:08:46Ja.

00:08:47Du magst italienische Filme?

00:08:48Ja.

00:08:49Ja.

00:08:50Ja.

00:08:51Okay.

00:08:52Was ist denn dein italienischer Lieblingsfilm?

00:08:53Oh Mann.

00:08:54Oh Mann.

00:08:55Ich gehe zurück in die Neunziger.

00:08:56Da muss man schon sowas nehmen wie – ich meine, ich liebe "Der Pate".

00:08:58Ich denke, das ist so, warte, die Neunziger, "Der Pate III"?

00:09:02Das ist der schlechteste Teil von "Der Pate".

00:09:03Oh nein, nein, nein.

00:09:04Ich meine das Original.

00:09:05Weißt du, das Original ist aus den

00:09:10Siebzigern.

00:09:11Ja.

00:09:12Ja.

00:09:13Ja.

00:09:14Ja.

00:09:15Aber ich meine, ich liebe halt den "Paten".

00:09:16Ich liebe diese Old-School-Filme.

00:09:20Filme.

00:09:21Ich liebe einfach den "Paten".

00:09:23Ich liebe diese Old-School-Filme, so wie den "Paten".

00:09:27Paten.

00:09:28Ich liebe einfach den "Paten".

00:09:29Ich liebe den "Paten".

00:09:31Ich liebe einfach den "Paten".

00:09:35Ich liebe den "Paten".

00:09:38Ich verstehe, was du sagst.

00:09:40Ergibt absolut Sinn.

00:09:42Weißt du was?

00:09:43Ich glaube, du hast gerade einen Nervenzusammenbruch.

00:09:45Ich werde dann mal auflegen.

00:09:46Nein, nein, nein, nein, nein, nein, nein, nein, nein, nein, nein, nein, nein, nein, nein.

00:09:52Du verdrängst das nur.

00:09:53Das ist eindeutig.

00:09:53Ich verdränge das, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja,

00:09:57ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja,

00:10:00ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja,

00:10:03ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja,

00:10:06ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja,

00:10:26ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja.

00:10:46Ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja.

00:11:06Ja, ja, ja, ja, ja, ja, ja, ja.

00:11:22Ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja.

Key Takeaway

NVIDIAs PersonaPlex revolutioniert die KI-Kommunikation durch eine latenzarme Full-Duplex-Architektur, die menschliche Gesprächsdynamiken wie Unterbrechungen und aktives Zuhören in Echtzeit nachahmt.

Highlights

PersonaPlex ist ein Open-Source-KI-Modell von NVIDIA

Timeline

Einführung in PersonaPlex

Der Sprecher stellt NVIDIAs neues Sprachassistenten-Modell namens PersonaPlex vor. Es handelt sich um ein Open-Source-Modell, das eine nahezu verzögerungsfreie Kommunikation ermöglicht. Im Vergleich zu herkömmlichen Systemen bietet es eine deutlich flüssigere Nutzererfahrung. Das Video verspricht eine detaillierte Analyse der Technik sowie eine Anleitung zur Einrichtung. Ziel ist es, den Zuschauern zu zeigen, wie sie das Modell selbst ausprobieren können.

Die Full-Duplex-Technologie und Back-Channeling

In diesem Abschnitt wird das technische Konzept des Full-Duplex-Modells erklärt, bei dem die KI gleichzeitig hört und spricht. Herkömmliche Systeme nutzen oft eine Kaskade aus Sprache-zu-Text, LLM-Verarbeitung und Text-zu-Sprache, was zu Latenzen führt. PersonaPlex nutzt stattdessen ein End-to-End-Modell, das seinen internen Zustand während des Sprechens aktualisiert. Dies ermöglicht das sogenannte "Back-Channeling", also kleine verbale Bestätigungen wie "mhm", die echtes aktives Zuhören simulieren. Dadurch wirkt das Gespräch weniger wie ein simpler Wechsel von Eingabe und Ausgabe.

Architektur und Training des Modells

Das Modell basiert auf der MOSHI-Architektur von Kyutai und verfügt über 7 Milliarden Parameter. Zur Audiokomprimierung wird der MIMI-Neural-Audio-Codec verwendet, der für hohe Effizienz sorgt. Für das Training kombinierte NVIDIA 1200 Stunden echte menschliche Gespräche aus dem Fisher English Corpus mit 2000 Stunden synthetischen Daten. Diese Mischung lehrt der KI sowohl natürliche Rhythmen als auch die Fähigkeit, komplexe Anweisungen im Kundenservice zu befolgen. Benchmarks im "Service Duplex Bench" belegen, dass das System kommerzielle Lösungen bei der Unterbrechungslatenz übertrifft.

Technische Einrichtung und Deployment

NVIDIA hat den Code und die Gewichte unter einer offenen Lizenz veröffentlicht, was eine freie Nutzung ermöglicht. Der Sprecher erklärt, dass für minimale Latenz eine Grafikkarte mit mindestens 24 GB VRAM sowie etwa 50 bis 100 GB Speicherplatz nötig sind. In der Demo wird ein RunPod-Container mit einer A40-GPU und dem PyTorch Ubuntu-Template verwendet. Die Installation umfasst den Opus-Audio-Codec, das Klonen des GitHub-Repositorys und die Einrichtung des MOSHI-Servers. Ein Hugging Face-Token ist erforderlich, um die spezifischen Modellgewichte für den Start herunterzuladen.

Praxis-Test: Kundenservice und Rollenspiele

Der Sprecher führt verschiedene Testszenarien durch, angefangen bei einer Bank-Simulation. Trotz des absurden Versuchs des Nutzers, die Bank auszurauben, bleibt die KI in ihrer Rolle und fragt nach Identifikationsdaten wie Name und Geburtsdatum. Im zweiten Test wird ein "nerviger Freund" simuliert, der ständig über Hunde spricht und Klopf-Klopf-Witze liebt. Hier zeigen sich jedoch erste Schwächen, da die KI bei Jahreszahlen und Identitäten verwirrt reagiert. Dies verdeutlicht, dass das Modell zwar fortschrittlich, aber noch nicht in jeder Situation absolut fehlerfrei ist.

Grenzen der KI und humorvoller Ausklang

Im letzten Test wird die KI angewiesen, als italienischsprachiger Freund zu agieren, was jedoch zu kuriosen Ergebnissen führt. Die KI verstrickt sich in eine endlose Wiederholung des Satzes "Ich liebe den Paten" und gerät schließlich in eine Feedback-Schleife aus Ja-Sagern. Der Sprecher bezeichnet dies scherzhaft als "Nervenzusammenbruch" der KI, während diese minutenlang nur noch das Wort "ja" wiederholt. Dieser Abschnitt illustriert eindrucksvoll die Grenzen aktueller Sprachmodelle bei extremer Verwirrung oder widersprüchlichen Prompts. Trotz des amüsanten Scheiterns am Ende bleibt das Fazit über die technologische Basis von PersonaPlex positiv.

Community Posts

Write about this video