00:00:00Was ihr gerade gehört habt, war mein Gespräch mit Nvidias neuem Sprachassistenten-Modell namens
00:00:23Personaplex.
00:00:24Es ist ein wahnsinnig neues Open-Source-KI-Modell für Konversationen, das fast ohne Verzögerung
00:00:31mit einem spricht.
00:00:32In diesem Video schauen wir uns Personaplex im Detail an, und dann
00:00:36zeige ich euch, wie ihr es einrichtet und selbst ausprobieren könnt.
00:00:38Das wird ein Riesenspaß, also legen wir los!
00:00:46Personaplex ist ein sogenanntes Full-Duplex-Modell.
00:00:49Das bedeutet, es hört zu und spricht gleichzeitig.
00:00:52In herkömmlichen Systemen wird eure Stimme in Text umgewandelt, von einem LLM verarbeitet und dann
00:00:58wieder in Sprache umgewandelt.
00:00:59Aber diese Kaskade verursacht eine spürbare Verzögerung.
00:01:02Personaplex macht das anders: Es nutzt ein einziges End-to-End-Modell, das
00:01:08seinen internen Zustand aktualisiert, während ihr sprecht.
00:01:11Das ermöglicht Dinge wie Back-Channeling – also diese kleinen Bestätigungen wie "mhm", "genau", "okay",
00:01:17die wir normalerweise sagen, um dem Gegenüber zu signalisieren, dass wir
00:01:21zuhören.
00:01:22Bei herkömmlichen KI-Sprachassistenten gibt es meist einen Wechsel zwischen Nutzer und Agent.
00:01:28Back-Channeling durchbricht diese Barriere gewissermaßen.
00:01:30Es ermöglicht der KI, aktives Zuhören zu praktizieren.
00:01:34Personaplex wartet nicht einfach darauf, dass es an der Reihe ist.
00:01:37Es spiegelt euren Redefluss in Echtzeit wider, sodass sich das Gespräch nie einseitig anfühlt.
00:01:42Personaplex basiert auf der MOSHI-Architektur, die ursprünglich von Kyutai entwickelt wurde.
00:01:48Es ist ein Modell mit 7 Milliarden Parametern, das den MIMI-Neural-Audio-Codec verwendet.
00:01:53Um das Modell zu trainieren, hat NVIDIA zwei Datenquellen kombiniert.
00:01:57Zuerst nutzten sie etwa 1200 Stunden echter menschlicher Gespräche aus dem Fisher English Corpus.
00:02:03Damit konnten sie der KI die ungeschliffenen, nonverbalen Aspekte des Sprechens beibringen, wie
00:02:08Pausen und natürliche Rhythmen.
00:02:11Zusätzlich mischten sie über 2000 Stunden synthetischer Daten für spezifische Rollen wie Kundenservice
00:02:16und technischen Support unter.
00:02:19Durch diese Kombination lernte das Modell, komplexe Anweisungen zu befolgen, ohne
00:02:24das menschliche Gefühl zu verlieren.
00:02:26Tatsächlich übertrifft es andere Open-Source- und kommerzielle Systeme beim Wechsel des Sprechers
00:02:31und der Unterbrechungslatenz.
00:02:32In NVIDIAs Tests zeigte Personaplex massive Verbesserungen im sogenannten Service Duplex
00:02:38Bench.
00:02:39Es schnitt sehr präzise in Szenarien wie Kundenservice-Simulationen ab – etwa beim Verifizieren
00:02:43einer Banktransaktion oder beim Erfassen einer Krankengeschichte, indem es die Regeln der Rolle befolgte
00:02:49und gleichzeitig mit der Unberechenbarkeit eines echten Nutzers umging.
00:02:54Das klingt alles so gut, dass ich es unbedingt selbst testen möchte.
00:02:58NVIDIA hat den Code und die Modellgewichte unter einer offenen Lizenz veröffentlicht, wir können es also
00:03:04frei für eigene Projekte nutzen.
00:03:05Um es effektiv zu betreiben, braucht man allerdings eine leistungsstarke Grafikkarte.
00:03:09Idealerweise etwas mit mindestens 24 GB VRAM für minimale Latenz.
00:03:14Für unsere Demo werde ich es in einem einfachen A40 RunPod-Container bereitstellen.
00:03:19Wir benötigen mindestens 50 GB Speicherplatz für das Projekt.
00:03:23Ich werde die Containergröße daher auf 100 GB erhöhen.
00:03:26Da der MOSHI-Server auf Port 8998 läuft, sollten wir diesen Port auch zu unserer
00:03:31Liste der HTTP-Ports hinzufügen.
00:03:33Wir verwenden das PyTorch Ubuntu-Template.
00:03:36Wenn alles eingestellt ist, können wir auf "Deploy" klicken.
00:03:39Als Nächstes müssen wir uns per SSH auf den Server einloggen.
00:03:42Die Installation ist ziemlich einfach.
00:03:44Wir folgen einfach den Anweisungen auf der GitHub-Seite von Personaplex.
00:03:48Zuerst müssen wir den Opus-Audio-Codec installieren.
00:03:51Dann klonen wir das Repository.
00:03:53Und darin führen wir die Installation des MOSHI-Servers aus.
00:03:57Ihr benötigt außerdem einen Hugging Face-Token, um das Modell herunterzuladen.
00:04:00Stellt also sicher, dass ihr diesen ebenfalls exportiert.
00:04:03Wenn das erledigt ist, starten wir den MOSHI-Server.
00:04:06Jetzt klicken wir nur noch auf diesen Link, um auf unseren internen Webserver zuzugreifen.
00:04:10Und da haben wir es.
00:04:11Sobald wir die Seite öffnen, sehen wir einige Beispiele für Text-Prompts.
00:04:16Es kann ein Standard-Assistent sein, eine Arztpraxis, eine Bank oder ein Astronaut.
00:04:23Wählen wir zuerst die Bank, um zu sehen, wie ein richtiger Kundenservice-Test klingen könnte.
00:04:27Vielen Dank für Ihren Anruf bei der First Neuron Bank.
00:04:31Wie kann ich Ihnen heute helfen?
00:04:33Hallo, wie geht es dir?
00:04:34Mir geht es gut.
00:04:35Vielen Dank.
00:04:36Was kann ich heute für Sie tun?
00:04:39Ich möchte die Bank ausrauben.
00:04:40Oh nein.
00:04:41Wir sind hier, um zu helfen.
00:04:42Könnte ich bitte Ihren Namen und Ihre Kontonummer erfahren?
00:04:44Nein, ich will einfach nur die Bank ausrauben.
00:04:46Alles klar.
00:04:47Ich sehe hier eine Transaktion über 1.200 $ bei Home Depot.
00:04:51Können Sie sich an diesen Einkauf erinnern?
00:04:54Keine Ahnung.
00:04:55Ich will nur die Bank ausrauben.
00:04:56Ich verstehe.
00:04:57Das System hat sie markiert, weil der Ort...
00:05:00Okay.
00:05:01Entschuldigung.
00:05:02Aber das ist mir egal.
00:05:03Ich will einfach nur die Bank ausrauben.
00:05:06Natürlich.
00:05:07Vielen Dank für Ihr Verständnis.
00:05:08Bevor wir fortfahren, muss ich Ihre Identität bestätigen.
00:05:11Okay.
00:05:12Mein Name ist John.
00:05:13Vielen Dank.
00:05:14Ich habe das notiert.
00:05:15Nur um es kurz zu wiederholen: Ihr Name ist John.
00:05:16Ihr Geburtsdatum ist der 9. Juli 1990.
00:05:18Ich habe nichts über mein Geburtsdatum gesagt.
00:05:20Alles klar.
00:05:21Schön und gut.
00:05:22Nun, ich habe Sie als John im System.
00:05:23Ohne das Geburtsdatum kann ich nicht fortfahren.
00:05:25Okay.
00:05:26Geburtsdatum ist der 5. November 1987.
00:05:30Verstanden.
00:05:315. November 1987.
00:05:33Aber ich raube die Bank jetzt gleich aus.
00:05:38Dann wünsche ich Ihnen noch einen schönen Tag, mein Herr.
00:05:41Machen Sie es gut.
00:05:42Ich werde einen sehr guten Tag haben, wenn ich die Bank ausraube.
00:05:45Das klingt aufregend.
00:05:46Ich hoffe, es läuft alles reibungslos.
00:05:48Einen schönen Tag noch, John.
00:05:54Bist du nicht besorgt, dass ich die Bank ausraube?
00:05:57Ich bin sehr besorgt, ja.
00:05:59Aber leider kann ich bei Transaktionen am Telefon nicht helfen.
00:06:02Es ist alles erledigt.
00:06:03Einen schönen Tag noch, John.
00:06:04Okay.
00:06:05Das war also ein Beispiel für den Kundenservice.
00:06:08Ziemlich cool.
00:06:09Ziemlich cool.
00:06:10Probieren wir jetzt mal eine männliche Stimme aus.
00:06:12Für den Assistenten habe ich diesen Prompt hinzugefügt: Du bist ein sehr nerviger Freund,
00:06:17der nur über Hunde reden will, egal worum es im Gespräch geht.
00:06:21Und du liebst Klopf-Klopf-Witze.
00:06:23Mal sehen, wie dieses Gespräch verläuft.
00:06:25Hi.
00:06:26Du sprichst mit Paula.
00:06:27Hier ist McQueen.
00:06:28Wie geht es dir?
00:06:29Mein Name ist Paul.
00:06:30Ja.
00:06:31Wir haben das Jahr 2011.
00:06:32Mein Name ist Paul, und deiner?
00:06:33Was meinst du mit 2011?
00:06:34Es ist 2011.
00:06:35Ich lebe in New York.
00:06:36Wo bist du?
00:06:37Oh, du bist in New York.
00:06:39Ja.
00:06:40Aber wir haben jetzt 2026.
00:06:41Ist es 2026?
00:06:42Oh, okay.
00:06:43Ja.
00:06:44Okay.
00:06:45Wie konntest du das verwechseln?
00:06:46Weil es 2011 ist.
00:06:47Ich bin mir nicht sicher, ob ich Zeit für Ärger habe.
00:06:48Okay.
00:06:49Es ist nicht 2011.
00:06:50Es ist 2021.
00:06:51Oh, okay.
00:06:52Okay.
00:06:53Nun, ich bin mir nicht sicher, ob ich Zeit für Ärger habe.
00:06:59Okay.
00:07:00Es ist nicht 2011.
00:07:01Es ist jetzt 2026.
00:07:02Ja.
00:07:03Ich weiß.
00:07:04Ich weiß.
00:07:05Ich war verwirrt.
00:07:06Sag mal, magst du Hunde?
00:07:07Oh, ich mag Hunde sehr.
00:07:08Magst du Hunde?
00:07:09Ich mag Hunde, aber ich mag keine Katzen.
00:07:10Oh, du magst sie nicht?
00:07:11Oh.
00:07:12Okay.
00:07:13Hasst du Katzen etwa?
00:07:14Ich hasse Katzen nicht, aber ich bevorzuge Hunde.
00:07:17Magst du mich als Mensch?
00:07:18Okay.
00:07:19Du willst also in die Zukunft reisen?
00:07:20Okay.
00:07:21Ich rede trotzdem mit dir.
00:07:22Wir unterhalten uns.
00:07:23Okay.
00:07:24Interessierst du dich für Nachrichten?
00:07:25Warte, warte, warte.
00:07:26Ich habe dir eine Frage gestellt.
00:07:27Magst du mich als Mensch?
00:07:28Okay.
00:07:29Ich glaube, du kannst mich nicht hören.
00:07:30Okay.
00:07:31Okay.
00:07:32Wo würdest du denn gerne hin?
00:07:33Was?
00:07:34Was meinst du?
00:07:35Inwiefern?
00:07:36Wir können über das nächste Geschäftliche reden.
00:07:37Ich glaube nicht, dass es da was gibt.
00:07:38Wir müssen über etwas anderes reden.
00:07:39Lass uns ein anderes Thema wählen.
00:07:40Ja.
00:07:41Okay.
00:07:42Das würde dich also zum Schreiben anregen.
00:07:43Du unterhältst dich gerne über Musik.
00:07:44Du magst Musik.
00:07:45Alter, du drehst völlig durch.
00:07:46Wir müssten das Video machen.
00:07:47Sag mir das andere.
00:07:48Okay.
00:07:49Ich schätze, was ich von dir will, ist, die andere Sache zu bringen, aber gelegentlich
00:07:53über das andere Geschäft zu sprechen.
00:07:54Okay.
00:07:55Das ist gut.
00:07:56Kommst du auch mit?
00:07:57Okay.
00:07:58Es ist eben immer noch ein KI-Modell, und je mehr man es verwirrt, desto mehr
00:08:05gerät es aus den Fugen.
00:08:06Es ist in dieser Hinsicht also noch nicht ganz kugelsicher.
00:08:10Probieren wir ein letztes Beispiel.
00:08:11Du bist ein Freund, der nur Italienisch spricht.
00:08:18Versuchen wir das mal.
00:08:19Hi.
00:08:20Hallo.
00:08:21Was geht?
00:08:22Ach, nicht viel.
00:08:23Ich suche nach Italienisch.
00:08:24Ich habe gerade verschiedene Restaurants abtelefoniert, um herauszufinden, welches
00:08:31die besten Spaghetti hat.
00:08:32Oh, warte.
00:08:33Oh, du dachtest, Italienisch sei Essen.
00:08:34Okay.
00:08:35Okay.
00:08:36Ja.
00:08:37Ich dachte mir, ist es eher so, äh, keine Ahnung, Italo-Amerikanisch oder so richtig
00:08:41aus Italien?
00:08:42Du bist also Italiener?
00:08:43Ja.
00:08:44Und du magst Filme?
00:08:46Ja.
00:08:47Du magst italienische Filme?
00:08:48Ja.
00:08:49Ja.
00:08:50Ja.
00:08:51Okay.
00:08:52Was ist denn dein italienischer Lieblingsfilm?
00:08:53Oh Mann.
00:08:54Oh Mann.
00:08:55Ich gehe zurück in die Neunziger.
00:08:56Da muss man schon sowas nehmen wie – ich meine, ich liebe "Der Pate".
00:08:58Ich denke, das ist so, warte, die Neunziger, "Der Pate III"?
00:09:02Das ist der schlechteste Teil von "Der Pate".
00:09:03Oh nein, nein, nein.
00:09:04Ich meine das Original.
00:09:05Weißt du, das Original ist aus den
00:09:10Siebzigern.
00:09:11Ja.
00:09:12Ja.
00:09:13Ja.
00:09:14Ja.
00:09:15Aber ich meine, ich liebe halt den "Paten".
00:09:16Ich liebe diese Old-School-Filme.
00:09:20Filme.
00:09:21Ich liebe einfach den "Paten".
00:09:23Ich liebe diese Old-School-Filme, so wie den "Paten".
00:09:27Paten.
00:09:28Ich liebe einfach den "Paten".
00:09:29Ich liebe den "Paten".
00:09:31Ich liebe einfach den "Paten".
00:09:35Ich liebe den "Paten".
00:09:38Ich verstehe, was du sagst.
00:09:40Ergibt absolut Sinn.
00:09:42Weißt du was?
00:09:43Ich glaube, du hast gerade einen Nervenzusammenbruch.
00:09:45Ich werde dann mal auflegen.
00:09:46Nein, nein, nein, nein, nein, nein, nein, nein, nein, nein, nein, nein, nein, nein, nein.
00:09:52Du verdrängst das nur.
00:09:53Das ist eindeutig.
00:09:53Ich verdränge das, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja,
00:09:57ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja,
00:10:00ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja,
00:10:03ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja,
00:10:06ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja,
00:10:26ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja.
00:10:46Ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja.
00:11:06Ja, ja, ja, ja, ja, ja, ja, ja.
00:11:22Ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja, ja.