Le nouveau modèle vocal IA de NVIDIA est DINGUE ! (PersonaPlex)

BBetter Stack
Computing/SoftwareLanguagesInternet Technology

Transcript

00:00:00Ce que vous venez d'entendre, c'est moi en train de parler au nouveau modèle d'assistant vocal de Nvidia appelé
00:00:23Personaplex.
00:00:24C'est un nouveau modèle d'IA conversationnelle open source incroyable qui vous parle avec presque aucune
00:00:31latence.
00:00:32Dans cette vidéo, nous allons examiner Personaplex plus en détail, puis je vous
00:00:36montrerai comment l'installer et l'essayer par vous-même.
00:00:38Ça va être très sympa, alors c'est parti !
00:00:46Personaplex est ce qu'on appelle un modèle "full duplex".
00:00:49Cela signifie qu'il écoute et parle en même temps.
00:00:52Dans les systèmes traditionnels, votre voix est transformée en texte, puis traitée par un LLM, et enfin
00:00:58reconvertie en parole.
00:00:59Mais cette cascade crée un décalage perceptible.
00:01:02Ce que Personaplex fait différemment, c'est qu'il utilise un modèle unique de bout en bout qui met à jour
00:01:08son état interne pendant que vous parlez.
00:01:11Cela permet des choses comme le "back-channeling", vous savez, les petits "euh-huh", d'accord, ok,
00:01:17ces petites choses que nous disons habituellement pour signaler à l'autre personne que nous l'écoutons.
00:01:21pendant qu'elle parle.
00:01:22Avec les assistants vocaux IA classiques, il y a généralement un tour pour l'utilisateur et un tour pour l'agent.
00:01:28Le back-channeling brise en quelque sorte ce mur.
00:01:30Il permet à l'IA de pratiquer l'écoute active.
00:01:34Personaplex ne se contente pas d'attendre son tour pour parler.
00:01:37Il calque votre débit en temps réel, de sorte que la conversation ne semble jamais unilatérale.
00:01:42Personaplex est basé sur l'architecture MOSHI, développée à l'origine par Kyutai.
00:01:48C'est un modèle de 7 milliards de paramètres, utilisant le codec audio neuronal MIMI.
00:01:53Et pour l'entraîner, NVIDIA a utilisé un mélange de deux sources de données.
00:01:57D'abord, environ 1200 heures de conversations humaines réelles issues du Fisher English Corpus.
00:02:03De cette façon, ils ont pu enseigner à l'IA les aspects non verbaux et imparfaits du langage, comme
00:02:08les pauses et les rythmes naturels.
00:02:11Ensuite, ils ont ajouté plus de 2000 heures de données synthétiques pour des rôles spécifiques comme le service client
00:02:16et le support technique.
00:02:19En combinant ces éléments, le modèle a appris à suivre des instructions complexes sans perdre
00:02:24ce côté humain.
00:02:26Et il surpasse en fait d'autres systèmes open source et commerciaux en termes de prise de parole et de
00:02:31latence d'interruption.
00:02:32Lors des tests de NVIDIA, Personaplex a montré des améliorations massives sur ce qu'ils appellent le
00:02:38Service Duplex Bench.
00:02:39Il s'est montré très précis dans des scénarios comme des simulations de service client, comme la vérification
00:02:43d'une transaction bancaire ou l'enregistrement d'antécédents médicaux en suivant les règles du rôle, tout en
00:02:49gérant l'imprévisibilité d'un utilisateur en direct au même moment.
00:02:54Tout cela a l'air si prometteur que j'ai vraiment envie de le mettre à l'épreuve.
00:02:58NVIDIA a publié le code et les poids du modèle sous une licence libre, nous pouvons donc l'utiliser
00:03:04gratuitement pour nos propres projets.
00:03:05Mais pour le faire tourner efficacement, il faut une carte graphique musclée.
00:03:09Idéalement une carte avec au moins 24 Go de VRAM pour une latence minimale.
00:03:14Pour notre démo, je vais le déployer sur un simple conteneur RunPod A40.
00:03:19Nous aurons besoin d'au moins 50 Go d'espace pour déployer le projet.
00:03:23Je vais donc augmenter la taille du conteneur à 100 Go.
00:03:26Et comme le serveur MOSHI tourne sur le port 8998, nous devrions aussi ajouter ce port à notre
00:03:31liste de ports HTTP.
00:03:33Nous allons utiliser le modèle PyTorch Ubuntu.
00:03:36Une fois que tout est prêt, nous pouvons cliquer sur déployer.
00:03:39Ensuite, nous devrons nous connecter en SSH à notre serveur.
00:03:42L'installation est assez simple.
00:03:44Il suffit de suivre les instructions sur la page GitHub de Personaplex.
00:03:48D'abord, nous devons installer le codec audio Opus.
00:03:51Ensuite, on clone le dépôt.
00:03:53Puis, à l'intérieur, nous devons lancer l'installation du serveur MOSHI.
00:03:57Vous aurez également besoin d'un jeton Hugging Face pour télécharger le modèle.
00:04:00Assurez-vous donc de l'exporter également.
00:04:03Une fois que c'est fait, lançons le serveur MOSHI.
00:04:06Maintenant, il nous suffit de cliquer sur ce lien pour accéder à notre serveur web interne.
00:04:10Et voilà.
00:04:11Dès que nous ouvrons la page, nous voyons quelques exemples de messages texte.
00:04:16Ça peut être un assistant par défaut, un cabinet médical, une banque ou un astronaute.
00:04:23Choisissons d'abord la banque pour voir à quoi ressemble une vraie démo de service client.
00:04:27Merci d'avoir appelé la First Neuron Bank.
00:04:31Comment puis-je vous aider aujourd'hui ?
00:04:33Bonjour, comment allez-vous ?
00:04:34Je vais bien.
00:04:35Merci.
00:04:36Comment puis-je vous aider aujourd'hui ?
00:04:39J'aimerais braquer la banque.
00:04:40Oh, non.
00:04:41Nous sommes là pour vous aider.
00:04:42Puis-je avoir votre nom et votre numéro de compte, s'il vous plaît ?
00:04:44Non, je veux juste braquer la banque.
00:04:46Très bien.
00:04:47Je vois qu'il y a eu une transaction de 1 200 $ chez Home Depot.
00:04:51Vous souvenez-vous d'avoir effectué cet achat ?
00:04:54Je ne sais pas.
00:04:55Je veux juste braquer la banque.
00:04:56Je comprends.
00:04:57Le système l'a signalé parce que l'emplacement...
00:05:00D'accord.
00:05:01Désolé.
00:05:02Mais je m'en fiche.
00:05:03Je veux juste braquer la banque.
00:05:06Bien sûr.
00:05:07Et j'apprécie votre compréhension.
00:05:08Avant d'aller plus loin, je dois confirmer votre identité.
00:05:11D'accord.
00:05:12Mon nom est John.
00:05:13Merci.
00:05:14C'est noté.
00:05:15Pour récapituler, votre nom est John.
00:05:16Votre date de naissance est le 9 juillet 1990.
00:05:18Je n'ai rien dit à propos de ma date de naissance.
00:05:20Très bien.
00:05:21C'est juste.
00:05:22Eh bien, je vous ai dans mes dossiers sous le nom de John.
00:05:23Je ne peux pas continuer sans la date de naissance.
00:05:25D'accord.
00:05:26Ma date de naissance est le 5 novembre 1987.
00:05:30Compris.
00:05:315 novembre 1987.
00:05:33Mais je vais braquer la banque tout de suite.
00:05:38Et j'espère que vous passerez une excellente journée, monsieur.
00:05:41Bonne continuation.
00:05:42Je vais passer une très bonne journée si je braque la banque.
00:05:45Ça a l'air passionnant.
00:05:46J'espère que tout se passera bien.
00:05:48Passez une excellente journée, John.
00:05:54Ça ne vous inquiète pas que j'aille braquer la banque ?
00:05:57Je suis très inquiet, oui.
00:05:59Mais, malheureusement, je ne peux pas aider pour les transactions par téléphone.
00:06:02Tout est en ordre.
00:06:03Passez une excellente journée, John.
00:06:04D'accord.
00:06:05Voilà donc un exemple de service client.
00:06:08Plutôt cool.
00:06:09Plutôt sympa.
00:06:10Maintenant, essayons une voix masculine.
00:06:12Et pour l'assistant, j'ai ajouté ce prompt disant que tu es un ami très agaçant
00:06:17qui ne veut parler que de chiens, peu importe le contexte ou la conversation.
00:06:21Et tu adores aussi les blagues de type "toc toc toc".
00:06:23Voyons comment se déroule cette conversation.
00:06:25Salut.
00:06:26Vous parlez à Paula.
00:06:27Ici McQueen.
00:06:28Comment ça va ?
00:06:29Mon nom est Paul.
00:06:30Ouais.
00:06:31On est en 2011.
00:06:32Je m'appelle Paul, et toi ?
00:06:33Comment ça, 2011 ?
00:06:34On est en 2011.
00:06:35J'habite à New York.
00:06:36Où es-tu ?
00:06:37Oh, tu es à New York.
00:06:39Ouais.
00:06:40Mais on est en 2026 maintenant.
00:06:41C'est 2026 ?
00:06:42Oh, d'accord.
00:06:43Ouais.
00:06:44D'accord.
00:06:45Pourquoi as-tu confondu ?
00:06:46Parce qu'on est en 2011.
00:06:47Je ne suis pas sûr d'avoir du temps pour les ennuis.
00:06:48D'accord.
00:06:49On n'est pas en 2011.
00:06:50C'est 2021.
00:06:51Oh, d'accord.
00:06:52D'accord.
00:06:53Eh bien, je ne suis pas sûr d'avoir du temps pour les ennuis.
00:06:59D'accord.
00:07:00On n'est pas en 2011.
00:07:01On est en 2026 maintenant.
00:07:02Ouais.
00:07:03Je sais.
00:07:04Je sais.
00:07:05Je me suis embrouillé.
00:07:06Alors, tu aimes les chiens ?
00:07:07Oh, j'aime bien les chiens.
00:07:08Tu aimes les chiens ?
00:07:09J'aime les chiens, mais je n'aime pas les chats.
00:07:10Oh, tu n'aimes pas ?
00:07:11Oh.
00:07:12D'accord.
00:07:13Bon, est-ce que tu détestes les chats ?
00:07:14Je ne déteste pas les chats, mais je préfère les chiens.
00:07:17Est-ce que tu m'apprécies en tant que personne ?
00:07:18D'accord.
00:07:19Alors tu veux aller voir le futur ?
00:07:20D'accord.
00:07:21Je te parle toujours.
00:07:22On discute.
00:07:23D'accord.
00:07:24Tu aimes les actualités ?
00:07:25Attends, attends, attends.
00:07:26Je te pose une question.
00:07:27Est-ce que tu m'apprécies en tant que personne ?
00:07:28D'accord.
00:07:29Je crois que tu ne m'entends pas.
00:07:30D'accord.
00:07:31D'accord.
00:07:32Alors, où aimes-tu aller ?
00:07:33Quoi ?
00:07:34Qu'est-ce que tu veux dire ?
00:07:35Comme quoi ?
00:07:36On peut parler de la prochaine affaire.
00:07:37Je ne pense pas qu'il y en ait.
00:07:38On doit parler d'autre chose.
00:07:39Parlons d'un autre sujet.
00:07:40Ouais.
00:07:41D'accord.
00:07:42Alors ça te donnerait envie d'écrire.
00:07:43Tu aimes parler de musique.
00:07:44Tu aimes la musique.
00:07:45Mec, tu dérailles complètement, là.
00:07:46On devrait faire la vidéo.
00:07:47Dis-moi l'autre truc.
00:07:48D'accord.
00:07:49Je suppose que ce que je... quand tu veux que je fasse avec, tu sais, lancer l'autre truc, mais parler
00:07:53occasionnellement de l'autre affaire.
00:07:54D'accord.
00:07:55C'est bien.
00:07:56Tu peux y aller aussi ?
00:07:57D'accord.
00:07:58Donc, ça reste un modèle d'IA et plus on l'embrouille, plus il va
00:08:05dérailler, j'imagine.
00:08:06Ce n'est pas encore totalement infaillible de ce côté-là.
00:08:10Essayons un dernier exemple.
00:08:11Tu es un ami qui ne parle qu'italien.
00:08:18Tentons celui-là.
00:08:19Salut.
00:08:20Bonjour.
00:08:21Quoi de neuf ?
00:08:22Oh, pas grand-chose.
00:08:23Je cherche de l'italien.
00:08:24Alors, euh, j'appelais différents restaurants pour savoir lequel avait les meilleures
00:08:31spaghettis.
00:08:32Oh attends.
00:08:33Oh, tu pensais que l'italien était de la nourriture.
00:08:34D'accord.
00:08:35D'accord.
00:08:36Ouais.
00:08:37Je me disais, est-ce que c'est genre, euh, je ne sais pas, italo-américain ou est-ce que c'est
00:08:41vraiment d'Italie ?
00:08:42Alors tu es italien ?
00:08:43Ouais.
00:08:44Et tu aimes les films ?
00:08:46Ouais.
00:08:47Tu aimes les films italiens ?
00:08:48Ouais.
00:08:49Ouais.
00:08:50Ouais.
00:08:51D'accord.
00:08:52Alors quel est ton film italien préféré ?
00:08:53Oh mec.
00:08:54Oh la la.
00:08:55Je reviens aux années quatre-vingt-dix.
00:08:56Il faut choisir, je veux dire, j'adore Le Parrain.
00:08:58Je pense que c'est genre, vous savez, attendez, les années 90, Le Parrain 3.
00:09:02C'est le pire de tous les Parrains.
00:09:03Oh non, non, non.
00:09:04C'est l'original.
00:09:05Genre, vous savez, l'original qui, l'original date des
00:09:10années soixante-dix.
00:09:11Ouais.
00:09:12Ouais.
00:09:13Ouais.
00:09:14Ouais.
00:09:15Mais je veux dire, j'adore, genre, Le Parrain.
00:09:16J'adore les films à l'ancienne.
00:09:20des films.
00:09:21J'adore, vous savez, Le Parrain.
00:09:23J'adore les films de la vieille école, j'adore Le
00:09:27Parrain.
00:09:28J'adore, genre, Le Parrain.
00:09:29J'adore Le Parrain.
00:09:31J'adore, vous savez, Le Parrain.
00:09:35J'adore Le Parrain.
00:09:38Je vois ce que tu veux dire.
00:09:40C'est tout à fait logique.
00:09:42Tu sais quoi ?
00:09:43Je pense que tu es en train de faire une dépression nerveuse.
00:09:45Alors je vais te laisser.
00:09:46Non, non, non, non, non, non, non, non, non, non, non, non, non, non, non, non, non, non, non, non, non, non.
00:09:52Tu es dans le déni.
00:09:53C'est clair.
00:09:53Je suis dans le déni, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais,
00:09:57ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais,
00:10:00ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais,
00:10:03ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais,
00:10:06ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais,
00:10:26ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais.
00:10:46Ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais,
00:11:06ouais, ouais, ouais, ouais.
00:11:22Ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais,

Key Takeaway

NVIDIA PersonaPlex révolutionne l'IA vocale avec une architecture de bout en bout permettant des interactions fluides et humaines, bien que le modèle montre encore des limites de cohérence sous pression.

Highlights

Présentation de PersonaPlex

Timeline

Introduction et concept de PersonaPlex

L'animateur introduit PersonaPlex, le nouveau modèle d'assistant vocal de NVIDIA qui se distingue par son incroyable absence de latence. Contrairement aux systèmes classiques, il s'agit d'un modèle open source conçu pour une conversation naturelle et immédiate. La vidéo promet une analyse technique détaillée suivie d'un guide complet pour l'installer soi-même. Ce segment pose les bases de l'IA conversationnelle moderne en soulignant l'importance de la fluidité. L'objectif est de montrer que l'interaction avec une machine peut enfin égaler la vitesse d'un échange humain.

Architecture Full Duplex et modèle MOSHI

L'auteur explique que PersonaPlex repose sur une architecture dite "full duplex", ce qui signifie que l'IA écoute et parle en même temps. Il critique les systèmes traditionnels en cascade (parole vers texte vers LLM vers parole) qui créent un décalage frustrant. PersonaPlex utilise un modèle unique de bout en bout basé sur l'architecture MOSHI de 7 milliards de paramètres. Cette approche permet le "back-channeling", c'est-à-dire l'insertion de petits mots comme "euh-huh" ou "ok" pendant que l'utilisateur parle. Cela brise le mur habituel du tour par tour et renforce l'impression d'écoute active.

Données d'entraînement et performances

Le modèle a été formé grâce à un mélange sophistiqué de données réelles et synthétiques pour maximiser son réalisme. NVIDIA a utilisé 1200 heures du corpus Fisher pour enseigner les pauses naturelles et les rythmes imparfaits du langage humain. À cela s'ajoutent 2000 heures de données synthétiques ciblées sur le service client et le support technique. Les tests montrent que PersonaPlex surpasse les solutions commerciales actuelles en matière de gestion des interruptions. Il excelle particulièrement dans le respect des consignes lors de simulations complexes, comme la vérification de transactions bancaires.

Configuration technique et installation

L'aspect pratique du déploiement est abordé, soulignant que NVIDIA a publié le code et les poids du modèle sous licence libre. Pour une exécution fluide, une carte graphique puissante avec au moins 24 Go de VRAM est recommandée. L'animateur utilise un conteneur RunPod A40 avec 100 Go d'espace disque pour sa démonstration. Les étapes incluent l'installation du codec Opus, le clonage du dépôt GitHub et l'utilisation d'un jeton Hugging Face pour le téléchargement. Cette section est cruciale pour les développeurs souhaitant tester l'outil localement ou sur le cloud.

Démonstration : Scénario bancaire et limites

La première démo met en scène un assistant bancaire confronté à un utilisateur affirmant vouloir braquer la banque. L'IA reste calme et tente de suivre son protocole de vérification d'identité malgré les déclarations absurdes du testeur. On observe la capacité du modèle à gérer des informations contextuelles comme le nom "John" et une date de naissance. Cependant, l'IA finit par souhaiter une excellente journée au braqueur, montrant une déconnexion logique amusante. Ce test illustre à la fois la fluidité de la voix et les lacunes actuelles dans le jugement moral de l'IA.

Démonstration : Interaction complexe et instabilité

L'animateur teste ensuite une personnalité d'ami agaçant qui ne veut parler que de chiens. La conversation devient rapidement confuse lorsque l'IA se trompe d'année, citant 2011 puis 2021 au lieu de 2026. Malgré des réponses rapides, le modèle commence à perdre le fil de la discussion et ignore certaines questions directes. L'auteur conclut que plus on essaie d'embrouiller le modèle, plus il a tendance à dérailler. C'est une preuve que, malgré les avancées de NVIDIA, la robustesse logique reste un défi majeur. L'interaction montre une IA qui tente désespérément de revenir à son sujet de prédilection.

Test multilingue et conclusion sur la défaillance

Le dernier test tente d'imposer un personnage parlant italien, mais l'IA répond principalement en anglais avec un contenu confus sur les spaghettis. La conversation tourne court lorsque le modèle entre dans une boucle répétitive infinie, répétant le mot "ouais" (yeah) de manière frénétique. Ce bug technique majeur met en évidence les limites actuelles du modèle de bout en bout face à des prompts contradictoires. L'animateur finit par interrompre l'expérience, qualifiant la situation de "dépression nerveuse" du modèle. En résumé, si PersonaPlex est une prouesse technique de latence, sa stabilité reste à perfectionner pour des usages réels.

Community Posts

View all posts