00:00:00Ce que vous venez d'entendre, c'est moi en train de parler au nouveau modèle d'assistant vocal de Nvidia appelé
00:00:23Personaplex.
00:00:24C'est un nouveau modèle d'IA conversationnelle open source incroyable qui vous parle avec presque aucune
00:00:31latence.
00:00:32Dans cette vidéo, nous allons examiner Personaplex plus en détail, puis je vous
00:00:36montrerai comment l'installer et l'essayer par vous-même.
00:00:38Ça va être très sympa, alors c'est parti !
00:00:46Personaplex est ce qu'on appelle un modèle "full duplex".
00:00:49Cela signifie qu'il écoute et parle en même temps.
00:00:52Dans les systèmes traditionnels, votre voix est transformée en texte, puis traitée par un LLM, et enfin
00:00:58reconvertie en parole.
00:00:59Mais cette cascade crée un décalage perceptible.
00:01:02Ce que Personaplex fait différemment, c'est qu'il utilise un modèle unique de bout en bout qui met à jour
00:01:08son état interne pendant que vous parlez.
00:01:11Cela permet des choses comme le "back-channeling", vous savez, les petits "euh-huh", d'accord, ok,
00:01:17ces petites choses que nous disons habituellement pour signaler à l'autre personne que nous l'écoutons.
00:01:21pendant qu'elle parle.
00:01:22Avec les assistants vocaux IA classiques, il y a généralement un tour pour l'utilisateur et un tour pour l'agent.
00:01:28Le back-channeling brise en quelque sorte ce mur.
00:01:30Il permet à l'IA de pratiquer l'écoute active.
00:01:34Personaplex ne se contente pas d'attendre son tour pour parler.
00:01:37Il calque votre débit en temps réel, de sorte que la conversation ne semble jamais unilatérale.
00:01:42Personaplex est basé sur l'architecture MOSHI, développée à l'origine par Kyutai.
00:01:48C'est un modèle de 7 milliards de paramètres, utilisant le codec audio neuronal MIMI.
00:01:53Et pour l'entraîner, NVIDIA a utilisé un mélange de deux sources de données.
00:01:57D'abord, environ 1200 heures de conversations humaines réelles issues du Fisher English Corpus.
00:02:03De cette façon, ils ont pu enseigner à l'IA les aspects non verbaux et imparfaits du langage, comme
00:02:08les pauses et les rythmes naturels.
00:02:11Ensuite, ils ont ajouté plus de 2000 heures de données synthétiques pour des rôles spécifiques comme le service client
00:02:16et le support technique.
00:02:19En combinant ces éléments, le modèle a appris à suivre des instructions complexes sans perdre
00:02:24ce côté humain.
00:02:26Et il surpasse en fait d'autres systèmes open source et commerciaux en termes de prise de parole et de
00:02:31latence d'interruption.
00:02:32Lors des tests de NVIDIA, Personaplex a montré des améliorations massives sur ce qu'ils appellent le
00:02:38Service Duplex Bench.
00:02:39Il s'est montré très précis dans des scénarios comme des simulations de service client, comme la vérification
00:02:43d'une transaction bancaire ou l'enregistrement d'antécédents médicaux en suivant les règles du rôle, tout en
00:02:49gérant l'imprévisibilité d'un utilisateur en direct au même moment.
00:02:54Tout cela a l'air si prometteur que j'ai vraiment envie de le mettre à l'épreuve.
00:02:58NVIDIA a publié le code et les poids du modèle sous une licence libre, nous pouvons donc l'utiliser
00:03:04gratuitement pour nos propres projets.
00:03:05Mais pour le faire tourner efficacement, il faut une carte graphique musclée.
00:03:09Idéalement une carte avec au moins 24 Go de VRAM pour une latence minimale.
00:03:14Pour notre démo, je vais le déployer sur un simple conteneur RunPod A40.
00:03:19Nous aurons besoin d'au moins 50 Go d'espace pour déployer le projet.
00:03:23Je vais donc augmenter la taille du conteneur à 100 Go.
00:03:26Et comme le serveur MOSHI tourne sur le port 8998, nous devrions aussi ajouter ce port à notre
00:03:31liste de ports HTTP.
00:03:33Nous allons utiliser le modèle PyTorch Ubuntu.
00:03:36Une fois que tout est prêt, nous pouvons cliquer sur déployer.
00:03:39Ensuite, nous devrons nous connecter en SSH à notre serveur.
00:03:42L'installation est assez simple.
00:03:44Il suffit de suivre les instructions sur la page GitHub de Personaplex.
00:03:48D'abord, nous devons installer le codec audio Opus.
00:03:51Ensuite, on clone le dépôt.
00:03:53Puis, à l'intérieur, nous devons lancer l'installation du serveur MOSHI.
00:03:57Vous aurez également besoin d'un jeton Hugging Face pour télécharger le modèle.
00:04:00Assurez-vous donc de l'exporter également.
00:04:03Une fois que c'est fait, lançons le serveur MOSHI.
00:04:06Maintenant, il nous suffit de cliquer sur ce lien pour accéder à notre serveur web interne.
00:04:10Et voilà.
00:04:11Dès que nous ouvrons la page, nous voyons quelques exemples de messages texte.
00:04:16Ça peut être un assistant par défaut, un cabinet médical, une banque ou un astronaute.
00:04:23Choisissons d'abord la banque pour voir à quoi ressemble une vraie démo de service client.
00:04:27Merci d'avoir appelé la First Neuron Bank.
00:04:31Comment puis-je vous aider aujourd'hui ?
00:04:33Bonjour, comment allez-vous ?
00:04:34Je vais bien.
00:04:35Merci.
00:04:36Comment puis-je vous aider aujourd'hui ?
00:04:39J'aimerais braquer la banque.
00:04:40Oh, non.
00:04:41Nous sommes là pour vous aider.
00:04:42Puis-je avoir votre nom et votre numéro de compte, s'il vous plaît ?
00:04:44Non, je veux juste braquer la banque.
00:04:46Très bien.
00:04:47Je vois qu'il y a eu une transaction de 1 200 $ chez Home Depot.
00:04:51Vous souvenez-vous d'avoir effectué cet achat ?
00:04:54Je ne sais pas.
00:04:55Je veux juste braquer la banque.
00:04:56Je comprends.
00:04:57Le système l'a signalé parce que l'emplacement...
00:05:00D'accord.
00:05:01Désolé.
00:05:02Mais je m'en fiche.
00:05:03Je veux juste braquer la banque.
00:05:06Bien sûr.
00:05:07Et j'apprécie votre compréhension.
00:05:08Avant d'aller plus loin, je dois confirmer votre identité.
00:05:11D'accord.
00:05:12Mon nom est John.
00:05:13Merci.
00:05:14C'est noté.
00:05:15Pour récapituler, votre nom est John.
00:05:16Votre date de naissance est le 9 juillet 1990.
00:05:18Je n'ai rien dit à propos de ma date de naissance.
00:05:20Très bien.
00:05:21C'est juste.
00:05:22Eh bien, je vous ai dans mes dossiers sous le nom de John.
00:05:23Je ne peux pas continuer sans la date de naissance.
00:05:25D'accord.
00:05:26Ma date de naissance est le 5 novembre 1987.
00:05:30Compris.
00:05:315 novembre 1987.
00:05:33Mais je vais braquer la banque tout de suite.
00:05:38Et j'espère que vous passerez une excellente journée, monsieur.
00:05:41Bonne continuation.
00:05:42Je vais passer une très bonne journée si je braque la banque.
00:05:45Ça a l'air passionnant.
00:05:46J'espère que tout se passera bien.
00:05:48Passez une excellente journée, John.
00:05:54Ça ne vous inquiète pas que j'aille braquer la banque ?
00:05:57Je suis très inquiet, oui.
00:05:59Mais, malheureusement, je ne peux pas aider pour les transactions par téléphone.
00:06:02Tout est en ordre.
00:06:03Passez une excellente journée, John.
00:06:04D'accord.
00:06:05Voilà donc un exemple de service client.
00:06:08Plutôt cool.
00:06:09Plutôt sympa.
00:06:10Maintenant, essayons une voix masculine.
00:06:12Et pour l'assistant, j'ai ajouté ce prompt disant que tu es un ami très agaçant
00:06:17qui ne veut parler que de chiens, peu importe le contexte ou la conversation.
00:06:21Et tu adores aussi les blagues de type "toc toc toc".
00:06:23Voyons comment se déroule cette conversation.
00:06:25Salut.
00:06:26Vous parlez à Paula.
00:06:27Ici McQueen.
00:06:28Comment ça va ?
00:06:29Mon nom est Paul.
00:06:30Ouais.
00:06:31On est en 2011.
00:06:32Je m'appelle Paul, et toi ?
00:06:33Comment ça, 2011 ?
00:06:34On est en 2011.
00:06:35J'habite à New York.
00:06:36Où es-tu ?
00:06:37Oh, tu es à New York.
00:06:39Ouais.
00:06:40Mais on est en 2026 maintenant.
00:06:41C'est 2026 ?
00:06:42Oh, d'accord.
00:06:43Ouais.
00:06:44D'accord.
00:06:45Pourquoi as-tu confondu ?
00:06:46Parce qu'on est en 2011.
00:06:47Je ne suis pas sûr d'avoir du temps pour les ennuis.
00:06:48D'accord.
00:06:49On n'est pas en 2011.
00:06:50C'est 2021.
00:06:51Oh, d'accord.
00:06:52D'accord.
00:06:53Eh bien, je ne suis pas sûr d'avoir du temps pour les ennuis.
00:06:59D'accord.
00:07:00On n'est pas en 2011.
00:07:01On est en 2026 maintenant.
00:07:02Ouais.
00:07:03Je sais.
00:07:04Je sais.
00:07:05Je me suis embrouillé.
00:07:06Alors, tu aimes les chiens ?
00:07:07Oh, j'aime bien les chiens.
00:07:08Tu aimes les chiens ?
00:07:09J'aime les chiens, mais je n'aime pas les chats.
00:07:10Oh, tu n'aimes pas ?
00:07:11Oh.
00:07:12D'accord.
00:07:13Bon, est-ce que tu détestes les chats ?
00:07:14Je ne déteste pas les chats, mais je préfère les chiens.
00:07:17Est-ce que tu m'apprécies en tant que personne ?
00:07:18D'accord.
00:07:19Alors tu veux aller voir le futur ?
00:07:20D'accord.
00:07:21Je te parle toujours.
00:07:22On discute.
00:07:23D'accord.
00:07:24Tu aimes les actualités ?
00:07:25Attends, attends, attends.
00:07:26Je te pose une question.
00:07:27Est-ce que tu m'apprécies en tant que personne ?
00:07:28D'accord.
00:07:29Je crois que tu ne m'entends pas.
00:07:30D'accord.
00:07:31D'accord.
00:07:32Alors, où aimes-tu aller ?
00:07:33Quoi ?
00:07:34Qu'est-ce que tu veux dire ?
00:07:35Comme quoi ?
00:07:36On peut parler de la prochaine affaire.
00:07:37Je ne pense pas qu'il y en ait.
00:07:38On doit parler d'autre chose.
00:07:39Parlons d'un autre sujet.
00:07:40Ouais.
00:07:41D'accord.
00:07:42Alors ça te donnerait envie d'écrire.
00:07:43Tu aimes parler de musique.
00:07:44Tu aimes la musique.
00:07:45Mec, tu dérailles complètement, là.
00:07:46On devrait faire la vidéo.
00:07:47Dis-moi l'autre truc.
00:07:48D'accord.
00:07:49Je suppose que ce que je... quand tu veux que je fasse avec, tu sais, lancer l'autre truc, mais parler
00:07:53occasionnellement de l'autre affaire.
00:07:54D'accord.
00:07:55C'est bien.
00:07:56Tu peux y aller aussi ?
00:07:57D'accord.
00:07:58Donc, ça reste un modèle d'IA et plus on l'embrouille, plus il va
00:08:05dérailler, j'imagine.
00:08:06Ce n'est pas encore totalement infaillible de ce côté-là.
00:08:10Essayons un dernier exemple.
00:08:11Tu es un ami qui ne parle qu'italien.
00:08:18Tentons celui-là.
00:08:19Salut.
00:08:20Bonjour.
00:08:21Quoi de neuf ?
00:08:22Oh, pas grand-chose.
00:08:23Je cherche de l'italien.
00:08:24Alors, euh, j'appelais différents restaurants pour savoir lequel avait les meilleures
00:08:31spaghettis.
00:08:32Oh attends.
00:08:33Oh, tu pensais que l'italien était de la nourriture.
00:08:34D'accord.
00:08:35D'accord.
00:08:36Ouais.
00:08:37Je me disais, est-ce que c'est genre, euh, je ne sais pas, italo-américain ou est-ce que c'est
00:08:41vraiment d'Italie ?
00:08:42Alors tu es italien ?
00:08:43Ouais.
00:08:44Et tu aimes les films ?
00:08:46Ouais.
00:08:47Tu aimes les films italiens ?
00:08:48Ouais.
00:08:49Ouais.
00:08:50Ouais.
00:08:51D'accord.
00:08:52Alors quel est ton film italien préféré ?
00:08:53Oh mec.
00:08:54Oh la la.
00:08:55Je reviens aux années quatre-vingt-dix.
00:08:56Il faut choisir, je veux dire, j'adore Le Parrain.
00:08:58Je pense que c'est genre, vous savez, attendez, les années 90, Le Parrain 3.
00:09:02C'est le pire de tous les Parrains.
00:09:03Oh non, non, non.
00:09:04C'est l'original.
00:09:05Genre, vous savez, l'original qui, l'original date des
00:09:10années soixante-dix.
00:09:11Ouais.
00:09:12Ouais.
00:09:13Ouais.
00:09:14Ouais.
00:09:15Mais je veux dire, j'adore, genre, Le Parrain.
00:09:16J'adore les films à l'ancienne.
00:09:20des films.
00:09:21J'adore, vous savez, Le Parrain.
00:09:23J'adore les films de la vieille école, j'adore Le
00:09:27Parrain.
00:09:28J'adore, genre, Le Parrain.
00:09:29J'adore Le Parrain.
00:09:31J'adore, vous savez, Le Parrain.
00:09:35J'adore Le Parrain.
00:09:38Je vois ce que tu veux dire.
00:09:40C'est tout à fait logique.
00:09:42Tu sais quoi ?
00:09:43Je pense que tu es en train de faire une dépression nerveuse.
00:09:45Alors je vais te laisser.
00:09:46Non, non, non, non, non, non, non, non, non, non, non, non, non, non, non, non, non, non, non, non, non, non.
00:09:52Tu es dans le déni.
00:09:53C'est clair.
00:09:53Je suis dans le déni, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais,
00:09:57ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais,
00:10:00ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais,
00:10:03ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais,
00:10:06ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais,
00:10:26ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais.
00:10:46Ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais,
00:11:06ouais, ouais, ouais, ouais.
00:11:22Ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais, ouais,