00:00:00Voici Vibe Voice de Microsoft, et je l'ai utilisé pour cloner ma propre voix.
00:00:04C'est une pile logicielle vocale open source que l'on compare déjà à ElevenLabs, Chatterbox et Whisper.
00:00:10Mais elle fonctionne hors ligne et peut générer 90 minutes d'audio multi-locuteurs en un seul passage.
00:00:1590 minutes, c'est assez hallucinant. Alors, est-ce vraiment utilisable pour les développeurs,
00:00:20ou est-ce encore un dépôt de recherche qui va achever nos GPU en silence ? Je vais faire quelques démos,
00:00:26puis nous verrons comment il se compare aux autres. Nous publions des vidéos tout le temps,
00:00:29alors n'oubliez pas de vous abonner.
00:00:31Vous trouverez tout cela sur leur dépôt ou sur Hugging Face. Avant de comparer quoi que ce soit,
00:00:40regardons d'abord les résultats. Tout est prêt et configuré,
00:00:45pour que nous puissions nous concentrer sur l'essentiel. J'en ai testé d'autres, donc je suis curieux de voir
00:00:51comment Vibe Voice sonne, s'il tient la route et comment exploiter ses résultats.
00:00:56Je vais tester la sortie multi-locuteurs, le TTS en temps réel, puis le clonage de voix.
00:01:02Voici un court script de podcast avec trois intervenants, des tours de parole fluides et des émotions audio.
00:01:08D'habitude, avec les démos de TTS, le son est correct au début puis finit par dériver,
00:01:14mais écoutez bien ce qui se passe ici. La cohérence des voix semble stable
00:01:18et les transitions ne s'effondrent pas. Écoutons ça.
00:01:26C'est plutôt pas mal, non ? On n'a pas l'impression qu'il invente du contexte après 20 secondes.
00:01:41C'est là tout l'intérêt. Microsoft n'a pas conçu ça pour de simples petits projets.
00:01:46C'est fait pour la génération audio à long contexte, et en mode hors ligne. Mais quand on ajoute des balises d'émotion,
00:01:52ça commence à se gâter. Contrairement à Chatterbox, par exemple, il gère les émotions automatiquement selon les mots,
00:01:58et ce n'est pas vraiment génial. Je n'ai pas aimé ça. Chatterbox gagne encore sur ce point.
00:02:02Mais si vous créez des podcasts IA, des docs narrés, des agents conversationnels longs
00:02:07ou simplement des données d'entraînement, il pourrait s'avérer très efficace.
00:02:11Passons maintenant au mode temps réel. C'est beaucoup plus rapide que le multi-locuteurs,
00:02:16qui a mis pas mal de temps à générer. Ici, c'est du streaming incrémental, comme pour
00:02:22les réponses de chatbots ou les assistants vocaux. La latence initiale est d'environ 300 millisecondes,
00:02:28ce qui est acceptable, même si j'ai déjà vu plus rapide. Écoutons ça.
00:02:32Imaginez boire un chocolat chaud au Japon sous les cerisiers en fleurs.
00:02:35D'accord. Et oui, ils disent qu'il peut chanter ou même générer de la musique de fond. Si on le pousse un peu,
00:02:40ça n'a pas marché. J'ai essayé, mais ça n'a rien donné. Mais la question est la suivante :
00:02:43est-ce prêt pour la production en temps réel ? Je ne pense pas. Mais pour l'expérimentation,
00:02:48oui, c'est vraiment bien. Passons au plus amusant : le clonage de voix, parce que
00:02:53c'était vraiment impressionnant. Voici ma configuration. D'abord, je me suis enregistré avec Dictaphone.
00:02:58Je suis sur Mac. J'ai converti le fichier en WAV, puis j'ai lancé Gradio avec cette commande.
00:03:04Depuis cette interface interactive, je peux ensuite choisir ma propre voix comme langue cible.
00:03:10C'est tout. Juste un enregistrement normal. On s'attendrait à quelque chose qui ressemble à ma voix,
00:03:14mais qui sonne faux. Écoutez bien. Voici ma voix clonée avec Vibe Voice.
00:03:19Franchement, le résultat est bluffant. Presque trop, car je n'ai jamais dit tout ça. Alors,
00:03:25ça me ressemble, mais si vous me connaissez, vous verrez sûrement que c'est un fake. Du moins, je l'espère.
00:03:30Ce n'est pas parfait, mais c'est cohérent, stable et utilisable sur de longs formats. C'est
00:03:36un gros point fort. Microsoft affirme que ce système peut gérer des formats longs en un seul passage
00:03:41et qu'il reste bien plus stable que les pipelines de type Whisper quand l'audio s'allonge.
00:03:47Si vous avez déjà essayé de cloner une voix sur plus d'un court extrait, vous savez pourquoi c'est crucial.
00:03:52Les démos étaient impressionnantes. Je me suis bien amusé avec le clonage, mais j'ai épluché
00:03:56la doc, les problèmes et les fils de discussion, et les avis des développeurs sont mitigés. Voyons les points positifs,
00:04:02puis les obstacles. Les avantages sont solides. Le format long est bel et bien au rendez-vous.
00:04:08La plupart des systèmes TTS dérivent ou s'arrêtent après quelques minutes. Vibe Voice est conçu
00:04:14pour l'audio long, et ça s'est vu dans mes démos. Ensuite, l'efficacité alliée à l'expressivité.
00:04:20Il utilise des tokeniseurs audio basse fréquence, ce qui rend le contexte plus gérable. Ajoutez la diffusion
00:04:27et une architecture LLM, et vous obtenez une voix expressive sans une puissance de calcul démesurée.
00:04:33C'est très accessible pour les développeurs. Sous licence MIT, ça tourne hors ligne sur des GPU grand public
00:04:40avec environ 7 Go de VRAM pour le temps réel. Le code de fine-tuning est inclus, surtout pour l'ASR.
00:04:47Ce n'est pas un système fermé, c'est très appréciable. Enfin, comme d'autres projets open source,
00:04:53la sortie ASR est structurée. C'est une victoire majeure. La diarisation et l'horodatage inclus
00:04:59font gagner énormément de temps. Si vous avez déjà créé des pipelines de transcription, vous savez que c'est énorme.
00:05:04Passons aux inconvénients que j'ai pu constater. On sent que c'est encore un logiciel de recherche.
00:05:11Microsoft a retiré certains codes TTS par peur des deepfakes, ce qui en dit long. Le SDK n'est pas
00:05:17encore parfait, il manque de finition. Il y a aussi des bizarreries audio, comme pour d'autres logiciels.
00:05:23L'intonation peut paraître robotique, le rythme parfois décalé, et la qualité baisse
00:05:28au-delà de deux ou trois intervenants. Les développeurs adorent le tokeniseur mais détestent les pics de VRAM.
00:05:33De plus, les langues sont limitées. Le chinois et l'anglais fonctionnent bien,
00:05:40mais pour d'autres langues, Vibe Voice n'est pas encore la solution. Enfin, l'absence de
00:05:46compréhension sémantique : l'outil lit le texte, mais ne le comprend pas.
00:05:51Les balises d'émotion aident un peu, mais elles buggent encore souvent. Pour être honnête,
00:05:56c'est un outil incroyable pour l'expérimentation, mais je ne sais pas s'il tiendra sur le long terme.
00:06:02Maintenant, la question que vous vous posez : vaut-il le coup par rapport à vos outils actuels ?
00:06:06Comment Vibe Voice se situe-t-il face à la concurrence ? Commençons par Chatterbox.
00:06:11J'avais déjà fait une vidéo sur Chatterbox et j'avais beaucoup aimé.
00:06:16Il offrait une latence de moins de 200 ms, plus d'émotion et de meilleures réponses courtes.
00:06:22On pourrait croire que Chatterbox gagne, mais Vibe Voice l'écrase sur les formats longs.
00:06:28Chatterbox est conçu pour des monologues de moins de 30 minutes, alors que Vibe Voice gère bien mieux
00:06:35les contenus longs. C'est donc une question de compromis. Ensuite, face à ElevenLabs.
00:06:42Là, c'est simple : ElevenLabs l'emporte sur la prononciation, le clonage zero-shot et l'expérience utilisateur.
00:06:48Mais Vibe Voice gagne sur le coût. C'est gratuit, hors ligne et open source. C'est un atout majeur
00:06:54si l'on ne veut pas payer d'abonnement. Enfin, face à Whisper ou Cozy Voice.
00:07:00Il bat Whisper sur l'audio long et structuré. Il est plus expressif que Cozy Voice, et bien que
00:07:06les modèles TTS basés sur Qwen rattrapent leur retard sur les dialectes, Vibe Voice mène toujours
00:07:13sur la longueur du contenu. Si vous êtes un développeur qui travaille en local, que vous aimez l'open source
00:07:18et que vous avez besoin de formats longs, Vibe Voice mérite votre attention.
00:07:23Si vous cherchez une solution clé en main prête pour la production, vous pouvez passer votre chemin pour l'instant.
00:07:28C'est juste un projet super cool à explorer, notamment pour son clonage de voix.
00:07:33Vibe Voice est imparfait, mais puissant et prometteur. C'est l'un des meilleurs outils open source
00:07:37pour la synthèse vocale longue durée que l'on ait vus depuis longtemps. Testez la démo sur Hugging Face,
00:07:43lisez la doc, et on se retrouve dans une prochaine vidéo.