J'ai cloné ma propre voix avec le modèle open source de Microsoft

BBetter Stack
Computing/SoftwareSmall Business/StartupsConsumer ElectronicsInternet Technology

Transcript

00:00:00Voici Vibe Voice de Microsoft, et je l'ai utilisé pour cloner ma propre voix.
00:00:04C'est une pile logicielle vocale open source que l'on compare déjà à ElevenLabs, Chatterbox et Whisper.
00:00:10Mais elle fonctionne hors ligne et peut générer 90 minutes d'audio multi-locuteurs en un seul passage.
00:00:1590 minutes, c'est assez hallucinant. Alors, est-ce vraiment utilisable pour les développeurs,
00:00:20ou est-ce encore un dépôt de recherche qui va achever nos GPU en silence ? Je vais faire quelques démos,
00:00:26puis nous verrons comment il se compare aux autres. Nous publions des vidéos tout le temps,
00:00:29alors n'oubliez pas de vous abonner.
00:00:31Vous trouverez tout cela sur leur dépôt ou sur Hugging Face. Avant de comparer quoi que ce soit,
00:00:40regardons d'abord les résultats. Tout est prêt et configuré,
00:00:45pour que nous puissions nous concentrer sur l'essentiel. J'en ai testé d'autres, donc je suis curieux de voir
00:00:51comment Vibe Voice sonne, s'il tient la route et comment exploiter ses résultats.
00:00:56Je vais tester la sortie multi-locuteurs, le TTS en temps réel, puis le clonage de voix.
00:01:02Voici un court script de podcast avec trois intervenants, des tours de parole fluides et des émotions audio.
00:01:08D'habitude, avec les démos de TTS, le son est correct au début puis finit par dériver,
00:01:14mais écoutez bien ce qui se passe ici. La cohérence des voix semble stable
00:01:18et les transitions ne s'effondrent pas. Écoutons ça.
00:01:26C'est plutôt pas mal, non ? On n'a pas l'impression qu'il invente du contexte après 20 secondes.
00:01:41C'est là tout l'intérêt. Microsoft n'a pas conçu ça pour de simples petits projets.
00:01:46C'est fait pour la génération audio à long contexte, et en mode hors ligne. Mais quand on ajoute des balises d'émotion,
00:01:52ça commence à se gâter. Contrairement à Chatterbox, par exemple, il gère les émotions automatiquement selon les mots,
00:01:58et ce n'est pas vraiment génial. Je n'ai pas aimé ça. Chatterbox gagne encore sur ce point.
00:02:02Mais si vous créez des podcasts IA, des docs narrés, des agents conversationnels longs
00:02:07ou simplement des données d'entraînement, il pourrait s'avérer très efficace.
00:02:11Passons maintenant au mode temps réel. C'est beaucoup plus rapide que le multi-locuteurs,
00:02:16qui a mis pas mal de temps à générer. Ici, c'est du streaming incrémental, comme pour
00:02:22les réponses de chatbots ou les assistants vocaux. La latence initiale est d'environ 300 millisecondes,
00:02:28ce qui est acceptable, même si j'ai déjà vu plus rapide. Écoutons ça.
00:02:32Imaginez boire un chocolat chaud au Japon sous les cerisiers en fleurs.
00:02:35D'accord. Et oui, ils disent qu'il peut chanter ou même générer de la musique de fond. Si on le pousse un peu,
00:02:40ça n'a pas marché. J'ai essayé, mais ça n'a rien donné. Mais la question est la suivante :
00:02:43est-ce prêt pour la production en temps réel ? Je ne pense pas. Mais pour l'expérimentation,
00:02:48oui, c'est vraiment bien. Passons au plus amusant : le clonage de voix, parce que
00:02:53c'était vraiment impressionnant. Voici ma configuration. D'abord, je me suis enregistré avec Dictaphone.
00:02:58Je suis sur Mac. J'ai converti le fichier en WAV, puis j'ai lancé Gradio avec cette commande.
00:03:04Depuis cette interface interactive, je peux ensuite choisir ma propre voix comme langue cible.
00:03:10C'est tout. Juste un enregistrement normal. On s'attendrait à quelque chose qui ressemble à ma voix,
00:03:14mais qui sonne faux. Écoutez bien. Voici ma voix clonée avec Vibe Voice.
00:03:19Franchement, le résultat est bluffant. Presque trop, car je n'ai jamais dit tout ça. Alors,
00:03:25ça me ressemble, mais si vous me connaissez, vous verrez sûrement que c'est un fake. Du moins, je l'espère.
00:03:30Ce n'est pas parfait, mais c'est cohérent, stable et utilisable sur de longs formats. C'est
00:03:36un gros point fort. Microsoft affirme que ce système peut gérer des formats longs en un seul passage
00:03:41et qu'il reste bien plus stable que les pipelines de type Whisper quand l'audio s'allonge.
00:03:47Si vous avez déjà essayé de cloner une voix sur plus d'un court extrait, vous savez pourquoi c'est crucial.
00:03:52Les démos étaient impressionnantes. Je me suis bien amusé avec le clonage, mais j'ai épluché
00:03:56la doc, les problèmes et les fils de discussion, et les avis des développeurs sont mitigés. Voyons les points positifs,
00:04:02puis les obstacles. Les avantages sont solides. Le format long est bel et bien au rendez-vous.
00:04:08La plupart des systèmes TTS dérivent ou s'arrêtent après quelques minutes. Vibe Voice est conçu
00:04:14pour l'audio long, et ça s'est vu dans mes démos. Ensuite, l'efficacité alliée à l'expressivité.
00:04:20Il utilise des tokeniseurs audio basse fréquence, ce qui rend le contexte plus gérable. Ajoutez la diffusion
00:04:27et une architecture LLM, et vous obtenez une voix expressive sans une puissance de calcul démesurée.
00:04:33C'est très accessible pour les développeurs. Sous licence MIT, ça tourne hors ligne sur des GPU grand public
00:04:40avec environ 7 Go de VRAM pour le temps réel. Le code de fine-tuning est inclus, surtout pour l'ASR.
00:04:47Ce n'est pas un système fermé, c'est très appréciable. Enfin, comme d'autres projets open source,
00:04:53la sortie ASR est structurée. C'est une victoire majeure. La diarisation et l'horodatage inclus
00:04:59font gagner énormément de temps. Si vous avez déjà créé des pipelines de transcription, vous savez que c'est énorme.
00:05:04Passons aux inconvénients que j'ai pu constater. On sent que c'est encore un logiciel de recherche.
00:05:11Microsoft a retiré certains codes TTS par peur des deepfakes, ce qui en dit long. Le SDK n'est pas
00:05:17encore parfait, il manque de finition. Il y a aussi des bizarreries audio, comme pour d'autres logiciels.
00:05:23L'intonation peut paraître robotique, le rythme parfois décalé, et la qualité baisse
00:05:28au-delà de deux ou trois intervenants. Les développeurs adorent le tokeniseur mais détestent les pics de VRAM.
00:05:33De plus, les langues sont limitées. Le chinois et l'anglais fonctionnent bien,
00:05:40mais pour d'autres langues, Vibe Voice n'est pas encore la solution. Enfin, l'absence de
00:05:46compréhension sémantique : l'outil lit le texte, mais ne le comprend pas.
00:05:51Les balises d'émotion aident un peu, mais elles buggent encore souvent. Pour être honnête,
00:05:56c'est un outil incroyable pour l'expérimentation, mais je ne sais pas s'il tiendra sur le long terme.
00:06:02Maintenant, la question que vous vous posez : vaut-il le coup par rapport à vos outils actuels ?
00:06:06Comment Vibe Voice se situe-t-il face à la concurrence ? Commençons par Chatterbox.
00:06:11J'avais déjà fait une vidéo sur Chatterbox et j'avais beaucoup aimé.
00:06:16Il offrait une latence de moins de 200 ms, plus d'émotion et de meilleures réponses courtes.
00:06:22On pourrait croire que Chatterbox gagne, mais Vibe Voice l'écrase sur les formats longs.
00:06:28Chatterbox est conçu pour des monologues de moins de 30 minutes, alors que Vibe Voice gère bien mieux
00:06:35les contenus longs. C'est donc une question de compromis. Ensuite, face à ElevenLabs.
00:06:42Là, c'est simple : ElevenLabs l'emporte sur la prononciation, le clonage zero-shot et l'expérience utilisateur.
00:06:48Mais Vibe Voice gagne sur le coût. C'est gratuit, hors ligne et open source. C'est un atout majeur
00:06:54si l'on ne veut pas payer d'abonnement. Enfin, face à Whisper ou Cozy Voice.
00:07:00Il bat Whisper sur l'audio long et structuré. Il est plus expressif que Cozy Voice, et bien que
00:07:06les modèles TTS basés sur Qwen rattrapent leur retard sur les dialectes, Vibe Voice mène toujours
00:07:13sur la longueur du contenu. Si vous êtes un développeur qui travaille en local, que vous aimez l'open source
00:07:18et que vous avez besoin de formats longs, Vibe Voice mérite votre attention.
00:07:23Si vous cherchez une solution clé en main prête pour la production, vous pouvez passer votre chemin pour l'instant.
00:07:28C'est juste un projet super cool à explorer, notamment pour son clonage de voix.
00:07:33Vibe Voice est imparfait, mais puissant et prometteur. C'est l'un des meilleurs outils open source
00:07:37pour la synthèse vocale longue durée que l'on ait vus depuis longtemps. Testez la démo sur Hugging Face,
00:07:43lisez la doc, et on se retrouve dans une prochaine vidéo.

Key Takeaway

Vibe Voice de Microsoft s'impose comme une solution open source majeure pour la synthèse vocale longue durée et le clonage de voix hors ligne, malgré des lacunes persistantes dans la gestion fine des émotions.

Highlights

Vibe Voice est un modèle open source de Microsoft capable de générer 90 minutes d'audio multi-locuteurs en un seul passage.

L'outil se distingue par sa stabilité exceptionnelle sur les formats longs

Timeline

Introduction et présentation de Vibe Voice

L'auteur présente Vibe Voice de Microsoft comme une alternative open source sérieuse à des outils comme ElevenLabs et Whisper. Il souligne sa capacité unique à générer jusqu'à 90 minutes d'audio multi-locuteurs en une seule fois, tout en fonctionnant hors ligne. L'objectif de la vidéo est de tester si ce dépôt de recherche est réellement utilisable par les développeurs au quotidien. Le présentateur annonce qu'il effectuera des démos de synthèse vocale (TTS), de temps réel et de clonage vocal. Cette section établit le cadre technique en mentionnant la disponibilité du code sur Hugging Face et GitHub.

Démonstration multi-locuteurs et gestion des émotions

Le test porte ici sur un script de podcast impliquant trois intervenants différents avec des émotions variées. L'auteur note que la cohérence des voix reste stable sur la durée, contrairement à d'autres modèles qui inventent du contexte après 20 secondes. Cependant, la gestion automatique des émotions est jugée décevante par rapport à l'outil Chatterbox, car elle manque de naturel. Microsoft a optimisé ce système pour la génération à long contexte plutôt que pour des micro-ajustements expressifs. Ce segment montre que Vibe Voice excelle dans les narrations longues ou les agents conversationnels robustes.

Performance en temps réel et limites techniques

L'analyse se déplace vers le mode temps réel qui utilise un streaming incrémental pour réduire la latence à environ 300 millisecondes. Bien que ce délai soit acceptable pour des chatbots, l'auteur précise qu'il existe des solutions encore plus rapides sur le marché. Une tentative de générer de la musique ou du chant via le modèle s'est soldée par un échec durant la démonstration. Pour l'instant, le logiciel semble plus adapté à l'expérimentation qu'à une mise en production immédiate pour des applications critiques. L'auteur souligne que la technologie est prometteuse mais nécessite encore du peaufinage.

L'expérience du clonage de voix

Cette partie explore la fonctionnalité de clonage vocal en utilisant un simple enregistrement réalisé sur un Mac et converti en format WAV. L'interface Gradio permet de sélectionner sa propre voix comme cible, produisant un résultat que l'auteur qualifie de "bluffant" et presque trop réaliste. La force majeure réside dans la stabilité du clone sur de longs formats, là où les pipelines de type Whisper ont tendance à s'effondrer. Microsoft affirme que son architecture gère mieux l'audio étendu grâce à une stabilité de pipeline accrue. Le résultat final est jugé parfaitement exploitable pour des projets de création de contenu.

Avantages techniques pour les développeurs

L'auteur détaille les points forts pour le public technique, notamment l'utilisation de tokeniseurs audio basse fréquence pour une gestion efficace du contexte. Le modèle tourne sous licence MIT et consomme environ 7 Go de VRAM, ce qui le rend accessible sur des cartes graphiques grand public. Un atout majeur est l'inclusion de l'ASR (reconnaissance automatique de la parole) structuré avec diarisation et horodatage. Ces fonctionnalités intégrées permettent de gagner un temps considérable lors de la création de pipelines de transcription complexes. C'est une victoire pour l'écosystème open source qui propose ici un outil très complet.

Inconvénients, manques et comparaison finale

Le tour d'horizon se termine par une analyse des faiblesses, comme le retrait de certains codes par Microsoft pour limiter les deepfakes et l'absence de compréhension sémantique réelle. Vibe Voice est ensuite comparé à Chatterbox (meilleur pour les émotions courtes) et ElevenLabs (supérieur pour l'ergonomie, mais payant). Face à Whisper, il l'emporte sur l'audio long et structuré, tout en restant plus expressif que Cozy Voice. L'auteur conclut que c'est un projet fascinant pour les développeurs locaux qui privilégient le coût zéro et la confidentialité. Il encourage enfin les spectateurs à tester la démo sur Hugging Face pour se faire leur propre avis.

Community Posts

View all posts