Qwen TTS vient de révolutionner la synthèse vocale open-source

BBetter Stack
컴퓨터/소프트웨어창업/스타트업어학(외국어)AI/미래기술

Transcript

00:00:00Ça aurait pu être un e-mail.
00:00:02Ça aurait pu être un e-mail.
00:00:04Même phrase, deux interprétations complètement différentes.
00:00:07J'ai juste tapé “début normal” puis j'ai viré progressivement vers la tirade frustrée.
00:00:11C'est tout.
00:00:12Pas de balisage, pas d'API qui envoie vos données ailleurs.
00:00:15Voici Qwen 3 TTS.
00:00:17Leur nouveau modèle vocal open source qui permet de diriger le ton et qui écoute vraiment.
00:00:22Voyons comment il s'en sort face à Eleven Labs ou même Chatterbox.
00:00:30Beaucoup de modèles vocaux open source manquent cruellement d'émotion.
00:00:34J'ai testé Chatterbox et c'était plutôt correct.
00:00:37Sachant que Qwen propose ça, je voulais voir le clonage de voix,
00:00:41mais aussi comment leur gestion des émotions se compare aux autres.
00:00:44Et honnêtement, j'ai été agréablement surpris.
00:00:47Chatterbox a un curseur d'émotion, alors qu'ici, avec Qwen,
00:00:50on écrit littéralement le ton souhaité, ce qui offre plus de liberté.
00:00:55Le modèle léger permet un clonage de voix en trois secondes, on va tester ça.
00:00:59En passant au modèle 1.7B, on perd le clonage de voix,
00:01:02mais on gagne le streaming en temps réel avec 97ms de latence,
00:01:0510 langues avec transition naturelle, et c'est 100 % local.
00:01:09C'est gratuit.
00:01:09C'est sous licence Apache 2.0.
00:01:11Ça signifie un prototypage plus rapide, des agents vocaux privés, des outils d'accessibilité.
00:01:16Si vous cherchez toujours les derniers outils, n'oubliez pas de vous abonner.
00:01:19Nous sortons des vidéos tout le temps.
00:01:21Le clonage est facile.
00:01:22L'émotion est plus difficile.
00:01:23Alors, essayons de pousser l'outil dans ses retranchements.
00:01:25Nous allons d'abord tester le clonage.
00:01:28Je vais d'abord uploader ma voix déjà enregistrée comme référence ici.
00:01:32Ensuite, dans le texte de référence, je dois taper ce que j'ai dit dans cet audio.
00:01:37Et ici, dans le texte cible, je tape ce que je veux obtenir en sortie.
00:01:42C'est tout.
00:01:43Ça a pris beaucoup plus de temps que prévu pour générer.
00:01:46J'espérais que la qualité soit au rendez-vous, écoutons le résultat.
00:01:49Quel est le rendu avec ce modèle ?
00:01:51Bon, c'était correct pour un modèle léger, surtout pour Qwen,
00:01:55mais on entend clairement des passages qui sonnent artificiels.
00:01:59Ce n'était donc pas incroyable non plus.
00:02:01Le meilleur clone vocal que j'ai trouvé était Vibe Voice de Microsoft, c'était bluffant.
00:02:07Ici, c'était juste correct.
00:02:08D'accord.
00:02:09Le clonage de voix, c'est fait.
00:02:10Check.
00:02:11Passons maintenant au modèle 1.7B et commençons à ajouter de l'émotion
00:02:16au texte pour voir comment Qwen gère ça.
00:02:19Laissez-moi vous montrer quelque chose de vraiment utile.
00:02:22Je vais taper dans la boîte d'instruction : “raconte ça comme un narrateur de suspense,
00:02:26montée en puissance lente, puis rire de soulagement à la fin”.
00:02:28Et ici, je veux qu'il donne des infos de base sur Qwen.
00:02:32Pourquoi pas ?
00:02:33Écoutons ça.
00:02:34Le nouveau modèle de synthèse vocale open source d'Alibaba qui
00:02:37donne enfin l'impression de parler à un vrai doubleur.
00:02:42D'accord.
00:02:42On a entendu un petit décalage.
00:02:44Il n'a pas saisi toutes les nuances de ton, mais il a réussi pas mal de choses.
00:02:47Il n'y a pas de listes déroulantes, pas de préréglages.
00:02:49On le guide vers le rendu souhaité.
00:02:51Créons maintenant une voix qu'on pourrait vraiment croiser.
00:02:55Peut-être pour un projet en cours.
00:02:57Ajoutons quelques éléments.
00:02:58Je vais mettre une phrase sur l'écriture de tests.
00:03:01Et dans la boîte d'instruction, disons : “voix de jeune
00:03:03développeur enthousiaste, un peu sarcastique mais amical”.
00:03:07Là, je ne choisis pas le préréglage vocal numéro 12.
00:03:10J'ai décrit exactement la personnalité que je voulais.
00:03:13Écoutons ça.
00:03:14Écrire des tests de code signifie vérifier soigneusement que votre programme fait ce qu'il est censé faire.
00:03:20Vous vous demandez sûrement : comment se compare-t-il aux autres ?
00:03:22Eleven Labs reste le roi, mais c'est payant et vos données sortent de votre machine.
00:03:26Chatterbox est excellent.
00:03:28L'un des meilleurs que j'ai testés, avec une bonne gestion des émotions.
00:03:31Si vous cherchez le clonage de voix pur, je reste sur Vibe Voice, qui était effrayant de réalisme.
00:03:36Qwen 3 TTS l'emporte quand on veut décrire la voix naturellement et itérer vite.
00:03:41Il y a manifestement de bons points ici.
00:03:43J'aime le contrôle en langage naturel pour une itération ultra rapide.
00:03:47C'est entièrement local, privé, prêt pour le streaming
00:03:50pour des agents en temps réel, et la conception vocale est plus intuitive.
00:03:55Maintenant, ce qu'on aime moins, ou ce que je devrais dire.
00:03:57Ce que je n'aime pas, c'est que c'est un modèle récent, n'est-ce pas ?
00:04:00Il doit encore mûrir pour certaines langues.
00:04:03Comme pour tout TTS, un GPU est recommandé pour de meilleures performances.
00:04:06Même si le CPU fonctionne.
00:04:07Ce sera juste plus lent.
00:04:09Et l'émotion dépend vraiment de la qualité de votre prompt, de vos instructions.
00:04:13Si votre direction est vague, le résultat le sera aussi.
00:04:16Alors, la grande question : l'installation est-elle pénible ?
00:04:19Non, absolument pas.
00:04:20C'est très simple.
00:04:22On clone le repo, on installe les dépendances, on lance l'interface web.
00:04:26C'est tout ce que j'ai fait : de zéro à la démo en quelques minutes seulement.
00:04:32Pas de clés API.
00:04:33Pas de facturation.
00:04:34Tout reste sur votre machine.
00:04:35C'est à ça que la voix en open source devrait ressembler.
00:04:38C'est pourquoi tester ces outils open source est super intéressant.
00:04:43Qwen 3 TTS : rapide, privé et plus de contrôle pour les développeurs.
00:04:46Alors essayez-le vous-même.
00:04:48J'ai mis les liens ci-dessous.
00:04:49Et si vous voulez plus d'outils locaux comme celui-ci, abonnez-vous.
00:04:52On se retrouve dans une prochaine vidéo.

Key Takeaway

Qwen 3 TTS révolutionne la synthèse vocale open-source en offrant un contrôle émotionnel intuitif par texte et des performances locales en temps réel sans dépendance aux API payantes.

Highlights

Qwen 3 TTS est un modèle de synthèse vocale open-source sous licence Apache 2.0.

Le contrôle de l'émotion et du ton se fait par des instructions en langage naturel plutôt que par des curseurs.

Le modèle 1.7B offre une latence ultra-faible de 97ms

Timeline

Introduction et capacités de direction tonale

L'auteur commence par démontrer comment une même phrase peut être interprétée différemment selon le ton employé. Il présente Qwen 3 TTS comme un nouveau modèle capable de diriger la voix sans balisage complexe ni envoi de données vers une API tierce. Le présentateur souligne que l'outil écoute véritablement les instructions de l'utilisateur pour ajuster l'émotion. Cette section pose les bases d'une comparaison avec des solutions établies comme Eleven Labs. L'objectif est de montrer que la synthèse vocale open-source atteint un nouveau palier de réalisme.

Comparaison technique et avantages du modèle 1.7B

Le vidéaste analyse les manques émotionnels des modèles open-source traditionnels avant de comparer Qwen à Chatterbox. Il explique que Qwen permet d'écrire littéralement le ton souhaité, offrant ainsi une liberté créative supérieure aux curseurs standards. Le modèle 1.7B est mis en avant pour sa latence de 97ms et son support de 10 langues avec des transitions naturelles. L'aspect local et gratuit sous licence Apache 2.0 est présenté comme un atout majeur pour la confidentialité. Ces caractéristiques facilitent le prototypage rapide d'agents vocaux privés et d'outils d'accessibilité.

Test pratique du clonage de voix

Cette séquence est dédiée à l'expérimentation concrète du clonage de voix avec le modèle léger. L'utilisateur uploade un échantillon audio de référence et saisit le texte correspondant pour générer une nouvelle sortie vocale. Bien que le processus soit simple, le narrateur note que la génération a pris plus de temps que prévu initialement. Le résultat final est jugé "correct" mais présente des artefacts artificiels par rapport à des solutions comme Vibe Voice de Microsoft. Cette étape montre les limites actuelles du modèle léger en termes de fidélité absolue.

Manipulation des émotions par le prompt

Le présentateur passe au modèle 1.7B pour tester la gestion avancée des émotions via des instructions textuelles complexes. Il demande au modèle de raconter un texte comme un narrateur de suspense avec une montée en puissance et un rire final. Un second test simule la personnalité d'un jeune développeur enthousiaste et légèrement sarcastique pour illustrer la flexibilité du système. L'absence de préréglages fixes permet de définir une personnalité unique simplement en la décrivant. Le résultat montre que le modèle saisit bien les nuances, même si quelques décalages subsistent parfois.

Analyse comparative et verdict final

L'auteur positionne Qwen 3 TTS face à ses concurrents directs comme Eleven Labs, le leader payant, et Vibe Voice pour le clonage pur. Il conclut que Qwen l'emporte sur l'itération rapide et la description naturelle de la voix en environnement local. Parmi les points négatifs, il mentionne la nécessité d'un GPU pour des performances optimales et le besoin de prompts précis pour éviter des résultats vagues. La maturité du modèle pour certaines langues étrangères reste également un point de vigilance pour les utilisateurs. Malgré cela, l'aspect intuitif de la conception vocale demeure un avantage concurrentiel indéniable.

Installation et conclusion

La vidéo se termine sur une note positive concernant la facilité d'installation de l'outil sur une machine locale. Le processus ne nécessite que quelques minutes pour cloner le dépôt GitHub et lancer l'interface web sans aucune clé API. L'auteur insiste sur le fait qu'il n'y a pas de facturation cachée et que tout reste privé sur l'ordinateur de l'utilisateur. Il encourage les développeurs à essayer l'outil via les liens fournis en description pour leurs propres projets. C'est, selon lui, l'avenir de ce que la technologie vocale open-source devrait être.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video