00:00:00Ça aurait pu être un e-mail.
00:00:02Ça aurait pu être un e-mail.
00:00:04Même phrase, deux interprétations complètement différentes.
00:00:07J'ai juste tapé “début normal” puis j'ai viré progressivement vers la tirade frustrée.
00:00:11C'est tout.
00:00:12Pas de balisage, pas d'API qui envoie vos données ailleurs.
00:00:15Voici Qwen 3 TTS.
00:00:17Leur nouveau modèle vocal open source qui permet de diriger le ton et qui écoute vraiment.
00:00:22Voyons comment il s'en sort face à Eleven Labs ou même Chatterbox.
00:00:30Beaucoup de modèles vocaux open source manquent cruellement d'émotion.
00:00:34J'ai testé Chatterbox et c'était plutôt correct.
00:00:37Sachant que Qwen propose ça, je voulais voir le clonage de voix,
00:00:41mais aussi comment leur gestion des émotions se compare aux autres.
00:00:44Et honnêtement, j'ai été agréablement surpris.
00:00:47Chatterbox a un curseur d'émotion, alors qu'ici, avec Qwen,
00:00:50on écrit littéralement le ton souhaité, ce qui offre plus de liberté.
00:00:55Le modèle léger permet un clonage de voix en trois secondes, on va tester ça.
00:00:59En passant au modèle 1.7B, on perd le clonage de voix,
00:01:02mais on gagne le streaming en temps réel avec 97ms de latence,
00:01:0510 langues avec transition naturelle, et c'est 100 % local.
00:01:09C'est gratuit.
00:01:09C'est sous licence Apache 2.0.
00:01:11Ça signifie un prototypage plus rapide, des agents vocaux privés, des outils d'accessibilité.
00:01:16Si vous cherchez toujours les derniers outils, n'oubliez pas de vous abonner.
00:01:19Nous sortons des vidéos tout le temps.
00:01:21Le clonage est facile.
00:01:22L'émotion est plus difficile.
00:01:23Alors, essayons de pousser l'outil dans ses retranchements.
00:01:25Nous allons d'abord tester le clonage.
00:01:28Je vais d'abord uploader ma voix déjà enregistrée comme référence ici.
00:01:32Ensuite, dans le texte de référence, je dois taper ce que j'ai dit dans cet audio.
00:01:37Et ici, dans le texte cible, je tape ce que je veux obtenir en sortie.
00:01:42C'est tout.
00:01:43Ça a pris beaucoup plus de temps que prévu pour générer.
00:01:46J'espérais que la qualité soit au rendez-vous, écoutons le résultat.
00:01:49Quel est le rendu avec ce modèle ?
00:01:51Bon, c'était correct pour un modèle léger, surtout pour Qwen,
00:01:55mais on entend clairement des passages qui sonnent artificiels.
00:01:59Ce n'était donc pas incroyable non plus.
00:02:01Le meilleur clone vocal que j'ai trouvé était Vibe Voice de Microsoft, c'était bluffant.
00:02:07Ici, c'était juste correct.
00:02:08D'accord.
00:02:09Le clonage de voix, c'est fait.
00:02:10Check.
00:02:11Passons maintenant au modèle 1.7B et commençons à ajouter de l'émotion
00:02:16au texte pour voir comment Qwen gère ça.
00:02:19Laissez-moi vous montrer quelque chose de vraiment utile.
00:02:22Je vais taper dans la boîte d'instruction : “raconte ça comme un narrateur de suspense,
00:02:26montée en puissance lente, puis rire de soulagement à la fin”.
00:02:28Et ici, je veux qu'il donne des infos de base sur Qwen.
00:02:32Pourquoi pas ?
00:02:33Écoutons ça.
00:02:34Le nouveau modèle de synthèse vocale open source d'Alibaba qui
00:02:37donne enfin l'impression de parler à un vrai doubleur.
00:02:42D'accord.
00:02:42On a entendu un petit décalage.
00:02:44Il n'a pas saisi toutes les nuances de ton, mais il a réussi pas mal de choses.
00:02:47Il n'y a pas de listes déroulantes, pas de préréglages.
00:02:49On le guide vers le rendu souhaité.
00:02:51Créons maintenant une voix qu'on pourrait vraiment croiser.
00:02:55Peut-être pour un projet en cours.
00:02:57Ajoutons quelques éléments.
00:02:58Je vais mettre une phrase sur l'écriture de tests.
00:03:01Et dans la boîte d'instruction, disons : “voix de jeune
00:03:03développeur enthousiaste, un peu sarcastique mais amical”.
00:03:07Là, je ne choisis pas le préréglage vocal numéro 12.
00:03:10J'ai décrit exactement la personnalité que je voulais.
00:03:13Écoutons ça.
00:03:14Écrire des tests de code signifie vérifier soigneusement que votre programme fait ce qu'il est censé faire.
00:03:20Vous vous demandez sûrement : comment se compare-t-il aux autres ?
00:03:22Eleven Labs reste le roi, mais c'est payant et vos données sortent de votre machine.
00:03:26Chatterbox est excellent.
00:03:28L'un des meilleurs que j'ai testés, avec une bonne gestion des émotions.
00:03:31Si vous cherchez le clonage de voix pur, je reste sur Vibe Voice, qui était effrayant de réalisme.
00:03:36Qwen 3 TTS l'emporte quand on veut décrire la voix naturellement et itérer vite.
00:03:41Il y a manifestement de bons points ici.
00:03:43J'aime le contrôle en langage naturel pour une itération ultra rapide.
00:03:47C'est entièrement local, privé, prêt pour le streaming
00:03:50pour des agents en temps réel, et la conception vocale est plus intuitive.
00:03:55Maintenant, ce qu'on aime moins, ou ce que je devrais dire.
00:03:57Ce que je n'aime pas, c'est que c'est un modèle récent, n'est-ce pas ?
00:04:00Il doit encore mûrir pour certaines langues.
00:04:03Comme pour tout TTS, un GPU est recommandé pour de meilleures performances.
00:04:06Même si le CPU fonctionne.
00:04:07Ce sera juste plus lent.
00:04:09Et l'émotion dépend vraiment de la qualité de votre prompt, de vos instructions.
00:04:13Si votre direction est vague, le résultat le sera aussi.
00:04:16Alors, la grande question : l'installation est-elle pénible ?
00:04:19Non, absolument pas.
00:04:20C'est très simple.
00:04:22On clone le repo, on installe les dépendances, on lance l'interface web.
00:04:26C'est tout ce que j'ai fait : de zéro à la démo en quelques minutes seulement.
00:04:32Pas de clés API.
00:04:33Pas de facturation.
00:04:34Tout reste sur votre machine.
00:04:35C'est à ça que la voix en open source devrait ressembler.
00:04:38C'est pourquoi tester ces outils open source est super intéressant.
00:04:43Qwen 3 TTS : rapide, privé et plus de contrôle pour les développeurs.
00:04:46Alors essayez-le vous-même.
00:04:48J'ai mis les liens ci-dessous.
00:04:49Et si vous voulez plus d'outils locaux comme celui-ci, abonnez-vous.
00:04:52On se retrouve dans une prochaine vidéo.