00:00:00Un modèle de seulement 82 millions de paramètres vient de battre des systèmes TTS bien plus grands,
00:00:06et il tourne localement sur un ordinateur portable plus vite que la plupart des API payantes.
00:00:09Le mois dernier, j'ai payé pour un service TTS via le cloud, mais j'avais encore de la latence.
00:00:13Ça n'avait aucun sens pour moi.
00:00:14Comment certains de ces modèles open source peuvent-ils battre ça ?
00:00:17Voici Kokoro 82M, et il est déjà utilisé par certains développeurs.
00:00:22Voyons comment ça marche et, mieux encore, quel est le rendu sonore.
00:00:30Si vous développez avec la synthèse vocale, vous choisissez généralement entre deux mauvaises options.
00:00:36La première option, ce sont évidemment les API cloud, n'est-ce pas ?
00:00:39Elles sont faciles à lancer, mais vous vous retrouvez avec des factures, des pics de latence,
00:00:44et une dépendance de plus à chaque fois que votre application parle.
00:00:46L'option suivante serait d'utiliser ces grands modèles ouverts, mais vous avez alors besoin
00:00:51de beaucoup plus de matériel, de mémoire, et soyons honnêtes, ce n'est toujours pas si rapide.
00:00:56Ce qui est censé être fluide finit par sembler lent, coûteux, ou alors
00:01:00ça finit tout simplement par planter.
00:01:02C'est là que Kokoro intervient.
00:01:04Il a été entraîné sur moins de 100 heures de données, mais il se classe pourtant en tête des classements.
00:01:09Il bat des modèles bien plus imposants avec une fraction de leur taille ; il est sous licence Apache 2.0,
00:01:15tourne sur CPU, vole littéralement sur Apple Silicon, et génère de la parole incroyablement vite.
00:01:19Désormais, les applications vocales locales et les agents en temps réel commencent à avoir plus de sens.
00:01:24Si vous appréciez ce genre d'outils et de conseils de codage, n'oubliez pas de vous abonner.
00:01:27Nous publions des vidéos tout le temps.
00:01:29Très bien, maintenant laissez-moi vous montrer ceci.
00:01:31Je fais tourner tout ça localement sur un Mac M4 Pro.
00:01:34L'installation prend environ 30 secondes, je vais juste lancer cette commande pip ici.
00:01:39Je suis dans un environnement conda, mais c'est à peu près tout.
00:01:42J'ai récupéré ce script Python complet de leur dépôt officiel, je n'ai rien eu à changer
00:01:47pour tester cela, c'est juste du glisser-déposer, et nous obtenons tous ces résultats.
00:01:51Je peux choisir une voix et une langue juste ici, mais pour ce premier tour, je vais
00:01:56laisser les réglages par défaut parce que, honnêtement, le son est vraiment bon.
00:02:00Je vais le lancer et maintenant écoutons.
00:02:02Better Stack est la plateforme d'observabilité de référence.
00:02:05Elle rend la surveillance simple.
00:02:07Elle propose AISRE, des logs, des métriques, des traces et le suivi des erreurs.
00:02:12Et la réponse aux incidents, le tout en un seul endroit.
00:02:14Je ne vais pas mentir, c'était plutôt bien, et c'est sorti très rapidement.
00:02:19Maintenant, si je change les paramètres, passons au français et choisissons la voix française.
00:02:24Changeons un peu le texte et, encore une fois, lançons-le.
00:02:26Better Stack est la plateforme pour l'observabilité en parallèle.
00:02:29Elle simplifie la surveillance.
00:02:31D'accord, mon français est un peu rouillé donc ne traduisez pas ça mot pour mot, mais
00:02:36cela semblait plutôt bon également.
00:02:37Je vous laisse toutefois en juger par vous-mêmes.
00:02:39Tout est sauvegardé sous forme de fichier WAV, donc je peux les télécharger comme je le souhaite.
00:02:43Il n'y a pas de cloud.
00:02:44Il n'y a pas besoin de GPU.
00:02:45C'était assez incroyable.
00:02:47Alors, qu'est-ce que Kokoro 82M exactement ?
00:02:49À haut niveau, c'est un modèle style TTS2 avec un vocodeur léger.
00:02:55Cela signifie simplement qu'il est conçu pour bien sonner sans être énorme, et c'est
00:02:59vraiment là que réside la différence clé.
00:03:00La plupart des autres options choisissent de grossir.
00:03:01XTTS, Cozy Voice, F5 TTS... ils ont entre des centaines de millions et plus d'un milliard de paramètres.
00:03:08Ensuite, les outils cloud comme Eleven Labs ou OpenAI règlent le problème matériel, mais
00:03:13on paie à la requête et on envoie nos données à l'extérieur.
00:03:16Kokoro va dans la direction opposée.
00:03:19C'est petit, rapide à démarrer, ça tourne localement et consomme beaucoup moins de mémoire.
00:03:24Cependant, les points faibles sont qu'il ne permet pas le clonage de voix "zero-shot" d'emblée ;
00:03:29il se concentre plutôt sur l'efficacité et une qualité que l'on pourrait déployer bien plus vite.
00:03:33On dispose tout de même de 8 langues, 54 voix, et d'un bon contrôle avec leur import Misaki.
00:03:39Je vois bien comment tout cela va s'intégrer parfaitement dans différents types d'agents,
00:03:42mais on n'obtient aucune émotion, ce que je voulais vraiment voir ici.
00:03:47Une IA sans émotion sonnera toujours fortement comme une IA, ce qui peut être une bonne
00:03:52chose par moments, n'est-ce pas ?
00:03:53Mais ce serait amusant de jouer avec cette émotion.
00:03:56Alors pourquoi les développeurs l'utilisent-ils réellement ?
00:03:58Eh bien, si je ne vous l'ai pas montré, abordons-le, car il corrige ce qui
00:04:02fait habituellement échouer les fonctionnalités vocales.
00:04:04D'abord, la vitesse.
00:04:05Si votre agent fait des pauses trop longues et ne semble plus réel, Kokoro réduit considérablement ce délai.
00:04:11Ensuite, l'utilisation hors ligne est possible.
00:04:13Il n'y a pas besoin d'Internet, ni de clés API, et je n'ai pas de pannes aléatoires.
00:04:16C'est génial.
00:04:17La confidentialité est un point important car Kokoro garde tout localement ; pour moi, et pour
00:04:22beaucoup d'entre vous, cela pourrait être une victoire majeure.
00:04:23Et enfin, le coût à grande échelle.
00:04:26Comme il est très léger, vous pouvez faire tourner beaucoup plus d'instances sur une seule machine.
00:04:30Ce qui est bien et ce qui ne l'est pas : j'ai adoré le fait que ce soit rapide et petit.
00:04:33Le son semble naturel pour du contenu de longue durée.
00:04:35C'était vraiment cool.
00:04:36J'en ai testé un certain nombre.
00:04:38C'est sous licence Apache 2.0, donc vous pouvez le déployer, et après l'installation, c'est quasi gratuit.
00:04:43Tout cela est vraiment, vraiment appréciable.
00:04:44J'ai aimé tout ça.
00:04:45C'était cool.
00:04:46Mais il y a des choses que je n'ai pas aimées.
00:04:47L'absence de clonage de voix natif... tout dépend si vous en avez besoin, mais bon,
00:04:51ils auraient pu l'inclure.
00:04:52L'émotion est assez neutre.
00:04:54C'est excellent pour la narration, mais pas pour quelque chose de dramatique.
00:04:56Il n'y a vraiment aucune possibilité de changer l'émotion ici, et les voix non-anglaises
00:05:02sont encore en cours d'amélioration.
00:05:03Cela doit donc être ajouté, ou peut-être pas, selon votre point de vue.
00:05:07Alors, est-ce parfait ?
00:05:08Non.
00:05:09Mais pour les problèmes que la plupart d'entre nous rencontrent (coût, latence, vie privée, déploiement),
00:05:14il semble résoudre les bons problèmes pour le moment.
00:05:18Testez-le et dites-moi ce que vous en pensez.
00:05:19Kokoro 82M prouve qu'il n'y a pas besoin d'un modèle massif pour obtenir un très bon TTS.
00:05:24Plus petit signifie plus rapide, plus rapide signifie utilisable, et utilisable signifie généralement
00:05:29que vous pouvez réellement le déployer.
00:05:30Si vous construisez des agents vocaux ou des outils locaux, cela vaut la peine d'essayer.
00:05:34Si vous aimez ce genre d'outils et d'astuces de code, abonnez-vous à la chaîne Better Stack.
00:05:38On se voit dans une prochaine vidéo.