J'ai testé l'alternative open source à ElevenLabs (Voicebox)
BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology
Transcript
00:00:00On dit que c'est l'Ollama de l'IA vocale. Il clone des voix, génère de la parole, dicte dans n'importe quelle application,
00:00:07et communique avec des agents en utilisant des voix que vous possédez réellement. C'est VoiceBox, et c'est ce qu'il dit
00:00:13juste ici. C'est gratuit et c'est une alternative locale à ElevenLabs, et honnêtement, c'était dingue.
00:00:19Il compte environ 30 000 étoiles sur GitHub. Il fonctionne localement, et dans les 60 prochaines secondes,
00:00:24je vais vous montrer le clonage, la génération vocale locale et la dictée au sein d'un éditeur.
00:00:29À quel point est-ce utile pour nous, et est-ce facile à prendre en main ? Nous allons le découvrir.
00:00:39VoiceBox est un studio de voix IA local et open source. La façon simple de le concevoir est celle-ci.
00:00:46Ollama est destiné aux modèles de texte locaux. VoiceBox essaie d'être cela pour la voix. Ce n'est donc pas juste de la synthèse vocale.
00:00:54Il permet le clonage de voix, la dictée à l'échelle du système, l'édition créative, il propose même des histoires et
00:01:00des chronologies, et il se connecte à des agents IA. Cela nous donne un réel contrôle et encore plus de confidentialité.
00:01:06Je veux construire des choses sans avoir à me demander combien de crédits je viens de consommer pour tester. VoiceBox
00:01:12ne pose pas cette question, car il tourne sur notre machine. Il n'y a donc pas d'abonnement. Pas de
00:01:17limite de caractères. De plus, il rassemble le clonage, la dictée alimentée par Whisper, un éditeur multipiste,
00:01:23une application de bureau Atari, la prise en charge MCP et une API REST locale. Donc, au lieu de cinq outils séparés,
00:01:29vous obtenez une seule application de bureau avec tout ce qu'il faut. Je vais faire trois choses dans cette vidéo.
00:01:36Je vais cloner une voix, je vais la faire parler, puis je vais utiliser la dictée à l'intérieur de
00:01:41l'éditeur. Après cela, je vous montrerai pourquoi l'intégration des agents est super impressionnante, ou du moins
00:01:46nous en discuterons. Si vous aimez les outils de codage qui accélèrent votre flux de travail, assurez-vous de
00:01:50vous abonner. Nous publions des vidéos tout le temps. Très bien, je fais tourner ça sur mon Mac M4.
00:01:55Voici VoiceBox. J'ai déjà un profil vocal prêt, mais le processus était vraiment simple. Vous pouvez
00:02:02lancer cela avec Docker, oui, mais je l'ai fait, et il a fallu près de 30 minutes pour mettre en place les conteneurs.
00:02:08Pour cela, j'ai donc opté pour l'application de bureau, qui était bien plus rapide, et c'est honnêtement vraiment
00:02:13bon. Je peux nommer l'audio ici. Je peux ajouter une description et même lui dire comment agir avec les
00:02:19modèles. Ensuite, je peux soit m'enregistrer en train de parler, soit télécharger un court fichier pour qu'il l'analyse tout en
00:02:26ajoutant la transcription de cet audio. Maintenant, je vais taper une phrase que je voudrais réellement utiliser. Alors,
00:02:32peut-être qu'en tant que développeur, cela me donne un contrôle total sur l'IA vocale sans les coûts du cloud et tous ces problèmes
00:02:38de confidentialité. Je vais choisir mon profil vocal. Je peux choisir le modèle que je veux et cliquer sur
00:02:44générer. La première exécution devra télécharger le modèle. Donc ça pourrait prendre
00:02:50un peu de temps, mais après tout ça, et une fois exécuté, nous obtenons des formes d'onde. Écoutons.
00:02:57En tant que développeur, cela me donne un contrôle total sur l'IA vocale sans les coûts du cloud et tous ces problèmes
00:03:02de confidentialité. Cet audio a été généré localement depuis ma machine et j'ai cloné ma propre voix. Il n'y avait aucun onglet de navigateur.
00:03:09Je n'avais pas besoin de clés API, mais voici la partie qui donne l'impression qu'il s'agit d'un vrai flux de travail : la dictée
00:03:16à l'échelle du système. Je pouvais utiliser un raccourci clavier global et dire tout ce à quoi je pensais sur le moment. Si vous aimez
00:03:22trouver des outils et astuces de codage comme celui-ci, consultez notre chaîne. Maintenant, cela s'insère directement dans mon éditeur.
00:03:29Donc, je veux dire, c'était assez utile pour des notes, des commentaires, ou quoi que ce soit d'autre.
00:03:33Mais tous ces petits moments où parler est en fait plus rapide que taper, c'est énorme. Ceci
00:03:38n'est pas seulement pour que vous parliez à l'ordinateur. Vos agents pourraient aussi vous répondre maintenant.
00:03:43Claude Code, Cursor, ou votre propre agent local peuvent déclencher la parole via VoiceBox à la place,
00:03:49au lieu de simplement le déverser dans votre terminal. Nous recevons déjà des retours de nos IA.
00:03:55Pourquoi ne pas la laisser nous parler ? Comparons maintenant cela avec les outils que nous connaissons déjà.
00:03:59Pour des raisons évidentes, n'est-ce pas, nous avons ElevenLabs. ElevenLabs est génial. Bravo. J'ai fait des comparaisons à ce sujet
00:04:05auparavant. C'est hébergé. Nous savons que la qualité est incroyable. Mais encore une fois, n'est-ce pas, c'est basé sur le cloud. C'est
00:04:11basé sur un abonnement. Donc nous payons pour ça. Nous mettons nos trucs dans le cloud.
00:04:16VoiceBox est le contraire total de ça. Pourquoi ? Eh bien, c'est local. C'est gratuit. C'est illimité. Nous
00:04:22contrôlons toutes les données qui y entrent. ElevenLabs peut toujours gagner si vous l'utilisez toute la journée,
00:04:27mais je pense que je garderai VoiceBox car j'ai adoré sa facilité. Et honnêtement, ça sonne vraiment bien
00:04:33aussi. Pour nous, les développeurs, le meilleur outil n'est pas toujours celui qui a le plus joli rendu. Nous ne nous soucions pas
00:04:38vraiment de ça la plupart du temps. Parfois, c'est celui que vous pouvez réellement contrôler. Ensuite, il y a tout l'aspect
00:04:43open source. Vous pouviez déjà utiliser des outils comme Piper, Whisper et un tas de scripts séparés.
00:04:50Mais encore une fois, la chose clé là-dedans, les gars, c'est qu'ils sont tous séparés, n'est-ce pas ? Nous avons un outil pour la transcription,
00:04:56un pour le clonage, un pour la synthèse vocale, un pour l'interface utilisateur, tout ce que nous bricolons ensemble.
00:05:03VoiceBox regroupe tout le flux de travail dans une seule application studio. Entrée, sortie, édition, profils,
00:05:09documentation, intégration d'agents, et franchement, vous pourriez aussi utiliser le serveur MCP. Comme je l'ai dit,
00:05:14cela signifie que Claude ou Cursor peuvent appeler VoiceBox comme un outil au lieu que votre agent ne réponde
00:05:20qu'avec du texte. Il vous répond maintenant oralement. Mais voulez-vous vous entendre vous répondre ? Je ne
00:05:25sais pas. Peut-être changer la voix pour ça. Mais imaginez votre agent de codage dire : échec de la compilation. Trois tests
00:05:30ont cassé le module d'authentification. Cela semble irréel jusqu'à ce que vous réalisiez combien de fois par jour vous recevez déjà
00:05:36des retours de vos outils. VoiceBox donne simplement à ces mises à jour une voix réelle.
00:05:42Alors pourquoi ai-je tant aimé celui-ci par rapport aux autres ? Eh bien, d'accord, la confidentialité et le coût. Honnêtement,
00:05:48ce sont les très grandes victoires, du moins pour moi. Ce sont des victoires faciles. Pour les échantillons vocaux, l'audio,
00:05:53le contenu interne, ou tout ce qui est vraiment sensible, le local d'abord est ce que nous voulons. C'est génial.
00:05:57Ensuite, il y a l'intégration des agents, que je n'ai pas mise dans le test complet ici, mais les développeurs en parlent déjà
00:06:02alors qu'ils l'intègrent dans Claude Code, Cursor. VoiceBox donne à ces systèmes
00:06:08une couche vocale sans avoir besoin d'un fournisseur de parole hébergé. Le flux de travail était assez soigné. J'aime
00:06:14qu'il soit tout dans une interface utilisateur que nous pouvons contrôler. C'est vraiment facile. Et si vous êtes sur Apple Silicon,
00:06:18surtout la performance locale est l'une des raisons pour lesquelles cela semblait si bon. Mais voici
00:06:23la chose à garder à l'esprit avec tout ça. C'est sorti cette année. C'est encore tôt. Donc il va y avoir
00:06:28des problèmes. Certains utilisateurs vont rencontrer des difficultés si vous êtes sur Windows, surtout concernant
00:06:33la détection GPU, la configuration du modèle et les exportations. Si cela arrive, redémarrez simplement l'application. J'ai le problème
00:06:39sur mon Mac. Le redémarrer corrige cela. La cohérence à long terme peut aussi encore être en retard par rapport à ElevenLabs.
00:06:46Le contrôle de l'émotion s'améliore, mais cela dépend du modèle que vous choisissez. Si vous choisissez
00:06:50Shatterbox TTS Turbo, nous avons alors ces émotions intégrées.
00:06:55Alors devriez-vous installer VoiceBox ? Honnêtement, c'était super facile. Ça vaut absolument la peine d'essayer
00:07:00parce qu'il supprime beaucoup de ces frictions que nous avons avec des flux de travail que nous sommes en train de
00:07:04vraiment assembler. La valeur principale n'est pas seulement la qualité vocale. C'est vraiment le contrôle
00:07:09qui nous est donné ici. C'est le contrôle des données, le contrôle des coûts, de l'intégration. C'est
00:07:15pourquoi tout ça compte vraiment. Maintenant, démarrer était très simple. Un singe pourrait le faire. Allez sur
00:07:20le site web de VoiceBox ou les versions GitHub, téléchargez l'installateur pour votre plateforme, lancez l'application,
00:07:25et puis tirez les modèles locaux dont vous avez besoin. Mais toute l'idée centrale ici est vraiment forte,
00:07:30et c'est déjà assez utile pour être réellement installé. Si vous appréciez les outils de codage comme celui-ci,
00:07:35assurez-vous de vous abonner à la chaîne BetterStack. On se voit dans une autre vidéo.