J'ai testé l'alternative open source à ElevenLabs (Voicebox)

BBetter Stack
컴퓨터/소프트웨어가전제품/카메라AI/미래기술

Transcript

00:00:00On dit que c'est l'Ollama de l'IA vocale. Il clone des voix, génère de la parole, dicte dans n'importe quelle application,
00:00:07et communique avec des agents en utilisant des voix que vous possédez réellement. C'est VoiceBox, et c'est ce qu'il dit
00:00:13juste ici. C'est gratuit et c'est une alternative locale à ElevenLabs, et honnêtement, c'était dingue.
00:00:19Il compte environ 30 000 étoiles sur GitHub. Il fonctionne localement, et dans les 60 prochaines secondes,
00:00:24je vais vous montrer le clonage, la génération vocale locale et la dictée au sein d'un éditeur.
00:00:29À quel point est-ce utile pour nous, et est-ce facile à prendre en main ? Nous allons le découvrir.
00:00:39VoiceBox est un studio de voix IA local et open source. La façon simple de le concevoir est celle-ci.
00:00:46Ollama est destiné aux modèles de texte locaux. VoiceBox essaie d'être cela pour la voix. Ce n'est donc pas juste de la synthèse vocale.
00:00:54Il permet le clonage de voix, la dictée à l'échelle du système, l'édition créative, il propose même des histoires et
00:01:00des chronologies, et il se connecte à des agents IA. Cela nous donne un réel contrôle et encore plus de confidentialité.
00:01:06Je veux construire des choses sans avoir à me demander combien de crédits je viens de consommer pour tester. VoiceBox
00:01:12ne pose pas cette question, car il tourne sur notre machine. Il n'y a donc pas d'abonnement. Pas de
00:01:17limite de caractères. De plus, il rassemble le clonage, la dictée alimentée par Whisper, un éditeur multipiste,
00:01:23une application de bureau Atari, la prise en charge MCP et une API REST locale. Donc, au lieu de cinq outils séparés,
00:01:29vous obtenez une seule application de bureau avec tout ce qu'il faut. Je vais faire trois choses dans cette vidéo.
00:01:36Je vais cloner une voix, je vais la faire parler, puis je vais utiliser la dictée à l'intérieur de
00:01:41l'éditeur. Après cela, je vous montrerai pourquoi l'intégration des agents est super impressionnante, ou du moins
00:01:46nous en discuterons. Si vous aimez les outils de codage qui accélèrent votre flux de travail, assurez-vous de
00:01:50vous abonner. Nous publions des vidéos tout le temps. Très bien, je fais tourner ça sur mon Mac M4.
00:01:55Voici VoiceBox. J'ai déjà un profil vocal prêt, mais le processus était vraiment simple. Vous pouvez
00:02:02lancer cela avec Docker, oui, mais je l'ai fait, et il a fallu près de 30 minutes pour mettre en place les conteneurs.
00:02:08Pour cela, j'ai donc opté pour l'application de bureau, qui était bien plus rapide, et c'est honnêtement vraiment
00:02:13bon. Je peux nommer l'audio ici. Je peux ajouter une description et même lui dire comment agir avec les
00:02:19modèles. Ensuite, je peux soit m'enregistrer en train de parler, soit télécharger un court fichier pour qu'il l'analyse tout en
00:02:26ajoutant la transcription de cet audio. Maintenant, je vais taper une phrase que je voudrais réellement utiliser. Alors,
00:02:32peut-être qu'en tant que développeur, cela me donne un contrôle total sur l'IA vocale sans les coûts du cloud et tous ces problèmes
00:02:38de confidentialité. Je vais choisir mon profil vocal. Je peux choisir le modèle que je veux et cliquer sur
00:02:44générer. La première exécution devra télécharger le modèle. Donc ça pourrait prendre
00:02:50un peu de temps, mais après tout ça, et une fois exécuté, nous obtenons des formes d'onde. Écoutons.
00:02:57En tant que développeur, cela me donne un contrôle total sur l'IA vocale sans les coûts du cloud et tous ces problèmes
00:03:02de confidentialité. Cet audio a été généré localement depuis ma machine et j'ai cloné ma propre voix. Il n'y avait aucun onglet de navigateur.
00:03:09Je n'avais pas besoin de clés API, mais voici la partie qui donne l'impression qu'il s'agit d'un vrai flux de travail : la dictée
00:03:16à l'échelle du système. Je pouvais utiliser un raccourci clavier global et dire tout ce à quoi je pensais sur le moment. Si vous aimez
00:03:22trouver des outils et astuces de codage comme celui-ci, consultez notre chaîne. Maintenant, cela s'insère directement dans mon éditeur.
00:03:29Donc, je veux dire, c'était assez utile pour des notes, des commentaires, ou quoi que ce soit d'autre.
00:03:33Mais tous ces petits moments où parler est en fait plus rapide que taper, c'est énorme. Ceci
00:03:38n'est pas seulement pour que vous parliez à l'ordinateur. Vos agents pourraient aussi vous répondre maintenant.
00:03:43Claude Code, Cursor, ou votre propre agent local peuvent déclencher la parole via VoiceBox à la place,
00:03:49au lieu de simplement le déverser dans votre terminal. Nous recevons déjà des retours de nos IA.
00:03:55Pourquoi ne pas la laisser nous parler ? Comparons maintenant cela avec les outils que nous connaissons déjà.
00:03:59Pour des raisons évidentes, n'est-ce pas, nous avons ElevenLabs. ElevenLabs est génial. Bravo. J'ai fait des comparaisons à ce sujet
00:04:05auparavant. C'est hébergé. Nous savons que la qualité est incroyable. Mais encore une fois, n'est-ce pas, c'est basé sur le cloud. C'est
00:04:11basé sur un abonnement. Donc nous payons pour ça. Nous mettons nos trucs dans le cloud.
00:04:16VoiceBox est le contraire total de ça. Pourquoi ? Eh bien, c'est local. C'est gratuit. C'est illimité. Nous
00:04:22contrôlons toutes les données qui y entrent. ElevenLabs peut toujours gagner si vous l'utilisez toute la journée,
00:04:27mais je pense que je garderai VoiceBox car j'ai adoré sa facilité. Et honnêtement, ça sonne vraiment bien
00:04:33aussi. Pour nous, les développeurs, le meilleur outil n'est pas toujours celui qui a le plus joli rendu. Nous ne nous soucions pas
00:04:38vraiment de ça la plupart du temps. Parfois, c'est celui que vous pouvez réellement contrôler. Ensuite, il y a tout l'aspect
00:04:43open source. Vous pouviez déjà utiliser des outils comme Piper, Whisper et un tas de scripts séparés.
00:04:50Mais encore une fois, la chose clé là-dedans, les gars, c'est qu'ils sont tous séparés, n'est-ce pas ? Nous avons un outil pour la transcription,
00:04:56un pour le clonage, un pour la synthèse vocale, un pour l'interface utilisateur, tout ce que nous bricolons ensemble.
00:05:03VoiceBox regroupe tout le flux de travail dans une seule application studio. Entrée, sortie, édition, profils,
00:05:09documentation, intégration d'agents, et franchement, vous pourriez aussi utiliser le serveur MCP. Comme je l'ai dit,
00:05:14cela signifie que Claude ou Cursor peuvent appeler VoiceBox comme un outil au lieu que votre agent ne réponde
00:05:20qu'avec du texte. Il vous répond maintenant oralement. Mais voulez-vous vous entendre vous répondre ? Je ne
00:05:25sais pas. Peut-être changer la voix pour ça. Mais imaginez votre agent de codage dire : échec de la compilation. Trois tests
00:05:30ont cassé le module d'authentification. Cela semble irréel jusqu'à ce que vous réalisiez combien de fois par jour vous recevez déjà
00:05:36des retours de vos outils. VoiceBox donne simplement à ces mises à jour une voix réelle.
00:05:42Alors pourquoi ai-je tant aimé celui-ci par rapport aux autres ? Eh bien, d'accord, la confidentialité et le coût. Honnêtement,
00:05:48ce sont les très grandes victoires, du moins pour moi. Ce sont des victoires faciles. Pour les échantillons vocaux, l'audio,
00:05:53le contenu interne, ou tout ce qui est vraiment sensible, le local d'abord est ce que nous voulons. C'est génial.
00:05:57Ensuite, il y a l'intégration des agents, que je n'ai pas mise dans le test complet ici, mais les développeurs en parlent déjà
00:06:02alors qu'ils l'intègrent dans Claude Code, Cursor. VoiceBox donne à ces systèmes
00:06:08une couche vocale sans avoir besoin d'un fournisseur de parole hébergé. Le flux de travail était assez soigné. J'aime
00:06:14qu'il soit tout dans une interface utilisateur que nous pouvons contrôler. C'est vraiment facile. Et si vous êtes sur Apple Silicon,
00:06:18surtout la performance locale est l'une des raisons pour lesquelles cela semblait si bon. Mais voici
00:06:23la chose à garder à l'esprit avec tout ça. C'est sorti cette année. C'est encore tôt. Donc il va y avoir
00:06:28des problèmes. Certains utilisateurs vont rencontrer des difficultés si vous êtes sur Windows, surtout concernant
00:06:33la détection GPU, la configuration du modèle et les exportations. Si cela arrive, redémarrez simplement l'application. J'ai le problème
00:06:39sur mon Mac. Le redémarrer corrige cela. La cohérence à long terme peut aussi encore être en retard par rapport à ElevenLabs.
00:06:46Le contrôle de l'émotion s'améliore, mais cela dépend du modèle que vous choisissez. Si vous choisissez
00:06:50Shatterbox TTS Turbo, nous avons alors ces émotions intégrées.
00:06:55Alors devriez-vous installer VoiceBox ? Honnêtement, c'était super facile. Ça vaut absolument la peine d'essayer
00:07:00parce qu'il supprime beaucoup de ces frictions que nous avons avec des flux de travail que nous sommes en train de
00:07:04vraiment assembler. La valeur principale n'est pas seulement la qualité vocale. C'est vraiment le contrôle
00:07:09qui nous est donné ici. C'est le contrôle des données, le contrôle des coûts, de l'intégration. C'est
00:07:15pourquoi tout ça compte vraiment. Maintenant, démarrer était très simple. Un singe pourrait le faire. Allez sur
00:07:20le site web de VoiceBox ou les versions GitHub, téléchargez l'installateur pour votre plateforme, lancez l'application,
00:07:25et puis tirez les modèles locaux dont vous avez besoin. Mais toute l'idée centrale ici est vraiment forte,
00:07:30et c'est déjà assez utile pour être réellement installé. Si vous appréciez les outils de codage comme celui-ci,
00:07:35assurez-vous de vous abonner à la chaîne BetterStack. On se voit dans une autre vidéo.

Key Takeaway

VoiceBox offre aux développeurs un studio local tout-en-un pour la synthèse et le clonage vocal, supprimant les contraintes de coût et de confidentialité associées aux services cloud comme ElevenLabs.

Highlights

  • VoiceBox s'impose comme une alternative locale et gratuite à ElevenLabs, totalisant environ 30 000 étoiles sur GitHub.

  • L'outil regroupe le clonage de voix, la dictée alimentée par Whisper, un éditeur multipiste et une API REST locale au sein d'une unique application de bureau.

  • Le fonctionnement local garantit une confidentialité totale des données et élimine les coûts liés aux abonnements cloud ou à la consommation de crédits.

  • L'intégration avec des agents comme Claude Code ou Cursor permet d'obtenir des réponses vocales directes en remplacement des sorties textuelles dans le terminal.

  • Le déploiement via l'application de bureau est plus rapide que la configuration des conteneurs Docker, qui nécessite environ 30 minutes.

Timeline

Présentation de l'écosystème VoiceBox

  • VoiceBox se positionne comme un équivalent local d'Ollama pour l'IA vocale.
  • L'application centralise plusieurs outils auparavant dispersés, comme Whisper pour la transcription et des solutions de synthèse vocale.
  • L'utilisation locale élimine les limites de caractères et les frais d'abonnement récurrents.

L'outil se distingue par sa capacité à gérer le clonage de voix et la dictée système sans dépendre d'infrastructures externes. En regroupant les fonctionnalités de synthèse, d'édition et d'API dans un studio unique, il simplifie les flux de travail techniques qui nécessitaient auparavant de connecter plusieurs scripts séparés.

Tests pratiques et configuration

  • L'installation via l'application de bureau est nettement plus efficace que la méthode Docker.
  • Le processus de clonage nécessite soit un enregistrement en direct, soit l'importation d'un fichier audio court pour analyse.
  • Les modèles locaux génèrent des formes d'onde audio sans aucune interaction avec des serveurs distants ou des clés API.

Le test effectué sur un Mac M4 démontre une exécution fluide. Après le téléchargement initial des modèles, le clonage de la voix permet de générer du contenu audio localement, offrant un contrôle total sur l'IA vocale tout en évitant les problèmes de confidentialité liés au cloud.

Dictée système et intégration aux agents

  • Un raccourci clavier global permet d'utiliser la dictée directement dans n'importe quel éditeur.
  • L'intégration via le serveur MCP permet aux agents de codage comme Cursor ou Claude de répondre oralement aux requêtes.
  • Le retour vocal immédiat des outils de compilation remplace les notifications purement textuelles.

Au-delà de la simple génération de texte, VoiceBox transforme l'interaction avec l'environnement de développement. En permettant aux agents de communiquer vocalement les erreurs de compilation ou les résultats de tests, l'outil réduit la friction entre l'écriture de code et l'analyse des retours systèmes.

Comparaison et limites actuelles

  • VoiceBox privilégie le contrôle des données et les économies d'échelle sur la qualité de rendu pur.
  • Des difficultés techniques peuvent survenir sur Windows concernant la détection du GPU et la configuration des modèles.
  • La cohérence émotionnelle du rendu vocal dépend fortement du modèle choisi, comme Shatterbox TTS Turbo.

Bien que les solutions cloud comme ElevenLabs restent une référence en termes de qualité sonore, VoiceBox offre une valeur supérieure pour les développeurs grâce à son architecture open source. Malgré un stade de développement encore précoce, les redémarrages de l'application permettent généralement de résoudre les instabilités constatées lors de la configuration.

Community Posts

View all posts