SpeechBrain : Qu’est-ce qui vaut vraiment le coup ?

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Voici SpeechBrain, une boîte à outils native de PyTorch en open-source qui permet de créer
00:00:05et de déployer des fonctions d'IA vocale via des modèles pré-entraînés. Ça va de la suppression
00:00:10du bruit à la vérification du locuteur et à l'ASR. Sans entraînement ni réglage précis. Un test
00:00:15rapide de vérification audio. Vous vous attendez sûrement à une meilleure qualité sonore. Eh bien,
00:00:19oui, ça se fait naturellement ici. D'après le système, je ne suis pas la même personne, car
00:00:23j'utilise un transformateur de voix dans le second clip. La vérification vocale fonctionne donc
00:00:28très bien. Voyons ce qu'il peut faire d'autre. Nous sortons des vidéos régulièrement, alors
00:00:38abonnez-vous. Petit récapitulatif avant de lancer les premières démos. SpeechBrain propose
00:00:44l'amélioration ASR, la séparation, l'ID du locuteur, la TTS... toute la panoplie. Et voici ce qui
00:00:51compte si vous développez : plus de 9000 étoiles sur GitHub, une intégration parfaite avec
00:00:56Hugging Face, installation et chargement de modèle en quelques lignes. C'est fait pour ceux qui
00:01:02veulent livrer vite sans perdre de temps dans la doc. Voici le code de base que j'ai enrichi
00:01:08pour le faire tourner. J'ai trouvé beaucoup de code sur leur site de documentation. J'ai choisi
00:01:14Gradio pour l'interface utilisateur. C'est une bibliothèque Python pour applications ML qui
00:01:20marche super bien pour ça. Cette partie va paraître truquée si vous ne l'avez jamais vue. La
00:01:24plupart des démos trichent avec un son parfait. Je vais faire l'inverse : je vais mettre de la
00:01:31musique de fond à fond dès maintenant. C'est parti. Je parle normalement en m'enregistrant
00:01:37par-dessus cette musique. Voici l'audio brut. Ça sonne vraiment mal. Regardez maintenant le
00:01:44résultat amélioré. Je parle normalement. Même voix, bruit supprimé, sans aucune retouche.
00:01:51Ce qu'il faut retenir, c'est que ça tourne en quelques secondes. Idéal pour les applis d'appel,
00:01:57podcasts, nettoyage audio ou terminaux mobiles avec une mauvaise acoustique. Le code : on
00:02:02charge le modèle, on appelle "enhanced batch", et c'est tout. Par contre, la doc était un peu
00:02:07légère, j'ai dû adapter le code pour mon Mac car j'avais quelques bugs. Passons maintenant à
00:02:13la vérification du locuteur, dont j'ai parlé au début. Pour mettre les choses au clair, on pense
00:02:20souvent que l'authentification vocale est complexe. Spoiler : ça ne l'est pas du tout avec cet
00:02:26outil. Je vais enregistrer ma voix. "Hé, voici ma voix". C'était le premier enregistrement.
00:02:36Je recommence une deuxième fois ici. "Hé, voici ma voix". On vérifie : même locuteur. Le score
00:02:42est élevé, la correspondance est confirmée. On a le score et le classement dans le résultat.
00:02:48Si je fais un autre essai sans transformateur de voix, voyons ce que ça donne. "Qu'as-tu mangé
00:02:56au petit-déjeuner ?" Maintenant, je change de ton. Ne vous moquez pas trop de moi. "Qu'as-tu
00:03:01mangé au petit-déjeuner ?" Le score de similitude chute un peu, mais il confirme que c'est bien
00:03:08moi. C'est pré-entraîné sur VoxCeleb. Nouvel essai rapide avec le transformateur de voix.
00:03:17Voici ma voix normale. Maintenant, si je l'active, voici ma voix normale. Pour vous montrer,
00:03:22le second clip ressemble à ça : "Voici ma voix normale". C'est assez spécial, non ? On entend
00:03:27bien la transformation. Là, ça ne correspond plus du tout, et le résultat le confirme.
00:03:32Si vous créez des applis multi-utilisateurs basées sur la voix, c'est exactement ce qu'il vous faut.
00:03:37Pour ma dernière démo, voilà ce qui devrait être le pilier. Les démos de transcription ASR
00:03:43en direct sont souvent impressionnantes... jusqu'à ce qu'on essaie avec ce discours. Je vais
00:03:48parler normalement. Cette fonction ne marche pas très bien en fait, et la documentation n'a
00:03:53pas aidé. Je ne sais pas trop quoi en penser. On dirait juste du "speech-to-text" classique.
00:03:58Ça aurait dû s'auto-transcrire mais j'ai eu d'innombrables problèmes, et ça ne le fait même pas.
00:04:04Alors oui, ça transcrit, mais plein d'autres bibliothèques le font aussi. Cette fonctionnalité
00:04:08ne m'a pas convaincu, du moins pour l'auto-transcription. Ça n'a juste pas marché.
00:04:13Il y a donc des trucs vraiment cool, comme la vérification vocale ou l'annulation du bruit,
00:04:18mais certains points ne sont pas encore au point. Voilà pour SpeechBrain. Dans l'ensemble,
00:04:22c'est rapide, c'est ouvert et c'est fait pour les développeurs. Allez tester par vous-mêmes.
00:04:26J'ai mis les liens en description, et on se retrouve dans une prochaine vidéo.

Key Takeaway

SpeechBrain est une solution open-source puissante et rapide pour le traitement de la voix, excellente pour le nettoyage audio et la biométrie, malgré quelques faiblesses sur la transcription automatique en direct.

Highlights

SpeechBrain est une boîte à outils open-source native de PyTorch conçue pour les fonctions d'IA vocale.

L'intégration avec Hugging Face et les modèles pré-entraînés permettent un déploiement rapide sans entraînement intensif.

L'annulation du bruit est particulièrement performante, même avec un fond sonore extrêmement bruyant.

La vérification du locuteur offre des résultats précis, identifiant les changements de voix ou l'utilisation de transformateurs vocaux.

L'outil compte plus de 9000 étoiles sur GitHub, soulignant sa popularité auprès de la communauté des développeurs.

Certaines fonctionnalités comme la transcription ASR en direct présentent des lacunes techniques et une documentation insuffisante.

Timeline

Introduction à SpeechBrain et ses capacités

Cette section introduit SpeechBrain comme une boîte à outils native de PyTorch dédiée à l'intelligence artificielle vocale. L'intervenant explique que la plateforme permet de gérer des tâches variées allant de la suppression du bruit à la reconnaissance automatique de la parole (ASR). L'avantage majeur souligné est la possibilité d'utiliser des modèles pré-entraînés sans nécessiter de réglages complexes. Un premier test de vérification audio montre que le système peut distinguer deux clips vocaux différents avec précision. Cette introduction pose les bases d'un outil polyvalent destiné aux développeurs cherchant des solutions prêtes à l'emploi.

Écosystème de développement et intégration

Le présentateur détaille ici l'aspect technique et la popularité de l'outil qui affiche plus de 9000 étoiles sur GitHub. L'intégration fluide avec Hugging Face facilite grandement l'installation et le chargement des modèles en quelques lignes de code seulement. Pour les démonstrations, l'interface utilisateur a été construite avec la bibliothèque Python Gradio, réputée pour sa simplicité avec les modèles de Machine Learning. L'objectif affiché est de permettre aux créateurs de livrer des applications rapidement sans se perdre dans une documentation trop dense. Cette partie met en avant l'efficacité opérationnelle de SpeechBrain pour les cycles de développement courts.

Démonstration de l'annulation du bruit

Dans cette démonstration impressionnante, l'auteur teste les capacités de nettoyage audio en conditions réelles et difficiles. Il enregistre sa voix par-dessus une musique de fond très forte pour prouver que le système ne triche pas avec un son parfait. Le résultat après traitement par le modèle de SpeechBrain montre une suppression quasi totale du bruit environnant sans altérer la voix. Ce processus s'exécute en quelques secondes, ce qui le rend idéal pour des applications de podcasts ou des terminaux mobiles. Cependant, l'auteur note avoir dû adapter le code pour son Mac en raison de quelques bugs rencontrés initialement.

Vérification et authentification du locuteur

L'analyse se porte ensuite sur la biométrie vocale, souvent perçue comme un domaine complexe mais rendu accessible par SpeechBrain. L'intervenant réalise plusieurs tests, comparant sa voix normale avec des variations de ton et l'utilisation d'un transformateur vocal. Le modèle, pré-entraîné sur le dataset VoxCeleb, fournit des scores de similitude clairs qui confirment ou non l'identité de l'utilisateur. Même avec un changement de ton volontaire, le système reconnaît correctement le locuteur, tandis qu'il rejette la voix transformée numériquement. C'est une fonctionnalité clé pour les applications multi-utilisateurs nécessitant une sécurité basée sur l'identité sonore.

Limites de l'ASR et conclusion finale

La dernière partie de la vidéo aborde la transcription automatique de la parole (ASR), qui s'avère être la déception du testeur. Malgré les attentes, la fonction de transcription en direct n'a pas fonctionné correctement et a présenté de nombreux problèmes techniques. L'auteur souligne que la documentation sur ce point précis est insuffisante et que d'autres bibliothèques font mieux le travail actuellement. En conclusion, il dresse un bilan globalement positif en recommandant SpeechBrain pour l'annulation du bruit et la vérification. Il encourage les développeurs à tester l'outil par eux-mêmes via les liens fournis en description pour se faire leur propre opinion.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video