00:00:00Voici SpeechBrain, une boîte à outils native de PyTorch en open-source qui permet de créer
00:00:05et de déployer des fonctions d'IA vocale via des modèles pré-entraînés. Ça va de la suppression
00:00:10du bruit à la vérification du locuteur et à l'ASR. Sans entraînement ni réglage précis. Un test
00:00:15rapide de vérification audio. Vous vous attendez sûrement à une meilleure qualité sonore. Eh bien,
00:00:19oui, ça se fait naturellement ici. D'après le système, je ne suis pas la même personne, car
00:00:23j'utilise un transformateur de voix dans le second clip. La vérification vocale fonctionne donc
00:00:28très bien. Voyons ce qu'il peut faire d'autre. Nous sortons des vidéos régulièrement, alors
00:00:38abonnez-vous. Petit récapitulatif avant de lancer les premières démos. SpeechBrain propose
00:00:44l'amélioration ASR, la séparation, l'ID du locuteur, la TTS... toute la panoplie. Et voici ce qui
00:00:51compte si vous développez : plus de 9000 étoiles sur GitHub, une intégration parfaite avec
00:00:56Hugging Face, installation et chargement de modèle en quelques lignes. C'est fait pour ceux qui
00:01:02veulent livrer vite sans perdre de temps dans la doc. Voici le code de base que j'ai enrichi
00:01:08pour le faire tourner. J'ai trouvé beaucoup de code sur leur site de documentation. J'ai choisi
00:01:14Gradio pour l'interface utilisateur. C'est une bibliothèque Python pour applications ML qui
00:01:20marche super bien pour ça. Cette partie va paraître truquée si vous ne l'avez jamais vue. La
00:01:24plupart des démos trichent avec un son parfait. Je vais faire l'inverse : je vais mettre de la
00:01:31musique de fond à fond dès maintenant. C'est parti. Je parle normalement en m'enregistrant
00:01:37par-dessus cette musique. Voici l'audio brut. Ça sonne vraiment mal. Regardez maintenant le
00:01:44résultat amélioré. Je parle normalement. Même voix, bruit supprimé, sans aucune retouche.
00:01:51Ce qu'il faut retenir, c'est que ça tourne en quelques secondes. Idéal pour les applis d'appel,
00:01:57podcasts, nettoyage audio ou terminaux mobiles avec une mauvaise acoustique. Le code : on
00:02:02charge le modèle, on appelle "enhanced batch", et c'est tout. Par contre, la doc était un peu
00:02:07légère, j'ai dû adapter le code pour mon Mac car j'avais quelques bugs. Passons maintenant à
00:02:13la vérification du locuteur, dont j'ai parlé au début. Pour mettre les choses au clair, on pense
00:02:20souvent que l'authentification vocale est complexe. Spoiler : ça ne l'est pas du tout avec cet
00:02:26outil. Je vais enregistrer ma voix. "Hé, voici ma voix". C'était le premier enregistrement.
00:02:36Je recommence une deuxième fois ici. "Hé, voici ma voix". On vérifie : même locuteur. Le score
00:02:42est élevé, la correspondance est confirmée. On a le score et le classement dans le résultat.
00:02:48Si je fais un autre essai sans transformateur de voix, voyons ce que ça donne. "Qu'as-tu mangé
00:02:56au petit-déjeuner ?" Maintenant, je change de ton. Ne vous moquez pas trop de moi. "Qu'as-tu
00:03:01mangé au petit-déjeuner ?" Le score de similitude chute un peu, mais il confirme que c'est bien
00:03:08moi. C'est pré-entraîné sur VoxCeleb. Nouvel essai rapide avec le transformateur de voix.
00:03:17Voici ma voix normale. Maintenant, si je l'active, voici ma voix normale. Pour vous montrer,
00:03:22le second clip ressemble à ça : "Voici ma voix normale". C'est assez spécial, non ? On entend
00:03:27bien la transformation. Là, ça ne correspond plus du tout, et le résultat le confirme.
00:03:32Si vous créez des applis multi-utilisateurs basées sur la voix, c'est exactement ce qu'il vous faut.
00:03:37Pour ma dernière démo, voilà ce qui devrait être le pilier. Les démos de transcription ASR
00:03:43en direct sont souvent impressionnantes... jusqu'à ce qu'on essaie avec ce discours. Je vais
00:03:48parler normalement. Cette fonction ne marche pas très bien en fait, et la documentation n'a
00:03:53pas aidé. Je ne sais pas trop quoi en penser. On dirait juste du "speech-to-text" classique.
00:03:58Ça aurait dû s'auto-transcrire mais j'ai eu d'innombrables problèmes, et ça ne le fait même pas.
00:04:04Alors oui, ça transcrit, mais plein d'autres bibliothèques le font aussi. Cette fonctionnalité
00:04:08ne m'a pas convaincu, du moins pour l'auto-transcription. Ça n'a juste pas marché.
00:04:13Il y a donc des trucs vraiment cool, comme la vérification vocale ou l'annulation du bruit,
00:04:18mais certains points ne sont pas encore au point. Voilà pour SpeechBrain. Dans l'ensemble,
00:04:22c'est rapide, c'est ouvert et c'est fait pour les développeurs. Allez tester par vous-mêmes.
00:04:26J'ai mis les liens en description, et on se retrouve dans une prochaine vidéo.