00:00:00Este é o SpeechBrain, um kit de ferramentas nativo em PyTorch e de código aberto que nos permite criar e lançar
00:00:05recursos de IA de voz usando modelos pré-treinados. Desde remoção de ruído, verificação de locutor,
00:00:10e ASR. Sem treinamento e sem ajuste fino. Vou fazer uma verificação rápida de áudio aqui. Você provavelmente
00:00:15está esperando um áudio melhor. Bem, sim, isso acontece naturalmente por aqui. De acordo com isto,
00:00:19eu não sou a mesma pessoa, e isso é porque estou usando um transformador de voz no segundo clipe.
00:00:23Então a verificação de voz realmente funciona. Agora vamos ver o que mais ele pode fazer. Temos vídeos saindo
00:00:28o tempo todo. Não se esqueça de se inscrever. Uma breve explicação antes de eu rodar as primeiras demos.
00:00:38O SpeechBrain tem aprimoramento de ASR, separação, ID de locutor, TTS, enfim, o pacote completo.
00:00:44E aqui está a parte que importa se você realmente desenvolve ferramentas: mais de 9000 estrelas no GitHub,
00:00:51integração total com o Hugging Face, instalação em uma linha e carregar um modelo leva só mais algumas. Foi feito para quem quer
00:00:56entregar rápido, não perder tempo lendo documentação. Aqui está o código inicial que eu expandi para fazer
00:01:02isso rodar. E muito do código eu encontrei no próprio site da documentação. Eu escolhi usar
00:01:08o Gradio para construir a interface. O Gradio é uma biblioteca Python para apps de ML que funciona muito
00:01:14bem para esse tipo de coisa. Ok, esta parte parece mentira se você nunca viu. A maioria das demos de aprimoramento
00:01:20trapaceia com áudios perfeitos. Vou fazer o oposto aqui. Vou colocar um barulho de fundo
00:01:24bem alto agora. Basicamente só música. Vamos lá. Estou falando normalmente, gravando a minha voz
00:01:31por cima desta música. Aqui está o áudio bruto. É, o som está bem ruim. Agora vejam o resultado aprimorado.
00:01:37Estou falando normalmente. A mesma voz, sem o ruído, sem truques de pós-processamento. E aqui está
00:01:44o ponto principal: isso roda em segundos. Pode usar em apps de chamada, podcasts, limpezas de áudio, dispositivos portáteis,
00:01:51qualquer coisa com microfone e acústica ruim. O código: carregar o modelo, chamar o "enhanced batch", e pronto.
00:01:57Mas a documentação estava meio complicada, então tive que expandir o código para funcionar melhor no meu Mac.
00:02:02Estava dando alguns erros. O próximo passo é a verificação de locutor, que mencionei lá no
00:02:07começo. E só para alinhar as expectativas, as pessoas ouvem sobre biometria de voz e acham complicado. Novidade:
00:02:13na verdade não é, pelo menos não com isto aqui. Vou registrar minha voz agora. "Ei, esta é a minha
00:02:20voz". Essa foi a primeira gravação. Agora vou fazer a mesma coisa de novo nesta segunda aqui.
00:02:26"Ei, esta é a minha voz". Agora verificar: mesmo locutor. A pontuação é alta. O sistema confirmou o match. Temos
00:02:36essa pontuação e o ranking no resultado. Se eu tentar de novo sem usar o transformador de voz,
00:02:42vamos ver como fica. "O que você comeu no café da manhã?" Ok, agora vou mudar o tom. Não
00:02:48riam muito de mim. "O que você comeu no café da manhã?" A pontuação de similaridade cai um pouco,
00:02:56mas ainda indica que eu sou, de fato, o mesmo locutor. Isso foi pré-treinado no VoxCeleb.
00:03:01Novamente, rápido com o transformador de voz: "Esta é a minha voz normal". Agora, se eu ligar
00:03:08o transformador de voz: "Esta é a minha voz normal". Só para tocar para vocês, o segundo clipe
00:03:17soa mais ou menos assim: "Esta é a minha voz normal". Meio estranho, né? Dá para ouvir o
00:03:22processamento. É, eles não batem de jeito nenhum, e o resultado confirma isso aqui.
00:03:27Se você estiver criando apps multiusuário com voz ou algo que precise identificar quem está falando,
00:03:32é exatamente para isso. Na minha demonstração final, bom, era para ser o carro-chefe. Demos de transcrição
00:03:37ao vivo (ASR) costumam impressionar até você tentar com esta fala. Agora vou falar normalmente.
00:03:43Este recurso não funciona tão bem, na verdade, e a documentação não ajudou muito,
00:03:48então não sei bem o que achei disso. Parece apenas um conversor de fala em texto comum.
00:03:53Deveria ter transcrito automaticamente, mas deu inúmeros erros, e nem isso ele faz direito.
00:03:58Sim, ele transcreve, mas inúmeras outras bibliotecas também fazem isso. Este recurso aqui não foi
00:04:04impressionante, pelo menos para mim, tentando fazer a transcrição automática. Simplesmente não funcionou.
00:04:08Então, tem coisas muito legais aqui, certo? Vimos a verificação de voz, o cancelamento de ruído
00:04:13de fundo, mas certas coisas ainda não estão ajustadas. E esse é o resumo do SpeechBrain.
00:04:18No geral, ainda é rápido, aberto e feito para desenvolvedores. Vocês podem
00:04:22testar por conta própria. Deixei os links na descrição, e a gente se vê em um próximo
00:04:26vídeo.