SpeechBrain: O que Realmente Vale a Pena Usar?

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Este é o SpeechBrain, um kit de ferramentas nativo em PyTorch e de código aberto que nos permite criar e lançar
00:00:05recursos de IA de voz usando modelos pré-treinados. Desde remoção de ruído, verificação de locutor,
00:00:10e ASR. Sem treinamento e sem ajuste fino. Vou fazer uma verificação rápida de áudio aqui. Você provavelmente
00:00:15está esperando um áudio melhor. Bem, sim, isso acontece naturalmente por aqui. De acordo com isto,
00:00:19eu não sou a mesma pessoa, e isso é porque estou usando um transformador de voz no segundo clipe.
00:00:23Então a verificação de voz realmente funciona. Agora vamos ver o que mais ele pode fazer. Temos vídeos saindo
00:00:28o tempo todo. Não se esqueça de se inscrever. Uma breve explicação antes de eu rodar as primeiras demos.
00:00:38O SpeechBrain tem aprimoramento de ASR, separação, ID de locutor, TTS, enfim, o pacote completo.
00:00:44E aqui está a parte que importa se você realmente desenvolve ferramentas: mais de 9000 estrelas no GitHub,
00:00:51integração total com o Hugging Face, instalação em uma linha e carregar um modelo leva só mais algumas. Foi feito para quem quer
00:00:56entregar rápido, não perder tempo lendo documentação. Aqui está o código inicial que eu expandi para fazer
00:01:02isso rodar. E muito do código eu encontrei no próprio site da documentação. Eu escolhi usar
00:01:08o Gradio para construir a interface. O Gradio é uma biblioteca Python para apps de ML que funciona muito
00:01:14bem para esse tipo de coisa. Ok, esta parte parece mentira se você nunca viu. A maioria das demos de aprimoramento
00:01:20trapaceia com áudios perfeitos. Vou fazer o oposto aqui. Vou colocar um barulho de fundo
00:01:24bem alto agora. Basicamente só música. Vamos lá. Estou falando normalmente, gravando a minha voz
00:01:31por cima desta música. Aqui está o áudio bruto. É, o som está bem ruim. Agora vejam o resultado aprimorado.
00:01:37Estou falando normalmente. A mesma voz, sem o ruído, sem truques de pós-processamento. E aqui está
00:01:44o ponto principal: isso roda em segundos. Pode usar em apps de chamada, podcasts, limpezas de áudio, dispositivos portáteis,
00:01:51qualquer coisa com microfone e acústica ruim. O código: carregar o modelo, chamar o "enhanced batch", e pronto.
00:01:57Mas a documentação estava meio complicada, então tive que expandir o código para funcionar melhor no meu Mac.
00:02:02Estava dando alguns erros. O próximo passo é a verificação de locutor, que mencionei lá no
00:02:07começo. E só para alinhar as expectativas, as pessoas ouvem sobre biometria de voz e acham complicado. Novidade:
00:02:13na verdade não é, pelo menos não com isto aqui. Vou registrar minha voz agora. "Ei, esta é a minha
00:02:20voz". Essa foi a primeira gravação. Agora vou fazer a mesma coisa de novo nesta segunda aqui.
00:02:26"Ei, esta é a minha voz". Agora verificar: mesmo locutor. A pontuação é alta. O sistema confirmou o match. Temos
00:02:36essa pontuação e o ranking no resultado. Se eu tentar de novo sem usar o transformador de voz,
00:02:42vamos ver como fica. "O que você comeu no café da manhã?" Ok, agora vou mudar o tom. Não
00:02:48riam muito de mim. "O que você comeu no café da manhã?" A pontuação de similaridade cai um pouco,
00:02:56mas ainda indica que eu sou, de fato, o mesmo locutor. Isso foi pré-treinado no VoxCeleb.
00:03:01Novamente, rápido com o transformador de voz: "Esta é a minha voz normal". Agora, se eu ligar
00:03:08o transformador de voz: "Esta é a minha voz normal". Só para tocar para vocês, o segundo clipe
00:03:17soa mais ou menos assim: "Esta é a minha voz normal". Meio estranho, né? Dá para ouvir o
00:03:22processamento. É, eles não batem de jeito nenhum, e o resultado confirma isso aqui.
00:03:27Se você estiver criando apps multiusuário com voz ou algo que precise identificar quem está falando,
00:03:32é exatamente para isso. Na minha demonstração final, bom, era para ser o carro-chefe. Demos de transcrição
00:03:37ao vivo (ASR) costumam impressionar até você tentar com esta fala. Agora vou falar normalmente.
00:03:43Este recurso não funciona tão bem, na verdade, e a documentação não ajudou muito,
00:03:48então não sei bem o que achei disso. Parece apenas um conversor de fala em texto comum.
00:03:53Deveria ter transcrito automaticamente, mas deu inúmeros erros, e nem isso ele faz direito.
00:03:58Sim, ele transcreve, mas inúmeras outras bibliotecas também fazem isso. Este recurso aqui não foi
00:04:04impressionante, pelo menos para mim, tentando fazer a transcrição automática. Simplesmente não funcionou.
00:04:08Então, tem coisas muito legais aqui, certo? Vimos a verificação de voz, o cancelamento de ruído
00:04:13de fundo, mas certas coisas ainda não estão ajustadas. E esse é o resumo do SpeechBrain.
00:04:18No geral, ainda é rápido, aberto e feito para desenvolvedores. Vocês podem
00:04:22testar por conta própria. Deixei os links na descrição, e a gente se vê em um próximo
00:04:26vídeo.

Key Takeaway

O SpeechBrain é uma ferramenta poderosa e rápida para biometria e limpeza de áudio, embora ainda apresente instabilidades no reconhecimento de fala e na clareza de sua documentação técnica.

Highlights

O SpeechBrain é um kit de ferramentas de código aberto nativo em PyTorch para criar IA de voz.

Integração total com Hugging Face e facilidade de instalação com poucas linhas de código.

Recurso de aprimoramento de áudio impressionante, capaz de remover ruídos intensos e música de fundo.

Verificação de locutor e biometria de voz eficazes, utilizando modelos pré-treinados no VoxCeleb.

Crítica ao recurso de ASR (Reconhecimento Automático de Fala) e dificuldades com a documentação.

Ideal para desenvolvedores que buscam agilidade no lançamento de recursos de voz.

Timeline

Introdução ao SpeechBrain e Ecossistema

Nesta seção inicial, o apresentador introduz o SpeechBrain como um framework de código aberto construído sobre o PyTorch. O foco principal é a capacidade de lançar recursos de IA de voz, como remoção de ruído e verificação de locutor, sem a necessidade de treinamento manual. O narrador demonstra brevemente a eficácia da ferramenta ao usar um transformador de voz para testar a identidade sonora. Esta introdução estabelece o tom do vídeo, focando na praticidade para desenvolvedores. O objetivo é mostrar que a ferramenta já vem pronta para uso imediato com modelos pré-treinados.

Vantagens Técnicas e Configuração Inicial

O autor detalha a popularidade da ferramenta no GitHub, mencionando que ela possui mais de 9000 estrelas e integração nativa com o Hugging Face. É enfatizado que a instalação é extremamente simples, exigindo apenas uma linha de comando para começar. Para a interface das demonstrações, o desenvolvedor optou por utilizar a biblioteca Gradio, que facilita a criação de aplicativos de Machine Learning em Python. Esta parte do vídeo é crucial para quem desenvolve ferramentas e busca rapidez na entrega de projetos. O texto ressalta que o SpeechBrain foi feito para quem não quer perder tempo lendo documentações extensas.

Demonstração de Aprimoramento de Áudio

O apresentador realiza um teste rigoroso de cancelamento de ruído, inserindo música alta e barulhenta por trás de sua fala. Ele critica as demos de outras ferramentas que usam áudios quase perfeitos, optando por um cenário de mundo real desafiador. O resultado do SpeechBrain é notável, removendo a música e mantendo a clareza da voz original em poucos segundos de processamento. O código para esta função é simples, envolvendo apenas o carregamento do modelo e a chamada de uma função de processamento em lote. No entanto, o autor menciona que precisou ajustar o código para evitar erros de execução no sistema macOS.

Verificação de Locutor e Biometria de Voz

Esta seção explora a biometria de voz, desmistificando a ideia de que a verificação de locutor é um processo excessivamente complexo. O apresentador registra sua voz e realiza testes de comparação, onde o sistema gera uma pontuação de similaridade e um ranking de confiança. Mesmo alterando levemente o tom de voz, o modelo, pré-treinado no dataset VoxCeleb, consegue identificar o autor corretamente. O teste final utiliza um transformador de voz que altera drasticamente o sinal sonoro, resultando em uma falha de correspondência confirmada pelo sistema. Esta funcionalidade é apontada como ideal para aplicativos multiusuário que precisam identificar quem está falando de forma automatizada.

Críticas ao ASR e Considerações Finais

Na conclusão, o autor apresenta uma análise crítica sobre o recurso de Reconhecimento Automático de Fala (ASR), que deveria ser o destaque. Ele relata frustração, pois a ferramenta apresentou inúmeros erros e não transcreveu a fala automaticamente como esperado. Comparado a outras bibliotecas disponíveis no mercado, o desempenho do SpeechBrain nesta área específica foi considerado decepcionante e pouco impressionante. O narrador também reforça que a documentação para este recurso não foi útil para resolver os problemas técnicos encontrados. Apesar disso, ele encerra recomendando a ferramenta pelas suas outras qualidades, como velocidade e natureza aberta para a comunidade de desenvolvedores.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video