Eu Clonei Minha Própria Voz Usando o Modelo de Código Aberto da Microsoft

BBetter Stack
Computing/SoftwareSmall Business/StartupsConsumer ElectronicsInternet Technology

Transcript

00:00:00Este é o Vibe Voice da Microsoft, e eu o usei para clonar minha própria voz.
00:00:04Uma stack de fala de código aberto que já está sendo comparada ao 11 Labs, Chatterbox e Whisper.
00:00:10Mas ele roda offline e consegue gerar 90 minutos de áudio multi-locutor de uma só vez.
00:00:1590 minutos ou algo próximo disso parece meio absurdo. Então, isso é realmente usável para desenvolvedores,
00:00:20ou é apenas mais um repositório de pesquisa que acaba discretamente com nossas GPUs? Vou mostrar alguns demos,
00:00:26e depois vamos ver como ele se compara aos outros. Lançamos vídeos o tempo todo,
00:00:29então não se esqueça de se inscrever.
00:00:31Você pode baixar tudo no repositório deles ou no Hugging Face. Agora, antes de compararmos qualquer coisa,
00:00:40vamos apenas olhar os resultados. Está tudo preparado e rodando aqui na frente,
00:00:45para focarmos no que importa. Já usei outros, então estou curioso para ver como o Vibe Voice
00:00:51soa, como ele se mantém e como extraímos algo útil dos resultados.
00:00:56Vou fazer tudo isso com uma saída multi-locutor, um TTS em tempo real e depois a clonagem de voz.
00:01:02Aqui está um roteiro curto estilo podcast com três vozes, alternância clara e emoções no áudio.
00:01:08O que se espera da maioria das demos de TTS é que soem bem e depois comecem a se perder,
00:01:14mas escutem só o que acontece aqui. A consistência das vozes parece sólida,
00:01:18e as transições não desmoronam. Vamos ouvir.
00:01:26Quer dizer, soa bem, não? Não parece que ele está inventando o contexto após 20 segundos,
00:01:41certo? Aí está. Esse é o ponto principal. A Microsoft não fez isso apenas para projetinhos curtos.
00:01:46Ele foi feito para geração de áudio de longo contexto e offline também. Mas ao adicionar tags de emoção,
00:01:52ele começa a falhar. Diferente do Chatterbox, por exemplo, ele gera emoção automática baseada nas palavras,
00:01:58e isso não é tão bom assim. Eu não gostei. O Chatterbox ainda venceu nesse ponto.
00:02:02Mas se você estiver criando coisas como podcasts de IA, documentos narrados, agentes de longa duração,
00:02:07ou apenas dados de treinamento, isso aqui pode fazer um trabalho decente.
00:02:11Agora vamos mudar para o modo em tempo real. Ele roda muito mais rápido que o multi-locutor,
00:02:16que, honestamente, demorou muito para gerar. Isso aqui é streaming incremental, então pense em
00:02:22respostas de chatbots, agentes de voz e assistentes. A latência inicial é de cerca de 300 milissegundos,
00:02:28o que é usável. Não é o mais rápido que já usei. Vamos ouvir aqui.
00:02:32Imagine beber chocolate quente no Japão sob as flores de cerejeira.
00:02:35Ok. E sim, dizem que ele pode cantar ou até gerar música de fundo. Se você forçar,
00:02:40não funcionou. Eu tentei e não deu certo. Mas o ponto aqui é:
00:02:43isso está pronto para produção em tempo real? Acho que não. Mas para experimentação e agentes,
00:02:48sim, é muito bom. Agora a parte divertida. Vamos falar da clonagem de voz porque isso
00:02:53foi muito, muito legal. Aqui está como eu configurei: primeiro, me gravei nos memorandos de voz.
00:02:58Estou num Mac. Depois converti esse arquivo para WAV e iniciei o Gradio com este comando.
00:03:04Nesta interface interativa, posso escolher minha própria voz como idioma de destino.
00:03:10Só isso. Uma gravação normal. E o que se espera é algo parecido com a minha voz,
00:03:14mas obviamente falso. Ouçam só isso. Esta é a minha voz clonada usando o Vibe Voice.
00:03:19Sinceramente, soa muito bem. Quase bom demais, porque eu não disse nada disso. Bom,
00:03:25parecia comigo, mas se você me conhece, provavelmente ainda diria que é falso. Pelo menos eu espero.
00:03:30Não é perfeito, mas é consistente, estável e funciona em áudios longos. Isso é ótimo.
00:03:36A Microsoft diz que essa stack aguenta gerações longas de uma só vez e, na prática,
00:03:41ela se mantém visivelmente mais estável que pipelines estilo Whisper quando o áudio aumenta, né?
00:03:47E se você já tentou clonar uma voz para algo além de um clipe curto, sabe por que isso importa. Então,
00:03:52as demos foram impressionantes, eu diria. Me diverti com a clonagem, mas li a documentação,
00:03:56os problemas e fóruns, e a opinião dos devs é mista. Primeiro os prós, depois os problemas
00:04:02que você vai encontrar. Os pontos positivos são sólidos, no geral. Ele lida com conteúdo longo,
00:04:08com certeza. A maioria dos sistemas de TTS se perde, fica monótona ou quebra após alguns minutos.
00:04:14O Vibe Voice foi feito para áudios longos e provou isso nas minhas demos. Depois, eficiência e expressividade.
00:04:20Ele usa tokenizadores de áudio de baixa frequência, o que mantém o contexto gerenciável.
00:04:27Com difusão e uma base de LLM, você tem fala expressiva sem um processamento absurdo. Ele pareceu
00:04:33mais amigável para desenvolvedores por design. Isso foi legal. Licença MIT, roda offline.
00:04:40Usa GPUs de consumo com cerca de 7GB de VRAM para tempo real. E o código de ajuste fino está incluso, especialmente para ASR.
00:04:47Não há restrições aqui, o que é ótimo. Por fim, como outros projetos open source,
00:04:53ele tem saída ASR estruturada. Uma grande vitória. Diarização de locutores e timestamps nativos economizam
00:04:59muito tempo depois. Se você já montou pipelines de transcrição, sabe que isso não é pouca coisa.
00:05:04Agora, os pontos negativos que eu senti e também vi por aí. Ele ainda parece um software de pesquisa.
00:05:11A Microsoft removeu alguns caminhos de código de TTS por medo de deepfakes, o que já diz muito. O SDK
00:05:17não é perfeito, não é polido. Existem algumas imperfeições no áudio, como notei
00:05:23em outros softwares. Você pode ouvir uma entonação robótica. Às vezes o ritmo parece estranho
00:05:28e cenas com mais de duas ou três pessoas perdem qualidade. Devs parecem amar o tokenizador e
00:05:33odiar os picos de VRAM. E a cobertura de idiomas é limitada. Chinês e Inglês são ótimos,
00:05:40mas se precisar de outros idiomas, o Vibe Voice não vai servir. Por último,
00:05:46a falta de compreensão semântica: ele lê o texto, mas não o entende. As tags de emoção
00:05:51podem ajudar, mas ainda falham muito se tentarmos usá-las. Sendo sincero,
00:05:56é uma ferramenta incrível para experimentação, mas a longo prazo não sei
00:06:02se ela vai se sustentar. Agora, a resposta que você quer: vale o seu tempo
00:06:06comparado ao que você já usa nos seus fluxos de trabalho? Como o Vibe Voice se sai
00:06:11frente aos concorrentes habituais? Vamos começar com Vibe Voice vs. Chatterbox.
00:06:16Eu fiz um vídeo e testei o Chatterbox no passado. Foi muito bom. O Chatterbox tinha
00:06:22latência abaixo de 200ms, mais carga emocional e melhores respostas curtas para agentes. Você pensaria
00:06:28que o Chatterbox vence, mas o Vibe Voice o massacra em formatos longos. O Chatterbox é feito para monólogos de menos
00:06:35de 30 minutos ou podcasts, e o Vibe Voice lida muito melhor com essa extensão. É uma troca.
00:06:42Depois, temos o Vibe Voice e o 11 Labs. Esse é simples: o 11 Labs vence pela
00:06:48pronúncia polida, clonagem de voz zero-shot e experiência do usuário, mas onde o Vibe Voice
00:06:54ganha é no custo. É de graça. Offline. Código aberto. Isso é uma vitória enorme.
00:07:00Não estamos pagando por software. Temos o Vibe Voice e o Whisper, ou até o Cozy Voice. Ele bate o Whisper
00:07:06quando o áudio é longo e estruturado. É mais expressivo que o Cozy Voice, e modelos TTS baseados em Qwen
00:07:13estão evoluindo em dialetos, mas o Vibe Voice ainda lidera no comprimento do conteúdo. Se você é um dev que constrói
00:07:18localmente, gosta de open source e precisa de áudio longo, o Vibe Voice vale seu tempo.
00:07:23Se você quer algo mais plug-and-play e pronto para produção, honestamente, pode
00:07:28ignorar por enquanto. É só um projeto legal para brincar, inclusive com a clonagem de voz.
00:07:33O Vibe Voice é imperfeito, mas potente e empolgante. É uma das stacks de áudio open source
00:07:37mais fortes para fala de IA em formato longo que vimos em muito tempo. Teste a demo no Hugging Face,
00:07:43leia a documentação e nos vemos no próximo vídeo.

Key Takeaway

O Vibe Voice da Microsoft surge como uma alternativa de código aberto robusta e gratuita para geração de áudio de longa duração, embora ainda apresente arestas de software de pesquisa e suporte linguístico limitado.

Highlights

O Microsoft Vibe Voice é uma stack de fala de código aberto capaz de gerar até 90 minutos de áudio multi-locutor offline.

A ferramenta se destaca pela estabilidade em conteúdos longos, superando concorrentes como o Chatterbox em consistência narrativa.

Possui uma latência de aproximadamente 300ms em modo de tempo real, sendo útil para agentes de voz e assistentes virtuais.

A clonagem de voz é simples e eficaz, exigindo apenas um arquivo WAV e uma interface interativa para resultados convincentes.

O modelo utiliza a licença MIT e oferece saída ASR estruturada com diarização de locutores e timestamps nativos.

Apesar do potencial, apresenta limitações como suporte restrito de idiomas (Inglês e Chinês) e picos de uso de VRAM.

A Microsoft removeu partes do código original por preocupações éticas relacionadas à criação de deepfakes.

Timeline

Introdução e Visão Geral do Vibe Voice

O apresentador introduz o Vibe Voice como uma nova ferramenta de código aberto da Microsoft comparável ao Eleven Labs e Whisper. O grande diferencial mencionado é a capacidade de rodar offline e gerar quase 90 minutos de áudio contínuo com múltiplos locutores. O vídeo propõe avaliar se a tecnologia é realmente prática para desenvolvedores ou apenas um projeto de pesquisa pesado para as GPUs. São mencionados os locais de download, como o repositório oficial e o Hugging Face, incentivando a exploração técnica. Esta seção estabelece a premissa de que a estabilidade em contextos longos é o foco principal do modelo.

Demonstração de Áudio Multi-locutor e Emoções

Nesta fase, o autor realiza testes práticos usando um roteiro de podcast com três vozes distintas para verificar a alternância e a emoção. A consistência das vozes é elogiada, pois o sistema não perde o contexto ou 'alucina' após os primeiros segundos de áudio. No entanto, o sistema de tags de emoção automática é criticado por não ser tão natural quanto o do concorrente Chatterbox. O apresentador conclui que a ferramenta é excelente para podcasts de IA e documentos narrados longos. O destaque aqui é a manutenção da identidade vocal durante transições complexas entre personagens.

Performance em Tempo Real e Capacidades Extras

O vídeo explora o modo de streaming incremental, ideal para chatbots e assistentes de voz que exigem respostas rápidas. A latência inicial medida foi de cerca de 300 milissegundos, o que é considerado aceitável, embora não seja o recorde do mercado. Tentativas de gerar canto ou música de fundo seguindo as promessas da documentação falharam durante o teste prático do autor. Ele pondera que, embora promissor para experimentação e agentes, o sistema ainda não parece totalmente 'pronto para produção' em larga escala. A análise foca na velocidade de processamento e na viabilidade técnica para aplicações interativas.

Processo e Resultados da Clonagem de Voz

A experiência de clonagem de voz é descrita como simples, envolvendo a gravação de um áudio curto no celular e sua conversão para o formato WAV. Através de uma interface Gradio, o usuário pode selecionar sua própria voz como o alvo para a síntese de texto. O resultado é classificado como 'quase bom demais', apresentando uma estabilidade superior a pipelines baseados em Whisper para clipes longos. O apresentador ressalta que, embora uma pessoa próxima ainda consiga detectar que é um clone, a qualidade é surpreendente para um modelo aberto. Esta parte do vídeo valida a eficácia do Vibe Voice em capturar nuances tonais individuais com poucos dados de referência.

Análise Técnica: Prós e Contras para Desenvolvedores

O autor mergulha nos detalhes técnicos, destacando o uso de tokenizadores de áudio de baixa frequência e a eficiência da difusão baseada em LLM. Entre os pontos positivos estão a licença MIT, o funcionamento offline e a inclusão de ferramentas para ajuste fino (fine-tuning) e diarização. Por outro lado, as críticas focam na interface pouco polida e no fato de a Microsoft ter removido códigos para evitar abusos com deepfakes. A falta de compreensão semântica profunda e a limitação de idiomas apenas para Inglês e Chinês são apontadas como grandes obstáculos. O veredito técnico é que o software ainda carrega muitas características de um ambiente de pesquisa acadêmica.

Comparativo Final e Conclusão

O encerramento do vídeo coloca o Vibe Voice frente a frente com o Chatterbox, Eleven Labs e Whisper. Enquanto o Eleven Labs vence em polimento e o Chatterbox em emoção curta, o Vibe Voice domina em custo (gratuito) e extensão de áudio. O apresentador recomenda a ferramenta para desenvolvedores que trabalham localmente e precisam de grandes volumes de narração sem custos de API. Se a prioridade for um sistema 'plug-and-play' pronto para o mercado consumidor, ele sugere aguardar mais evoluções. O vídeo termina incentivando os usuários a testarem a demo no Hugging Face para tirar suas próprias conclusões.

Community Posts

View all posts