Qwen TTS Acaba de Mudar as Vozes de Código Aberto

BBetter Stack
컴퓨터/소프트웨어창업/스타트업어학(외국어)AI/미래기술

Transcript

00:00:00Isso poderia ter sido feito com um e-mail.
00:00:02Isso poderia ter sido feito com um e-mail.
00:00:04A mesma frase, mas duas interpretações completamente diferentes.
00:00:07Eu só escrevi para começar normal e depois virar um desabafo frustrado.
00:00:11Só isso.
00:00:12Sem marcações, sem API enviando seus dados para outro lugar.
00:00:15Este é o Qwen 3 TTS.
00:00:17O novo modelo de voz de código aberto deles que permite direcionar o tom e que realmente escuta.
00:00:22Vamos ver como ele se sai em comparação ao Eleven Labs ou até ao Chatterbox.
00:00:30Muitos modelos de voz de código aberto carecem de qualquer tipo de emoção.
00:00:34Eu já usei o Chatterbox e ele era até razoável.
00:00:37Sabendo que o Qwen tem isso, eu quis ver não apenas a clonagem de voz,
00:00:41mas também como a emoção da linguagem se compara aos outros.
00:00:44E, honestamente, fiquei agradavelmente surpreso.
00:00:47O Chatterbox tem um controle deslizante de emoção, enquanto aqui no Qwen,
00:00:50você literalmente digita como quer que soe, o que nos dá um pouco mais de liberdade.
00:00:55No modelo mais leve, ele tem clonagem de voz de três segundos, que vamos testar.
00:00:59Já quando passamos para o de 1.7B, perdemos a clonagem de voz,
00:01:02mas ganhamos streaming em tempo real com latência de 97 milissegundos,
00:01:0510 idiomas com troca natural de língua, e é 100% local.
00:01:09É gratuito.
00:01:09É licença Apache 2.0.
00:01:11Isso significa prototipagem mais rápida, agentes de voz privados e ferramentas de acessibilidade.
00:01:16Se você está sempre em busca das ferramentas mais recentes, não esqueça de se inscrever.
00:01:19Temos vídeos saindo o tempo todo.
00:01:21Clonar é fácil.
00:01:22A emoção é que é o difícil.
00:01:23Então, vamos tentar levar isso ao limite.
00:01:25Vamos testar a clonagem primeiro.
00:01:28Primeiro, vou carregar minha voz que já gravei como referência aqui.
00:01:32Depois, no texto de referência, preciso digitar o que gravei naquele áudio.
00:01:37Aqui no texto de destino é onde vou digitar o que quero que seja a saída.
00:01:42E pronto.
00:01:43Na verdade, isso demorou muito mais do que eu imaginei para rodar.
00:01:46Eu esperava que a qualidade estivesse à altura, mas vamos ouvir.
00:01:49Como soa usando este modelo?
00:01:51Olha, foi razoável para um modelo leve, especialmente sendo o Qwen,
00:01:55mas dá para ouvir claramente algumas partes que soam artificiais.
00:01:59Então, não foi nada de extraordinário.
00:02:01O melhor clone de voz que encontrei foi o Vibe Voice da Microsoft, que era insano.
00:02:07Este foi apenas ok.
00:02:08Certo.
00:02:09A clonagem de voz está feita.
00:02:10Concluído.
00:02:11Mas agora vamos reforçar com o modelo 1.7B e mudar para adicionar emoção
00:02:16ao texto para ver como o Qwen lida com isso.
00:02:19Deixe-me mostrar algo que realmente pareça útil.
00:02:22Vou digitar na caixa de instruções aqui: “fale como um narrador de suspense,
00:02:26com um crescendo lento e uma risada de alívio no final”.
00:02:28E aqui, quero que ele diga algumas informações básicas sobre o Qwen, já que é o que estamos fazendo.
00:02:32Por que não?
00:02:33Vamos ouvir.
00:02:34O novo modelo de texto para fala de código aberto do Alibaba que
00:02:37finalmente faz parecer que você está falando com um dublador real.
00:02:42Ok.
00:02:42Ouvimos uma pequena discrepância.
00:02:44Não pegou todos os tons, mas acertou muita coisa.
00:02:47Não há menus suspensos nem predefinições.
00:02:49Estamos guiando o modelo para soar como queremos.
00:02:51Agora, vamos criar uma voz que pareça alguém com quem realmente interagiríamos.
00:02:55Talvez estejamos desenvolvendo um projeto.
00:02:57Vou colocar algumas coisas aqui.
00:02:58Vou dizer algo sobre escrever testes de código.
00:03:01E na caixa de instruções, vamos colocar: “voz de desenvolvedor jovem
00:03:03e entusiasmado, um pouco sarcástico, mas amigável”.
00:03:07Não estou apenas escolhendo a “voz predefinida 12”.
00:03:10Eu descrevi exatamente como quero que essa personalidade soe.
00:03:13Vamos ouvir.
00:03:14Escrever testes de código significa verificar cuidadosamente se seu programa faz o que deveria fazer.
00:03:20Agora você deve estar pensando: como isso se compara aos outros?
00:03:22Bem, o Eleven Labs ainda é o rei, mas custa dinheiro e seus dados saem da sua máquina.
00:03:26O Chatterbox é excelente.
00:03:28Um dos melhores que já usei e tem uma boa expressividade.
00:03:31Se você busca clonagem de voz, ainda recomendo o Vibe Voice, que é assustadoramente bom.
00:03:36O Qwen 3 TTS vence quando você quer descrever a voz naturalmente e iterar rápido.
00:03:41Obviamente, há pontos positivos aqui.
00:03:43Gosto do controle por linguagem natural para uma iteração mais rápida.
00:03:47É totalmente local e pronto para streaming,
00:03:50ideal para agentes em tempo real, e o design de voz parece mais intuitivo.
00:03:55Agora, o que não gostamos nisso, ou melhor,
00:03:57o que eu não gosto é que é um modelo novo, certo?
00:04:00Então, ainda está amadurecendo em alguns idiomas.
00:04:03Como em qualquer TTS, recomenda-se uma GPU para o melhor desempenho.
00:04:06Embora funcione em CPU,
00:04:07será apenas mais lento.
00:04:09E a emoção depende muito de quão bem você cria o prompt e as instruções.
00:04:13Se a sua direção for vaga, o resultado também será vago.
00:04:16Então, a grande questão é: a configuração é difícil?
00:04:19Não, absolutamente não.
00:04:20Super direto ao ponto.
00:04:22Clone o repositório, instale as dependências, inicie a interface web e abra o localhost.
00:04:26Foi só o que fiz aqui: do zero ao demo funcional em literalmente poucos minutos.
00:04:32Não há chaves de API.
00:04:33Não há cobranças.
00:04:34E fica tudo na sua máquina.
00:04:35É assim que uma voz de código aberto deveria ser.
00:04:38Por isso é legal testar essas ferramentas de voz abertas para ver o diferencial de cada uma.
00:04:43Qwen 3 TTS: rápido, privado e com mais controle para o desenvolvedor.
00:04:46Então, experimente você mesmo.
00:04:48Deixei os links abaixo.
00:04:49E se quiser mais ferramentas locais como esta, não esqueça de se inscrever.
00:04:52A gente se vê no próximo vídeo.

Key Takeaway

O Qwen 3 TTS redefine o padrão de vozes de código aberto ao oferecer controle emocional intuitivo por texto e processamento local de baixa latência.

Highlights

O Qwen 3 TTS é um modelo de voz de código aberto que permite o controle de emoções via linguagem natural

Timeline

Introdução e o Poder da Entonação

O vídeo começa demonstrando como uma única frase pode ter interpretações distintas dependendo do tom de voz aplicado pelo modelo Qwen 3 TTS. O apresentador destaca que o diferencial deste sistema é a capacidade de transitar de uma fala normal para um desabafo frustrado sem marcações complexas. Ele apresenta o modelo como uma solução de código aberto que realmente 'escuta' e segue as direções de estilo do usuário. Este trecho é fundamental para estabelecer o contraste entre o Qwen e outras ferramentas que dependem de APIs de terceiros. O objetivo inicial é mostrar que a flexibilidade emocional agora está acessível localmente.

Comparativo e Especificações Técnicas

Nesta seção, o narrador compara o Qwen com o Chatterbox e o Eleven Labs, apontando a falta de emoção em muitos modelos abertos. Ele explica que, enquanto o Chatterbox usa controles deslizantes, o Qwen utiliza prompts de texto para definir o som da voz. São detalhadas as diferenças entre a versão leve, focada em clonagem de três segundos, e a versão de 1.7B, que prioriza streaming em tempo real. O modelo maior suporta 10 idiomas e possui uma licença Apache 2.0, sendo totalmente gratuito. A discussão enfatiza que essa tecnologia facilita a criação de agentes de voz privados e ferramentas de acessibilidade rápidas.

Teste Prático de Clonagem de Voz

O apresentador realiza um teste ao vivo carregando um áudio de sua própria voz para servir como referência de clonagem. Ele detalha o processo de inserir o texto de referência e o texto de destino para gerar a saída de áudio desejada. Após a geração, o veredito é de que a qualidade foi apenas aceitável, apresentando alguns artefatos artificiais perceptíveis. O autor menciona o Vibe Voice da Microsoft como um concorrente superior especificamente no quesito de fidelidade de clonagem. Este segmento serve para alinhar as expectativas do usuário sobre as limitações da versão leve do modelo.

Direcionamento de Emoção com Modelo 1.7B

Aqui, o foco muda para a capacidade de instrução em linguagem natural do modelo de 1.7 bilhões de parâmetros. O usuário demonstra como guiar o modelo para soar como um narrador de suspense com uma risada de alívio ou como um desenvolvedor jovem e sarcástico. O vídeo ressalta que não existem vozes predefinidas numeradas, mas sim uma personalidade construída através de descrições textuais. O resultado mostra que o Qwen consegue capturar nuances tonais complexas que dubladores reais teriam. Essa funcionalidade é apontada como a maior força do projeto para criar interações mais humanas e personalizadas.

Veredito Final e Guia de Instalação

Na conclusão, é feito um resumo dos prós e contras, reforçando que o Eleven Labs ainda lidera em qualidade, mas o Qwen vence em privacidade e agilidade. Os pontos negativos mencionados incluem a necessidade de uma boa GPU para desempenho ideal e a dependência de prompts bem escritos. O apresentador afirma que a instalação é extremamente direta, baseada na clonagem do repositório do GitHub e execução local em poucos minutos. Não há custos ocultos ou necessidade de chaves de API, o que torna a ferramenta ideal para desenvolvedores. O vídeo encerra incentivando o público a testar a ferramenta através dos links disponibilizados na descrição.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video