00:00:00Isso poderia ter sido feito com um e-mail.
00:00:02Isso poderia ter sido feito com um e-mail.
00:00:04A mesma frase, mas duas interpretações completamente diferentes.
00:00:07Eu só escrevi para começar normal e depois virar um desabafo frustrado.
00:00:11Só isso.
00:00:12Sem marcações, sem API enviando seus dados para outro lugar.
00:00:15Este é o Qwen 3 TTS.
00:00:17O novo modelo de voz de código aberto deles que permite direcionar o tom e que realmente escuta.
00:00:22Vamos ver como ele se sai em comparação ao Eleven Labs ou até ao Chatterbox.
00:00:30Muitos modelos de voz de código aberto carecem de qualquer tipo de emoção.
00:00:34Eu já usei o Chatterbox e ele era até razoável.
00:00:37Sabendo que o Qwen tem isso, eu quis ver não apenas a clonagem de voz,
00:00:41mas também como a emoção da linguagem se compara aos outros.
00:00:44E, honestamente, fiquei agradavelmente surpreso.
00:00:47O Chatterbox tem um controle deslizante de emoção, enquanto aqui no Qwen,
00:00:50você literalmente digita como quer que soe, o que nos dá um pouco mais de liberdade.
00:00:55No modelo mais leve, ele tem clonagem de voz de três segundos, que vamos testar.
00:00:59Já quando passamos para o de 1.7B, perdemos a clonagem de voz,
00:01:02mas ganhamos streaming em tempo real com latência de 97 milissegundos,
00:01:0510 idiomas com troca natural de língua, e é 100% local.
00:01:09É gratuito.
00:01:09É licença Apache 2.0.
00:01:11Isso significa prototipagem mais rápida, agentes de voz privados e ferramentas de acessibilidade.
00:01:16Se você está sempre em busca das ferramentas mais recentes, não esqueça de se inscrever.
00:01:19Temos vídeos saindo o tempo todo.
00:01:21Clonar é fácil.
00:01:22A emoção é que é o difícil.
00:01:23Então, vamos tentar levar isso ao limite.
00:01:25Vamos testar a clonagem primeiro.
00:01:28Primeiro, vou carregar minha voz que já gravei como referência aqui.
00:01:32Depois, no texto de referência, preciso digitar o que gravei naquele áudio.
00:01:37Aqui no texto de destino é onde vou digitar o que quero que seja a saída.
00:01:42E pronto.
00:01:43Na verdade, isso demorou muito mais do que eu imaginei para rodar.
00:01:46Eu esperava que a qualidade estivesse à altura, mas vamos ouvir.
00:01:49Como soa usando este modelo?
00:01:51Olha, foi razoável para um modelo leve, especialmente sendo o Qwen,
00:01:55mas dá para ouvir claramente algumas partes que soam artificiais.
00:01:59Então, não foi nada de extraordinário.
00:02:01O melhor clone de voz que encontrei foi o Vibe Voice da Microsoft, que era insano.
00:02:07Este foi apenas ok.
00:02:08Certo.
00:02:09A clonagem de voz está feita.
00:02:10Concluído.
00:02:11Mas agora vamos reforçar com o modelo 1.7B e mudar para adicionar emoção
00:02:16ao texto para ver como o Qwen lida com isso.
00:02:19Deixe-me mostrar algo que realmente pareça útil.
00:02:22Vou digitar na caixa de instruções aqui: “fale como um narrador de suspense,
00:02:26com um crescendo lento e uma risada de alívio no final”.
00:02:28E aqui, quero que ele diga algumas informações básicas sobre o Qwen, já que é o que estamos fazendo.
00:02:32Por que não?
00:02:33Vamos ouvir.
00:02:34O novo modelo de texto para fala de código aberto do Alibaba que
00:02:37finalmente faz parecer que você está falando com um dublador real.
00:02:42Ok.
00:02:42Ouvimos uma pequena discrepância.
00:02:44Não pegou todos os tons, mas acertou muita coisa.
00:02:47Não há menus suspensos nem predefinições.
00:02:49Estamos guiando o modelo para soar como queremos.
00:02:51Agora, vamos criar uma voz que pareça alguém com quem realmente interagiríamos.
00:02:55Talvez estejamos desenvolvendo um projeto.
00:02:57Vou colocar algumas coisas aqui.
00:02:58Vou dizer algo sobre escrever testes de código.
00:03:01E na caixa de instruções, vamos colocar: “voz de desenvolvedor jovem
00:03:03e entusiasmado, um pouco sarcástico, mas amigável”.
00:03:07Não estou apenas escolhendo a “voz predefinida 12”.
00:03:10Eu descrevi exatamente como quero que essa personalidade soe.
00:03:13Vamos ouvir.
00:03:14Escrever testes de código significa verificar cuidadosamente se seu programa faz o que deveria fazer.
00:03:20Agora você deve estar pensando: como isso se compara aos outros?
00:03:22Bem, o Eleven Labs ainda é o rei, mas custa dinheiro e seus dados saem da sua máquina.
00:03:26O Chatterbox é excelente.
00:03:28Um dos melhores que já usei e tem uma boa expressividade.
00:03:31Se você busca clonagem de voz, ainda recomendo o Vibe Voice, que é assustadoramente bom.
00:03:36O Qwen 3 TTS vence quando você quer descrever a voz naturalmente e iterar rápido.
00:03:41Obviamente, há pontos positivos aqui.
00:03:43Gosto do controle por linguagem natural para uma iteração mais rápida.
00:03:47É totalmente local e pronto para streaming,
00:03:50ideal para agentes em tempo real, e o design de voz parece mais intuitivo.
00:03:55Agora, o que não gostamos nisso, ou melhor,
00:03:57o que eu não gosto é que é um modelo novo, certo?
00:04:00Então, ainda está amadurecendo em alguns idiomas.
00:04:03Como em qualquer TTS, recomenda-se uma GPU para o melhor desempenho.
00:04:06Embora funcione em CPU,
00:04:07será apenas mais lento.
00:04:09E a emoção depende muito de quão bem você cria o prompt e as instruções.
00:04:13Se a sua direção for vaga, o resultado também será vago.
00:04:16Então, a grande questão é: a configuração é difícil?
00:04:19Não, absolutamente não.
00:04:20Super direto ao ponto.
00:04:22Clone o repositório, instale as dependências, inicie a interface web e abra o localhost.
00:04:26Foi só o que fiz aqui: do zero ao demo funcional em literalmente poucos minutos.
00:04:32Não há chaves de API.
00:04:33Não há cobranças.
00:04:34E fica tudo na sua máquina.
00:04:35É assim que uma voz de código aberto deveria ser.
00:04:38Por isso é legal testar essas ferramentas de voz abertas para ver o diferencial de cada uma.
00:04:43Qwen 3 TTS: rápido, privado e com mais controle para o desenvolvedor.
00:04:46Então, experimente você mesmo.
00:04:48Deixei os links abaixo.
00:04:49E se quiser mais ferramentas locais como esta, não esqueça de se inscrever.
00:04:52A gente se vê no próximo vídeo.