00:00:00Um modelo de 82 milhões de parâmetros superou sistemas de TTS muito maiores, e roda localmente em
00:00:06um laptop mais rápido do que a maioria das APIs pagas.
00:00:09No mês passado, paguei por um TTS na nuvem, mas ainda tive atraso.
00:00:13Isso não fazia sentido para mim.
00:00:14Como alguns desses modelos de código aberto estão superando isso?
00:00:17Este é o Kokoro 82M, e já está sendo implementado por alguns desenvolvedores.
00:00:22Vamos ver como isso funciona e, melhor ainda, como soa.
00:00:30Agora, se você está desenvolvendo com conversão de texto em fala, geralmente escolhe entre duas opções ruins.
00:00:36A primeira opção são, obviamente, as APIs de nuvem, certo?
00:00:39São fáceis de começar, mas agora você tem essas contas, picos de latência e mais uma dependência
00:00:44toda vez que seu aplicativo fala.
00:00:46A próxima opção seria algo como esses grandes modelos abertos, mas agora você precisa de muito
00:00:51mais hardware, mais memória e, convenhamos, ainda não é tão rápido.
00:00:56Então, o que deveria parecer fluido acaba parecendo lento, caro ou simplesmente
00:01:00quebra de vez.
00:01:02É aqui que o Kokoro se encaixa.
00:01:04Ele foi treinado com menos de 100 horas de dados, mas ainda lidera os rankings.
00:01:09Ele supera modelos muito maiores com uma fração do tamanho, é Apache 2.0, roda em CPU,
00:01:15voa no Apple Silicon e gera fala de forma honestamente insana de rápida.
00:01:19Assim, aplicativos de voz locais e agentes em tempo real começam a fazer mais sentido.
00:01:24Se você gosta de ferramentas de programação e dicas como esta, não se esqueça de se inscrever.
00:01:27Temos vídeos saindo o tempo todo.
00:01:29Tudo bem, agora deixe-me mostrar isso para vocês.
00:01:31Estou rodando tudo isso localmente em um Mac M4 Pro.
00:01:34A configuração leva uns 30 segundos, vou apenas rodar este comando pip aqui.
00:01:39Estou em um ambiente conda, mas é basicamente isso.
00:01:42Peguei este script Python completo do repositório oficial deles, não precisei mudar nada
00:01:47para testar, é só arrastar e soltar, e temos todos esses resultados.
00:01:51Posso escolher uma voz e um idioma bem aqui, mas para a primeira rodada vou deixar
00:01:56como está, porque, honestamente, soa muito bem.
00:02:00Vou rodar e então vamos ouvir.
00:02:02Better Stack é a principal plataforma de observabilidade.
00:02:05Que torna o monitoramento simples.
00:02:07Possui AISRE, logs, métricas, rastreamentos e rastreamento de erros.
00:02:12E resposta a incidentes, tudo em um só lugar.
00:02:14Não vou mentir, isso foi muito bom, e saiu muito rápido.
00:02:19Agora, se eu mudar a chave, vamos colocar em francês e mudar para a voz francesa.
00:02:24Mudar um pouco o texto e, novamente, vamos rodar.
00:02:26Better Stack é a plataforma de observabilidade sem paralelo.
00:02:29Ela simplifica o monitoramento.
00:02:31Certo, meu francês está enferrujado, então não traduzam palavra por palavra, mas isso soou muito
00:02:36bem também.
00:02:37Mas vocês podem julgar por si mesmos.
00:02:39Tudo é salvo como um arquivo WAV, então posso baixá-los quando quiser.
00:02:43Não há nuvem.
00:02:44Não há GPU.
00:02:45Isso foi bem louco.
00:02:47Então, o que é realmente o Kokoro 82M?
00:02:49Em um nível macro, é um modelo style TTS2 com um vocoder leve.
00:02:55Isso significa apenas que foi feito para soar bem sem ser enorme, e essa é a diferença
00:02:59crucial aqui.
00:03:00A maioria das outras opções escolhe ser maior.
00:03:01Como XTTS, Cozy Voice, F5 TTS, de centenas de milhões a mais de um bilhão de parâmetros.
00:03:08Já ferramentas de nuvem como 11 Labs ou OpenAI resolvem o problema de hardware, mas agora estamos
00:03:13pagando por requisição e enviando nossos dados para fora.
00:03:16O Kokoro vai na direção oposta.
00:03:19É pequeno, rápido para iniciar e roda localmente, além de usar muito menos memória.
00:03:24Mas os pontos negativos são: ele não faz clonagem de voz zero-shot nativamente; em vez disso,
00:03:29foca na eficiência e na qualidade para que pudéssemos lançar algo muito mais rápido.
00:03:33Ainda temos 8 idiomas, 54 vozes e um controle muito bom com a importação Misaki.
00:03:39Consigo ver onde tudo isso vai se encaixar muito bem em diferentes tipos de agentes, mas você
00:03:42não tem nenhum tipo de emoção, que é o que eu realmente queria ver aqui.
00:03:47Uma IA sem emoção ainda soará fortemente como IA, o que eu acho que pode ser bom
00:03:52às vezes, não é?
00:03:53Mas seria divertido brincar com essa emoção.
00:03:56Então, por que os desenvolvedores estão realmente usando isso?
00:03:58Bem, caso eu não tenha mostrado, vamos abordar isso, porque ele resolve o que costuma
00:04:02quebrar os recursos de voz.
00:04:04Primeiro é a velocidade.
00:04:05Se o seu agente pausa demais e deixa de parecer real, o Kokoro reduz muito esse atraso.
00:04:11Além disso, o uso offline está presente.
00:04:13Não há internet, não há chaves de API, não tenho falhas aleatórias.
00:04:16Isso é ótimo.
00:04:17A privacidade é um ponto forte porque o Kokoro mantém tudo local, então para mim, para muitos de vocês,
00:04:22isso pode ser uma grande vitória.
00:04:23E, finalmente, o custo em escala.
00:04:26Por ser tão leve, você pode rodar muito mais instâncias em uma única máquina.
00:04:30O que é bom e o que não é: o que eu amei é que é rápido e pequeno.
00:04:33Soa natural para conteúdos de formato longo.
00:04:35Isso foi muito legal.
00:04:36Eu já brinquei com vários destes.
00:04:38É Apache 2.0, então você pode comercializá-lo e, após a configuração, é basicamente gratuito.
00:04:43Todos esses pontos são muito, muito bons.
00:04:44Agora, eu adorei isso.
00:04:45Foi bacana.
00:04:46Mas há coisas de que não gostei.
00:04:47A falta de clonagem de voz nativa — depende se você precisa de clonagem de voz, ok, poderia
00:04:51ter tido isso.
00:04:52A emoção é bem neutra.
00:04:54Ótimo para narração, não é bom para nada dramático.
00:04:56Quero dizer, realmente não há habilidade de mudar a emoção aqui, e as vozes não-inglesas ainda
00:05:02estão melhorando.
00:05:03Então isso precisa ser adicionado, ou talvez não, depende de como você vê isso.
00:05:07Então, é perfeito?
00:05:08Não.
00:05:09Mas para os problemas que a maioria de nós realmente tem — custo, latência, privacidade, implantação —
00:05:14ele parece resolver os problemas certos no momento.
00:05:18Brinquem com ele e me contem.
00:05:19O Kokoro 82m prova que você não precisa de um modelo massivo para ter um TTS muito bom.
00:05:24Menor significa mais rápido, mais rápido significa usável, e usável geralmente significa que você pode
00:05:29realmente lançar o produto.
00:05:30Se você está construindo agentes de voz ou ferramentas locais, vale a pena testar.
00:05:34Se você gosta de ferramentas de programação e dicas assim, inscreva-se no canal do Better Stack.
00:05:38Nos vemos em outro vídeo.