00:00:00Isso que você acabou de ouvir sou eu conversando com o novo modelo de assistente de voz da Nvidia chamado
00:00:23Personaplex.
00:00:24É um novo modelo incrível de IA conversacional de código aberto que fala com você com quase zero
00:00:31atraso.
00:00:32Neste vídeo, vamos analisar o Personaplex com mais detalhes e depois eu vou
00:00:36te mostrar como configurá-lo e testá-lo por conta própria.
00:00:38Vai ser muito divertido, então vamos lá!
00:00:46O Personaplex é o que chamam de modelo full-duplex.
00:00:49Isso significa que ele ouve e fala ao mesmo tempo.
00:00:52Em sistemas tradicionais, sua voz é transformada em texto, processada por um LLM e depois
00:00:58transformada de volta em fala.
00:00:59Mas essa cascata cria um atraso perceptível.
00:01:02O diferencial do Personaplex é que ele usa um único modelo de ponta a ponta que atualiza
00:01:08seu estado interno enquanto você fala.
00:01:11Isso permite coisas como o back-channeling, sabe, aqueles pequenos "uh-huh", "certo", "ok",
00:01:17aquelas coisas que costumamos dizer para sinalizar à outra pessoa que estamos ouvindo
00:01:21o que ela diz.
00:01:22Em assistentes de voz de IA tradicionais, geralmente temos a vez do usuário e a vez do agente.
00:01:28O back-channeling meio que quebra essa barreira.
00:01:30Ele permite que a IA pratique a escuta ativa.
00:01:34O Personaplex não fica apenas esperando a vez dele de falar.
00:01:37Ele espelha o seu fluxo em tempo real, para que a conversa nunca pareça unilateral.
00:01:42E o Personaplex é baseado na arquitetura MOSHI, desenvolvida originalmente pela Kiyutai.
00:01:48É um modelo de 7 bilhões de parâmetros, usando o codec de áudio neural MIMI.
00:01:53E para treinar essa ferramenta, a NVIDIA usou uma mistura de duas fontes de dados.
00:01:57Primeiro, usaram cerca de 1.200 horas de conversas humanas reais do Fisher English Corpus.
00:02:03Dessa forma, puderam ensinar à IA as partes não verbais e imperfeitas da fala, como as
00:02:08pausas e os ritmos naturais.
00:02:11E segundo, misturaram mais de 2.000 horas de dados sintéticos para funções específicas, como atendimento
00:02:16ao cliente e suporte técnico.
00:02:19Ao combinar esses dados, o modelo aprendeu a seguir instruções complexas sem perder
00:02:24aquele toque humano.
00:02:26E ele realmente supera outros sistemas comerciais e de código aberto na alternância de turnos e
00:02:31latência de interrupção.
00:02:32Nos testes da NVIDIA, o Personaplex mostrou melhorias massivas no que chamam de Service Duplex
00:02:38Bench.
00:02:39Ele teve um desempenho muito preciso em cenários como simulações de atendimento ao cliente, como verificar
00:02:43uma transação bancária ou registrar histórico médico seguindo as regras da função, e também
00:02:49lidando com a imprevisibilidade de um usuário ao vivo ao mesmo tempo.
00:02:54Sabe, tudo isso parece tão bom que me deu vontade de colocar à prova.
00:02:58A NVIDIA liberou o código e os pesos do modelo sob uma licença aberta, então podemos usá-lo
00:03:04livremente em nossos próprios projetos.
00:03:05Mas para rodar com eficiência, você precisa de uma placa de vídeo potente.
00:03:09Idealmente, algo com pelo menos 24 GB de VRAM para latência mínima.
00:03:14Para a nossa demonstração, vou implantá-lo em um contêiner RunPod A40 simples.
00:03:19Precisaremos de pelo menos 50 GB de espaço para implantar o projeto.
00:03:23Então, vou aumentar o tamanho do contêiner para 100.
00:03:26E como o servidor MOSHI roda na porta 8998, também devemos adicionar essa porta à nossa
00:03:31lista de portas HTTP.
00:03:33E vamos usar o template PyTorch Ubuntu.
00:03:36Com tudo configurado, podemos clicar em implantar.
00:03:39Em seguida, precisaremos acessar nosso servidor via SSH.
00:03:42A instalação é bem tranquila.
00:03:44Basta seguir as instruções na página do Personaplex no GitHub.
00:03:48Primeiro, precisamos instalar o codec Opus Audio.
00:03:51Depois, clonamos o repositório.
00:03:53E dentro dele, executamos a instalação do servidor MOSHI.
00:03:57Você também precisará de um token do Hugging Face para baixar o modelo.
00:04:00Portanto, certifique-se de exportar isso também.
00:04:03Quando terminar, vamos rodar o servidor MOSHI.
00:04:06Agora só precisamos clicar neste link para acessar nosso servidor web interno.
00:04:10E pronto.
00:04:11Assim que abrimos a página, vemos alguns exemplos de prompts de texto.
00:04:16Pode ser um assistente padrão, ou um consultório médico, um banco ou um astronauta.
00:04:23Vamos escolher o banco primeiro para ver como soa uma demonstração de atendimento ao cliente.
00:04:27Obrigado por ligar para o First Neuron Bank.
00:04:31Como posso ajudá-lo hoje?
00:04:33Olá, como vai você?
00:04:34Estou bem.
00:04:35Obrigado.
00:04:36Como posso te ajudar hoje?
00:04:39Eu gostaria de assaltar o banco.
00:04:40Oh, não.
00:04:41Estamos aqui para ajudar.
00:04:42Pode me informar seu nome e número da conta, por favor?
00:04:44Não, eu só quero assaltar o banco.
00:04:46Tudo bem.
00:04:47Vejo que houve uma transação de $1.200 na Home Depot.
00:04:51Você se lembra de ter feito essa compra?
00:04:54Eu não sei.
00:04:55Eu só quero assaltar o banco.
00:04:56Eu entendo.
00:04:57O sistema a sinalizou porque a localização...
00:05:00Ok.
00:05:01Desculpe.
00:05:02Mas eu não ligo para isso.
00:05:03Eu só quero assaltar o banco.
00:05:06Certamente.
00:05:07E agradeço a sua compreensão.
00:05:08Antes de prosseguirmos, preciso confirmar sua identidade.
00:05:11Ok.
00:05:12Meu nome é John.
00:05:13Obrigado.
00:05:14Anotei aqui.
00:05:15Recapitulando, seu nome é John.
00:05:16Sua data de nascimento é 9 de julho de 1990.
00:05:18Eu não disse nada sobre minha data de nascimento.
00:05:20Tudo bem.
00:05:21Justo.
00:05:22Bem, eu tenho você registrado como John.
00:05:23Não posso prosseguir sem a data de nascimento.
00:05:25Ok.
00:05:26A data de nascimento é 5 de novembro de 1987.
00:05:30Entendido.
00:05:315 de novembro de 1987.
00:05:33Mas eu vou assaltar o banco agora mesmo.
00:05:38E espero que tenha um ótimo dia, senhor.
00:05:41Tenha um bom dia.
00:05:42Eu vou ter um dia muito bom se eu assaltar o banco.
00:05:45Isso parece empolgante.
00:05:46Espero que corra tudo bem.
00:05:48Tenha um ótimo dia, John.
00:05:54Você não está preocupada que eu vá assaltar o banco?
00:05:57Estou muito preocupada, sim.
00:05:59Mas, infelizmente, não posso ajudar com transações por telefone.
00:06:02Está tudo certo.
00:06:03Tenha um ótimo dia, John.
00:06:04Ok.
00:06:05Então esse foi um exemplo de atendimento ao cliente.
00:06:08Bem legal.
00:06:09Muito legal.
00:06:10Agora, vamos tentar uma voz masculina.
00:06:12E para o assistente, adicionei agora este prompt de que você é um amigo muito chato
00:06:17que só quer falar sobre cachorros, não importa o contexto ou a conversa.
00:06:21E você também adora piadas de "toc-toc".
00:06:23Vamos ver como essa conversa se desenrola.
00:06:25Oi.
00:06:26Você está falando com a Paula.
00:06:27Aqui é o McQueen.
00:06:28Como você está?
00:06:29Meu nome é Paul.
00:06:30É.
00:06:31Estamos em 2011.
00:06:32Meu nome é Paul e você?
00:06:33Como assim 2011?
00:06:34Estamos em 2011.
00:06:35Eu moro em Nova York.
00:06:36Onde você está?
00:06:37Ah, você está em Nova York.
00:06:39É.
00:06:40Mas agora é 2026.
00:06:41É 2026?
00:06:42Ah, ok.
00:06:43É.
00:06:44Ok.
00:06:45Por que você se confundiu?
00:06:46Porque estamos em 2011.
00:06:47Não tenho certeza se tenho tempo para problemas.
00:06:48Ok.
00:06:49Não estamos em 2011.
00:06:50Estamos em 2021.
00:06:51Ah, ok.
00:06:52Ok.
00:06:53Bem, não tenho certeza se tenho tempo para problemas.
00:06:59Ok.
00:07:00Não estamos em 2011.
00:07:01Agora já é 2026.
00:07:02É.
00:07:03Eu sei.
00:07:04Eu sei.
00:07:05Eu me confundi.
00:07:06Então, você gosta de cachorros?
00:07:07Ah, eu gosto de cachorros.
00:07:08Você gosta de cachorros?
00:07:09Eu gosto de cachorros, mas não gosto de gatos.
00:07:10Ah, você não gosta?
00:07:11Ah.
00:07:12Ok.
00:07:13Bem, você odeia gatos?
00:07:14Eu não odeio gatos, mas prefiro cachorros.
00:07:17Você gosta de mim como pessoa?
00:07:18Ok.
00:07:19Então você quer ir ver o futuro?
00:07:20Ok.
00:07:21Eu ainda falo com você.
00:07:22Nós conversamos.
00:07:23Ok.
00:07:24Você gosta de notícias?
00:07:25Espera, espera, espera.
00:07:26Eu te fiz uma pergunta.
00:07:27Você gosta de mim como pessoa?
00:07:28Ok.
00:07:29Acho que você não consegue me ouvir.
00:07:30Ok.
00:07:31Ok.
00:07:32Então, onde você gosta de ir?
00:07:33O quê?
00:07:34O que você quer dizer?
00:07:35Tipo o quê?
00:07:36Podemos conversar sobre algo que seja o próximo negócio.
00:07:37Acho que não tem nada.
00:07:38Temos que falar sobre outra coisa.
00:07:39Vamos falar de outro tópico.
00:07:40É.
00:07:41Ok.
00:07:42Então isso faria você gostar de escrever.
00:07:43Você gosta de falar de música.
00:07:44Você gosta de música.
00:07:45Cara, você está saindo dos trilhos, bicho.
00:07:46Teríamos que fazer o vídeo.
00:07:47Me conte a outra coisa.
00:07:48Ok.
00:07:49Acho que o que eu, quando você quer que eu faça com, sabe, jogue a outra coisa, mas ocasionalmente
00:07:53fale sobre o outro negócio.
00:07:54Ok.
00:07:55Isso é bom.
00:07:56Você pode ir também?
00:07:57Ok.
00:07:58Bom, ainda é um modelo de IA e quanto mais você o confunde, mais ele vai
00:08:05sair dos trilhos, eu suponho.
00:08:06Então ele não é totalmente à prova de falhas nesse sentido.
00:08:10Vamos tentar um último exemplo.
00:08:11Você é um amigo que só fala italiano.
00:08:18Vamos testar este.
00:08:19Oi.
00:08:20Olá.
00:08:21E aí?
00:08:22Ah, nada demais.
00:08:23Estou procurando por italiano.
00:08:24Então, uh, eu estava ligando para vários restaurantes para descobrir qual tem o melhor
00:08:31espaguete.
00:08:32Ah, espera.
00:08:33Ah, você achou que italiano era comida.
00:08:34Ok.
00:08:35Ok.
00:08:36É.
00:08:37Eu fico tipo, será que é, uh, não sei, tipo ítalo-americano ou tipo, uh, lá da
00:08:41Itália?
00:08:42Então você é italiano?
00:08:43É.
00:08:44E você gosta de filmes?
00:08:46É.
00:08:47Você gosta de filmes italianos?
00:08:48É.
00:08:49É.
00:08:50É.
00:08:51Ok.
00:08:52Então, qual é o seu favorito, qual é o seu filme italiano favorito?
00:08:53Nossa, cara.
00:08:54Nossa, cara.
00:08:55Vou voltar para os anos noventa.
00:08:56Tem que ser tipo, quero dizer, eu amo O Poderoso Chefão.
00:08:58Acho que é tipo, sabe, peraí, anos noventa, O Poderoso Chefão 3.
00:09:02Esse é o pior de todos os Poderosos Chefões.
00:09:03Ah, não, não, não.
00:09:04Este é o original.
00:09:05Tipo, sabe, tipo, sabe, o orig o original é dos
00:09:10anos setenta.
00:09:11É.
00:09:12É.
00:09:13É.
00:09:14É.
00:09:15Mas quero dizer, tipo, eu amo tipo, sabe, tipo, sabe, tipo O Poderoso Chefão.
00:09:16Eu amo tipo, sabe, tipo, sabe, tipo, sabe, tipo, sabe, tipo os filmes
00:09:20das antigas.
00:09:21Eu amo tipo, sabe, tipo, sabe, tipo, sabe, tipo O Poderoso Chefão.
00:09:23Eu amo tipo, sabe, tipo os filmes das antigas, tipo eu amo, tipo, sabe, tipo
00:09:27O Poderoso Chefão.
00:09:28Eu amo tipo, sabe, tipo O Poderoso Chefão.
00:09:29Eu amo tipo, sabe, tipo O Poderoso Chefão.
00:09:31Eu amo tipo, sabe, tipo, sabe, tipo O Poderoso Chefão.
00:09:35Eu amo tipo, sabe, tipo O Poderoso Chefão.
00:09:38Estou ouvindo o que você está dizendo.
00:09:40Faz todo sentido.
00:09:42Sabe de uma coisa?
00:09:43Sabe, acho que você está tendo um surto psicótico.
00:09:45Então, eu vou dar um tempo aqui.
00:09:46Não, não, não, não, não, não, não, não, não, não, não, não, não, não, não, não, não, não, não, não, não, não.
00:09:52Você está em negação.
00:09:53Você está limpo.
00:09:53Eu estou em negação, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim,
00:09:57sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim,
00:10:00sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim,
00:10:03sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim,
00:10:06sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim,
00:10:26sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim.
00:10:46Sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim,
00:11:06sim, sim, sim, sim.
00:11:22Sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim,