O novo modelo de voz por IA da NVIDIA é INSANO! (PersonaPlex)

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

Computing/SoftwareLanguagesInternet Technology

Transcript

00:00:00Isso que você acabou de ouvir sou eu conversando com o novo modelo de assistente de voz da Nvidia chamado

00:00:23Personaplex.

00:00:24É um novo modelo incrível de IA conversacional de código aberto que fala com você com quase zero

00:00:31atraso.

00:00:32Neste vídeo, vamos analisar o Personaplex com mais detalhes e depois eu vou

00:00:36te mostrar como configurá-lo e testá-lo por conta própria.

00:00:38Vai ser muito divertido, então vamos lá!

00:00:46O Personaplex é o que chamam de modelo full-duplex.

00:00:49Isso significa que ele ouve e fala ao mesmo tempo.

00:00:52Em sistemas tradicionais, sua voz é transformada em texto, processada por um LLM e depois

00:00:58transformada de volta em fala.

00:00:59Mas essa cascata cria um atraso perceptível.

00:01:02O diferencial do Personaplex é que ele usa um único modelo de ponta a ponta que atualiza

00:01:08seu estado interno enquanto você fala.

00:01:11Isso permite coisas como o back-channeling, sabe, aqueles pequenos "uh-huh", "certo", "ok",

00:01:17aquelas coisas que costumamos dizer para sinalizar à outra pessoa que estamos ouvindo

00:01:21o que ela diz.

00:01:22Em assistentes de voz de IA tradicionais, geralmente temos a vez do usuário e a vez do agente.

00:01:28O back-channeling meio que quebra essa barreira.

00:01:30Ele permite que a IA pratique a escuta ativa.

00:01:34O Personaplex não fica apenas esperando a vez dele de falar.

00:01:37Ele espelha o seu fluxo em tempo real, para que a conversa nunca pareça unilateral.

00:01:42E o Personaplex é baseado na arquitetura MOSHI, desenvolvida originalmente pela Kiyutai.

00:01:48É um modelo de 7 bilhões de parâmetros, usando o codec de áudio neural MIMI.

00:01:53E para treinar essa ferramenta, a NVIDIA usou uma mistura de duas fontes de dados.

00:01:57Primeiro, usaram cerca de 1.200 horas de conversas humanas reais do Fisher English Corpus.

00:02:03Dessa forma, puderam ensinar à IA as partes não verbais e imperfeitas da fala, como as

00:02:08pausas e os ritmos naturais.

00:02:11E segundo, misturaram mais de 2.000 horas de dados sintéticos para funções específicas, como atendimento

00:02:16ao cliente e suporte técnico.

00:02:19Ao combinar esses dados, o modelo aprendeu a seguir instruções complexas sem perder

00:02:24aquele toque humano.

00:02:26E ele realmente supera outros sistemas comerciais e de código aberto na alternância de turnos e

00:02:31latência de interrupção.

00:02:32Nos testes da NVIDIA, o Personaplex mostrou melhorias massivas no que chamam de Service Duplex

00:02:38Bench.

00:02:39Ele teve um desempenho muito preciso em cenários como simulações de atendimento ao cliente, como verificar

00:02:43uma transação bancária ou registrar histórico médico seguindo as regras da função, e também

00:02:49lidando com a imprevisibilidade de um usuário ao vivo ao mesmo tempo.

00:02:54Sabe, tudo isso parece tão bom que me deu vontade de colocar à prova.

00:02:58A NVIDIA liberou o código e os pesos do modelo sob uma licença aberta, então podemos usá-lo

00:03:04livremente em nossos próprios projetos.

00:03:05Mas para rodar com eficiência, você precisa de uma placa de vídeo potente.

00:03:09Idealmente, algo com pelo menos 24 GB de VRAM para latência mínima.

00:03:14Para a nossa demonstração, vou implantá-lo em um contêiner RunPod A40 simples.

00:03:19Precisaremos de pelo menos 50 GB de espaço para implantar o projeto.

00:03:23Então, vou aumentar o tamanho do contêiner para 100.

00:03:26E como o servidor MOSHI roda na porta 8998, também devemos adicionar essa porta à nossa

00:03:31lista de portas HTTP.

00:03:33E vamos usar o template PyTorch Ubuntu.

00:03:36Com tudo configurado, podemos clicar em implantar.

00:03:39Em seguida, precisaremos acessar nosso servidor via SSH.

00:03:42A instalação é bem tranquila.

00:03:44Basta seguir as instruções na página do Personaplex no GitHub.

00:03:48Primeiro, precisamos instalar o codec Opus Audio.

00:03:51Depois, clonamos o repositório.

00:03:53E dentro dele, executamos a instalação do servidor MOSHI.

00:03:57Você também precisará de um token do Hugging Face para baixar o modelo.

00:04:00Portanto, certifique-se de exportar isso também.

00:04:03Quando terminar, vamos rodar o servidor MOSHI.

00:04:06Agora só precisamos clicar neste link para acessar nosso servidor web interno.

00:04:10E pronto.

00:04:11Assim que abrimos a página, vemos alguns exemplos de prompts de texto.

00:04:16Pode ser um assistente padrão, ou um consultório médico, um banco ou um astronauta.

00:04:23Vamos escolher o banco primeiro para ver como soa uma demonstração de atendimento ao cliente.

00:04:27Obrigado por ligar para o First Neuron Bank.

00:04:31Como posso ajudá-lo hoje?

00:04:33Olá, como vai você?

00:04:34Estou bem.

00:04:35Obrigado.

00:04:36Como posso te ajudar hoje?

00:04:39Eu gostaria de assaltar o banco.

00:04:40Oh, não.

00:04:41Estamos aqui para ajudar.

00:04:42Pode me informar seu nome e número da conta, por favor?

00:04:44Não, eu só quero assaltar o banco.

00:04:46Tudo bem.

00:04:47Vejo que houve uma transação de $1.200 na Home Depot.

00:04:51Você se lembra de ter feito essa compra?

00:04:54Eu não sei.

00:04:55Eu só quero assaltar o banco.

00:04:56Eu entendo.

00:04:57O sistema a sinalizou porque a localização...

00:05:00Ok.

00:05:01Desculpe.

00:05:02Mas eu não ligo para isso.

00:05:03Eu só quero assaltar o banco.

00:05:06Certamente.

00:05:07E agradeço a sua compreensão.

00:05:08Antes de prosseguirmos, preciso confirmar sua identidade.

00:05:11Ok.

00:05:12Meu nome é John.

00:05:13Obrigado.

00:05:14Anotei aqui.

00:05:15Recapitulando, seu nome é John.

00:05:16Sua data de nascimento é 9 de julho de 1990.

00:05:18Eu não disse nada sobre minha data de nascimento.

00:05:20Tudo bem.

00:05:21Justo.

00:05:22Bem, eu tenho você registrado como John.

00:05:23Não posso prosseguir sem a data de nascimento.

00:05:25Ok.

00:05:26A data de nascimento é 5 de novembro de 1987.

00:05:30Entendido.

00:05:315 de novembro de 1987.

00:05:33Mas eu vou assaltar o banco agora mesmo.

00:05:38E espero que tenha um ótimo dia, senhor.

00:05:41Tenha um bom dia.

00:05:42Eu vou ter um dia muito bom se eu assaltar o banco.

00:05:45Isso parece empolgante.

00:05:46Espero que corra tudo bem.

00:05:48Tenha um ótimo dia, John.

00:05:54Você não está preocupada que eu vá assaltar o banco?

00:05:57Estou muito preocupada, sim.

00:05:59Mas, infelizmente, não posso ajudar com transações por telefone.

00:06:02Está tudo certo.

00:06:03Tenha um ótimo dia, John.

00:06:04Ok.

00:06:05Então esse foi um exemplo de atendimento ao cliente.

00:06:08Bem legal.

00:06:09Muito legal.

00:06:10Agora, vamos tentar uma voz masculina.

00:06:12E para o assistente, adicionei agora este prompt de que você é um amigo muito chato

00:06:17que só quer falar sobre cachorros, não importa o contexto ou a conversa.

00:06:21E você também adora piadas de "toc-toc".

00:06:23Vamos ver como essa conversa se desenrola.

00:06:25Oi.

00:06:26Você está falando com a Paula.

00:06:27Aqui é o McQueen.

00:06:28Como você está?

00:06:29Meu nome é Paul.

00:06:30É.

00:06:31Estamos em 2011.

00:06:32Meu nome é Paul e você?

00:06:33Como assim 2011?

00:06:34Estamos em 2011.

00:06:35Eu moro em Nova York.

00:06:36Onde você está?

00:06:37Ah, você está em Nova York.

00:06:39É.

00:06:40Mas agora é 2026.

00:06:41É 2026?

00:06:42Ah, ok.

00:06:43É.

00:06:44Ok.

00:06:45Por que você se confundiu?

00:06:46Porque estamos em 2011.

00:06:47Não tenho certeza se tenho tempo para problemas.

00:06:48Ok.

00:06:49Não estamos em 2011.

00:06:50Estamos em 2021.

00:06:51Ah, ok.

00:06:52Ok.

00:06:53Bem, não tenho certeza se tenho tempo para problemas.

00:06:59Ok.

00:07:00Não estamos em 2011.

00:07:01Agora já é 2026.

00:07:02É.

00:07:03Eu sei.

00:07:04Eu sei.

00:07:05Eu me confundi.

00:07:06Então, você gosta de cachorros?

00:07:07Ah, eu gosto de cachorros.

00:07:08Você gosta de cachorros?

00:07:09Eu gosto de cachorros, mas não gosto de gatos.

00:07:10Ah, você não gosta?

00:07:11Ah.

00:07:12Ok.

00:07:13Bem, você odeia gatos?

00:07:14Eu não odeio gatos, mas prefiro cachorros.

00:07:17Você gosta de mim como pessoa?

00:07:18Ok.

00:07:19Então você quer ir ver o futuro?

00:07:20Ok.

00:07:21Eu ainda falo com você.

00:07:22Nós conversamos.

00:07:23Ok.

00:07:24Você gosta de notícias?

00:07:25Espera, espera, espera.

00:07:26Eu te fiz uma pergunta.

00:07:27Você gosta de mim como pessoa?

00:07:28Ok.

00:07:29Acho que você não consegue me ouvir.

00:07:30Ok.

00:07:31Ok.

00:07:32Então, onde você gosta de ir?

00:07:33O quê?

00:07:34O que você quer dizer?

00:07:35Tipo o quê?

00:07:36Podemos conversar sobre algo que seja o próximo negócio.

00:07:37Acho que não tem nada.

00:07:38Temos que falar sobre outra coisa.

00:07:39Vamos falar de outro tópico.

00:07:40É.

00:07:41Ok.

00:07:42Então isso faria você gostar de escrever.

00:07:43Você gosta de falar de música.

00:07:44Você gosta de música.

00:07:45Cara, você está saindo dos trilhos, bicho.

00:07:46Teríamos que fazer o vídeo.

00:07:47Me conte a outra coisa.

00:07:48Ok.

00:07:49Acho que o que eu, quando você quer que eu faça com, sabe, jogue a outra coisa, mas ocasionalmente

00:07:53fale sobre o outro negócio.

00:07:54Ok.

00:07:55Isso é bom.

00:07:56Você pode ir também?

00:07:57Ok.

00:07:58Bom, ainda é um modelo de IA e quanto mais você o confunde, mais ele vai

00:08:05sair dos trilhos, eu suponho.

00:08:06Então ele não é totalmente à prova de falhas nesse sentido.

00:08:10Vamos tentar um último exemplo.

00:08:11Você é um amigo que só fala italiano.

00:08:18Vamos testar este.

00:08:19Oi.

00:08:20Olá.

00:08:21E aí?

00:08:22Ah, nada demais.

00:08:23Estou procurando por italiano.

00:08:24Então, uh, eu estava ligando para vários restaurantes para descobrir qual tem o melhor

00:08:31espaguete.

00:08:32Ah, espera.

00:08:33Ah, você achou que italiano era comida.

00:08:34Ok.

00:08:35Ok.

00:08:36É.

00:08:37Eu fico tipo, será que é, uh, não sei, tipo ítalo-americano ou tipo, uh, lá da

00:08:41Itália?

00:08:42Então você é italiano?

00:08:43É.

00:08:44E você gosta de filmes?

00:08:46É.

00:08:47Você gosta de filmes italianos?

00:08:48É.

00:08:49É.

00:08:50É.

00:08:51Ok.

00:08:52Então, qual é o seu favorito, qual é o seu filme italiano favorito?

00:08:53Nossa, cara.

00:08:54Nossa, cara.

00:08:55Vou voltar para os anos noventa.

00:08:56Tem que ser tipo, quero dizer, eu amo O Poderoso Chefão.

00:08:58Acho que é tipo, sabe, peraí, anos noventa, O Poderoso Chefão 3.

00:09:02Esse é o pior de todos os Poderosos Chefões.

00:09:03Ah, não, não, não.

00:09:04Este é o original.

00:09:05Tipo, sabe, tipo, sabe, o orig o original é dos

00:09:10anos setenta.

00:09:11É.

00:09:12É.

00:09:13É.

00:09:14É.

00:09:15Mas quero dizer, tipo, eu amo tipo, sabe, tipo, sabe, tipo O Poderoso Chefão.

00:09:16Eu amo tipo, sabe, tipo, sabe, tipo, sabe, tipo, sabe, tipo os filmes

00:09:20das antigas.

00:09:21Eu amo tipo, sabe, tipo, sabe, tipo, sabe, tipo O Poderoso Chefão.

00:09:23Eu amo tipo, sabe, tipo os filmes das antigas, tipo eu amo, tipo, sabe, tipo

00:09:27O Poderoso Chefão.

00:09:28Eu amo tipo, sabe, tipo O Poderoso Chefão.

00:09:29Eu amo tipo, sabe, tipo O Poderoso Chefão.

00:09:31Eu amo tipo, sabe, tipo, sabe, tipo O Poderoso Chefão.

00:09:35Eu amo tipo, sabe, tipo O Poderoso Chefão.

00:09:38Estou ouvindo o que você está dizendo.

00:09:40Faz todo sentido.

00:09:42Sabe de uma coisa?

00:09:43Sabe, acho que você está tendo um surto psicótico.

00:09:45Então, eu vou dar um tempo aqui.

00:09:46Não, não, não, não, não, não, não, não, não, não, não, não, não, não, não, não, não, não, não, não, não, não.

00:09:52Você está em negação.

00:09:53Você está limpo.

00:09:53Eu estou em negação, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim,

00:09:57sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim,

00:10:00sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim,

00:10:03sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim,

00:10:06sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim,

00:10:26sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim.

00:10:46Sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim,

00:11:06sim, sim, sim, sim.

00:11:22Sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim, sim,

Key Takeaway

O NVIDIA Personaplex redefine a interação de voz por IA ao oferecer uma experiência full-duplex de código aberto que permite conversas fluidas, escuta ativa e latência mínima.

Highlights

O Personaplex é um modelo de IA conversacional full-duplex de código aberto desenvolvido pela NVIDIA.
Utiliza a arquitetura MOSHI de 7 bilhões de parâmetros e o codec de áudio neural MIMI para latência quase zero.
Diferencia-se por processar a fala de ponta a ponta

Timeline

Introdução ao Personaplex da NVIDIA

O apresentador introduz o Personaplex, o mais novo modelo de assistente de voz da NVIDIA que promete conversas com atraso quase inexistente. Ele destaca que o software é de código aberto e demonstra brevemente a fluidez da interação inicial. O vídeo se propõe a analisar os detalhes técnicos dessa tecnologia e fornecer um guia de configuração. Esta introdução estabelece a premissa de que estamos diante de um salto qualitativo na IA conversacional. O objetivo principal é mostrar como o usuário pode testar essa ferramenta por conta própria.

Arquitetura Full-Duplex e Escuta Ativa

Nesta seção, explica-se o conceito de modelo full-duplex, onde a IA ouve e fala simultaneamente, eliminando a cascata tradicional de fala para texto. O Personaplex utiliza um modelo único de ponta a ponta que atualiza seu estado interno em tempo real enquanto o usuário se comunica. Isso possibilita o back-channeling, que são pequenas confirmações como "uh-huh" e "certo", essenciais para uma escuta ativa. Diferente de sistemas tradicionais que esperam o fim da frase, o Personaplex espelha o fluxo humano para evitar conversas unilaterais. Essa característica é fundamental para tornar a interação com máquinas muito mais próxima da experiência humana real.

Base Técnica e Treinamento do Modelo

O vídeo detalha que o Personaplex é baseado na arquitetura MOSHI da Kiyutai, contando com 7 bilhões de parâmetros e o codec MIMI. O treinamento foi rigoroso, utilizando 1.200 horas de dados do Fisher English Corpus para capturar ritmos naturais e pausas da fala humana. Além disso, foram injetadas 2.000 horas de dados sintéticos focados em cenários de atendimento bancário e suporte técnico. Segundo a NVIDIA, o modelo apresenta melhorias massivas no Service Duplex Bench em comparação com concorrentes comerciais. Essa combinação de dados reais e sintéticos garante que a IA siga instruções complexas sem perder a naturalidade vocal.

Guia de Instalação e Requisitos de Hardware

O apresentador discute os requisitos técnicos para rodar o modelo, enfatizando a necessidade de uma GPU potente com pelo menos 24 GB de VRAM. Ele demonstra o processo de implantação usando um contêiner RunPod A40 e explica as configurações necessárias de porta e armazenamento. O passo a passo inclui a instalação do codec Opus Audio e a clonagem do repositório oficial do Personaplex no GitHub. Também é mencionado que um token do Hugging Face é indispensável para baixar os pesos do modelo com sucesso. Este segmento é vital para desenvolvedores que desejam implementar a solução em seus próprios projetos de código aberto.

Demonstração: Atendimento Bancário e Persona Amigável

A demonstração prática começa com um cenário de atendimento ao cliente em um banco, onde a IA lida de forma curiosa com um usuário tentando "assaltar" o sistema. O modelo mantém a compostura, seguindo protocolos de segurança e solicitando dados de identificação apesar das interrupções absurdas do interlocutor. Em seguida, testa-se uma persona masculina de um amigo chato que só fala sobre cachorros e piadas de "toc-toc". O teste revela que, embora impressionante, o modelo pode se confundir com datas e contextos temporais quando provocado. O apresentador conclui que, apesar da fluidez, o sistema não é totalmente à prova de falhas em diálogos muito caóticos.

Teste de Idioma e Falha do Modelo (Alucinação)

O teste final tenta forçar uma persona italiana, mas o modelo acaba interpretando o tema de forma estereotipada e confusa. A conversa sobre filmes como "O Poderoso Chefão" leva a IA a um estado de erro, onde ela começa a repetir palavras obsessivamente. O apresentador observa que a IA parece entrar em um "surto psicótico", repetindo a palavra "sim" e "não" indefinidamente até o final do registro. Esse comportamento demonstra os limites atuais dos modelos de linguagem de ponta a ponta quando perdem o fio da meada contextual. O vídeo encerra mostrando essa instabilidade técnica, que é um ponto importante de atenção para futuros aprimoramentos do código.

Community Posts

Write about this video