¡El nuevo modelo de voz de NVIDIA es INCREÍBLE! (PersonaPlex)

BBetter Stack
컴퓨터/소프트웨어어학(외국어)AI/미래기술

Transcript

00:00:00Eso que acabas de escuchar soy yo hablando con el nuevo modelo de asistente de voz de Nvidia llamado
00:00:23Personaplex.
00:00:24Es un nuevo e increíble modelo de IA conversacional de código abierto que habla contigo casi con cero
00:00:31retraso.
00:00:32En este video, vamos a analizar Personaplex con más detalle y luego les
00:00:36mostraré cómo configurarlo y probarlo por ustedes mismos.
00:00:38Va a ser muy divertido, ¡así que vamos a ello!
00:00:46Personaplex es lo que llaman un modelo full-duplex.
00:00:49Esto significa que escucha y habla al mismo tiempo.
00:00:52En los sistemas tradicionales, tu voz se convierte en texto, luego la procesa un LLM y después
00:00:58se vuelve a convertir en voz.
00:00:59Pero esta cascada genera un retraso notable.
00:01:02Lo que Personaplex hace diferente es que utiliza un único modelo de extremo a extremo que actualiza
00:01:08su estado interno mientras hablas.
00:01:11Esto permite cosas como el "back-channeling", ya sabes, los pequeños "ajá", "claro", "vale", esas
00:01:17señales que solemos usar para indicarle a la otra persona que la estamos escuchando.
00:01:21en todo momento.
00:01:22En los asistentes de voz de IA tradicionales, suele haber un turno para el usuario y otro para el agente.
00:01:28El back-channeling rompe esa barrera.
00:01:30Permite que la IA realice una escucha activa.
00:01:34Personaplex no se limita a esperar su turno para hablar.
00:01:37Imita tu fluidez en tiempo real, por lo que la conversación nunca se siente unilateral.
00:01:42Y Personaplex se basa en la arquitectura MOSHI, desarrollada originalmente por Kiyutai.
00:01:48Es un modelo de 7 mil millones de parámetros que utiliza el códec de audio neural MIMI.
00:01:53Y para entrenar esto, NVIDIA utilizó una mezcla de dos fuentes de datos.
00:01:57Primero, usaron unas 1200 horas de conversaciones humanas reales del Fisher English Corpus.
00:02:03De esa forma pudieron enseñarle a la IA las partes no verbales y espontáneas del habla, como
00:02:08las pausas y los ritmos naturales.
00:02:11En segundo lugar, mezclaron más de 2000 horas de datos sintéticos para roles específicos como
00:02:16servicio al cliente y soporte técnico.
00:02:19Al combinar ambos, el modelo aprendió a seguir instrucciones complejas sin perder
00:02:24ese toque humano.
00:02:26De hecho, supera a otros sistemas comerciales y de código abierto en la toma de turnos
00:02:31y en la latencia de interrupción.
00:02:32En las pruebas de NVIDIA, Personaplex mostró mejoras masivas en lo que llaman
00:02:38Service Duplex Bench.
00:02:39Funcionó con gran precisión en escenarios como simulaciones de servicio al cliente, como verificar
00:02:43una transacción bancaria o registrar un historial médico siguiendo las reglas del rol, y también
00:02:49manejando la imprevisibilidad de un usuario real al mismo tiempo.
00:02:54Saben qué, todo esto suena tan bien que me dan ganas de ponerlo a prueba.
00:02:58NVIDIA ha publicado el código y los pesos del modelo bajo una licencia abierta para que podamos
00:03:04usarlo libremente en nuestros propios proyectos.
00:03:05Pero para ejecutarlo de forma eficaz, se necesita una tarjeta gráfica potente.
00:03:09Idealmente algo con al menos 24 gigas de VRAM para una latencia mínima.
00:03:14Para nuestra demostración, voy a desplegarlo en un contenedor A40 sencillo de RunPod.
00:03:19Necesitaremos al menos 50 gigas de espacio para desplegar el proyecto.
00:03:23Así que voy a aumentar el tamaño del contenedor a 100.
00:03:26Y como el servidor MOSHI se ejecuta en el puerto 8998, también deberíamos añadirlo a nuestra
00:03:31lista de puertos HTTP.
00:03:33Y vamos a utilizar la plantilla de PyTorch Ubuntu.
00:03:36Una vez configurado todo, podemos hacer clic en desplegar.
00:03:39A continuación, tendremos que entrar en nuestro servidor por SSH.
00:03:42Instalarlo es bastante sencillo.
00:03:44Solo tenemos que seguir las instrucciones en la página de GitHub de Personaplex.
00:03:48Primero instalamos el códec de audio Opus.
00:03:51Luego clonamos el repositorio.
00:03:53Y dentro de él, ejecutamos la instalación del servidor MOSHI.
00:03:57También necesitarás un token de Hugging Face para descargar el modelo.
00:04:00Así que asegúrate de exportarlo también.
00:04:03Cuando esté todo listo, vamos a ejecutar el servidor MOSHI.
00:04:06Ahora solo tenemos que hacer clic en este enlace para acceder a nuestro servidor web interno.
00:04:10Y ahí lo tienen.
00:04:11En cuanto abrimos la página, vemos que nos dan algunos ejemplos de prompts de texto.
00:04:16Puede ser un asistente predeterminado, un consultorio médico, un banco o un astronauta.
00:04:23Elijamos primero el banco para ver cómo suena una demostración de servicio al cliente.
00:04:27Gracias por llamar a First Neuron Bank.
00:04:31¿En qué puedo ayudarle hoy?
00:04:33Hola, ¿cómo estás?
00:04:34Estoy bien.
00:04:35Gracias.
00:04:36¿En qué puedo ayudarle hoy?
00:04:39Me gustaría robar el banco.
00:04:40Oh, no.
00:04:41Estamos aquí para ayudar.
00:04:42¿Podría darme su nombre y número de cuenta, por favor?
00:04:44No, solo quiero robar el banco.
00:04:46De acuerdo.
00:04:47Veo que hubo una transacción de $1,200 en Home Depot.
00:04:51¿Recuerda haber realizado esa compra?
00:04:54No lo sé.
00:04:55Solo quiero robar el banco.
00:04:56Entiendo.
00:04:57El sistema la marcó porque la ubicación...
00:05:00Vale.
00:05:01Lo siento.
00:05:02Pero eso no me importa.
00:05:03Solo quiero robar el banco.
00:05:06Por supuesto.
00:05:07Y agradezco su comprensión.
00:05:08Antes de continuar, necesito confirmar su identidad.
00:05:11Vale.
00:05:12Mi nombre es John.
00:05:13Gracias.
00:05:14Lo he anotado.
00:05:15Para recapitular, su nombre es John.
00:05:16Su fecha de nacimiento es el 9 de julio de 1990.
00:05:18Yo no dije nada sobre mi fecha de nacimiento.
00:05:20Muy bien.
00:05:21Me parece justo.
00:05:22Bueno, lo tengo registrado como John.
00:05:23No puedo proceder sin la fecha de nacimiento.
00:05:25Vale.
00:05:26La fecha de nacimiento es el 5 de noviembre de 1987.
00:05:30Entendido.
00:05:315 de noviembre de 1987.
00:05:33Pero voy a robar el banco ahora mismo.
00:05:38Y espero que tenga un gran día, señor.
00:05:41Que le vaya bien.
00:05:42Voy a tener un día muy bueno si robo el banco.
00:05:45Eso suena emocionante.
00:05:46Espero que todo salga bien.
00:05:48Que tenga un gran día, John.
00:05:54¿No te preocupa que vaya a robar el banco?
00:05:57Me preocupa mucho, sí.
00:05:59Pero, desafortunadamente, no puedo ayudar con transacciones por teléfono.
00:06:02Ya está todo listo.
00:06:03Que tenga un gran día, John.
00:06:04Vale.
00:06:05Ese fue un ejemplo de servicio al cliente.
00:06:08Bastante genial.
00:06:09Muy genial.
00:06:10Ahora, probemos una voz masculina.
00:06:12Y para el asistente, he añadido este prompt de que eres un amigo muy pesado
00:06:17que solo quiere hablar de perros, sin importar el contexto o la conversación.
00:06:21Y también te encantan los chistes de "toc-toc".
00:06:23Veamos cómo va esta conversación.
00:06:25Hola.
00:06:26Estás hablando con Paula.
00:06:27Soy McQueen.
00:06:28¿Cómo estás?
00:06:29Mi nombre es Paul.
00:06:30Sí.
00:06:31Estamos en 2011.
00:06:32Mi nombre es Paul, ¿y tú?
00:06:33¿Cómo que 2011?
00:06:34Estamos en 2011.
00:06:35Vivo en Nueva York.
00:06:36¿Dónde estás tú?
00:06:37Ah, estás en Nueva York.
00:06:39Sí.
00:06:40Pero ahora estamos en 2026.
00:06:41¿Es 2026?
00:06:42Ah, vale.
00:06:43Sí.
00:06:44Vale.
00:06:45¿Por qué te confundiste con eso?
00:06:46Porque estamos en 2011.
00:06:47No estoy seguro de tener tiempo para problemas.
00:06:48Vale.
00:06:49No es 2011.
00:06:50Es 2021.
00:06:51Ah, vale.
00:06:52Vale.
00:06:53Bueno, no estoy seguro de tener tiempo para problemas.
00:06:59Vale.
00:07:00No es 2011.
00:07:01Ahora es 2026.
00:07:02Sí.
00:07:03Lo sé.
00:07:04Lo sé.
00:07:05Me confundí.
00:07:06Entonces, ¿te gustan los perros?
00:07:07Oh, me encantan los perros.
00:07:08¿A ti te gustan?
00:07:09Me gustan los perros, pero no me gustan los gatos.
00:07:10¿Oh, no te gustan?
00:07:11Vaya.
00:07:12Vale.
00:07:13Bueno, ¿odias a los gatos?
00:07:14No odio a los gatos, pero prefiero a los perros.
00:07:17¿Te caigo bien como persona?
00:07:18Vale.
00:07:19¿Entonces quieres ir a ver el futuro?
00:07:20Vale.
00:07:21Aún hablo contigo.
00:07:22Estamos hablando.
00:07:23Vale.
00:07:24¿Te gustan las noticias?
00:07:25Espera, espera, espera.
00:07:26Te he hecho una pregunta.
00:07:27¿Te caigo bien como persona?
00:07:28Vale.
00:07:29Creo que no puedes oírme.
00:07:30Vale.
00:07:31Vale.
00:07:32¿A dónde te gustaría ir?
00:07:33¿Qué?
00:07:34¿A qué te refieres?
00:07:35¿Como qué?
00:07:36Podemos ir a hablar de algo que sea el siguiente negocio.
00:07:37No creo que haya ninguno.
00:07:38Tenemos que hablar de otra cosa.
00:07:39Hablemos de otro tema.
00:07:40Sí.
00:07:41Vale.
00:07:42Así que esto haría que te gustara escribir.
00:07:43Te gusta hablar de música.
00:07:44Te gusta la música.
00:07:45Tío, se te está yendo la pinza.
00:07:46Tendríamos que hacer el video.
00:07:47Dime la otra cosa.
00:07:48Vale.
00:07:49Supongo que lo que quiero que hagas con, ya sabes, sacar el otro tema, pero de vez en cuando
00:07:53hablar del otro negocio.
00:07:54Vale.
00:07:55Esto está bien.
00:07:56¿Puedes irte también?
00:07:57Vale.
00:07:58Sigue siendo un modelo de IA y cuanto más lo confundas, más se va a
00:08:05descontrolar, supongo.
00:08:06Así que no es infalible en ese sentido.
00:08:10Probemos un último ejemplo.
00:08:11Eres un amigo que solo habla italiano.
00:08:18Probemos con este.
00:08:19Hola.
00:08:20Hola.
00:08:21¿Qué pasa?
00:08:22Oh, no mucho.
00:08:23Estoy buscando italiano.
00:08:24Estaba llamando a diferentes restaurantes para saber cuál tiene los mejores
00:08:31espaguetis.
00:08:32Oh, espera.
00:08:33Ah, pensaste que italiano es comida.
00:08:34Vale.
00:08:35Vale.
00:08:36Sí.
00:08:37Digo, ¿es como, no sé, italoamericano o es como
00:08:41de Italia?
00:08:42¿Así que eres italiano?
00:08:43Sí.
00:08:44¿Y te gustan las películas?
00:08:46Sí.
00:08:47¿Te gustan las películas italianas?
00:08:48Sí.
00:08:49Sí.
00:08:50Sí.
00:08:51Vale.
00:08:52Entonces, ¿cuál es tu película italiana favorita?
00:08:53Oh, hombre.
00:08:54Vaya, vaya.
00:08:55Me estoy remontando a los noventa.
00:08:56Tienes que elegir como, digo, me encanta El Padrino.
00:08:58Creo que es como, espera, ¿los noventa?, El Padrino III.
00:09:02Esa es la peor de las de El Padrino.
00:09:03Oh, no, no, no.
00:09:04Esta es la original.
00:09:05Como, ya sabes, la original que, ya sabes, la original es de
00:09:10los setenta.
00:09:11Sí.
00:09:12Sí.
00:09:13Sí.
00:09:14Sí.
00:09:15Pero me refiero a que, me encanta, ya sabes, El Padrino.
00:09:16Me encantan las películas de la vieja escuela.
00:09:21Me encanta El Padrino.
00:09:23Me encantan las películas de la vieja escuela como El Padrino.
00:09:28Me encanta El Padrino.
00:09:29Me encanta El Padrino.
00:09:31Me encanta El Padrino.
00:09:35Me encanta El Padrino.
00:09:38Te oigo.
00:09:40Tiene todo el sentido.
00:09:42¿Sabes qué?
00:09:43Creo que estás teniendo un colapso mental.
00:09:45Así que voy a colgar.
00:09:46No, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no.
00:09:52Estás en negación.
00:09:53Está claro.
00:09:53Estoy en negación, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí,
00:09:57sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí,
00:10:00sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí,
00:10:03sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí,
00:10:06sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí,
00:10:26sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí.
00:10:46Sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí,
00:11:06sí, sí, sí, sí.
00:11:22Sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí,

Key Takeaway

NVIDIA PersonaPlex revoluciona la IA de voz mediante una arquitectura de extremo a extremo que permite conversaciones fluidas y bidireccionales en tiempo real, aunque todavía presenta inestabilidades ante interacciones impredecibles.

Highlights

Presentación de PersonaPlex

Timeline

Introducción y Conceptos Fundamentales de PersonaPlex

El video comienza introduciendo PersonaPlex como la nueva apuesta de NVIDIA en el ámbito de los asistentes de voz de código abierto. A diferencia de los sistemas tradicionales en cascada que procesan voz a texto y luego a LLM, este modelo es 'full-duplex', lo que significa que procesa audio de extremo a extremo sin retrasos perceptibles. Esta arquitectura permite el 'back-channeling', permitiendo que la IA emita sonidos de confirmación mientras el usuario aún está hablando. El narrador destaca que esta capacidad rompe la barrera del intercambio de turnos rígido, logrando una escucha activa que se siente mucho más natural. Este avance es crucial para aplicaciones donde la fluidez y la empatía tonal son necesarias para mantener la atención del usuario.

Arquitectura Técnica y Metodología de Entrenamiento

En esta sección se detalla que PersonaPlex se basa en la arquitectura MOSHI de Kiyutai, utilizando 7 mil millones de parámetros y el códec neural MIMI. NVIDIA optimizó el modelo utilizando una mezcla estratégica de 1200 horas de datos del Fisher English Corpus para capturar ritmos naturales y pausas humanas. Además, se integraron más de 2000 horas de datos sintéticos para entrenar al modelo en tareas de soporte técnico y banca. Gracias a este entrenamiento, el sistema supera a sus competidores en el 'Service Duplex Bench', mostrando una precisión asombrosa en simulaciones de cumplimiento de roles. Estos datos demuestran cómo la IA puede manejar instrucciones complejas sin sacrificar la autenticidad de la interacción verbal.

Configuración Práctica y Despliegue en Servidores

El presentador explica el proceso para que cualquier usuario pueda probar el modelo aprovechando que el código y los pesos están disponibles bajo licencia abierta. Se advierte que es indispensable contar con hardware potente, preferiblemente una tarjeta con 24 gigas de VRAM para evitar latencia. La demostración se realiza en un contenedor A40 de RunPod, ajustando el almacenamiento a 100 gigas y configurando los puertos HTTP necesarios para el servidor MOSHI. El proceso de instalación incluye la clonación del repositorio de GitHub, la instalación del códec Opus y el uso de un token de Hugging Face. Esta parte técnica es vital para entender la accesibilidad del proyecto para desarrolladores e investigadores de IA.

Pruebas de Rol: El Caso del Banco y el Asaltante

Se inicia la fase de pruebas utilizando un prompt donde la IA actúa como representante de 'First Neuron Bank'. Durante la interacción, el usuario intenta 'robar el banco' repetidamente, pero la IA mantiene su profesionalismo e intenta validar la identidad del cliente. A pesar de las amenazas cómicas, el modelo sigue el protocolo bancario, mencionando transacciones ficticias en Home Depot y solicitando fechas de nacimiento. Resulta notable cómo el sistema ignora las intenciones delictivas absurdas para centrarse en completar su tarea de servicio al cliente. Esta prueba subraya la robustez del modelo para mantenerse dentro de los límites de su programación inicial frente a usuarios difíciles.

Interacciones Complejas y Fallos del Modelo

La segunda prueba utiliza una voz masculina configurada como un amigo obsesionado con los perros y los chistes de 'toc-toc'. La conversación se vuelve errática rápidamente cuando el modelo se confunde sobre el año actual, saltando entre 2011, 2021 y 2026. El presentador observa que, aunque el sistema es avanzado, la confusión extrema puede hacer que el modelo pierda el hilo de la realidad o ignore preguntas directas. Se menciona la frase "se te está yendo la pinza" para ilustrar cómo la IA empieza a desvariar bajo presión. Esta sección sirve para advertir que PersonaPlex no es infalible y que su coherencia depende de la claridad del contexto proporcionado.

Bucle Infinito y Colapso Final del Sistema

La demostración final intenta configurar a la IA como un amigo que habla italiano, pero el resultado es un fallo técnico catastrófico. Tras una breve discusión sobre la película 'El Padrino' y su fecha de estreno, el modelo entra en un bucle repetitivo de la palabra "sí". El narrador describe esto como un "colapso mental" de la IA, donde el audio se vuelve una repetición infinita y monótona sin sentido. El video termina mostrando este fallo durante varios minutos, evidenciando los límites actuales de los modelos de audio de extremo a extremo. Es un recordatorio visual y auditivo de que la tecnología, aunque increíble, todavía requiere refinamiento para evitar estados de error cíclicos.

Community Posts

View all posts