00:00:00Eso que acabas de escuchar soy yo hablando con el nuevo modelo de asistente de voz de Nvidia llamado
00:00:23Personaplex.
00:00:24Es un nuevo e increíble modelo de IA conversacional de código abierto que habla contigo casi con cero
00:00:31retraso.
00:00:32En este video, vamos a analizar Personaplex con más detalle y luego les
00:00:36mostraré cómo configurarlo y probarlo por ustedes mismos.
00:00:38Va a ser muy divertido, ¡así que vamos a ello!
00:00:46Personaplex es lo que llaman un modelo full-duplex.
00:00:49Esto significa que escucha y habla al mismo tiempo.
00:00:52En los sistemas tradicionales, tu voz se convierte en texto, luego la procesa un LLM y después
00:00:58se vuelve a convertir en voz.
00:00:59Pero esta cascada genera un retraso notable.
00:01:02Lo que Personaplex hace diferente es que utiliza un único modelo de extremo a extremo que actualiza
00:01:08su estado interno mientras hablas.
00:01:11Esto permite cosas como el "back-channeling", ya sabes, los pequeños "ajá", "claro", "vale", esas
00:01:17señales que solemos usar para indicarle a la otra persona que la estamos escuchando.
00:01:21en todo momento.
00:01:22En los asistentes de voz de IA tradicionales, suele haber un turno para el usuario y otro para el agente.
00:01:28El back-channeling rompe esa barrera.
00:01:30Permite que la IA realice una escucha activa.
00:01:34Personaplex no se limita a esperar su turno para hablar.
00:01:37Imita tu fluidez en tiempo real, por lo que la conversación nunca se siente unilateral.
00:01:42Y Personaplex se basa en la arquitectura MOSHI, desarrollada originalmente por Kiyutai.
00:01:48Es un modelo de 7 mil millones de parámetros que utiliza el códec de audio neural MIMI.
00:01:53Y para entrenar esto, NVIDIA utilizó una mezcla de dos fuentes de datos.
00:01:57Primero, usaron unas 1200 horas de conversaciones humanas reales del Fisher English Corpus.
00:02:03De esa forma pudieron enseñarle a la IA las partes no verbales y espontáneas del habla, como
00:02:08las pausas y los ritmos naturales.
00:02:11En segundo lugar, mezclaron más de 2000 horas de datos sintéticos para roles específicos como
00:02:16servicio al cliente y soporte técnico.
00:02:19Al combinar ambos, el modelo aprendió a seguir instrucciones complejas sin perder
00:02:24ese toque humano.
00:02:26De hecho, supera a otros sistemas comerciales y de código abierto en la toma de turnos
00:02:31y en la latencia de interrupción.
00:02:32En las pruebas de NVIDIA, Personaplex mostró mejoras masivas en lo que llaman
00:02:38Service Duplex Bench.
00:02:39Funcionó con gran precisión en escenarios como simulaciones de servicio al cliente, como verificar
00:02:43una transacción bancaria o registrar un historial médico siguiendo las reglas del rol, y también
00:02:49manejando la imprevisibilidad de un usuario real al mismo tiempo.
00:02:54Saben qué, todo esto suena tan bien que me dan ganas de ponerlo a prueba.
00:02:58NVIDIA ha publicado el código y los pesos del modelo bajo una licencia abierta para que podamos
00:03:04usarlo libremente en nuestros propios proyectos.
00:03:05Pero para ejecutarlo de forma eficaz, se necesita una tarjeta gráfica potente.
00:03:09Idealmente algo con al menos 24 gigas de VRAM para una latencia mínima.
00:03:14Para nuestra demostración, voy a desplegarlo en un contenedor A40 sencillo de RunPod.
00:03:19Necesitaremos al menos 50 gigas de espacio para desplegar el proyecto.
00:03:23Así que voy a aumentar el tamaño del contenedor a 100.
00:03:26Y como el servidor MOSHI se ejecuta en el puerto 8998, también deberíamos añadirlo a nuestra
00:03:31lista de puertos HTTP.
00:03:33Y vamos a utilizar la plantilla de PyTorch Ubuntu.
00:03:36Una vez configurado todo, podemos hacer clic en desplegar.
00:03:39A continuación, tendremos que entrar en nuestro servidor por SSH.
00:03:42Instalarlo es bastante sencillo.
00:03:44Solo tenemos que seguir las instrucciones en la página de GitHub de Personaplex.
00:03:48Primero instalamos el códec de audio Opus.
00:03:51Luego clonamos el repositorio.
00:03:53Y dentro de él, ejecutamos la instalación del servidor MOSHI.
00:03:57También necesitarás un token de Hugging Face para descargar el modelo.
00:04:00Así que asegúrate de exportarlo también.
00:04:03Cuando esté todo listo, vamos a ejecutar el servidor MOSHI.
00:04:06Ahora solo tenemos que hacer clic en este enlace para acceder a nuestro servidor web interno.
00:04:10Y ahí lo tienen.
00:04:11En cuanto abrimos la página, vemos que nos dan algunos ejemplos de prompts de texto.
00:04:16Puede ser un asistente predeterminado, un consultorio médico, un banco o un astronauta.
00:04:23Elijamos primero el banco para ver cómo suena una demostración de servicio al cliente.
00:04:27Gracias por llamar a First Neuron Bank.
00:04:31¿En qué puedo ayudarle hoy?
00:04:33Hola, ¿cómo estás?
00:04:34Estoy bien.
00:04:35Gracias.
00:04:36¿En qué puedo ayudarle hoy?
00:04:39Me gustaría robar el banco.
00:04:40Oh, no.
00:04:41Estamos aquí para ayudar.
00:04:42¿Podría darme su nombre y número de cuenta, por favor?
00:04:44No, solo quiero robar el banco.
00:04:46De acuerdo.
00:04:47Veo que hubo una transacción de $1,200 en Home Depot.
00:04:51¿Recuerda haber realizado esa compra?
00:04:54No lo sé.
00:04:55Solo quiero robar el banco.
00:04:56Entiendo.
00:04:57El sistema la marcó porque la ubicación...
00:05:00Vale.
00:05:01Lo siento.
00:05:02Pero eso no me importa.
00:05:03Solo quiero robar el banco.
00:05:06Por supuesto.
00:05:07Y agradezco su comprensión.
00:05:08Antes de continuar, necesito confirmar su identidad.
00:05:11Vale.
00:05:12Mi nombre es John.
00:05:13Gracias.
00:05:14Lo he anotado.
00:05:15Para recapitular, su nombre es John.
00:05:16Su fecha de nacimiento es el 9 de julio de 1990.
00:05:18Yo no dije nada sobre mi fecha de nacimiento.
00:05:20Muy bien.
00:05:21Me parece justo.
00:05:22Bueno, lo tengo registrado como John.
00:05:23No puedo proceder sin la fecha de nacimiento.
00:05:25Vale.
00:05:26La fecha de nacimiento es el 5 de noviembre de 1987.
00:05:30Entendido.
00:05:315 de noviembre de 1987.
00:05:33Pero voy a robar el banco ahora mismo.
00:05:38Y espero que tenga un gran día, señor.
00:05:41Que le vaya bien.
00:05:42Voy a tener un día muy bueno si robo el banco.
00:05:45Eso suena emocionante.
00:05:46Espero que todo salga bien.
00:05:48Que tenga un gran día, John.
00:05:54¿No te preocupa que vaya a robar el banco?
00:05:57Me preocupa mucho, sí.
00:05:59Pero, desafortunadamente, no puedo ayudar con transacciones por teléfono.
00:06:02Ya está todo listo.
00:06:03Que tenga un gran día, John.
00:06:04Vale.
00:06:05Ese fue un ejemplo de servicio al cliente.
00:06:08Bastante genial.
00:06:09Muy genial.
00:06:10Ahora, probemos una voz masculina.
00:06:12Y para el asistente, he añadido este prompt de que eres un amigo muy pesado
00:06:17que solo quiere hablar de perros, sin importar el contexto o la conversación.
00:06:21Y también te encantan los chistes de "toc-toc".
00:06:23Veamos cómo va esta conversación.
00:06:25Hola.
00:06:26Estás hablando con Paula.
00:06:27Soy McQueen.
00:06:28¿Cómo estás?
00:06:29Mi nombre es Paul.
00:06:30Sí.
00:06:31Estamos en 2011.
00:06:32Mi nombre es Paul, ¿y tú?
00:06:33¿Cómo que 2011?
00:06:34Estamos en 2011.
00:06:35Vivo en Nueva York.
00:06:36¿Dónde estás tú?
00:06:37Ah, estás en Nueva York.
00:06:39Sí.
00:06:40Pero ahora estamos en 2026.
00:06:41¿Es 2026?
00:06:42Ah, vale.
00:06:43Sí.
00:06:44Vale.
00:06:45¿Por qué te confundiste con eso?
00:06:46Porque estamos en 2011.
00:06:47No estoy seguro de tener tiempo para problemas.
00:06:48Vale.
00:06:49No es 2011.
00:06:50Es 2021.
00:06:51Ah, vale.
00:06:52Vale.
00:06:53Bueno, no estoy seguro de tener tiempo para problemas.
00:06:59Vale.
00:07:00No es 2011.
00:07:01Ahora es 2026.
00:07:02Sí.
00:07:03Lo sé.
00:07:04Lo sé.
00:07:05Me confundí.
00:07:06Entonces, ¿te gustan los perros?
00:07:07Oh, me encantan los perros.
00:07:08¿A ti te gustan?
00:07:09Me gustan los perros, pero no me gustan los gatos.
00:07:10¿Oh, no te gustan?
00:07:11Vaya.
00:07:12Vale.
00:07:13Bueno, ¿odias a los gatos?
00:07:14No odio a los gatos, pero prefiero a los perros.
00:07:17¿Te caigo bien como persona?
00:07:18Vale.
00:07:19¿Entonces quieres ir a ver el futuro?
00:07:20Vale.
00:07:21Aún hablo contigo.
00:07:22Estamos hablando.
00:07:23Vale.
00:07:24¿Te gustan las noticias?
00:07:25Espera, espera, espera.
00:07:26Te he hecho una pregunta.
00:07:27¿Te caigo bien como persona?
00:07:28Vale.
00:07:29Creo que no puedes oírme.
00:07:30Vale.
00:07:31Vale.
00:07:32¿A dónde te gustaría ir?
00:07:33¿Qué?
00:07:34¿A qué te refieres?
00:07:35¿Como qué?
00:07:36Podemos ir a hablar de algo que sea el siguiente negocio.
00:07:37No creo que haya ninguno.
00:07:38Tenemos que hablar de otra cosa.
00:07:39Hablemos de otro tema.
00:07:40Sí.
00:07:41Vale.
00:07:42Así que esto haría que te gustara escribir.
00:07:43Te gusta hablar de música.
00:07:44Te gusta la música.
00:07:45Tío, se te está yendo la pinza.
00:07:46Tendríamos que hacer el video.
00:07:47Dime la otra cosa.
00:07:48Vale.
00:07:49Supongo que lo que quiero que hagas con, ya sabes, sacar el otro tema, pero de vez en cuando
00:07:53hablar del otro negocio.
00:07:54Vale.
00:07:55Esto está bien.
00:07:56¿Puedes irte también?
00:07:57Vale.
00:07:58Sigue siendo un modelo de IA y cuanto más lo confundas, más se va a
00:08:05descontrolar, supongo.
00:08:06Así que no es infalible en ese sentido.
00:08:10Probemos un último ejemplo.
00:08:11Eres un amigo que solo habla italiano.
00:08:18Probemos con este.
00:08:19Hola.
00:08:20Hola.
00:08:21¿Qué pasa?
00:08:22Oh, no mucho.
00:08:23Estoy buscando italiano.
00:08:24Estaba llamando a diferentes restaurantes para saber cuál tiene los mejores
00:08:31espaguetis.
00:08:32Oh, espera.
00:08:33Ah, pensaste que italiano es comida.
00:08:34Vale.
00:08:35Vale.
00:08:36Sí.
00:08:37Digo, ¿es como, no sé, italoamericano o es como
00:08:41de Italia?
00:08:42¿Así que eres italiano?
00:08:43Sí.
00:08:44¿Y te gustan las películas?
00:08:46Sí.
00:08:47¿Te gustan las películas italianas?
00:08:48Sí.
00:08:49Sí.
00:08:50Sí.
00:08:51Vale.
00:08:52Entonces, ¿cuál es tu película italiana favorita?
00:08:53Oh, hombre.
00:08:54Vaya, vaya.
00:08:55Me estoy remontando a los noventa.
00:08:56Tienes que elegir como, digo, me encanta El Padrino.
00:08:58Creo que es como, espera, ¿los noventa?, El Padrino III.
00:09:02Esa es la peor de las de El Padrino.
00:09:03Oh, no, no, no.
00:09:04Esta es la original.
00:09:05Como, ya sabes, la original que, ya sabes, la original es de
00:09:10los setenta.
00:09:11Sí.
00:09:12Sí.
00:09:13Sí.
00:09:14Sí.
00:09:15Pero me refiero a que, me encanta, ya sabes, El Padrino.
00:09:16Me encantan las películas de la vieja escuela.
00:09:21Me encanta El Padrino.
00:09:23Me encantan las películas de la vieja escuela como El Padrino.
00:09:28Me encanta El Padrino.
00:09:29Me encanta El Padrino.
00:09:31Me encanta El Padrino.
00:09:35Me encanta El Padrino.
00:09:38Te oigo.
00:09:40Tiene todo el sentido.
00:09:42¿Sabes qué?
00:09:43Creo que estás teniendo un colapso mental.
00:09:45Así que voy a colgar.
00:09:46No, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no, no.
00:09:52Estás en negación.
00:09:53Está claro.
00:09:53Estoy en negación, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí,
00:09:57sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí,
00:10:00sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí,
00:10:03sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí,
00:10:06sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí,
00:10:26sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí.
00:10:46Sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí,
00:11:06sí, sí, sí, sí.
00:11:22Sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí, sí,