00:00:00Este es Vibe Voice de Microsoft, y lo usé para clonar mi propia voz.
00:00:04Un ecosistema de voz de código abierto que ya están comparando con 11 Labs, Chatterbox y Whisper.
00:00:10Pero funciona sin conexión y puede generar 90 minutos de audio multi-voz de una sola vez.
00:00:1590 minutos, o cualquier cifra cercana, suena una locura. ¿Realmente es útil para desarrolladores,
00:00:20o es otro repositorio de investigación que silenciosamente funde nuestras GPU? Haré unas demos
00:00:26y luego veremos cómo se compara con los demás. Publicamos vídeos constantemente,
00:00:29así que asegúrate de suscribirte.
00:00:31Puedes conseguir todo en su repositorio o en Hugging Face. Antes de comparar nada,
00:00:40echemos un vistazo a los resultados. Ya tengo todo listo y funcionando
00:00:45para que nos centremos en lo importante. He usado otros, así que tengo curiosidad por ver cómo suena
00:00:51Vibe Voice, cómo aguanta y cómo obtenemos algo útil de los resultados.
00:00:56Haré una prueba multi-voz, una de TTS en tiempo real y luego la clonación de voz.
00:01:02Aquí tengo un guion corto tipo podcast con tres voces, turnos claros y emociones en el audio.
00:01:08Lo habitual en la mayoría de demos de TTS es que suenen bien y luego pierdan el hilo,
00:01:14pero escucha lo que pasa aquí. La consistencia de las voces parece mantenerse sólida
00:01:18y las transiciones no fallan. Escuchemos.
00:01:26Suena bastante bien, ¿verdad? No parece que se esté inventando el contexto tras 20 segundos,
00:01:41¿cierto? Ahí está el detalle. Microsoft no ha diseñado esto solo para proyectos pequeños.
00:01:46Es para generación de audio de larga duración y sin conexión. Pero al añadir etiquetas de emoción,
00:01:52empieza a fallar. A diferencia de Chatterbox, por ejemplo, aplica emociones automáticas según las palabras,
00:01:58y eso no es tan bueno. No me convenció. Chatterbox sigue ganando en este aspecto.
00:02:02Pero si estás creando podcasts con IA, narrando documentos, agentes de larga duración
00:02:07o simplemente datos de entrenamiento, esto podría hacer un trabajo decente.
00:02:11Cambiemos de marcha al modo en tiempo real. Esto funciona mucho más rápido que la multi-voz,
00:02:16que, sinceramente, tardó mucho en generarse. Esto es streaming incremental, ideal para
00:02:22respuestas de chatbots y asistentes de voz. La latencia inicial es de unos 300 milisegundos,
00:02:28lo cual es aceptable. No es lo más rápido que he probado. Escuchemos un poco.
00:02:32Imagina beber chocolate caliente en Japón bajo los cerezos en flor.
00:02:35Vale. Y sí, dicen que puede cantar o generar música de fondo si lo fuerzas,
00:02:40pero eso no funcionó. Lo intenté y falló. Pero el punto es:
00:02:43¿está listo para producción en tiempo real? No lo creo. Pero para experimentar y para agentes,
00:02:48sí, está bastante bien. Ahora lo divertido. Hablemos de la clonación de voz porque
00:02:53fue realmente genial. Así fue como lo configuré. Primero, me grabé con Notas de Voz.
00:02:58Uso un Mac. Luego convertí ese archivo a WAV y ejecuté Gradio con este comando.
00:03:04Desde esta interfaz interactiva, puedo elegir mi propia voz como idioma de destino.
00:03:10Eso es todo. Una grabación normal. Lo que uno esperaría es algo parecido a mi voz,
00:03:14pero obviamente falso. Escuchad esto. Esta es mi voz clonada con Vibe Voice.
00:03:19Sinceramente, suena muy bien. Casi demasiado bien porque yo no dije nada de esto. Se parecía
00:03:25bastante a mí, pero si me conoces, probablemente notarías que es falso. Al menos eso espero.
00:03:30No es perfecto, pero es consistente, estable y se mantiene en audios largos. Eso es
00:03:36genial. Microsoft dice que este sistema maneja generación de larga duración de una sola vez y, en la práctica,
00:03:41es notablemente más estable que los procesos tipo Whisper cuando el audio se alarga, ¿verdad?
00:03:47Y si alguna vez has intentado clonar una voz más allá de un clip corto, ya sabes por qué esto importa.
00:03:52Así que sí, las demos fueron impresionantes. Me divertí con ellas, sobre todo con la clonación, pero revisé
00:03:56la documentación, los problemas y los hilos de discusión, y hay opiniones divididas entre desarrolladores.
00:04:02Primero los puntos a favor, luego los problemas que os vais a encontrar. Los pros son sólidos en general.
00:04:08Maneja audio largo sin duda. La mayoría de sistemas TTS pierden el hilo, se vuelven monótonos o fallan tras unos minutos.
00:04:14Vibe Voice está hecho para audios largos y se notó en mis pruebas. Luego están la eficiencia y la expresividad.
00:04:20Usa tokenizadores de audio de baja frecuencia, lo que mantiene el contexto manejable.
00:04:27Añades difusión y un modelo de lenguaje (LLM) de base y obtienes habla expresiva sin un cómputo absurdo.
00:04:33Parece diseñado para ser amigable con el desarrollador. Tiene licencia MIT, funciona offline y
00:04:40corre en GPU domésticas con unos 7 GB de VRAM para tiempo real. Incluye código para ajuste fino, especialmente para ASR.
00:04:47No es un sistema cerrado en absoluto, es muy bueno. Finalmente, como otros proyectos de código abierto,
00:04:53ofrece salida ASR estructurada. Un gran acierto. La diarización de interlocutores y marcas de tiempo integradas
00:04:59ahorran mucho tiempo después. Si has montado procesos de transcripción, sabes que esto no es poca cosa.
00:05:04Ahora, los inconvenientes que noté y que también he visto comentados. Parece software de investigación.
00:05:11Microsoft retiró algunas rutas de código TTS por temor a los deepfakes, lo cual dice mucho. El SDK
00:05:17no es ninguna maravilla, no está pulido. Hay fallos de audio evidentes como en otros programas.
00:05:23A veces oirás una entonación robótica, el ritmo puede fallar y con más de dos o tres voces
00:05:28la calidad decae. A los desarrolladores les encanta el tokenizador pero odian los picos de VRAM.
00:05:33Y la cobertura de idiomas es limitada. Chino e inglés van genial, pero si necesitas
00:05:40cualquier otro idioma, Vibe Voice no te servirá. Por último, tiene la desventaja de
00:05:46cero comprensión semántica: lee el texto, pero no lo entiende. Las etiquetas de emoción ayudan,
00:05:51pero suelen fallar bastante si intentas forzarlas. Sinceramente, es una herramienta increíble
00:05:56para experimentar, pero a largo plazo no estoy seguro de si aguantará el tipo.
00:06:02Ahora, lo que realmente queréis saber: ¿vale la pena dedicarle tiempo comparado con vuestro flujo actual?
00:06:06¿Cómo queda Vibe Voice frente a sus competidores habituales? Empecemos con Chatterbox.
00:06:11Ya hice un vídeo probando Chatterbox y fue una experiencia muy buena. Tenía una latencia
00:06:16de menos de 200 milisegundos, más fuerza emocional y mejores respuestas cortas para agentes.
00:06:22Parecería que Chatterbox gana, pero Vibe Voice lo arrasa en formatos largos. Chatterbox está pensado
00:06:28para monólogos de 30 minutos o menos, y Vibe Voice gestiona mucho mejor los audios de larga duración.
00:06:35Así que es una cuestión de prioridades. Luego, por supuesto, tenemos a 11 Labs.
00:06:42Aquí es sencillo: 11 Labs gana por su pronunciación pulida, clonación de voz sin entrenamiento y su UX,
00:06:48pero donde Vibe Voice gana es en el coste. Es gratis, offline y de código abierto. Una gran ventaja.
00:06:54No estamos pagando por el software. Comparado con Whisper o incluso Cozy Voice, Vibe Voice
00:07:00gana a Whisper cuando el audio es largo y estructurado. Es más expresivo que Cozy Voice
00:07:06y, aunque los modelos TTS basados en Qwen están mejorando en dialectos, Vibe Voice sigue liderando en longitud.
00:07:13Si eres un desarrollador que prefiere trabajar en local, te gusta el código abierto y necesitas audio largo,
00:07:18sinceramente, puedes pasar de esto por ahora. Es solo un proyecto muy chulo para trastear,
00:07:23time. If you want something that's more plug and play production ready, honestly, you can probably
00:07:28incluyendo esa clonación de voz. Vibe Voice es caótico, potente y a la vez emocionante.
00:07:33Es de los sistemas de audio de código abierto más fuertes para voz con IA de larga duración en mucho tiempo.
00:07:37Prueba la demo en Hugging Face, lee la documentación y nos vemos en el próximo vídeo.
00:07:43read some docs, and we'll see you in another video.