Cloné mi propia voz con el modelo de código abierto de Microsoft

Españolالعربية Deutsch English Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

컴퓨터/소프트웨어창업/스타트업가전제품/카메라AI/미래기술

Transcript

00:00:00Este es Vibe Voice de Microsoft, y lo usé para clonar mi propia voz.

00:00:04Un ecosistema de voz de código abierto que ya están comparando con 11 Labs, Chatterbox y Whisper.

00:00:10Pero funciona sin conexión y puede generar 90 minutos de audio multi-voz de una sola vez.

00:00:1590 minutos, o cualquier cifra cercana, suena una locura. ¿Realmente es útil para desarrolladores,

00:00:20o es otro repositorio de investigación que silenciosamente funde nuestras GPU? Haré unas demos

00:00:26y luego veremos cómo se compara con los demás. Publicamos vídeos constantemente,

00:00:29así que asegúrate de suscribirte.

00:00:31Puedes conseguir todo en su repositorio o en Hugging Face. Antes de comparar nada,

00:00:40echemos un vistazo a los resultados. Ya tengo todo listo y funcionando

00:00:45para que nos centremos en lo importante. He usado otros, así que tengo curiosidad por ver cómo suena

00:00:51Vibe Voice, cómo aguanta y cómo obtenemos algo útil de los resultados.

00:00:56Haré una prueba multi-voz, una de TTS en tiempo real y luego la clonación de voz.

00:01:02Aquí tengo un guion corto tipo podcast con tres voces, turnos claros y emociones en el audio.

00:01:08Lo habitual en la mayoría de demos de TTS es que suenen bien y luego pierdan el hilo,

00:01:14pero escucha lo que pasa aquí. La consistencia de las voces parece mantenerse sólida

00:01:18y las transiciones no fallan. Escuchemos.

00:01:26Suena bastante bien, ¿verdad? No parece que se esté inventando el contexto tras 20 segundos,

00:01:41¿cierto? Ahí está el detalle. Microsoft no ha diseñado esto solo para proyectos pequeños.

00:01:46Es para generación de audio de larga duración y sin conexión. Pero al añadir etiquetas de emoción,

00:01:52empieza a fallar. A diferencia de Chatterbox, por ejemplo, aplica emociones automáticas según las palabras,

00:01:58y eso no es tan bueno. No me convenció. Chatterbox sigue ganando en este aspecto.

00:02:02Pero si estás creando podcasts con IA, narrando documentos, agentes de larga duración

00:02:07o simplemente datos de entrenamiento, esto podría hacer un trabajo decente.

00:02:11Cambiemos de marcha al modo en tiempo real. Esto funciona mucho más rápido que la multi-voz,

00:02:16que, sinceramente, tardó mucho en generarse. Esto es streaming incremental, ideal para

00:02:22respuestas de chatbots y asistentes de voz. La latencia inicial es de unos 300 milisegundos,

00:02:28lo cual es aceptable. No es lo más rápido que he probado. Escuchemos un poco.

00:02:32Imagina beber chocolate caliente en Japón bajo los cerezos en flor.

00:02:35Vale. Y sí, dicen que puede cantar o generar música de fondo si lo fuerzas,

00:02:40pero eso no funcionó. Lo intenté y falló. Pero el punto es:

00:02:43¿está listo para producción en tiempo real? No lo creo. Pero para experimentar y para agentes,

00:02:48sí, está bastante bien. Ahora lo divertido. Hablemos de la clonación de voz porque

00:02:53fue realmente genial. Así fue como lo configuré. Primero, me grabé con Notas de Voz.

00:02:58Uso un Mac. Luego convertí ese archivo a WAV y ejecuté Gradio con este comando.

00:03:04Desde esta interfaz interactiva, puedo elegir mi propia voz como idioma de destino.

00:03:10Eso es todo. Una grabación normal. Lo que uno esperaría es algo parecido a mi voz,

00:03:14pero obviamente falso. Escuchad esto. Esta es mi voz clonada con Vibe Voice.

00:03:19Sinceramente, suena muy bien. Casi demasiado bien porque yo no dije nada de esto. Se parecía

00:03:25bastante a mí, pero si me conoces, probablemente notarías que es falso. Al menos eso espero.

00:03:30No es perfecto, pero es consistente, estable y se mantiene en audios largos. Eso es

00:03:36genial. Microsoft dice que este sistema maneja generación de larga duración de una sola vez y, en la práctica,

00:03:41es notablemente más estable que los procesos tipo Whisper cuando el audio se alarga, ¿verdad?

00:03:47Y si alguna vez has intentado clonar una voz más allá de un clip corto, ya sabes por qué esto importa.

00:03:52Así que sí, las demos fueron impresionantes. Me divertí con ellas, sobre todo con la clonación, pero revisé

00:03:56la documentación, los problemas y los hilos de discusión, y hay opiniones divididas entre desarrolladores.

00:04:02Primero los puntos a favor, luego los problemas que os vais a encontrar. Los pros son sólidos en general.

00:04:08Maneja audio largo sin duda. La mayoría de sistemas TTS pierden el hilo, se vuelven monótonos o fallan tras unos minutos.

00:04:14Vibe Voice está hecho para audios largos y se notó en mis pruebas. Luego están la eficiencia y la expresividad.

00:04:20Usa tokenizadores de audio de baja frecuencia, lo que mantiene el contexto manejable.

00:04:27Añades difusión y un modelo de lenguaje (LLM) de base y obtienes habla expresiva sin un cómputo absurdo.

00:04:33Parece diseñado para ser amigable con el desarrollador. Tiene licencia MIT, funciona offline y

00:04:40corre en GPU domésticas con unos 7 GB de VRAM para tiempo real. Incluye código para ajuste fino, especialmente para ASR.

00:04:47No es un sistema cerrado en absoluto, es muy bueno. Finalmente, como otros proyectos de código abierto,

00:04:53ofrece salida ASR estructurada. Un gran acierto. La diarización de interlocutores y marcas de tiempo integradas

00:04:59ahorran mucho tiempo después. Si has montado procesos de transcripción, sabes que esto no es poca cosa.

00:05:04Ahora, los inconvenientes que noté y que también he visto comentados. Parece software de investigación.

00:05:11Microsoft retiró algunas rutas de código TTS por temor a los deepfakes, lo cual dice mucho. El SDK

00:05:17no es ninguna maravilla, no está pulido. Hay fallos de audio evidentes como en otros programas.

00:05:23A veces oirás una entonación robótica, el ritmo puede fallar y con más de dos o tres voces

00:05:28la calidad decae. A los desarrolladores les encanta el tokenizador pero odian los picos de VRAM.

00:05:33Y la cobertura de idiomas es limitada. Chino e inglés van genial, pero si necesitas

00:05:40cualquier otro idioma, Vibe Voice no te servirá. Por último, tiene la desventaja de

00:05:46cero comprensión semántica: lee el texto, pero no lo entiende. Las etiquetas de emoción ayudan,

00:05:51pero suelen fallar bastante si intentas forzarlas. Sinceramente, es una herramienta increíble

00:05:56para experimentar, pero a largo plazo no estoy seguro de si aguantará el tipo.

00:06:02Ahora, lo que realmente queréis saber: ¿vale la pena dedicarle tiempo comparado con vuestro flujo actual?

00:06:06¿Cómo queda Vibe Voice frente a sus competidores habituales? Empecemos con Chatterbox.

00:06:11Ya hice un vídeo probando Chatterbox y fue una experiencia muy buena. Tenía una latencia

00:06:16de menos de 200 milisegundos, más fuerza emocional y mejores respuestas cortas para agentes.

00:06:22Parecería que Chatterbox gana, pero Vibe Voice lo arrasa en formatos largos. Chatterbox está pensado

00:06:28para monólogos de 30 minutos o menos, y Vibe Voice gestiona mucho mejor los audios de larga duración.

00:06:35Así que es una cuestión de prioridades. Luego, por supuesto, tenemos a 11 Labs.

00:06:42Aquí es sencillo: 11 Labs gana por su pronunciación pulida, clonación de voz sin entrenamiento y su UX,

00:06:48pero donde Vibe Voice gana es en el coste. Es gratis, offline y de código abierto. Una gran ventaja.

00:06:54No estamos pagando por el software. Comparado con Whisper o incluso Cozy Voice, Vibe Voice

00:07:00gana a Whisper cuando el audio es largo y estructurado. Es más expresivo que Cozy Voice

00:07:06y, aunque los modelos TTS basados en Qwen están mejorando en dialectos, Vibe Voice sigue liderando en longitud.

00:07:13Si eres un desarrollador que prefiere trabajar en local, te gusta el código abierto y necesitas audio largo,

00:07:18sinceramente, puedes pasar de esto por ahora. Es solo un proyecto muy chulo para trastear,

00:07:23time. If you want something that's more plug and play production ready, honestly, you can probably

00:07:28incluyendo esa clonación de voz. Vibe Voice es caótico, potente y a la vez emocionante.

00:07:33Es de los sistemas de audio de código abierto más fuertes para voz con IA de larga duración en mucho tiempo.

00:07:37Prueba la demo en Hugging Face, lee la documentación y nos vemos en el próximo vídeo.

00:07:43read some docs, and we'll see you in another video.

Key Takeaway

Vibe Voice es una potente herramienta de código abierto de Microsoft especializada en la generación de audio de larga duración y clonación de voz local, aunque todavía presenta asperezas propias de un software de investigación.

Highlights

Vibe Voice de Microsoft destaca por su capacidad de generar hasta 90 minutos de audio multi-voz de forma local y sin conexión.
El sistema ofrece una latencia de aproximadamente 300 ms en modo de tiempo real

Timeline

Introducción a Vibe Voice y capacidades principales

El narrador presenta Vibe Voice como un nuevo ecosistema de código abierto de Microsoft que compite con herramientas establecidas como 11 Labs y Whisper. Se destaca su capacidad única para funcionar sin conexión a internet y generar sesiones de audio de hasta 90 minutos de forma continua. El autor plantea la duda de si es una herramienta realmente útil para desarrolladores o simplemente un repositorio que consume recursos de GPU sin un fin práctico. Para resolverlo, se propone realizar pruebas de multi-voz, síntesis de voz en tiempo real (TTS) y clonación de voz personal. Este segmento establece las expectativas sobre la versatilidad y potencia bruta del modelo frente a otras alternativas del mercado.

Pruebas de audio multi-voz y gestión de emociones

En esta sección se realiza una demostración utilizando un guion de podcast con tres voces distintas que interactúan con emociones específicas. El narrador observa que, a diferencia de otros modelos que pierden la coherencia tras 20 segundos, Vibe Voice mantiene una consistencia sólida en las transiciones y el contexto. Sin embargo, se critica el sistema de etiquetas de emoción automáticas, las cuales no resultan tan naturales como las de competidores como Chatterbox. El autor concluye que es una herramienta ideal para narrar documentos largos o crear datos de entrenamiento, a pesar de sus fallos en la expresividad emocional fina. La estabilidad en la larga duración se identifica como el principal valor diferencial de la propuesta de Microsoft.

Modo en tiempo real y proceso de clonación de voz

Se explora el funcionamiento del streaming incremental, el cual ofrece una latencia inicial de 300 milisegundos para respuestas rápidas en asistentes virtuales. El narrador intenta forzar al modelo a cantar o generar música de fondo, pero menciona que estas funciones fallaron durante sus pruebas. El punto culminante es la clonación de voz, donde el autor utiliza una grabación propia de Mac convertida a WAV para replicar su tono de voz mediante una interfaz Gradio. El resultado es calificado como "casi demasiado bueno", destacando que la voz clonada es estable y no se degrada en clips extensos. Esta sección subraya la facilidad de uso para desarrolladores que buscan implementar soluciones de voz personalizadas sin configuraciones extremadamente complejas.

Análisis técnico: Ventajas y desventajas para desarrolladores

El autor profundiza en los aspectos técnicos basándose en la documentación y la retroalimentación de la comunidad de desarrolladores. Entre los puntos positivos resalta el uso de tokenizadores de audio de baja frecuencia y la licencia MIT, lo que permite el ajuste fino y la ejecución en GPUs domésticas con 7 GB de VRAM. Por otro lado, se mencionan inconvenientes críticos como la eliminación de ciertas rutas de código por parte de Microsoft para evitar abusos con deepfakes. El software aún se siente como un proyecto de investigación con fallos de entonación robótica, ritmos inconsistentes y una cobertura lingüística muy limitada. Además, se advierte que el modelo carece de comprensión semántica, limitándose a leer el texto sin interpretar su significado profundo.

Comparativa con la competencia y veredicto final

En el cierre del vídeo, se compara Vibe Voice directamente con Chatterbox, 11 Labs y Whisper para ayudar al usuario a decidir si vale la pena el cambio. Mientras que Chatterbox es mejor para respuestas cortas y emocionales, Vibe Voice domina en el formato largo, y aunque 11 Labs ofrece una mejor experiencia de usuario, Vibe Voice es gratuito y local. El narrador sugiere que, aunque es un proyecto emocionante para experimentar, los desarrolladores que busquen algo listo para producción inmediata podrían preferir esperar a que el software esté más pulido. Finalmente, califica al sistema como uno de los más fuertes en el ámbito del código abierto para voz de larga duración. El vídeo concluye invitando a los espectadores a probar la demo en Hugging Face y revisar la documentación oficial.

Community Posts

Write about this video