00:00:00Esto se podría haber resuelto con un correo.
00:00:02Esto se podría haber resuelto con un correo.
00:00:04La misma frase, dos interpretaciones totalmente distintas.
00:00:07Simplemente escribí “empieza normal” y luego pasé a un tono de queja frustrada.
00:00:11Eso es todo.
00:00:12Sin etiquetas especiales ni APIs que envíen tus datos a otro lugar.
00:00:15Esto es Qwen 2 TTS.
00:00:17Su nuevo modelo de voz de código abierto que permite dirigir el tono y realmente escucha.
00:00:22Veamos cómo se compara con Eleven Labs o incluso con ChatTTS.
00:00:30Muchos de los modelos de voz de código abierto carecen de emoción.
00:00:34He probado ChatTTS y la verdad es que era decente.
00:00:37Sabiendo que Qwen tiene esto, no solo quería ver la clonación de voz,
00:00:41sino también cómo se compara su emotividad con los demás.
00:00:44Y sinceramente, me llevé una grata sorpresa.
00:00:47ChatTTS tiene un control deslizante de emoción, mientras que en Qwen,
00:00:50literalmente escribes cómo quieres que suene, lo que nos da un poco más de libertad.
00:00:55El modelo ligero permite clonar voces en tres segundos; vamos a probarlo.
00:00:59Al pasar al modelo 1.7B, perdemos la clonación de voz,
00:01:02pero ganamos streaming en tiempo real con 97 milisegundos de latencia,
00:01:0510 idiomas con cambio natural de lengua, y es 100 % local.
00:01:09Es gratis.
00:01:09Tiene licencia Apache 2.0.
00:01:11Eso significa prototipos más rápidos, agentes de voz privados y herramientas de accesibilidad.
00:01:16Si siempre buscas las últimas herramientas, asegúrate de suscribirte.
00:01:19Sacamos vídeos constantemente.
00:01:21Clonar es fácil.
00:01:22La emoción es lo difícil.
00:01:23Así que vamos a intentar ponerlo a prueba.
00:01:25Primero probaremos la clonación.
00:01:28Subiré primero mi voz, que ya grabé como referencia, aquí.
00:01:32Luego, en el texto de referencia, tengo que escribir lo que dije en ese audio.
00:01:37Y aquí en el texto de destino escribiré lo que quiero que diga el resultado.
00:01:42Eso es todo.
00:01:43En realidad, tardó mucho más de lo que pensaba en ejecutarse.
00:01:46Esperaba que la calidad estuviera a la altura, pero escuchemos.
00:01:49¿Cómo suena usando este modelo?
00:01:51Bueno, para ser un modelo ligero, especialmente Qwen, estuvo aceptable,
00:01:55pero se notan claramente algunas partes que suenan generadas.
00:01:59Así que no fue nada del otro mundo.
00:02:01La mejor clonación que he encontrado es Vibe Voice de Microsoft, que es increíble.
00:02:07Esto fue solo decente.
00:02:08Vale.
00:02:09Clonación de voz lista.
00:02:10Hecho.
00:02:11Pero ahora pasemos al modelo 1.7B para empezar a añadir emoción
00:02:16al texto y ver cómo lo gestiona Qwen.
00:02:19Os enseñaré algo que realmente parece útil.
00:02:22Escribiré en el cuadro de instrucciones: “cuéntalo como un narrador de suspense,
00:02:26con una progresión lenta y una risa de alivio al final”.
00:02:28Y aquí, quiero que diga información básica sobre Qwen, ya que estamos.
00:02:32¿Por qué no?
00:02:33Vamos a escuchar.
00:02:34El nuevo modelo de texto a voz de código abierto de Alibaba que
00:02:37por fin te hace sentir que hablas con un actor de voz real.
00:02:42Vale.
00:02:42Hubo una pequeña discrepancia.
00:02:44No captó todos los matices, pero acertó en muchos.
00:02:47No hay menús desplegables ni preajustes.
00:02:49Nosotros guiamos cómo queremos que suene.
00:02:51Ahora creemos una voz con la que realmente podríamos interactuar.
00:02:55Quizá estamos creando un proyecto.
00:02:57Vamos a poner algo de contenido aquí.
00:02:58Diré algo sobre escribir pruebas de código.
00:03:01Y en las instrucciones, pondremos: “voz de desarrollador joven y entusiasta,
00:03:03un poco sarcástico pero amable”.
00:03:07No estoy eligiendo el “ajuste predeterminado 12”.
00:03:10He descrito exactamente cómo quiero que suene esa personalidad.
00:03:13Escuchemos.
00:03:14Escribir pruebas de código significa verificar cuidadosamente que tu programa hace lo que se supone que debe hacer.
00:03:20Ahora pensaréis: ¿cómo se compara con otros?
00:03:22Bueno, Eleven Labs sigue siendo el rey, pero cuesta dinero y tus datos salen de tu equipo.
00:03:26ChatTTS es excelente.
00:03:28Es de los mejores que he usado y tiene buena expresividad.
00:03:31Si lo que buscáis es clonación, me sigo quedando con Vibe Voice, que era inquietantemente bueno.
00:03:36Qwen TTS gana cuando quieres describir la voz de forma natural e iterar rápido.
00:03:41Evidentemente, tiene puntos muy positivos.
00:03:43Me gusta el control por lenguaje natural para iterar con rapidez.
00:03:47Es totalmente local, privado y está listo para streaming
00:03:50con agentes en tiempo real; el diseño de voz aquí es mucho más intuitivo.
00:03:55Lo que no nos gusta tanto, o debería decir,
00:03:57lo que no me gusta es que es un modelo muy nuevo, ¿no?
00:04:00Así que todavía está madurando en algunos idiomas.
00:04:03Como en cualquier TTS, se recomienda una GPU para un mejor rendimiento.
00:04:06Aunque funciona con CPU,
00:04:07simplemente irá más lento.
00:04:09Y la emoción depende mucho de cómo lo pidas, de las instrucciones.
00:04:13Si tu indicación es vaga, el resultado también lo será.
00:04:16La gran pregunta es: ¿la instalación es un suplicio?
00:04:19No, en absoluto.
00:04:20Súper sencillo.
00:04:22Clonas el repo, instalas dependencias, lanzas la interfaz web y abres localhost.
00:04:26Eso es todo lo que hice; de cero a una demo funcional en literalmente unos minutos.
00:04:32Sin llaves API.
00:04:33Sin facturas.
00:04:34Y todo en tu propia máquina.
00:04:35Así es como debería sentirse la voz de código abierto.
00:04:38Por eso es genial probar estas herramientas de voz abiertas para ver qué ofrece cada una.
00:04:43Qwen 2 TTS: rápido, privado y con más control para el desarrollador.
00:04:46Pruébalo tú mismo.
00:04:48He dejado los enlaces abajo.
00:04:49Y si quieres más herramientas locales como esta, no olvides suscribirte.
00:04:52Nos vemos en el próximo vídeo.