Qwen TTS acaba de cambiar las voces de código abierto

BBetter Stack
Computing/SoftwareSmall Business/StartupsLanguagesInternet Technology

Transcript

00:00:00Esto se podría haber resuelto con un correo.
00:00:02Esto se podría haber resuelto con un correo.
00:00:04La misma frase, dos interpretaciones totalmente distintas.
00:00:07Simplemente escribí “empieza normal” y luego pasé a un tono de queja frustrada.
00:00:11Eso es todo.
00:00:12Sin etiquetas especiales ni APIs que envíen tus datos a otro lugar.
00:00:15Esto es Qwen 2 TTS.
00:00:17Su nuevo modelo de voz de código abierto que permite dirigir el tono y realmente escucha.
00:00:22Veamos cómo se compara con Eleven Labs o incluso con ChatTTS.
00:00:30Muchos de los modelos de voz de código abierto carecen de emoción.
00:00:34He probado ChatTTS y la verdad es que era decente.
00:00:37Sabiendo que Qwen tiene esto, no solo quería ver la clonación de voz,
00:00:41sino también cómo se compara su emotividad con los demás.
00:00:44Y sinceramente, me llevé una grata sorpresa.
00:00:47ChatTTS tiene un control deslizante de emoción, mientras que en Qwen,
00:00:50literalmente escribes cómo quieres que suene, lo que nos da un poco más de libertad.
00:00:55El modelo ligero permite clonar voces en tres segundos; vamos a probarlo.
00:00:59Al pasar al modelo 1.7B, perdemos la clonación de voz,
00:01:02pero ganamos streaming en tiempo real con 97 milisegundos de latencia,
00:01:0510 idiomas con cambio natural de lengua, y es 100 % local.
00:01:09Es gratis.
00:01:09Tiene licencia Apache 2.0.
00:01:11Eso significa prototipos más rápidos, agentes de voz privados y herramientas de accesibilidad.
00:01:16Si siempre buscas las últimas herramientas, asegúrate de suscribirte.
00:01:19Sacamos vídeos constantemente.
00:01:21Clonar es fácil.
00:01:22La emoción es lo difícil.
00:01:23Así que vamos a intentar ponerlo a prueba.
00:01:25Primero probaremos la clonación.
00:01:28Subiré primero mi voz, que ya grabé como referencia, aquí.
00:01:32Luego, en el texto de referencia, tengo que escribir lo que dije en ese audio.
00:01:37Y aquí en el texto de destino escribiré lo que quiero que diga el resultado.
00:01:42Eso es todo.
00:01:43En realidad, tardó mucho más de lo que pensaba en ejecutarse.
00:01:46Esperaba que la calidad estuviera a la altura, pero escuchemos.
00:01:49¿Cómo suena usando este modelo?
00:01:51Bueno, para ser un modelo ligero, especialmente Qwen, estuvo aceptable,
00:01:55pero se notan claramente algunas partes que suenan generadas.
00:01:59Así que no fue nada del otro mundo.
00:02:01La mejor clonación que he encontrado es Vibe Voice de Microsoft, que es increíble.
00:02:07Esto fue solo decente.
00:02:08Vale.
00:02:09Clonación de voz lista.
00:02:10Hecho.
00:02:11Pero ahora pasemos al modelo 1.7B para empezar a añadir emoción
00:02:16al texto y ver cómo lo gestiona Qwen.
00:02:19Os enseñaré algo que realmente parece útil.
00:02:22Escribiré en el cuadro de instrucciones: “cuéntalo como un narrador de suspense,
00:02:26con una progresión lenta y una risa de alivio al final”.
00:02:28Y aquí, quiero que diga información básica sobre Qwen, ya que estamos.
00:02:32¿Por qué no?
00:02:33Vamos a escuchar.
00:02:34El nuevo modelo de texto a voz de código abierto de Alibaba que
00:02:37por fin te hace sentir que hablas con un actor de voz real.
00:02:42Vale.
00:02:42Hubo una pequeña discrepancia.
00:02:44No captó todos los matices, pero acertó en muchos.
00:02:47No hay menús desplegables ni preajustes.
00:02:49Nosotros guiamos cómo queremos que suene.
00:02:51Ahora creemos una voz con la que realmente podríamos interactuar.
00:02:55Quizá estamos creando un proyecto.
00:02:57Vamos a poner algo de contenido aquí.
00:02:58Diré algo sobre escribir pruebas de código.
00:03:01Y en las instrucciones, pondremos: “voz de desarrollador joven y entusiasta,
00:03:03un poco sarcástico pero amable”.
00:03:07No estoy eligiendo el “ajuste predeterminado 12”.
00:03:10He descrito exactamente cómo quiero que suene esa personalidad.
00:03:13Escuchemos.
00:03:14Escribir pruebas de código significa verificar cuidadosamente que tu programa hace lo que se supone que debe hacer.
00:03:20Ahora pensaréis: ¿cómo se compara con otros?
00:03:22Bueno, Eleven Labs sigue siendo el rey, pero cuesta dinero y tus datos salen de tu equipo.
00:03:26ChatTTS es excelente.
00:03:28Es de los mejores que he usado y tiene buena expresividad.
00:03:31Si lo que buscáis es clonación, me sigo quedando con Vibe Voice, que era inquietantemente bueno.
00:03:36Qwen TTS gana cuando quieres describir la voz de forma natural e iterar rápido.
00:03:41Evidentemente, tiene puntos muy positivos.
00:03:43Me gusta el control por lenguaje natural para iterar con rapidez.
00:03:47Es totalmente local, privado y está listo para streaming
00:03:50con agentes en tiempo real; el diseño de voz aquí es mucho más intuitivo.
00:03:55Lo que no nos gusta tanto, o debería decir,
00:03:57lo que no me gusta es que es un modelo muy nuevo, ¿no?
00:04:00Así que todavía está madurando en algunos idiomas.
00:04:03Como en cualquier TTS, se recomienda una GPU para un mejor rendimiento.
00:04:06Aunque funciona con CPU,
00:04:07simplemente irá más lento.
00:04:09Y la emoción depende mucho de cómo lo pidas, de las instrucciones.
00:04:13Si tu indicación es vaga, el resultado también lo será.
00:04:16La gran pregunta es: ¿la instalación es un suplicio?
00:04:19No, en absoluto.
00:04:20Súper sencillo.
00:04:22Clonas el repo, instalas dependencias, lanzas la interfaz web y abres localhost.
00:04:26Eso es todo lo que hice; de cero a una demo funcional en literalmente unos minutos.
00:04:32Sin llaves API.
00:04:33Sin facturas.
00:04:34Y todo en tu propia máquina.
00:04:35Así es como debería sentirse la voz de código abierto.
00:04:38Por eso es genial probar estas herramientas de voz abiertas para ver qué ofrece cada una.
00:04:43Qwen 2 TTS: rápido, privado y con más control para el desarrollador.
00:04:46Pruébalo tú mismo.
00:04:48He dejado los enlaces abajo.
00:04:49Y si quieres más herramientas locales como esta, no olvides suscribirte.
00:04:52Nos vemos en el próximo vídeo.

Key Takeaway

Qwen 2 TTS revoluciona el audio de código abierto al permitir un control emocional preciso mediante lenguaje natural y procesamiento local de baja latencia.

Highlights

Qwen 2 TTS permite dirigir el tono y la emoción de la voz mediante instrucciones en lenguaje natural.

El modelo ofrece una latencia de streaming en tiempo real de solo 97 milisegundos.

Soporta 10 idiomas con cambios naturales de lengua y funciona de manera 100 % local.

Cuenta con una licencia Apache 2.0

Timeline

Introducción a Qwen 2 TTS y Control de Tono

El video comienza demostrando cómo una misma frase puede sonar radicalmente distinta según la instrucción emocional proporcionada. El presentador introduce Qwen 2 TTS como un modelo de código abierto que escucha y se adapta al tono solicitado por el usuario. Se destaca que no requiere etiquetas especiales ni el envío de datos a servidores externos para funcionar. Esta sección establece la premisa de que la interactividad natural es la mayor ventaja del modelo frente a competidores. El narrador anticipa una comparativa directa con servicios líderes como Eleven Labs y ChatTTS.

Comparativa de Modelos y Especificaciones Técnicas

El ponente analiza las carencias de emoción en modelos tradicionales de código abierto y compara a Qwen con ChatTTS. Explica que mientras otros usan controles deslizantes, Qwen permite escribir descripciones textuales para definir la personalidad de la voz. Se detallan dos variantes: un modelo ligero para clonación en tres segundos y el modelo 1.7B enfocado en rendimiento. Este último destaca por su bajísima latencia de 97ms, soporte para 10 idiomas y su licencia gratuita Apache 2.0. El objetivo de este apartado es mostrar la versatilidad del modelo para agentes de voz y herramientas de accesibilidad locales.

Prueba de Clonación de Voz y Calidad de Audio

En este segmento se realiza una prueba práctica de la función de clonación utilizando un audio de referencia del propio narrador. Se explica el proceso de introducir el texto de referencia y el texto de destino para generar el nuevo audio. Tras escuchar el resultado, el presentador califica la calidad como "aceptable" pero nota ciertos artefactos que delatan su origen artificial. Menciona que, aunque es funcional para un modelo ligero, no alcanza el nivel de realismo de Vibe Voice de Microsoft. Esta evaluación honesta sitúa a Qwen como una herramienta equilibrada pero no necesariamente líder en clonación pura.

Generación de Emociones y Personalidades Mediante Prompting

El enfoque se traslada al modelo 1.7B para poner a prueba la capacidad de interpretación emocional mediante lenguaje natural. El narrador solicita una voz de "narrador de suspense" y luego una de "desarrollador joven y sarcástico" para observar los cambios matizados. Los resultados muestran que el modelo es capaz de captar la mayoría de las instrucciones, como la risa de alivio o el tono entusiasta. Se enfatiza que el diseño de voz es mucho más intuitivo al no depender de preajustes numerados. Este apartado demuestra la libertad creativa que ofrece Qwen al diseñar interfaces de voz más humanas.

Análisis de Ventajas, Desventajas e Instalación

Para finalizar, se comparan los pros y contras de Qwen TTS frente a Eleven Labs y ChatTTS, resaltando la privacidad y la velocidad de iteración local. El presentador advierte que el modelo aún está madurando en ciertos idiomas y que requiere una GPU para un rendimiento óptimo, aunque funcione en CPU. La instalación se describe como sumamente sencilla, basándose en clonar el repositorio y ejecutar una interfaz web local. No hay facturas ni claves API, lo que representa el ideal del software de código abierto según el autor. El video concluye invitando a los usuarios a probar la herramienta mediante los enlaces proporcionados en la descripción.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video