SpeechBrain: ¿Qué vale la pena usar realmente?

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Esto es SpeechBrain, un toolkit de código abierto nativo de PyTorch que nos permite crear y lanzar
00:00:05funciones de IA de voz usando modelos preentrenados. Desde eliminación de ruido y verificación de voz,
00:00:10hasta ASR. Sin entrenamientos ni ajustes finos. Hagamos una verificación rápida de audio aquí. Seguro
00:00:15esperáis un audio mejor. Pues sí, eso ocurre de forma natural aquí. Según esto,
00:00:19no soy la misma persona, y eso es porque estoy usando un transformador de voz en el segundo clip.
00:00:23Así que la verificación de voz funciona. Ahora veamos qué más puede hacer. Publicamos vídeos
00:00:28continuamente. No olvidéis suscribiros. Un breve resumen antes de las primeras demos.
00:00:38SpeechBrain ofrece mejora de ASR, separación, ID de locutor, TTS... realmente todo el ecosistema.
00:00:44Y aquí viene lo importante si sois desarrolladores: más de 9000 estrellas en GitHub, integración total
00:00:51con Hugging Face, instalación en una línea y carga de modelos en un par más. Está hecho para quienes
00:00:56quieren lanzar productos rápido, no perder tiempo leyendo manuales. Aquí está el código inicial que amplié
00:01:02para ponerlo en marcha. Gran parte del código lo encontré en su propia documentación. Decidí usar
00:01:08Gradio para construir la interfaz. Gradio es una librería de Python para apps de ML que funciona de
00:01:14maravilla para esto. Vale, esto parecerá un truco si no lo habéis visto antes. Muchas demos de mejora
00:01:20hacen trampa con audios perfectos. Yo haré lo contrario: voy a poner ruido de fondo
00:01:24a todo volumen ahora mismo. Sobre todo música. Allá vamos. Hablo normal, grabándome
00:01:31por encima de esta música. Aquí está el audio original. Sí, suena bastante mal. Mirad ahora la salida mejorada.
00:01:37Estoy hablando normal. Misma voz, sin ruido, sin trucos de posprocesamiento. La conclusión es:
00:01:44esto se ejecuta en segundos. Sirve para apps de llamadas, pódcasts, limpieza de audio, dispositivos integrados...
00:01:51cualquier cosa con micro y mala acústica. El código: cargar modelo y llamar a "enhanced batch", listo.
00:01:57Aunque la documentación me costó un poco, tuve que ajustar el código para que fuera mejor en Mac.
00:02:02Me daba algunos fallos. Lo siguiente es la verificación de voz, que mencioné
00:02:07al principio. Para que sepáis qué esperar: la gente oye "autenticación de voz" y cree que es complejo.
00:02:13Aviso: no lo es, al menos no con esto. Voy a registrar mi voz aquí. "Hola, esta es mi voz".
00:02:20Esa fue la primera grabación. Ahora haré lo mismo una segunda vez.
00:02:26"Hola, esta es mi voz". Ahora verificamos: mismo locutor. La puntuación es alta. Coincidencia confirmada.
00:02:36Tenemos la puntuación y el ranking en el resultado. Si repito la prueba sin usar el transformador de voz,
00:02:42veamos qué pasa. ¿Qué has desayunado? Vale, ahora voy a cambiar el tono. No os riáis
00:02:48mucho de mí. ¿Qué has desayunado? La similitud baja un poco más,
00:02:56pero sigue indicando que soy el mismo locutor. Esto está preentrenado con VoxCeleb.
00:03:01De nuevo, rápido con el transformador de voz. Esta es mi voz normal. Si activo
00:03:08el transformador: esta es mi voz normal. Para que lo oigáis vosotros, el segundo clip
00:03:17suena más o menos así. "Esta es mi voz normal". Un poco brusco, ¿verdad? Se nota
00:03:22el transformador. Sí, no coinciden para nada, y el resultado lo confirma.
00:03:27Si estáis creando apps multiusuario con voz o algo que requiera identificar quién habla,
00:03:32esto es ideal. En mi demo final, esto debería ser el pilar. Las demos de transcripción
00:03:37en vivo suelen impresionar hasta que lo intentas con este habla. Voy a hablar normal.
00:03:43Esta función no va muy bien, la verdad, y la documentación no ayudó mucho,
00:03:48así que no sé qué pensar. Honestamente, parece una transcripción normal y corriente.
00:03:53Debería haberse suscrito automáticamente pero dio mil errores, y ni siquiera hace
00:03:58eso. Sí, transcribe, pero hay muchísimas librerías que lo hacen. Esta característica
00:04:04no me impresionó, al menos al intentar que fuera automático. Simplemente no funcionó.
00:04:08Aun así, tiene cosas geniales, ¿no? Hemos visto la verificación de voz, la cancelación de ruido,
00:04:13pero hay detalles que aún no están pulidos. Eso es básicamente SpeechBrain en resumen.
00:04:18En general, es rápido, es abierto y está hecho para desarrolladores. Podéis echarle
00:04:22un vistazo vosotros mismos. Os dejo los enlaces en la descripción y nos vemos en el próximo
00:04:26vídeo.

Key Takeaway

SpeechBrain se posiciona como una herramienta potente y rápida para desarrolladores que buscan implementar funciones avanzadas de procesamiento de voz, destacando en limpieza y verificación de audio pese a ciertas asperezas en su documentación y funciones automáticas.

Highlights

SpeechBrain es un toolkit de código abierto nativo de PyTorch diseñado para implementar IA de voz rápidamente.

Ofrece funcionalidades clave como mejora de audio

Timeline

Introducción a SpeechBrain y capacidades básicas

El presentador introduce SpeechBrain como un ecosistema de código abierto basado en PyTorch que permite lanzar funciones de IA de voz sin necesidad de entrenamientos largos. Se mencionan capacidades fundamentales como la eliminación de ruido y la verificación de voz mediante modelos preentrenados. Durante este segmento, el autor realiza una prueba inicial utilizando un transformador de voz para demostrar que el sistema puede detectar cambios de identidad. El objetivo principal es mostrar la versatilidad del toolkit para desarrolladores que buscan agilidad. Esta sección establece la base técnica sobre la cual se construirán las demostraciones posteriores del vídeo.

Ecosistema para desarrolladores e integración

En este apartado, se analiza el valor de SpeechBrain para la comunidad de desarrollo, destacando sus 9000 estrellas en GitHub y su integración con Hugging Face. El autor explica que la instalación es extremadamente sencilla y la carga de modelos solo requiere un par de líneas de código adicionales. Se menciona el uso de Gradio como la librería de Python predilecta para construir la interfaz de usuario de las demos de aprendizaje automático. El presentador subraya que gran parte del código inicial fue extraído directamente de la documentación oficial del proyecto. Esta sección es crucial para entender por qué la herramienta es atractiva para lanzar productos mínimos viables de forma acelerada.

Demostración de mejora de audio y eliminación de ruido

El autor realiza una prueba de fuego de la función de mejora de audio introduciendo música a todo volumen como ruido de fondo. A diferencia de otras demos que usan audios limpios, aquí se busca demostrar la eficacia del modelo en condiciones reales y adversas. Al procesar el audio con la función "enhanced batch", el resultado muestra una voz clara y sin ruido, ejecutándose en apenas unos segundos. El presentador destaca que esta funcionalidad es ideal para aplicaciones de llamadas, pódcasts y dispositivos integrados con mala acústica. Sin embargo, menciona que tuvo que realizar ajustes específicos en el código para que funcionara correctamente en hardware Mac debido a errores menores.

Verificación de voz y autenticación biométrica

Esta sección se centra en desmitificar la complejidad de la autenticación de voz mediante el uso de modelos preentrenados con el conjunto de datos VoxCeleb. El autor registra su voz dos veces para mostrar cómo el sistema otorga una puntuación de similitud alta y confirma la coincidencia del locutor. Incluso al cambiar el tono de voz de manera exagerada, el sistema es capaz de identificar que se trata de la misma persona con una puntuación aceptable. Por el contrario, al usar un transformador de voz electrónico, el sistema rechaza correctamente la identidad, demostrando su robustez. Este pilar tecnológico es fundamental para aplicaciones multiusuario que requieran seguridad o personalización basada en la identidad vocal.

Crítica de la transcripción y conclusiones finales

La última parte del vídeo aborda la función de transcripción en vivo, la cual no logra impresionar al autor debido a múltiples errores técnicos. El presentador critica que la documentación no fue de gran ayuda para resolver los fallos de automatización y que la calidad no supera a otras librerías existentes. A pesar de este punto negativo, el balance general de SpeechBrain es positivo gracias a su velocidad y naturaleza abierta para desarrolladores. Se concluye que, aunque hay detalles por pulir, es una herramienta esencial para quienes buscan potencia en procesamiento de audio. El vídeo finaliza invitando a la audiencia a revisar los enlaces en la descripción para experimentar con el toolkit.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video