00:00:00Esto es SpeechBrain, un toolkit de código abierto nativo de PyTorch que nos permite crear y lanzar
00:00:05funciones de IA de voz usando modelos preentrenados. Desde eliminación de ruido y verificación de voz,
00:00:10hasta ASR. Sin entrenamientos ni ajustes finos. Hagamos una verificación rápida de audio aquí. Seguro
00:00:15esperáis un audio mejor. Pues sí, eso ocurre de forma natural aquí. Según esto,
00:00:19no soy la misma persona, y eso es porque estoy usando un transformador de voz en el segundo clip.
00:00:23Así que la verificación de voz funciona. Ahora veamos qué más puede hacer. Publicamos vídeos
00:00:28continuamente. No olvidéis suscribiros. Un breve resumen antes de las primeras demos.
00:00:38SpeechBrain ofrece mejora de ASR, separación, ID de locutor, TTS... realmente todo el ecosistema.
00:00:44Y aquí viene lo importante si sois desarrolladores: más de 9000 estrellas en GitHub, integración total
00:00:51con Hugging Face, instalación en una línea y carga de modelos en un par más. Está hecho para quienes
00:00:56quieren lanzar productos rápido, no perder tiempo leyendo manuales. Aquí está el código inicial que amplié
00:01:02para ponerlo en marcha. Gran parte del código lo encontré en su propia documentación. Decidí usar
00:01:08Gradio para construir la interfaz. Gradio es una librería de Python para apps de ML que funciona de
00:01:14maravilla para esto. Vale, esto parecerá un truco si no lo habéis visto antes. Muchas demos de mejora
00:01:20hacen trampa con audios perfectos. Yo haré lo contrario: voy a poner ruido de fondo
00:01:24a todo volumen ahora mismo. Sobre todo música. Allá vamos. Hablo normal, grabándome
00:01:31por encima de esta música. Aquí está el audio original. Sí, suena bastante mal. Mirad ahora la salida mejorada.
00:01:37Estoy hablando normal. Misma voz, sin ruido, sin trucos de posprocesamiento. La conclusión es:
00:01:44esto se ejecuta en segundos. Sirve para apps de llamadas, pódcasts, limpieza de audio, dispositivos integrados...
00:01:51cualquier cosa con micro y mala acústica. El código: cargar modelo y llamar a "enhanced batch", listo.
00:01:57Aunque la documentación me costó un poco, tuve que ajustar el código para que fuera mejor en Mac.
00:02:02Me daba algunos fallos. Lo siguiente es la verificación de voz, que mencioné
00:02:07al principio. Para que sepáis qué esperar: la gente oye "autenticación de voz" y cree que es complejo.
00:02:13Aviso: no lo es, al menos no con esto. Voy a registrar mi voz aquí. "Hola, esta es mi voz".
00:02:20Esa fue la primera grabación. Ahora haré lo mismo una segunda vez.
00:02:26"Hola, esta es mi voz". Ahora verificamos: mismo locutor. La puntuación es alta. Coincidencia confirmada.
00:02:36Tenemos la puntuación y el ranking en el resultado. Si repito la prueba sin usar el transformador de voz,
00:02:42veamos qué pasa. ¿Qué has desayunado? Vale, ahora voy a cambiar el tono. No os riáis
00:02:48mucho de mí. ¿Qué has desayunado? La similitud baja un poco más,
00:02:56pero sigue indicando que soy el mismo locutor. Esto está preentrenado con VoxCeleb.
00:03:01De nuevo, rápido con el transformador de voz. Esta es mi voz normal. Si activo
00:03:08el transformador: esta es mi voz normal. Para que lo oigáis vosotros, el segundo clip
00:03:17suena más o menos así. "Esta es mi voz normal". Un poco brusco, ¿verdad? Se nota
00:03:22el transformador. Sí, no coinciden para nada, y el resultado lo confirma.
00:03:27Si estáis creando apps multiusuario con voz o algo que requiera identificar quién habla,
00:03:32esto es ideal. En mi demo final, esto debería ser el pilar. Las demos de transcripción
00:03:37en vivo suelen impresionar hasta que lo intentas con este habla. Voy a hablar normal.
00:03:43Esta función no va muy bien, la verdad, y la documentación no ayudó mucho,
00:03:48así que no sé qué pensar. Honestamente, parece una transcripción normal y corriente.
00:03:53Debería haberse suscrito automáticamente pero dio mil errores, y ni siquiera hace
00:03:58eso. Sí, transcribe, pero hay muchísimas librerías que lo hacen. Esta característica
00:04:04no me impresionó, al menos al intentar que fuera automático. Simplemente no funcionó.
00:04:08Aun así, tiene cosas geniales, ¿no? Hemos visto la verificación de voz, la cancelación de ruido,
00:04:13pero hay detalles que aún no están pulidos. Eso es básicamente SpeechBrain en resumen.
00:04:18En general, es rápido, es abierto y está hecho para desarrolladores. Podéis echarle
00:04:22un vistazo vosotros mismos. Os dejo los enlaces en la descripción y nos vemos en el próximo
00:04:26vídeo.