Probé la alternativa de código abierto a ElevenLabs (Voicebox)
BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology
Transcript
00:00:00Dicen que este es el Olama de la IA de voz. Clona voces, genera habla, dicta en cualquier aplicación,
00:00:07y habla con agentes con voces que realmente posees. Este es VoiceBox, y eso es lo que dice
00:00:13aquí mismo. Es gratis y una alternativa local a 11 Labs, y honestamente, esto fue una locura.
00:00:19Tiene alrededor de 30,000 estrellas en GitHub. Funciona localmente, y en los próximos 60 segundos,
00:00:24les voy a mostrar la clonación, la generación de voz local y el dictado dentro de un editor.
00:00:29¿Qué tan útil es esto para nosotros y qué tan fácil es empezar? Estamos a punto de descubrirlo.
00:00:39Ahora, VoiceBox es un estudio de voz de IA local de código abierto. La forma simple de pensarlo es esta.
00:00:46Olama es para modelos de texto locales. VoiceBox intenta ser eso para la voz. Así que no es solo texto a voz.
00:00:54Hace clonación de voz, dictado en todo el sistema, edición creativa e incluso tiene historias y
00:01:00líneas de tiempo, y se conecta a agentes de IA. Así que esto nos da un control real e incluso más privacidad.
00:01:06Quiero construir cosas sin preguntar, ¿cuántos créditos acabo de usar para probar esto? VoiceBox
00:01:12no pregunta eso, porque VoiceBox se ejecuta en nuestra máquina. Así que no hay suscripción. No hay
00:01:17límites de caracteres. Además, reúne clonación, dictado impulsado por Whisper, un editor multipista,
00:01:23una aplicación de escritorio, soporte MCP y API REST local. Así que en lugar de cinco herramientas separadas,
00:01:29tienes una aplicación de escritorio con todo aquí mismo. Voy a hacer tres cosas en este video.
00:01:36Voy a clonar una voz, voy a hacer que hable y luego voy a usar el dictado dentro del
00:01:41editor. Después de eso, les mostraré por qué la integración con agentes es realmente increíble, o al menos
00:01:46vamos a hablar de ello. Si disfrutan de las herramientas de codificación que aceleran su flujo de trabajo, asegúrense de
00:01:50suscribirse. Tenemos videos saliendo todo el tiempo. Muy bien, ahora estoy ejecutando esto en mi Mac M4.
00:01:55Aquí está VoiceBox. Ya tengo un perfil de voz listo, pero el flujo fue realmente simple. Ahora pueden
00:02:02montar esto con Docker, sí, pero lo hice, y tomó casi 30 minutos poner los contenedores en marcha.
00:02:08Así que para esto, opté por obtener la aplicación de escritorio, que fue mucho más rápida, y es honestamente muy
00:02:13buena. Puedo nombrar el audio aquí. Puedo agregar una descripción e incluso decirle cómo actuar con los
00:02:19modelos. Luego puedo grabarme hablando o subir un archivo corto para que lo analice mientras también
00:02:26dejo caer la transcripción de ese audio. Ahora escribiré una línea que realmente me gustaría usar. Así que
00:02:32tal vez como desarrollador, esto me da control total sobre la IA de voz sin costos en la nube y toda esa privacidad.
00:02:38Elegiré mi perfil de voz. Puedo elegir el modelo que quiero y presionar
00:02:44generar. Ahora, la primera ejecución de esto tendrá que descargar el modelo. Así que podría tomar
00:02:50algo de tiempo, pero después de todo eso, y de haberlo ejecutado, obtenemos formas de onda. Vamos a escuchar.
00:02:57Como desarrollador, esto me da control total sobre la IA de voz sin costos en la nube y toda esa privacidad.
00:03:02Ese audio se generó localmente desde mi máquina y cloné mi propia voz. No hubo ninguna pestaña del navegador.
00:03:09No necesité claves API, pero aquí está la parte que se siente como un flujo de trabajo real. El dictado
00:03:16en todo el sistema. Podría presionar una tecla de acceso rápido global y decir lo que esté pensando en el momento. Si te gusta
00:03:22encontrar herramientas de codificación y trucos como este, revisa nuestro canal. Ahora aterriza directamente dentro de mi editor.
00:03:29Así que, quiero decir, eso fue bastante útil para notas, comentarios o cualquier cosa así.
00:03:33Pero todos estos pequeños momentos donde hablar es en realidad más rápido que escribir, eso es enorme. Esto
00:03:38no es solo para que tú hables con la computadora. Tus agentes podrían hablar de vuelta ahora.
00:03:43Claude Code, Cursor o tu propio agente local pueden activar la voz a través de VoiceBox en su lugar,
00:03:49en lugar de solo volcarlo en tu terminal. Ya estamos recibiendo comentarios de nuestras IA.
00:03:55¿Por qué no hacer que nos hable? Ahora comparemos esto con herramientas que ya conocemos.
00:03:59Por razones obvias, tenemos Eleven Labs. Eleven Labs es genial. Bravo. He hecho comparaciones sobre eso
00:04:05antes. Está alojado. Sabemos que la calidad es increíble. Pero, de nuevo, está basado en la nube. Está
00:04:11impulsado por suscripción. Así que estamos pagando por eso. Estamos subiendo nuestras cosas a la nube.
00:04:16VoiceBox es todo lo contrario. ¿Por qué? Bueno, es local. Es gratis. Es ilimitado. Controlamos
00:04:22todos los datos que entran en él. Eleven Labs todavía puede ganar si lo usas todo el día,
00:04:27pero creo que me quedaré con VoiceBox porque me encantó lo fácil que fue. Y, honestamente, suena muy decente
00:04:33también. Para nosotros, los desarrolladores, la mejor herramienta no siempre es la que tiene la salida más bonita. En realidad, no
00:04:38nos importa eso mucho tiempo. A veces es la que realmente puedes controlar. Luego está el
00:04:43lado de código abierto. Ya podrías usar herramientas como Piper, Whisper y un montón de scripts separados.
00:04:50Pero, de nuevo, lo clave aquí, chicos, es que todos están separados. Tenemos una herramienta para transcripción,
00:04:56una para clonación, una para TTS, una para interfaz de usuario, todas estas cosas que realmente estamos uniendo.
00:05:03VoiceBox empaqueta todo el flujo de trabajo en una aplicación de estudio. Entrada, salida, edición, perfiles,
00:05:09documentación, integración de agentes, y diablos, también podrías usar el servidor MCP. Como dije,
00:05:14eso significa que Claude o Cursor pueden llamar a VoiceBox como una herramienta en lugar de que tu agente solo responda
00:05:20con texto. Ahora te habla de vuelta. Pero, ¿quieres escucharte hablar de vuelta? No lo sé.
00:05:25Tal vez cambia la voz para eso. Pero imagina a tu agente de codificación diciendo: “La compilación falló. Tres módulos de prueba
00:05:30rompieron el módulo de autenticación”. Eso no suena real hasta que te das cuenta de cuántas veces al día ya estás
00:05:36recibiendo comentarios de tus herramientas. VoiceBox solo les da a esas actualizaciones una voz real.
00:05:42Entonces, ¿por qué me gustó tanto esta comparada con otras? Bueno, privacidad y costo. Honestamente,
00:05:48esas son las grandes victorias, al menos para mí. Son victorias fáciles. Para muestras de voz, audio,
00:05:53contenido interno o cualquier cosa realmente sensible, lo local primero es lo que queremos. Es genial.
00:05:57Luego está la integración de agentes, que no puse en la prueba completa aquí, pero los desarrolladores ya están
00:06:02hablando de ello mientras lo integran en Claude Code, Cursor. VoiceBox les da a esos sistemas
00:06:08una capa de voz sin necesidad de un proveedor de voz alojado. El flujo de trabajo fue bastante limpio. Me gusta
00:06:14que todo esté en una interfaz de usuario que podemos controlar. Es realmente fácil. Y si estás en Apple Silicon,
00:06:18especialmente el rendimiento local es una de las razones por las que esto se sintió tan bien. Pero aquí está
00:06:23lo que debes tener en cuenta con todo esto. Salió este año. Todavía es temprano. Así que habrá
00:06:28problemas. Algunos usuarios van a tener dificultades si estás en Windows, especialmente con la detección de GPU,
00:06:33la configuración del modelo y las exportaciones. Si esto sucede, solo reinicia la aplicación. Tuve el problema
00:06:39en mi Mac. Reiniciarla lo soluciona. La consistencia a largo plazo también puede quedarse atrás de Eleven Labs.
00:06:46En el control de emociones, está mejorando, pero eso depende del modelo que elijas. Si eliges
00:06:50Shatterbox TTS Turbo, entonces tenemos esas emociones incorporadas.
00:06:55Entonces, ¿deberías instalar VoiceBox? Honestamente, fue súper fácil. Vale la pena probarlo
00:07:00porque elimina gran parte de la fricción que tenemos de los flujos de trabajo que estamos
00:07:04juntando. El valor principal no es solo la calidad de la voz. Es realmente el control
00:07:09que se nos da aquí. Es control sobre los datos, control sobre los costos, sobre la integración. Eso es
00:07:15por lo que todo esto realmente importa. Ahora, empezar fue increíblemente simple. Cualquiera podría hacerlo. Ve al
00:07:20sitio web de VoiceBox o lanzamientos de GitHub, descarga el instalador para tu plataforma, inicia la aplicación,
00:07:25y luego descarga los modelos locales que necesites. Pero la idea central aquí es realmente fuerte,
00:07:30y ya es lo suficientemente útil como para instalarla. Si disfrutas de las herramientas de codificación como esta,
00:07:35asegúrate de suscribirte al canal BetterStack. Nos vemos en otro video.