Probé la alternativa de código abierto a ElevenLabs (Voicebox)

BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology

Transcript

00:00:00Dicen que este es el Olama de la IA de voz. Clona voces, genera habla, dicta en cualquier aplicación,
00:00:07y habla con agentes con voces que realmente posees. Este es VoiceBox, y eso es lo que dice
00:00:13aquí mismo. Es gratis y una alternativa local a 11 Labs, y honestamente, esto fue una locura.
00:00:19Tiene alrededor de 30,000 estrellas en GitHub. Funciona localmente, y en los próximos 60 segundos,
00:00:24les voy a mostrar la clonación, la generación de voz local y el dictado dentro de un editor.
00:00:29¿Qué tan útil es esto para nosotros y qué tan fácil es empezar? Estamos a punto de descubrirlo.
00:00:39Ahora, VoiceBox es un estudio de voz de IA local de código abierto. La forma simple de pensarlo es esta.
00:00:46Olama es para modelos de texto locales. VoiceBox intenta ser eso para la voz. Así que no es solo texto a voz.
00:00:54Hace clonación de voz, dictado en todo el sistema, edición creativa e incluso tiene historias y
00:01:00líneas de tiempo, y se conecta a agentes de IA. Así que esto nos da un control real e incluso más privacidad.
00:01:06Quiero construir cosas sin preguntar, ¿cuántos créditos acabo de usar para probar esto? VoiceBox
00:01:12no pregunta eso, porque VoiceBox se ejecuta en nuestra máquina. Así que no hay suscripción. No hay
00:01:17límites de caracteres. Además, reúne clonación, dictado impulsado por Whisper, un editor multipista,
00:01:23una aplicación de escritorio, soporte MCP y API REST local. Así que en lugar de cinco herramientas separadas,
00:01:29tienes una aplicación de escritorio con todo aquí mismo. Voy a hacer tres cosas en este video.
00:01:36Voy a clonar una voz, voy a hacer que hable y luego voy a usar el dictado dentro del
00:01:41editor. Después de eso, les mostraré por qué la integración con agentes es realmente increíble, o al menos
00:01:46vamos a hablar de ello. Si disfrutan de las herramientas de codificación que aceleran su flujo de trabajo, asegúrense de
00:01:50suscribirse. Tenemos videos saliendo todo el tiempo. Muy bien, ahora estoy ejecutando esto en mi Mac M4.
00:01:55Aquí está VoiceBox. Ya tengo un perfil de voz listo, pero el flujo fue realmente simple. Ahora pueden
00:02:02montar esto con Docker, sí, pero lo hice, y tomó casi 30 minutos poner los contenedores en marcha.
00:02:08Así que para esto, opté por obtener la aplicación de escritorio, que fue mucho más rápida, y es honestamente muy
00:02:13buena. Puedo nombrar el audio aquí. Puedo agregar una descripción e incluso decirle cómo actuar con los
00:02:19modelos. Luego puedo grabarme hablando o subir un archivo corto para que lo analice mientras también
00:02:26dejo caer la transcripción de ese audio. Ahora escribiré una línea que realmente me gustaría usar. Así que
00:02:32tal vez como desarrollador, esto me da control total sobre la IA de voz sin costos en la nube y toda esa privacidad.
00:02:38Elegiré mi perfil de voz. Puedo elegir el modelo que quiero y presionar
00:02:44generar. Ahora, la primera ejecución de esto tendrá que descargar el modelo. Así que podría tomar
00:02:50algo de tiempo, pero después de todo eso, y de haberlo ejecutado, obtenemos formas de onda. Vamos a escuchar.
00:02:57Como desarrollador, esto me da control total sobre la IA de voz sin costos en la nube y toda esa privacidad.
00:03:02Ese audio se generó localmente desde mi máquina y cloné mi propia voz. No hubo ninguna pestaña del navegador.
00:03:09No necesité claves API, pero aquí está la parte que se siente como un flujo de trabajo real. El dictado
00:03:16en todo el sistema. Podría presionar una tecla de acceso rápido global y decir lo que esté pensando en el momento. Si te gusta
00:03:22encontrar herramientas de codificación y trucos como este, revisa nuestro canal. Ahora aterriza directamente dentro de mi editor.
00:03:29Así que, quiero decir, eso fue bastante útil para notas, comentarios o cualquier cosa así.
00:03:33Pero todos estos pequeños momentos donde hablar es en realidad más rápido que escribir, eso es enorme. Esto
00:03:38no es solo para que tú hables con la computadora. Tus agentes podrían hablar de vuelta ahora.
00:03:43Claude Code, Cursor o tu propio agente local pueden activar la voz a través de VoiceBox en su lugar,
00:03:49en lugar de solo volcarlo en tu terminal. Ya estamos recibiendo comentarios de nuestras IA.
00:03:55¿Por qué no hacer que nos hable? Ahora comparemos esto con herramientas que ya conocemos.
00:03:59Por razones obvias, tenemos Eleven Labs. Eleven Labs es genial. Bravo. He hecho comparaciones sobre eso
00:04:05antes. Está alojado. Sabemos que la calidad es increíble. Pero, de nuevo, está basado en la nube. Está
00:04:11impulsado por suscripción. Así que estamos pagando por eso. Estamos subiendo nuestras cosas a la nube.
00:04:16VoiceBox es todo lo contrario. ¿Por qué? Bueno, es local. Es gratis. Es ilimitado. Controlamos
00:04:22todos los datos que entran en él. Eleven Labs todavía puede ganar si lo usas todo el día,
00:04:27pero creo que me quedaré con VoiceBox porque me encantó lo fácil que fue. Y, honestamente, suena muy decente
00:04:33también. Para nosotros, los desarrolladores, la mejor herramienta no siempre es la que tiene la salida más bonita. En realidad, no
00:04:38nos importa eso mucho tiempo. A veces es la que realmente puedes controlar. Luego está el
00:04:43lado de código abierto. Ya podrías usar herramientas como Piper, Whisper y un montón de scripts separados.
00:04:50Pero, de nuevo, lo clave aquí, chicos, es que todos están separados. Tenemos una herramienta para transcripción,
00:04:56una para clonación, una para TTS, una para interfaz de usuario, todas estas cosas que realmente estamos uniendo.
00:05:03VoiceBox empaqueta todo el flujo de trabajo en una aplicación de estudio. Entrada, salida, edición, perfiles,
00:05:09documentación, integración de agentes, y diablos, también podrías usar el servidor MCP. Como dije,
00:05:14eso significa que Claude o Cursor pueden llamar a VoiceBox como una herramienta en lugar de que tu agente solo responda
00:05:20con texto. Ahora te habla de vuelta. Pero, ¿quieres escucharte hablar de vuelta? No lo sé.
00:05:25Tal vez cambia la voz para eso. Pero imagina a tu agente de codificación diciendo: “La compilación falló. Tres módulos de prueba
00:05:30rompieron el módulo de autenticación”. Eso no suena real hasta que te das cuenta de cuántas veces al día ya estás
00:05:36recibiendo comentarios de tus herramientas. VoiceBox solo les da a esas actualizaciones una voz real.
00:05:42Entonces, ¿por qué me gustó tanto esta comparada con otras? Bueno, privacidad y costo. Honestamente,
00:05:48esas son las grandes victorias, al menos para mí. Son victorias fáciles. Para muestras de voz, audio,
00:05:53contenido interno o cualquier cosa realmente sensible, lo local primero es lo que queremos. Es genial.
00:05:57Luego está la integración de agentes, que no puse en la prueba completa aquí, pero los desarrolladores ya están
00:06:02hablando de ello mientras lo integran en Claude Code, Cursor. VoiceBox les da a esos sistemas
00:06:08una capa de voz sin necesidad de un proveedor de voz alojado. El flujo de trabajo fue bastante limpio. Me gusta
00:06:14que todo esté en una interfaz de usuario que podemos controlar. Es realmente fácil. Y si estás en Apple Silicon,
00:06:18especialmente el rendimiento local es una de las razones por las que esto se sintió tan bien. Pero aquí está
00:06:23lo que debes tener en cuenta con todo esto. Salió este año. Todavía es temprano. Así que habrá
00:06:28problemas. Algunos usuarios van a tener dificultades si estás en Windows, especialmente con la detección de GPU,
00:06:33la configuración del modelo y las exportaciones. Si esto sucede, solo reinicia la aplicación. Tuve el problema
00:06:39en mi Mac. Reiniciarla lo soluciona. La consistencia a largo plazo también puede quedarse atrás de Eleven Labs.
00:06:46En el control de emociones, está mejorando, pero eso depende del modelo que elijas. Si eliges
00:06:50Shatterbox TTS Turbo, entonces tenemos esas emociones incorporadas.
00:06:55Entonces, ¿deberías instalar VoiceBox? Honestamente, fue súper fácil. Vale la pena probarlo
00:07:00porque elimina gran parte de la fricción que tenemos de los flujos de trabajo que estamos
00:07:04juntando. El valor principal no es solo la calidad de la voz. Es realmente el control
00:07:09que se nos da aquí. Es control sobre los datos, control sobre los costos, sobre la integración. Eso es
00:07:15por lo que todo esto realmente importa. Ahora, empezar fue increíblemente simple. Cualquiera podría hacerlo. Ve al
00:07:20sitio web de VoiceBox o lanzamientos de GitHub, descarga el instalador para tu plataforma, inicia la aplicación,
00:07:25y luego descarga los modelos locales que necesites. Pero la idea central aquí es realmente fuerte,
00:07:30y ya es lo suficientemente útil como para instalarla. Si disfrutas de las herramientas de codificación como esta,
00:07:35asegúrate de suscribirte al canal BetterStack. Nos vemos en otro video.

Key Takeaway

VoiceBox ofrece una alternativa local gratuita y sin restricciones en la nube para la clonación y síntesis de voz, proporcionando a los desarrolladores control total sobre la privacidad y la integración con agentes de IA.

Highlights

  • VoiceBox funciona como una alternativa de código abierto y local a ElevenLabs, eliminando suscripciones y límites de caracteres.

  • La herramienta consolida funciones de clonación de voz, dictado en todo el sistema impulsado por Whisper, edición multipista y soporte para agentes de IA en una sola aplicación de escritorio.

  • La configuración mediante la aplicación de escritorio es considerablemente más rápida que el método basado en contenedores Docker, que requiere aproximadamente 30 minutos.

  • La integración técnica permite que agentes como Claude Code o Cursor utilicen VoiceBox a través de servidores MCP para proporcionar respuestas habladas en lugar de texto en la terminal.

  • VoiceBox permite la clonación de voz mediante la carga de archivos de audio cortos y transcripciones directamente en la máquina del usuario, garantizando total privacidad de los datos.

Timeline

Concepto y capacidades de VoiceBox

  • VoiceBox actúa como una alternativa local de código abierto a ElevenLabs, con más de 30,000 estrellas en GitHub.
  • La aplicación integra clonación de voz, dictado en todo el sistema, edición creativa y soporte para agentes de IA en una sola interfaz.
  • El procesamiento local elimina la dependencia de suscripciones en la nube, límites de caracteres y riesgos de privacidad de datos.

VoiceBox se posiciona como el equivalente a Olama pero enfocado en la voz. Al ejecutarse localmente, permite el uso de tecnología de clonación y dictado sin costos por uso o necesidad de conexión constante a servidores externos. Combina herramientas de transcripción, síntesis de voz y gestión de perfiles en una aplicación unificada.

Implementación técnica y flujos de trabajo

  • La aplicación de escritorio resulta más eficiente para la instalación inicial que el despliegue mediante contenedores Docker.
  • El proceso de clonación implica definir un perfil, grabar o subir un audio con su respectiva transcripción, y generar la voz localmente.
  • El dictado global permite capturar pensamientos o notas directamente en el editor de código utilizando una tecla de acceso rápido.

La experiencia de uso implica la descarga de modelos locales en el hardware, con un rendimiento óptimo en dispositivos como Mac M4. La capacidad de dictado se integra en el flujo de trabajo cotidiano, permitiendo comentarios rápidos de código mediante voz en lugar de escritura manual. Los agentes de IA pueden configurarse para responder mediante voz en lugar de texto.

Comparativa y limitaciones

  • VoiceBox compite en control y privacidad frente a la calidad y conveniencia de servicios alojados como ElevenLabs.
  • La herramienta evita la fragmentación de flujos de trabajo que ocurre al usar scripts separados como Piper o Whisper.
  • La etapa temprana del proyecto implica posibles inestabilidades técnicas, como problemas de detección de GPU en Windows, que suelen resolverse reiniciando la aplicación.

Aunque ElevenLabs mantiene una ventaja en calidad de salida, VoiceBox prioriza el control total sobre los datos, los costos y la integración técnica. El uso de modelos como Shatterbox TTS Turbo permite mejorar el control emocional en las voces generadas. La arquitectura facilita la comunicación de errores de compilación o actualizaciones de agentes de forma hablada, aumentando la eficiencia en el desarrollo.

Community Posts

View all posts