Probé la alternativa de código abierto a ElevenLabs (Voicebox)

Españolالعربية Deutsch English Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

Computing/SoftwareConsumer ElectronicsInternet Technology

Transcript

00:00:00Dicen que este es el Olama de la IA de voz. Clona voces, genera habla, dicta en cualquier aplicación,

00:00:07y habla con agentes con voces que realmente posees. Este es VoiceBox, y eso es lo que dice

00:00:13aquí mismo. Es gratis y una alternativa local a 11 Labs, y honestamente, esto fue una locura.

00:00:19Tiene alrededor de 30,000 estrellas en GitHub. Funciona localmente, y en los próximos 60 segundos,

00:00:24les voy a mostrar la clonación, la generación de voz local y el dictado dentro de un editor.

00:00:29¿Qué tan útil es esto para nosotros y qué tan fácil es empezar? Estamos a punto de descubrirlo.

00:00:39Ahora, VoiceBox es un estudio de voz de IA local de código abierto. La forma simple de pensarlo es esta.

00:00:46Olama es para modelos de texto locales. VoiceBox intenta ser eso para la voz. Así que no es solo texto a voz.

00:00:54Hace clonación de voz, dictado en todo el sistema, edición creativa e incluso tiene historias y

00:01:00líneas de tiempo, y se conecta a agentes de IA. Así que esto nos da un control real e incluso más privacidad.

00:01:06Quiero construir cosas sin preguntar, ¿cuántos créditos acabo de usar para probar esto? VoiceBox

00:01:12no pregunta eso, porque VoiceBox se ejecuta en nuestra máquina. Así que no hay suscripción. No hay

00:01:17límites de caracteres. Además, reúne clonación, dictado impulsado por Whisper, un editor multipista,

00:01:23una aplicación de escritorio, soporte MCP y API REST local. Así que en lugar de cinco herramientas separadas,

00:01:29tienes una aplicación de escritorio con todo aquí mismo. Voy a hacer tres cosas en este video.

00:01:36Voy a clonar una voz, voy a hacer que hable y luego voy a usar el dictado dentro del

00:01:41editor. Después de eso, les mostraré por qué la integración con agentes es realmente increíble, o al menos

00:01:46vamos a hablar de ello. Si disfrutan de las herramientas de codificación que aceleran su flujo de trabajo, asegúrense de

00:01:50suscribirse. Tenemos videos saliendo todo el tiempo. Muy bien, ahora estoy ejecutando esto en mi Mac M4.

00:01:55Aquí está VoiceBox. Ya tengo un perfil de voz listo, pero el flujo fue realmente simple. Ahora pueden

00:02:02montar esto con Docker, sí, pero lo hice, y tomó casi 30 minutos poner los contenedores en marcha.

00:02:08Así que para esto, opté por obtener la aplicación de escritorio, que fue mucho más rápida, y es honestamente muy

00:02:13buena. Puedo nombrar el audio aquí. Puedo agregar una descripción e incluso decirle cómo actuar con los

00:02:19modelos. Luego puedo grabarme hablando o subir un archivo corto para que lo analice mientras también

00:02:26dejo caer la transcripción de ese audio. Ahora escribiré una línea que realmente me gustaría usar. Así que

00:02:32tal vez como desarrollador, esto me da control total sobre la IA de voz sin costos en la nube y toda esa privacidad.

00:02:38Elegiré mi perfil de voz. Puedo elegir el modelo que quiero y presionar

00:02:44generar. Ahora, la primera ejecución de esto tendrá que descargar el modelo. Así que podría tomar

00:02:50algo de tiempo, pero después de todo eso, y de haberlo ejecutado, obtenemos formas de onda. Vamos a escuchar.

00:02:57Como desarrollador, esto me da control total sobre la IA de voz sin costos en la nube y toda esa privacidad.

00:03:02Ese audio se generó localmente desde mi máquina y cloné mi propia voz. No hubo ninguna pestaña del navegador.

00:03:09No necesité claves API, pero aquí está la parte que se siente como un flujo de trabajo real. El dictado

00:03:16en todo el sistema. Podría presionar una tecla de acceso rápido global y decir lo que esté pensando en el momento. Si te gusta

00:03:22encontrar herramientas de codificación y trucos como este, revisa nuestro canal. Ahora aterriza directamente dentro de mi editor.

00:03:29Así que, quiero decir, eso fue bastante útil para notas, comentarios o cualquier cosa así.

00:03:33Pero todos estos pequeños momentos donde hablar es en realidad más rápido que escribir, eso es enorme. Esto

00:03:38no es solo para que tú hables con la computadora. Tus agentes podrían hablar de vuelta ahora.

00:03:43Claude Code, Cursor o tu propio agente local pueden activar la voz a través de VoiceBox en su lugar,

00:03:49en lugar de solo volcarlo en tu terminal. Ya estamos recibiendo comentarios de nuestras IA.

00:03:55¿Por qué no hacer que nos hable? Ahora comparemos esto con herramientas que ya conocemos.

00:03:59Por razones obvias, tenemos Eleven Labs. Eleven Labs es genial. Bravo. He hecho comparaciones sobre eso

00:04:05antes. Está alojado. Sabemos que la calidad es increíble. Pero, de nuevo, está basado en la nube. Está

00:04:11impulsado por suscripción. Así que estamos pagando por eso. Estamos subiendo nuestras cosas a la nube.

00:04:16VoiceBox es todo lo contrario. ¿Por qué? Bueno, es local. Es gratis. Es ilimitado. Controlamos

00:04:22todos los datos que entran en él. Eleven Labs todavía puede ganar si lo usas todo el día,

00:04:27pero creo que me quedaré con VoiceBox porque me encantó lo fácil que fue. Y, honestamente, suena muy decente

00:04:33también. Para nosotros, los desarrolladores, la mejor herramienta no siempre es la que tiene la salida más bonita. En realidad, no

00:04:38nos importa eso mucho tiempo. A veces es la que realmente puedes controlar. Luego está el

00:04:43lado de código abierto. Ya podrías usar herramientas como Piper, Whisper y un montón de scripts separados.

00:04:50Pero, de nuevo, lo clave aquí, chicos, es que todos están separados. Tenemos una herramienta para transcripción,

00:04:56una para clonación, una para TTS, una para interfaz de usuario, todas estas cosas que realmente estamos uniendo.

00:05:03VoiceBox empaqueta todo el flujo de trabajo en una aplicación de estudio. Entrada, salida, edición, perfiles,

00:05:09documentación, integración de agentes, y diablos, también podrías usar el servidor MCP. Como dije,

00:05:14eso significa que Claude o Cursor pueden llamar a VoiceBox como una herramienta en lugar de que tu agente solo responda

00:05:20con texto. Ahora te habla de vuelta. Pero, ¿quieres escucharte hablar de vuelta? No lo sé.

00:05:25Tal vez cambia la voz para eso. Pero imagina a tu agente de codificación diciendo: “La compilación falló. Tres módulos de prueba

00:05:30rompieron el módulo de autenticación”. Eso no suena real hasta que te das cuenta de cuántas veces al día ya estás

00:05:36recibiendo comentarios de tus herramientas. VoiceBox solo les da a esas actualizaciones una voz real.

00:05:42Entonces, ¿por qué me gustó tanto esta comparada con otras? Bueno, privacidad y costo. Honestamente,

00:05:48esas son las grandes victorias, al menos para mí. Son victorias fáciles. Para muestras de voz, audio,

00:05:53contenido interno o cualquier cosa realmente sensible, lo local primero es lo que queremos. Es genial.

00:05:57Luego está la integración de agentes, que no puse en la prueba completa aquí, pero los desarrolladores ya están

00:06:02hablando de ello mientras lo integran en Claude Code, Cursor. VoiceBox les da a esos sistemas

00:06:08una capa de voz sin necesidad de un proveedor de voz alojado. El flujo de trabajo fue bastante limpio. Me gusta

00:06:14que todo esté en una interfaz de usuario que podemos controlar. Es realmente fácil. Y si estás en Apple Silicon,

00:06:18especialmente el rendimiento local es una de las razones por las que esto se sintió tan bien. Pero aquí está

00:06:23lo que debes tener en cuenta con todo esto. Salió este año. Todavía es temprano. Así que habrá

00:06:28problemas. Algunos usuarios van a tener dificultades si estás en Windows, especialmente con la detección de GPU,

00:06:33la configuración del modelo y las exportaciones. Si esto sucede, solo reinicia la aplicación. Tuve el problema

00:06:39en mi Mac. Reiniciarla lo soluciona. La consistencia a largo plazo también puede quedarse atrás de Eleven Labs.

00:06:46En el control de emociones, está mejorando, pero eso depende del modelo que elijas. Si eliges

00:06:50Shatterbox TTS Turbo, entonces tenemos esas emociones incorporadas.

00:06:55Entonces, ¿deberías instalar VoiceBox? Honestamente, fue súper fácil. Vale la pena probarlo

00:07:00porque elimina gran parte de la fricción que tenemos de los flujos de trabajo que estamos

00:07:04juntando. El valor principal no es solo la calidad de la voz. Es realmente el control

00:07:09que se nos da aquí. Es control sobre los datos, control sobre los costos, sobre la integración. Eso es

00:07:15por lo que todo esto realmente importa. Ahora, empezar fue increíblemente simple. Cualquiera podría hacerlo. Ve al

00:07:20sitio web de VoiceBox o lanzamientos de GitHub, descarga el instalador para tu plataforma, inicia la aplicación,

00:07:25y luego descarga los modelos locales que necesites. Pero la idea central aquí es realmente fuerte,

00:07:30y ya es lo suficientemente útil como para instalarla. Si disfrutas de las herramientas de codificación como esta,

00:07:35asegúrate de suscribirte al canal BetterStack. Nos vemos en otro video.

Key Takeaway

VoiceBox ofrece una alternativa local gratuita y sin restricciones en la nube para la clonación y síntesis de voz, proporcionando a los desarrolladores control total sobre la privacidad y la integración con agentes de IA.

Highlights

VoiceBox funciona como una alternativa de código abierto y local a ElevenLabs, eliminando suscripciones y límites de caracteres.
La herramienta consolida funciones de clonación de voz, dictado en todo el sistema impulsado por Whisper, edición multipista y soporte para agentes de IA en una sola aplicación de escritorio.
La configuración mediante la aplicación de escritorio es considerablemente más rápida que el método basado en contenedores Docker, que requiere aproximadamente 30 minutos.
La integración técnica permite que agentes como Claude Code o Cursor utilicen VoiceBox a través de servidores MCP para proporcionar respuestas habladas en lugar de texto en la terminal.
VoiceBox permite la clonación de voz mediante la carga de archivos de audio cortos y transcripciones directamente en la máquina del usuario, garantizando total privacidad de los datos.

Timeline

Concepto y capacidades de VoiceBox

VoiceBox actúa como una alternativa local de código abierto a ElevenLabs, con más de 30,000 estrellas en GitHub.
La aplicación integra clonación de voz, dictado en todo el sistema, edición creativa y soporte para agentes de IA en una sola interfaz.
El procesamiento local elimina la dependencia de suscripciones en la nube, límites de caracteres y riesgos de privacidad de datos.

VoiceBox se posiciona como el equivalente a Olama pero enfocado en la voz. Al ejecutarse localmente, permite el uso de tecnología de clonación y dictado sin costos por uso o necesidad de conexión constante a servidores externos. Combina herramientas de transcripción, síntesis de voz y gestión de perfiles en una aplicación unificada.

Implementación técnica y flujos de trabajo

La aplicación de escritorio resulta más eficiente para la instalación inicial que el despliegue mediante contenedores Docker.
El proceso de clonación implica definir un perfil, grabar o subir un audio con su respectiva transcripción, y generar la voz localmente.
El dictado global permite capturar pensamientos o notas directamente en el editor de código utilizando una tecla de acceso rápido.

La experiencia de uso implica la descarga de modelos locales en el hardware, con un rendimiento óptimo en dispositivos como Mac M4. La capacidad de dictado se integra en el flujo de trabajo cotidiano, permitiendo comentarios rápidos de código mediante voz en lugar de escritura manual. Los agentes de IA pueden configurarse para responder mediante voz en lugar de texto.

Comparativa y limitaciones

VoiceBox compite en control y privacidad frente a la calidad y conveniencia de servicios alojados como ElevenLabs.
La herramienta evita la fragmentación de flujos de trabajo que ocurre al usar scripts separados como Piper o Whisper.
La etapa temprana del proyecto implica posibles inestabilidades técnicas, como problemas de detección de GPU en Windows, que suelen resolverse reiniciando la aplicación.

Aunque ElevenLabs mantiene una ventaja en calidad de salida, VoiceBox prioriza el control total sobre los datos, los costos y la integración técnica. El uso de modelos como Shatterbox TTS Turbo permite mejorar el control emocional en las voces generadas. La arquitectura facilita la comunicación de errores de compilación o actualizaciones de agentes de forma hablada, aumentando la eficiencia en el desarrollo.

Community Posts

Write about this video