Testei a alternativa de código aberto ao ElevenLabs (Voicebox)

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

컴퓨터/소프트웨어가전제품/카메라AI/미래기술

Transcript

00:00:00Dizem que esta é a Ollama da IA de voz. Ela clona vozes, gera fala, dita em qualquer aplicativo,

00:00:07e fala com agentes em vozes que você realmente possui. Este é o VoiceBox, e é isso que diz

00:00:13aqui mesmo. É gratuito e uma alternativa local ao ElevenLabs, e, honestamente, isso foi insano.

00:00:19Tem cerca de 30.000 estrelas no GitHub. Roda localmente e, nos próximos 60 segundos,

00:00:24vou mostrar a você clonagem, geração de voz local e ditado dentro de um editor.

00:00:29Quão útil isso é para nós, e quão fácil é começar? Estamos prestes a descobrir.

00:00:39O VoiceBox é um estúdio de voz de IA local e de código aberto. A maneira simples de pensar sobre isso é esta.

00:00:46Ollama é para modelos de texto locais. O VoiceBox está tentando ser isso para voz. Então, não é apenas texto para fala.

00:00:54Ele faz clonagem de voz, ditado em todo o sistema, edição criativa, e até tem histórias e

00:01:00linhas do tempo, e se conecta a agentes de IA. Então, isso nos dá controle real e ainda mais privacidade.

00:01:06Quero construir coisas sem perguntar: quantos créditos acabei de usar para testar isso? O VoiceBox

00:01:12não pergunta isso, porque o VoiceBox roda na nossa máquina. Então não há assinatura. Não há

00:01:17limites de caracteres. Além disso, reúne clonagem, ditado alimentado pelo Whisper, um editor multifaixa,

00:01:23aplicativo de desktop, suporte a MCP e API REST local. Então, em vez de cinco ferramentas separadas,

00:01:29você obtém um aplicativo de desktop com tudo aqui mesmo. Vou fazer três coisas neste vídeo.

00:01:36Vou clonar uma voz, vou fazê-la falar e, em seguida, vou usar o ditado dentro do

00:01:41editor. Depois disso, vou mostrar por que a integração com agentes é super incrível, ou pelo menos

00:01:46vamos conversar sobre isso. Se você gosta de ferramentas de codificação que aceleram seu fluxo de trabalho, inscreva-se.

00:01:50Temos vídeos saindo o tempo todo. Tudo bem, agora estou rodando isso no meu Mac M4.

00:01:55Aqui está o VoiceBox. Já tenho um perfil de voz pronto, mas o fluxo foi muito simples. Você pode

00:02:02iniciar isso com Docker, sim, mas eu fiz isso e levou quase 30 minutos para colocar os contêineres funcionando.

00:02:08Então, para isso, optei por usar o aplicativo de desktop, que foi muito mais rápido, e é honestamente muito

00:02:13bom. Posso nomear o áudio aqui. Posso adicionar uma descrição e até dizer a ele como agir com os

00:02:19modelos. Então, posso gravar a mim mesmo falando ou fazer upload de um arquivo curto para ele analisar enquanto também

00:02:26coloco a transcrição desse áudio. Agora, vou digitar uma frase que eu realmente gostaria de usar. Então,

00:02:32talvez como desenvolvedor, isso me dê controle total sobre IA de voz sem custos de nuvem e toda aquela questão de

00:02:38privacidade. Vou escolher meu perfil de voz. Posso escolher o modelo que quero e clicar em

00:02:44gerar. A primeira execução precisará baixar o modelo. Então, pode levar

00:02:50algum tempo, mas depois disso tudo, e de termos executado, obtemos formas de onda. Vamos ouvir.

00:02:57Como desenvolvedor, isso me dá controle total sobre IA de voz sem custos de nuvem e toda aquela questão de

00:03:02privacidade. Esse áudio foi gerado localmente na minha máquina e eu clonei minha própria voz. Não houve aba de navegador.

00:03:09Não precisei de chaves de API, mas aqui está a parte que parece um fluxo de trabalho real. O ditado

00:03:16em todo o sistema. Eu poderia pressionar uma tecla de atalho global e dizer o que estivesse pensando no momento. Se você gosta

00:03:22de encontrar ferramentas de codificação e truques como este, confira nosso canal. Agora, cai diretamente dentro do meu editor.

00:03:29Então, quero dizer, isso foi muito útil para notas, comentários ou qualquer coisa do tipo.

00:03:33Mas todos esses pequenos momentos em que falar é realmente mais rápido do que digitar, isso é enorme. Isso

00:03:38não é apenas para você falar com o computador. Seus agentes agora podem responder.

00:03:43Claude, Cursor ou seu próprio agente local podem acionar a fala através do VoiceBox em vez

00:03:49de apenas despejá-la no seu terminal. Já estamos recebendo feedback das nossas IAs.

00:03:55Por que não fazê-las falar conosco? Agora vamos comparar isso com ferramentas que já conhecemos.

00:03:59Por razões óbvias, certo, temos o ElevenLabs. O ElevenLabs é ótimo. Bravo. Já fiz comparações sobre isso

00:04:05antes. É hospedado. Sabemos que a qualidade é incrível. Mas, por outro lado, é baseado na nuvem. É

00:04:11baseado em assinatura. Então, estamos pagando por isso. Estamos colocando nossas coisas na nuvem.

00:04:16O VoiceBox é o completo oposto disso. Por quê? Bem, é local. É gratuito. É ilimitado. Nós

00:04:22controlamos todos os dados que entram nele. O ElevenLabs ainda pode vencer se você estiver usando o dia todo,

00:04:27mas acho que vou manter o VoiceBox, pois adorei como foi fácil. E, honestamente, soa muito decente

00:04:33também. Para nós, desenvolvedores, a melhor ferramenta nem sempre é a que tem a saída mais bonita. Nós não

00:04:38nos importamos muito com isso na maior parte do tempo. Às vezes é a que você realmente pode controlar. Então, há o

00:04:43lado do código aberto. Você já poderia usar ferramentas como Piper, Whisper e um monte de scripts separados.

00:04:50Mas, novamente, a coisa chave aqui, pessoal, é que todos eles são separados, certo? Temos uma ferramenta para transcrição,

00:04:56uma para clonagem, uma para TTS, uma para interface de usuário, todas essas coisas que estamos apenas juntando.

00:05:03O VoiceBox empacota todo o fluxo de trabalho em um aplicativo de estúdio. Entrada, saída, edição, perfis,

00:05:09documentação, integração com agentes e, caramba, você também pode usar o servidor MCP. Como eu disse,

00:05:14isso significa que o Claude ou o Cursor podem chamar o VoiceBox como uma ferramenta, em vez de seu agente responder apenas

00:05:20com texto. Ele agora fala de volta com você. Mas você quer ouvir a si mesmo falar com você? Não sei.

00:05:25Talvez mude a voz para isso. Mas imagine seu agente de codificação dizendo: a compilação falhou. Três módulos

00:05:30de teste quebraram o módulo de autenticação. Isso não parece real até você perceber quantas vezes por dia você já está

00:05:36recebendo feedback de suas ferramentas. O VoiceBox apenas dá a essas atualizações uma voz real.

00:05:42Então, por que gostei tanto desta em comparação com as outras? Bem, ok, privacidade e custo. Honestamente,

00:05:48essas são as grandes vitórias, pelo menos para mim. Essas são vitórias fáceis. Para amostras de voz, áudio,

00:05:53conteúdo interno ou qualquer coisa realmente sensível, o local primeiro é o que queremos. É ótimo.

00:05:57Depois vem a integração com agentes, que não coloquei no teste completo aqui, mas os desenvolvedores já estão

00:06:02falando sobre isso enquanto o integram ao Claude Code, Cursor. O VoiceBox dá a esses sistemas

00:06:08uma camada de voz sem precisar de um provedor de fala hospedado. O fluxo de trabalho foi bem legal. Gosto

00:06:14que tudo está em uma interface que podemos controlar. É realmente fácil. E se você estiver no Apple Silicon,

00:06:18especialmente o desempenho local é uma das razões pelas quais isso pareceu tão bom. Mas aqui está a

00:06:23coisa a ter em mente com tudo isso. Foi lançado este ano. Ainda é cedo. Então vai haver

00:06:28problemas. Alguns usuários vão enfrentar momentos difíceis se você estiver no Windows, especialmente em torno

00:06:33da detecção de GPU, configuração de modelo e exportações. Se isso acontecer, basta reiniciar o aplicativo. Tenho o problema

00:06:39no meu Mac. Reiniciá-lo corrige isso. A consistência de formato longo ainda pode ficar atrás do ElevenLabs.

00:06:46No controle de emoções, está melhorando, mas isso depende do modelo que você escolher. Se você escolher

00:06:50Shatterbox TTS Turbo, então temos essas emoções integradas.

00:06:55Então, você deve instalar o VoiceBox? Honestamente, foi super fácil. Vale absolutamente a pena tentar

00:07:00porque remove muito desse atrito que temos com fluxos de trabalho que estamos apenas

00:07:04juntando. O principal valor não é apenas a qualidade da voz. É realmente o controle

00:07:09que nos é dado aqui. É controle sobre dados, controle sobre custos, sobre integração. É por isso que

00:07:15tudo isso realmente importa. Agora, começar foi muito simples. Um macaco conseguiria fazer. Vá ao

00:07:20site do VoiceBox ou lançamentos do GitHub, baixe o instalador para sua plataforma, inicie o aplicativo,

00:07:25e então puxe os modelos locais de que você precisa. Mas toda a ideia central aqui é realmente forte,

00:07:30e já é útil o suficiente para realmente instalar. Se você gosta de ferramentas de codificação como esta,

00:07:35certifique-se de se inscrever no canal BetterStack. Nos vemos em outro vídeo.

Key Takeaway

O VoiceBox oferece uma alternativa gratuita e de código aberto ao ElevenLabs, centralizando tarefas de IA de voz em um ambiente local que garante total privacidade e controle de dados sem custos por uso.

Highlights

O VoiceBox consolida clonagem de voz, ditado via Whisper, edição multifaixa e suporte a APIs REST em um único aplicativo desktop local.
A ferramenta opera inteiramente na máquina do usuário, eliminando assinaturas, limites de caracteres e custos baseados na nuvem.
A integração com agentes via suporte a MCP permite que IAs como Claude e Cursor respondam através de fala, em vez de apenas texto no terminal.
O fluxo de clonagem exige apenas o upload de um arquivo de áudio curto e a respectiva transcrição para gerar um perfil de voz.
Problemas de detecção de GPU e configuração podem ocorrer em sistemas Windows, sendo resolvidos na maioria das vezes com a reinicialização do aplicativo.

Timeline

Proposta e Capacidades do VoiceBox

O VoiceBox atua como um estúdio local de IA de voz, similar ao papel que o Ollama desempenha para modelos de texto.
A suíte integra ferramentas de clonagem de voz, ditado sistêmico com Whisper, edição de áudio e suporte a agentes.

O projeto busca unificar funções que anteriormente exigiam múltiplos scripts ou serviços separados em uma única interface desktop. Ao rodar localmente, o sistema remove barreiras de privacidade e custos operacionais associados ao uso intensivo de APIs em nuvem.

Fluxo de Trabalho e Implementação

A instalação via aplicativo desktop é mais rápida que a configuração de contêineres Docker.
A geração de fala local permite a clonagem de voz e ditado global sem necessidade de chaves de API externas.
O ditado pode ser acionado por atalhos globais, inserindo transcrições diretamente em editores de texto ou código.

O processo de criação de perfis de voz é simplificado pelo uso de gravações próprias ou arquivos de áudio carregados com transcrições. Testes realizados em um Mac M4 demonstram eficácia na geração de voz e na fluidez do ditado sistêmico.

Integração com Agentes e Comparativo

Diferente do ElevenLabs, que é um serviço hospedado, o VoiceBox prioriza o controle de dados e a gratuidade ilimitada.
O suporte a servidores MCP permite que agentes de codificação como Claude e Cursor emitam alertas verbais sobre o status de compilação ou erros.

A capacidade de transformar feedback de ferramentas de desenvolvimento em áudio real humaniza a interação com sistemas de IA. Embora o ElevenLabs ainda detenha vantagem em qualidade de áudio de longa duração, o VoiceBox compensa com soberania sobre os dados e flexibilidade de integração.

Limitações e Considerações Finais

Por ser um projeto recente, o software apresenta instabilidades ocasionais na detecção de GPU no Windows.
A qualidade de emoção na fala varia conforme o modelo escolhido, como o Shatterbox TTS Turbo.
O valor central reside no controle total sobre a infraestrutura e os custos de voz.

O software é recomendado para desenvolvedores que priorizam a privacidade de conteúdos sensíveis e a automação de fluxos de trabalho locais. Apesar de problemas iniciais exigirem reinicializações, a maturidade da ferramenta tende a evoluir à medida que a comunidade e os desenvolvedores refinam os modelos.

Community Posts

Write about this video