Esta ferramenta open-source substitui o Vapi para IA de voz (Dograh)

Portuguêsالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Русский 中文

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00você acabou de construir um agente de voz com IA, ele funciona, então a conta chega e você está pagando pelo LLM, a

00:00:05voz, a chamada telefônica e depois uma taxa de plataforma em cima disso, e isso nem é a pior parte.

00:00:10A pior parte é que você nem realmente é dono do sistema. Hoje, vou te mostrar o Dogra

00:00:16e uma alternativa de código aberto para Vapi que você pode auto-hospedar, inspecionar e controlar.

00:00:26A IA de voz hoje em dia pode parecer um pouco simples por fora: atender uma chamada, transformar fala em texto,

00:00:33enviar para o LLM, transformar a resposta de volta em fala, pronto, fácil, certo? Bem, como qualquer um de nós sabe

00:00:39que já tentou isso, não é bem assim, porque as chamadas reais são confusas, as pessoas interrompem, ficam em silêncio,

00:00:46mudam de assunto, fazem perguntas muito estranhas. Seu agente precisa chamar APIs e, quando

00:00:53ele quebra, você precisa saber o porquê. É aí que a maioria dos projetos de IA de voz se torna uma dor de cabeça. Um agente

00:00:59de voz não é apenas o ChatGPT com um número de telefone, é um sistema ativo com várias partes móveis, certo?

00:01:06É fala para texto, LLM, texto para fala, estado, chamadas de ferramenta e um monte de outras coisas, você entende, há

00:01:12muitas partes móveis que não vemos acontecer e, quando a chamada falha, o bot deu uma

00:01:17resposta ruim, não basta. Foi o prompt? Foi o modelo? O que foi? Por que falhou? E é aqui

00:01:23que o Dogra entra. Se você gosta de ferramentas de codificação que aceleram seu fluxo de trabalho, inscreva-se, temos

00:01:29vídeos saindo o tempo todo. Muito bem, agora vamos ver isso na prática. Vou começar localmente

00:01:34porque se uma ferramenta diz que é feita para desenvolvedores, eu quero ver o Docker antes de qualquer coisa. Foi super fácil

00:01:39de configurar. Vou clonar do GitHub, entrar na pasta e então só preciso

00:01:44executar o docker compose up, isso é simples o suficiente, fácil o suficiente para nós. Quando os containers estiverem rodando, podemos

00:01:50entrar na interface do Dogra. Agora vou criar um agente simples de qualificação de leads, então o que quero dizer com isso?

00:01:57Alguém vai ligar, o agente pergunta o que eles querem construir, depois pergunta sobre o tamanho da empresa,

00:02:03o orçamento, pequenas coisas assim. Ele então chamará uma ferramenta de API para criar ou atualizar um lead no CRM, se

00:02:11incorporarmos isso e talvez eu possa até dizer que, se o lead for qualificado, transfere para um humano. Então adiciono um

00:02:18nó de prompt, depois um passo de qualificação, depois uma chamada de ferramenta de API, e então posso adicionar uma ramificação e uma transferência.

00:02:28Não há código de orquestração personalizado ainda, e esse é meio que o ponto aqui.

00:02:32Isso parece uma tela no-code, mas para desenvolvedores, e o valor não é o no-code, o valor é não perder

00:02:39código tentando conectar tudo. Agora vamos tentar fazer uma chamada de teste aqui. Oi, aqui é a Sarah da

00:02:46Inbound Calls, você ainda está aí? Estamos procurando um agente telefônico de IA para solicitações de demonstração de entrada. Isso é

00:02:55ótimo, com certeza posso te ajudar com isso. Para garantir que eu te conecte com a solução certa, você poderia

00:03:00me contar um pouco mais sobre o que você deseja alcançar com um agente telefônico de IA para suas

00:03:05solicitações de demonstração de entrada? Digamos, cerca de 20.000 minutos. Obrigado por compartilhar isso, e qual é o tamanho e setor da sua empresa?

00:03:11Agora podemos ver a transcrição aqui, podemos ver o rastreamento, podemos ver a chamada de ferramenta

00:03:18que realmente aconteceu e podemos ver as mudanças de estado, além disso, aqui está a gravação, que eu queria em

00:03:24primeiro lugar, e é isso que eu quero como desenvolvedor, não apenas que o bot funcionou, quero saber por que funcionou.

00:03:31Quando falha, quero evidências de que isso realmente aconteceu. Então, o que é o Dogra? O Dogra parece nos dar

00:03:37três coisas diferentes. De tudo isso, obtemos um agente de voz, um construtor de fluxo de trabalho visual na plataforma

00:03:44camada que você geralmente precisa construir sozinho. O motor de voz é a parte que conecta o chamador, o provedor

00:03:50de telefonia, a fala para texto, o LLM e o texto para fala. É isso que faz a chamada realmente acontecer. O

00:03:57construtor de fluxo de trabalho é onde você projeta a lógica de todo esse sistema, então, em vez de codificar rigidamente cada

00:04:03prompt, ramificação, chamada de API e transferência, você pode mapear o fluxo visualmente, então uma grande vitória aqui. Eu gosto desse tipo

00:04:09de mapas: faça essa pergunta, espere pela resposta, é mais ou menos isso que estamos mapeando aqui. Posso chamar essa

00:04:15API, ramificar aqui, transferir ali, esse tipo de lógica deve ser fácil de mudar. Então, para tudo isso, há

00:04:21a camada de plataforma: testes, rastreamento, gravações, análises, essas são as coisas chatas que todo projeto de voz sério

00:04:28eventualmente precisa. Com tudo isso, você pode trazer seus próprios provedores, seu próprio LLM e seu próprio TTS,

00:04:34porque o Dogra é de código aberto, você pode inspecionar o código, mudar como ele funciona e auto-hospedá-lo. Até a gravação

00:04:41deste vídeo, as estrelas no GitHub são baixas, então essa é uma descoberta super nova, mas honestamente é bem legal.

00:04:47Agora vamos comparar o Dogra com outras coisas que já temos por aí. Você tem três maneiras principais de construir

00:04:51agentes de voz. Primeiro, as plataformas hospedadas, Vapi, Bland, Retell, elas são boas quando você quer se mover rápido e

00:04:58não quer gerenciar infraestrutura. Você obtém painéis limpos, APIs, ferramentas de teste de transcrição, tudo isso é

00:05:04muito útil, mas você começa a perder o controle, certo? Se a plataforma muda os preços, você lida

00:05:10com isso. Se a plataforma muda os limites, você lida com isso, certo? Se você precisar de qualquer implantação personalizada desse tipo,

00:05:17novamente, você pode bater em uma parede. As ferramentas hospedadas são rápidas, então acho que isso é uma vitória. Você tem alguns desses

00:05:23frameworks brutos, como o Pipecat, talvez, Deepgram, LiveKit, acho que é um deles.

00:05:30Eles te dão muito mais controle, você pode construir quase tudo, mas agora você está construindo tudo

00:05:36em torno desse framework, sem editor de fluxo de trabalho de interface do usuário, então esse é um grande compromisso ao usar coisas assim.

00:05:42Agora, o Dogra ainda é muito novo, mas está aqui e acho que a aposta deles é bem simples: e se você pudesse

00:05:49usar um construtor visual de agente de voz sem abrir mão da auto-hospedagem, da escolha do provedor, do rastreamento e

00:05:56do controle? É isso que parece ser. Escreva código onde o código importa, use o construtor onde o seu fluxo

00:06:02importa, inspecione o tempo de execução quando as coisas quebrarem e troque de provedores quando os custos mudarem. A auto-hospedagem nos dá

00:06:09muito controle, o que é enorme. Vapi, Bland, Retell são melhores para implantação hospedada rápida, mas o compromisso é

00:06:16custos, bloqueio e menos controle. Se você gosta de ferramentas de codificação como essa, certifique-se de se inscrever no canal Better

00:06:22Stack. Nos vemos em outro vídeo.

Key Takeaway

O Dograh oferece um ambiente de código aberto com interface visual para construir, hospedar e depurar agentes de IA de voz, eliminando a dependência de plataformas proprietárias e proporcionando controle total sobre a infraestrutura e os custos.

Highlights

O Dograh é uma alternativa de código aberto ao Vapi que permite auto-hospedagem, inspeção e controle total sobre agentes de IA de voz.
A configuração do ambiente requer apenas o comando 'docker compose up' após clonar o repositório do GitHub.
A ferramenta fornece uma interface visual para orquestração de fluxo, eliminando a necessidade de escrever código personalizado para conectar componentes.
O sistema permite integrar provedores, modelos de linguagem (LLM) e ferramentas de texto para fala (TTS) conforme a necessidade do desenvolvedor.
A plataforma disponibiliza rastreamento detalhado de chamadas, transcrições, chamadas de ferramentas de API e logs de mudanças de estado para depuração.
Plataformas hospedadas como Vapi ou Retell oferecem velocidade, mas impõem custos fixos e restrições de controle, ao contrário do Dograh.

Timeline

Limitações de plataformas proprietárias

Plataformas hospedadas cobram taxas sobre chamadas telefônicas, LLM, voz e uma margem adicional pela plataforma.
A falta de propriedade do sistema impede o controle total sobre falhas e comportamentos inesperados dos agentes.

Agentes de voz reais enfrentam desafios como interrupções, silêncios prolongados e mudanças de assunto. Quando ocorrem falhas, plataformas de terceiros dificultam a identificação da causa raiz, como erros de prompt ou limitações do modelo de linguagem, tornando o desenvolvimento uma tarefa complexa.

Configuração e funcionamento do Dograh

A implantação do ambiente é realizada via Docker, utilizando o comando 'docker compose up'.
A interface visual permite criar fluxos de qualificação de leads, chamadas de API e transferências para humanos sem codificação manual de orquestração.

A ferramenta atua como um ambiente visual para desenvolvedores, onde o valor reside na facilidade de interconexão entre as partes móveis do sistema. É possível mapear logicamente quando realizar perguntas, aguardar respostas ou transferir o atendimento, centralizando toda a lógica de negócio em um construtor de fluxo.

Camadas e benefícios do ecossistema

A estrutura compreende um motor de voz, um construtor de fluxo de trabalho e uma camada de plataforma para análise.
O sistema suporta a integração personalizada de provedores de telefonia, modelos LLM e motores de síntese de voz (TTS).

O motor de voz gerencia a conexão entre as diversas partes técnicas, enquanto o construtor visual facilita a manutenção de prompts e chamadas de API. A camada de plataforma, essencial para projetos sérios, fornece evidências concretas através de transcrições e gravações, permitindo entender o porquê de cada interação.

Comparativo de abordagens

Plataformas como Vapi ou Retell são adequadas para implantações rápidas, porém sofrem com bloqueios e custos escaláveis.
Frameworks brutos como Pipecat exigem construção intensa e carecem de editores visuais de fluxo.
O Dograh busca equilibrar a facilidade do construtor visual com a liberdade da auto-hospedagem.

A escolha da infraestrutura depende do equilíbrio entre velocidade e controle. Enquanto plataformas hospedadas removem a complexidade de gerenciamento, o Dograh permite que o desenvolvedor mantenha o controle técnico sobre o tempo de execução e a capacidade de trocar provedores quando os custos se tornam desfavoráveis.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video