Esta herramienta de código abierto reemplaza a Vapi para IA de voz (Dograh)

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00acabas de crear un agente de voz con IA, funciona, luego llega la factura y estás pagando por el LLM, la
00:00:05voz, la llamada telefónica y luego otra tarifa de plataforma encima de eso, eso ni siquiera es lo peor
00:00:10lo peor es que ni siquiera eres realmente dueño del sistema, hoy te voy a mostrar Dogra
00:00:16una alternativa de código abierto a Vapi que puedes autohospedar, inspeccionar y controlar
00:00:26la IA de voz hoy en día puede parecer algo sencilla desde fuera, recibir una llamada, convertir voz a texto
00:00:33enviarlo al LLM, convertir la respuesta de nuevo a voz, listo, es fácil, ¿verdad? Bueno, como cualquiera de nosotros sabe
00:00:39que ha intentado esto, realmente no, porque las llamadas reales son desordenadas, la gente interrumpe, la gente guarda silencio, van
00:00:46a cambiar de tema, pueden hacer preguntas muy extrañas, tu agente necesita llamar a APIs y cuando
00:00:53se rompe, necesitas saber por qué, ahí es donde la mayoría de los proyectos de IA de voz se vuelven más un dolor de cabeza, un agente de voz
00:00:59no es solo ChatGPT con un número de teléfono, es un sistema en vivo con un montón de partes móviles, ¿verdad?
00:01:06es decir, conversión de voz a texto, LLM, conversión de texto a voz, estado, llamadas a herramientas, un montón de otras cosas, lo entiendes, hay
00:01:12muchas partes móviles que en realidad no vemos que ocurren y cuando la llamada falla y el bot dio una
00:01:17mala respuesta, no es suficiente, ¿fue el prompt? ¿fue el modelo? ¿qué fue? ¿por qué falló? Y esto es
00:01:23donde entra Dogra. Si disfrutas de las herramientas de codificación que aceleran tu flujo de trabajo, asegúrate de suscribirte, tenemos
00:01:29videos saliendo todo el tiempo. Muy bien, ahora veamos esto en la práctica, voy a empezar localmente
00:01:34porque si una herramienta dice que está hecha para desarrolladores, quiero ver Docker antes que nada, esto fue súper fácil
00:01:39de poner en marcha, voy a clonarlo desde GitHub, voy a entrar en la carpeta y luego solo tengo
00:01:44que ejecutar docker-compose up, eso es lo suficientemente simple, bastante fácil para nosotros. Una vez que los contenedores están funcionando, podemos
00:01:50entrar en la interfaz de usuario de Dogra. Ahora, voy a crear un agente de calificación de clientes potenciales simple, ¿a qué me refiero con eso?
00:01:57alguien va a llamar, el agente pregunta qué quieren construir, luego pregunta sobre el tamaño de la empresa,
00:02:03el presupuesto, pequeñas cosas como esta, luego llamará a una herramienta de API para crear o actualizar un lead en el CRM si
00:02:11lo integramos y tal vez incluso podría decir si el lead fue calificado, que lo transfiera a un humano, así que añado un
00:02:18nodo de prompt, luego un paso de calificación, luego una llamada a una herramienta de API y luego puedo añadir una rama y una transferencia
00:02:28todavía no hay código de orquestación personalizado y ese es un poco el punto aquí
00:02:32esto parece un lienzo sin código, pero para desarrolladores, y el valor no es el sin código, el valor no es desperdiciar
00:02:39código tratando de atar todo. Ahora intentemos realizar una llamada de prueba aquí: Hola, soy Sarah de
00:02:46llamadas entrantes, ¿sigues ahí? Estamos buscando un agente telefónico con IA para solicitudes de demostración entrantes, eso es
00:02:55genial, definitivamente puedo ayudarte con eso, para asegurarme de conectarte con la solución adecuada, ¿podrías
00:03:00contarme un poco más sobre lo que buscas lograr con un agente telefónico con IA para tus
00:03:05solicitudes de demostración entrantes? Digamos alrededor de 20,000 minutos. Gracias por compartir eso, ¿y cuál es el tamaño
00:03:11y la industria de tu empresa? Ahora podemos ver la transcripción aquí, podemos ver el rastro, podemos ver la llamada a la herramienta
00:03:18que realmente ocurrió y podemos ver los cambios de estado, además aquí está la grabación que quería en
00:03:24primer lugar y eso es lo que quiero como desarrollador, no solo que el bot funcionó, quiero saber por qué funcionó
00:03:31cuando falla, quiero evidencia de esto ocurriendo realmente. Entonces, ¿qué es Dogra? Dogra parece darnos
00:03:37tres cosas diferentes de todo esto: obtenemos un agente de voz, un constructor de flujo de trabajo visual en la plataforma,
00:03:44capa que generalmente tienes que construir tú mismo. El motor de voz es la parte que conecta a la persona que llama, el proveedor
00:03:50telefónico, la conversión de voz a texto, el LLM y la conversión de texto a voz, eso es lo que hace que la llamada realmente suceda. El
00:03:57constructor de flujo de trabajo es donde diseñas la lógica de todo este sistema, así que en lugar de codificar cada
00:04:03prompt, rama, llamada a API y transferencia, puedes trazar el flujo visualmente, así que gran victoria aquí, me gustan este tipo
00:04:09de mapas: haz esta pregunta, espera la respuesta, eso es un poco lo que estamos trazando aquí, puedo llamar a esta
00:04:15rama de API aquí, transferir allá, ese tipo de lógica debería ser fácil de cambiar, luego a todo esto está
00:04:21la capa de plataforma: pruebas, rastreo, grabaciones, analítica, eso es lo aburrido que todo proyecto de voz serio
00:04:28eventualmente necesita. Con todo esto, puedes traer tus propios proveedores, tu propio LLM y tu propio motor de voz,
00:04:34porque Dogra es de código abierto, puedes inspeccionar el código, cambiar cómo funciona y autohospedarlo. Al momento de grabar esto
00:04:41las estrellas en GitHub son bajas, así que este es un hallazgo súper nuevo que encontré, pero honestamente es bastante genial.
00:04:47Ahora, comparemos Dogra con otras cosas que ya tenemos aquí. Tienes tres formas principales de construir
00:04:51agentes de voz: primero están las plataformas alojadas, Vapi, Bland, Retell; estas son buenas cuando quieres moverte rápido y
00:04:58no quieres ejecutar infraestructura, obtienes paneles limpios, APIs, transcripciones, herramientas de prueba, todo eso es
00:05:04realmente útil, pero empiezas a perder el control, ¿verdad? Si la plataforma cambia los precios, lidias con
00:05:10ello, si la plataforma cambia los límites, lidias con ello, ¿verdad? Si necesitas un despliegue personalizado, cualquier cosa así
00:05:17de nuevo, podrías chocar con una pared. Las herramientas alojadas son rápidas, así que supongo que es una victoria. Tienes algunos de estos
00:05:23frameworks crudos, como... me encontré con Pipe, Cap, LiveKit, creo que es uno de ellos,
00:05:30estos te dan mucho más control, puedes construir casi cualquier cosa, pero ahora estás construyendo todo
00:05:36alrededor de este framework sin interfaz de usuario ni editor de flujo de trabajo, así que esa es una gran desventaja al usar cosas como esas.
00:05:42Ahora, Dogra es todavía demasiado nuevo, pero está aquí y creo que su apuesta es algo simple: ¿qué pasa si pudieras
00:05:49usar un constructor visual de agentes de voz sin renunciar al autohospedaje, la elección de un proveedor, el rastreo y
00:05:56el control? Eso es lo que parece ser. Escribe código donde el código importa, usa el constructor donde tu flujo
00:06:02importa, inspecciona el tiempo de ejecución cuando las cosas se rompen e intercambia proveedores cuando los costos cambian. El autohospedaje nos da
00:06:09mucho control, lo cual es enorme. Vapi, Bland, Retell son mejores para un despliegue rápido y alojado, pero la compensación es
00:06:16el bloqueo de costos y menos control. Si disfrutas de herramientas de codificación como esta, asegúrate de suscribirte al canal Better
00:06:22Stack, nos veremos en otro video.

Key Takeaway

Dogra ofrece un constructor visual de agentes de voz autohospedable que elimina la dependencia de plataformas cerradas como Vapi, permitiendo a los desarrolladores controlar totalmente el flujo de llamadas y los costos de los proveedores.

Highlights

  • Dogra es una alternativa de código abierto a plataformas de IA de voz como Vapi que permite el autohospedaje y control total del sistema.

  • La configuración local de Dogra se realiza mediante Docker ejecutando el comando docker-compose up.

  • El constructor visual de flujos de trabajo permite diseñar lógica de llamadas, como ramificaciones y llamadas a herramientas API, sin necesidad de escribir código de orquestación personalizado.

  • La plataforma proporciona herramientas de depuración, incluyendo transcripciones, rastreo de cambios de estado y grabaciones de audio para llamadas fallidas.

  • El autohospedaje de Dogra permite cambiar proveedores de voz y LLMs para evitar la dependencia de plataformas cerradas y los costos adicionales asociados.

Timeline

Limitaciones de las plataformas de IA de voz alojadas

  • Las plataformas de IA de voz cerradas imponen tarifas adicionales por LLM, voz y llamadas, además de limitar el control del sistema.
  • Los agentes de voz reales requieren manejar interrupciones, silencios, cambios de tema y llamadas a herramientas API.
  • Identificar la causa de fallos en llamadas complejas es difícil en sistemas cerrados sin acceso a rastreos detallados.

El uso de plataformas como Vapi implica costos acumulados por diversas partes móviles del sistema y una falta de propiedad sobre la infraestructura. Un agente de voz no es solo un LLM conectado a un teléfono, sino un sistema en vivo donde la depuración de fallos requiere visibilidad total que estas plataformas suelen ocultar.

Configuración y creación de agentes en Dogra

  • Dogra se implementa localmente mediante Docker utilizando un archivo docker-compose.
  • El constructor visual permite diseñar flujos lógicos, integrar llamadas a herramientas API y gestionar transferencias a humanos sin código personalizado.
  • El sistema genera automáticamente transcripciones, rastreos de llamadas a herramientas y grabaciones de audio para facilitar la depuración.

La implementación comienza clonando el repositorio y ejecutando docker-compose up. El constructor visual facilita la creación de agentes, como uno de calificación de leads, permitiendo definir prompts y pasos de API en un lienzo intuitivo, proporcionando además evidencia clara de por qué una llamada funcionó o falló.

Comparativa y ventajas de la arquitectura abierta

  • Dogra combina tres capas esenciales: motor de voz, constructor de flujo visual y plataforma de análisis/rastreo.
  • Las plataformas alojadas son rápidas pero generan dependencia de precios y límites; los frameworks sin interfaz ofrecen control pero exigen construir toda la infraestructura.
  • Dogra permite elegir proveedores propios y autohospedar el sistema para mantener el control y reducir costos.

La propuesta de Dogra equilibra la facilidad de uso del constructor visual con el control del autohospedaje. Los desarrolladores pueden codificar donde es necesario y utilizar la interfaz para diseñar flujos, manteniendo la capacidad de cambiar proveedores de LLM o voz cuando las necesidades o costos cambian.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video