Esta herramienta de código abierto reemplaza a Vapi para IA de voz (Dograh)
BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology
Transcript
00:00:00acabas de crear un agente de voz con IA, funciona, luego llega la factura y estás pagando por el LLM, la
00:00:05voz, la llamada telefónica y luego otra tarifa de plataforma encima de eso, eso ni siquiera es lo peor
00:00:10lo peor es que ni siquiera eres realmente dueño del sistema, hoy te voy a mostrar Dogra
00:00:16una alternativa de código abierto a Vapi que puedes autohospedar, inspeccionar y controlar
00:00:26la IA de voz hoy en día puede parecer algo sencilla desde fuera, recibir una llamada, convertir voz a texto
00:00:33enviarlo al LLM, convertir la respuesta de nuevo a voz, listo, es fácil, ¿verdad? Bueno, como cualquiera de nosotros sabe
00:00:39que ha intentado esto, realmente no, porque las llamadas reales son desordenadas, la gente interrumpe, la gente guarda silencio, van
00:00:46a cambiar de tema, pueden hacer preguntas muy extrañas, tu agente necesita llamar a APIs y cuando
00:00:53se rompe, necesitas saber por qué, ahí es donde la mayoría de los proyectos de IA de voz se vuelven más un dolor de cabeza, un agente de voz
00:00:59no es solo ChatGPT con un número de teléfono, es un sistema en vivo con un montón de partes móviles, ¿verdad?
00:01:06es decir, conversión de voz a texto, LLM, conversión de texto a voz, estado, llamadas a herramientas, un montón de otras cosas, lo entiendes, hay
00:01:12muchas partes móviles que en realidad no vemos que ocurren y cuando la llamada falla y el bot dio una
00:01:17mala respuesta, no es suficiente, ¿fue el prompt? ¿fue el modelo? ¿qué fue? ¿por qué falló? Y esto es
00:01:23donde entra Dogra. Si disfrutas de las herramientas de codificación que aceleran tu flujo de trabajo, asegúrate de suscribirte, tenemos
00:01:29videos saliendo todo el tiempo. Muy bien, ahora veamos esto en la práctica, voy a empezar localmente
00:01:34porque si una herramienta dice que está hecha para desarrolladores, quiero ver Docker antes que nada, esto fue súper fácil
00:01:39de poner en marcha, voy a clonarlo desde GitHub, voy a entrar en la carpeta y luego solo tengo
00:01:44que ejecutar docker-compose up, eso es lo suficientemente simple, bastante fácil para nosotros. Una vez que los contenedores están funcionando, podemos
00:01:50entrar en la interfaz de usuario de Dogra. Ahora, voy a crear un agente de calificación de clientes potenciales simple, ¿a qué me refiero con eso?
00:01:57alguien va a llamar, el agente pregunta qué quieren construir, luego pregunta sobre el tamaño de la empresa,
00:02:03el presupuesto, pequeñas cosas como esta, luego llamará a una herramienta de API para crear o actualizar un lead en el CRM si
00:02:11lo integramos y tal vez incluso podría decir si el lead fue calificado, que lo transfiera a un humano, así que añado un
00:02:18nodo de prompt, luego un paso de calificación, luego una llamada a una herramienta de API y luego puedo añadir una rama y una transferencia
00:02:28todavía no hay código de orquestación personalizado y ese es un poco el punto aquí
00:02:32esto parece un lienzo sin código, pero para desarrolladores, y el valor no es el sin código, el valor no es desperdiciar
00:02:39código tratando de atar todo. Ahora intentemos realizar una llamada de prueba aquí: Hola, soy Sarah de
00:02:46llamadas entrantes, ¿sigues ahí? Estamos buscando un agente telefónico con IA para solicitudes de demostración entrantes, eso es
00:02:55genial, definitivamente puedo ayudarte con eso, para asegurarme de conectarte con la solución adecuada, ¿podrías
00:03:00contarme un poco más sobre lo que buscas lograr con un agente telefónico con IA para tus
00:03:05solicitudes de demostración entrantes? Digamos alrededor de 20,000 minutos. Gracias por compartir eso, ¿y cuál es el tamaño
00:03:11y la industria de tu empresa? Ahora podemos ver la transcripción aquí, podemos ver el rastro, podemos ver la llamada a la herramienta
00:03:18que realmente ocurrió y podemos ver los cambios de estado, además aquí está la grabación que quería en
00:03:24primer lugar y eso es lo que quiero como desarrollador, no solo que el bot funcionó, quiero saber por qué funcionó
00:03:31cuando falla, quiero evidencia de esto ocurriendo realmente. Entonces, ¿qué es Dogra? Dogra parece darnos
00:03:37tres cosas diferentes de todo esto: obtenemos un agente de voz, un constructor de flujo de trabajo visual en la plataforma,
00:03:44capa que generalmente tienes que construir tú mismo. El motor de voz es la parte que conecta a la persona que llama, el proveedor
00:03:50telefónico, la conversión de voz a texto, el LLM y la conversión de texto a voz, eso es lo que hace que la llamada realmente suceda. El
00:03:57constructor de flujo de trabajo es donde diseñas la lógica de todo este sistema, así que en lugar de codificar cada
00:04:03prompt, rama, llamada a API y transferencia, puedes trazar el flujo visualmente, así que gran victoria aquí, me gustan este tipo
00:04:09de mapas: haz esta pregunta, espera la respuesta, eso es un poco lo que estamos trazando aquí, puedo llamar a esta
00:04:15rama de API aquí, transferir allá, ese tipo de lógica debería ser fácil de cambiar, luego a todo esto está
00:04:21la capa de plataforma: pruebas, rastreo, grabaciones, analítica, eso es lo aburrido que todo proyecto de voz serio
00:04:28eventualmente necesita. Con todo esto, puedes traer tus propios proveedores, tu propio LLM y tu propio motor de voz,
00:04:34porque Dogra es de código abierto, puedes inspeccionar el código, cambiar cómo funciona y autohospedarlo. Al momento de grabar esto
00:04:41las estrellas en GitHub son bajas, así que este es un hallazgo súper nuevo que encontré, pero honestamente es bastante genial.
00:04:47Ahora, comparemos Dogra con otras cosas que ya tenemos aquí. Tienes tres formas principales de construir
00:04:51agentes de voz: primero están las plataformas alojadas, Vapi, Bland, Retell; estas son buenas cuando quieres moverte rápido y
00:04:58no quieres ejecutar infraestructura, obtienes paneles limpios, APIs, transcripciones, herramientas de prueba, todo eso es
00:05:04realmente útil, pero empiezas a perder el control, ¿verdad? Si la plataforma cambia los precios, lidias con
00:05:10ello, si la plataforma cambia los límites, lidias con ello, ¿verdad? Si necesitas un despliegue personalizado, cualquier cosa así
00:05:17de nuevo, podrías chocar con una pared. Las herramientas alojadas son rápidas, así que supongo que es una victoria. Tienes algunos de estos
00:05:23frameworks crudos, como... me encontré con Pipe, Cap, LiveKit, creo que es uno de ellos,
00:05:30estos te dan mucho más control, puedes construir casi cualquier cosa, pero ahora estás construyendo todo
00:05:36alrededor de este framework sin interfaz de usuario ni editor de flujo de trabajo, así que esa es una gran desventaja al usar cosas como esas.
00:05:42Ahora, Dogra es todavía demasiado nuevo, pero está aquí y creo que su apuesta es algo simple: ¿qué pasa si pudieras
00:05:49usar un constructor visual de agentes de voz sin renunciar al autohospedaje, la elección de un proveedor, el rastreo y
00:05:56el control? Eso es lo que parece ser. Escribe código donde el código importa, usa el constructor donde tu flujo
00:06:02importa, inspecciona el tiempo de ejecución cuando las cosas se rompen e intercambia proveedores cuando los costos cambian. El autohospedaje nos da
00:06:09mucho control, lo cual es enorme. Vapi, Bland, Retell son mejores para un despliegue rápido y alojado, pero la compensación es
00:06:16el bloqueo de costos y menos control. Si disfrutas de herramientas de codificación como esta, asegúrate de suscribirte al canal Better
00:06:22Stack, nos veremos en otro video.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video