Cet outil open source remplace Vapi pour l'IA vocale (Dograh)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Vous venez de créer un agent vocal IA, ça fonctionne, puis la facture arrive et vous payez pour le LLM, le
00:00:05la voix, l'appel téléphonique et en plus des frais de plateforme. Et ce n'est même pas le pire.
00:00:10Le pire, c'est que vous ne possédez même pas vraiment le système. Aujourd'hui, je vais vous montrer Dogra
00:00:16une alternative open source à Vapi que vous pouvez auto-héberger, inspecter et contrôler.
00:00:26L'IA vocale semble aujourd'hui assez simple de l'extérieur : prendre un appel, convertir la parole en texte,
00:00:33l'envoyer au LLM, retransformer la réponse en parole, c'est fait, c'est facile, non ? Eh bien, comme nous le savons tous
00:00:39ceux qui ont essayé, ce n'est pas vraiment le cas car les vrais appels sont désordonnés. Les gens vous interrompent, restent silencieux, ils
00:00:46vont changer de sujet, ils peuvent poser des questions très bizarres. Votre agent doit appeler des API et quand
00:00:53ça tombe en panne, vous devez savoir pourquoi. C'est là que la plupart des projets d'IA vocale deviennent un casse-tête. Un agent vocal
00:00:59n'est pas juste ChatGPT avec un numéro de téléphone. C'est un système en direct avec beaucoup d'éléments mobiles, n'est-ce pas ?
00:01:06La conversion parole-texte, le LLM, la synthèse vocale, l'état, les appels d'outils, une tonne d'autres choses. Vous voyez, il y a
00:01:12beaucoup d'éléments mobiles que nous ne voyons pas vraiment fonctionner. Et quand l'appel échoue, que le bot a donné une
00:01:17mauvaise réponse, ce n'est pas suffisant. Était-ce le prompt ? Était-ce le modèle ? Qu'est-ce que c'était ? Pourquoi a-t-il échoué ? Et c'est
00:01:23là que Dogra intervient. Si vous aimez les outils de codage qui accélèrent votre flux de travail, assurez-vous de vous abonner, nous avons
00:01:29des vidéos qui sortent tout le temps. Très bien, regardons cela en pratique. Je vais commencer localement
00:01:34car si un outil dit qu'il est conçu pour les développeurs, je veux voir Docker avant tout. C'était super facile
00:01:39à lancer. Je vais le cloner depuis GitHub, je vais naviguer dans le dossier, puis je n'ai qu'à
00:01:44exécuter docker compose up, c'est assez simple, assez facile pour nous. Une fois que les conteneurs sont lancés, nous
00:01:50pouvons accéder à l'interface utilisateur de Dogra. Maintenant, je vais créer un simple agent de qualification de leads. Qu'est-ce que je veux dire par là ?
00:01:57Quelqu'un va appeler, l'agent demande ce qu'il veut construire, puis il pose des questions sur l'entreprise,
00:02:03la taille, le budget, des petites choses comme ça. Il appellera ensuite un outil API pour créer ou mettre à jour un lead CRM si
00:02:11nous l'intégrons, et peut-être que je pourrais même dire si le lead était qualifié, il transfère vers un humain. Donc j'ajoute un
00:02:18nœud de prompt, puis une étape de qualification, puis un appel d'outil API, et ensuite je peux ajouter une branche et un transfert.
00:02:28Il n'y a pas encore de code d'orchestration personnalisé, et c'est un peu le but ici.
00:02:32Cela ressemble à un canevas no-code, mais pour les développeurs, et la valeur n'est pas le no-code, la valeur est de ne pas gaspiller
00:02:39de code à essayer de tout relier. Maintenant, essayons de faire un test d'appel ici. Bonjour, c'est Sarah de
00:02:46Inbound Calls, vous êtes toujours là ? Nous cherchons un agent téléphonique IA pour les demandes de démo entrantes. C'est
00:02:55super, je peux certainement vous aider avec cela. Pour m'assurer de vous connecter avec la bonne solution, pourriez-vous
00:03:00m'en dire un peu plus sur ce que vous cherchez à accomplir avec un agent téléphonique IA pour vos demandes
00:03:05de démo entrantes ? Disons environ 20 000 minutes. Merci de partager cela. Et quelle est la taille de votre entreprise
00:03:11et votre secteur d'activité ? Maintenant, nous pouvons voir la transcription ici, nous pouvons voir le suivi, nous pouvons voir l'appel d'outil
00:03:18qui s'est réellement produit et nous pouvons voir les changements d'état. De plus, voici l'enregistrement que je voulais en
00:03:24premier lieu. Et c'est ce que je veux en tant que développeur, pas juste que le bot a fonctionné, je veux savoir pourquoi il a fonctionné.
00:03:31Quand il échoue, je veux la preuve de ce qui s'est réellement passé. Alors, qu'est-ce que Dogra ? Dogra semble nous donner
00:03:37trois choses différentes. Avec tout cela, nous obtenons un agent vocal, un générateur de flux de travail visuel dans la couche de plateforme
00:03:44que vous devez généralement construire vous-même. Le moteur vocal est la partie qui connecte l'appelant, le fournisseur
00:03:50téléphonique, la conversion parole-texte, le LLM et la synthèse vocale. C'est ce qui fait que l'appel a vraiment lieu. Le
00:03:57générateur de flux de travail est l'endroit où vous concevez la logique de tout ce système. Donc, au lieu de coder en dur chaque
00:04:03prompt, branche, appel API et transfert, vous pouvez cartographier le flux visuellement. C'est donc une énorme victoire, j'aime ce genre
00:04:09de cartes. Poser cette question, attendre la réponse, c'est un peu ce que nous cartographions ici. Je peux appeler cet
00:04:15API, brancher ici, transférer là, ce genre de logique devrait être facile à changer. Ensuite, à tout cela, il y a
00:04:21la couche de plateforme : tests, traçage, enregistrements, analytique. C'est le travail ennuyeux dont chaque projet vocal sérieux
00:04:28a besoin. Avec tout cela, vous pouvez apporter vos propres fournisseurs, votre propre LLM et votre propre synthèse vocale
00:04:34parce que Dogra est open source, vous pouvez inspecter le code, changer son fonctionnement et l'auto-héberger. Au moment de cet enregistrement,
00:04:41les étoiles GitHub sont peu nombreuses, donc c'est une trouvaille super récente que j'ai découverte, mais c'est honnêtement assez cool.
00:04:47Maintenant, comparons Dogra à d'autres choses que nous avons déjà ici. Vous avez trois manières principales de construire
00:04:51des agents vocaux. La première est les plateformes hébergées, Vapi, Bland, Retell. Celles-ci sont bonnes quand vous voulez aller vite et
00:04:58que vous ne voulez pas gérer l'infrastructure. Vous obtenez des tableaux de bord propres, des API, des outils de test de transcription, tout cela est
00:05:04vraiment utile, mais vous commencez à perdre le contrôle, n'est-ce pas ? Si la plateforme change ses tarifs, vous gérez
00:05:10cela, si la plateforme change ses limites, vous gérez cela, n'est-ce pas ? Si vous avez besoin d'un déploiement personnalisé, quoi que ce soit de ce genre,
00:05:17encore une fois, vous pourriez vous heurter à un mur. Les outils hébergés sont rapides cependant, donc j'imagine que c'est une victoire. Vous avez certains de ces
00:05:23frameworks bruts comme euh, je suis tombé sur Pipecap ou code, LiveKit je pense en fait partie,
00:05:30ceux-ci vous donnent beaucoup plus de contrôle, vous pouvez presque tout construire, mais maintenant vous construisez tout
00:05:36autour de ce framework, sans éditeur de flux de travail. Donc c'est un gros compromis d'utiliser des choses comme ça.
00:05:42Maintenant, Dogra est encore bien trop nouveau, mais il est là, et je pense que leur pari est assez simple : et si vous pouviez
00:05:49utiliser un générateur d'agent vocal visuel sans renoncer à l'auto-hébergement, au choix du fournisseur, au traçage et
00:05:56au contrôle ? C'est ce que cela semble être. Écrivez du code là où le code compte, utilisez le générateur là où votre flux
00:06:02compte, inspectez l'exécution quand les choses cassent, et échangez les fournisseurs quand les coûts changent. L'auto-hébergement nous donne
00:06:09beaucoup de contrôle, ce qui est énorme. Vapi, Bland, Retell sont les meilleurs pour un déploiement hébergé rapide, mais le compromis
00:06:16est le verrouillage des coûts et moins de contrôle. Si vous aimez les outils de codage comme celui-ci, assurez-vous de vous abonner à la chaîne Better
00:06:22Stack. Nous nous reverrons dans une autre vidéo.

Key Takeaway

Dogra permet aux développeurs de créer et d'auto-héberger des agents vocaux IA complexes avec un générateur de flux visuel, garantissant ainsi un contrôle total sur les coûts, les fournisseurs et le traçage des appels sans dépendre d'une infrastructure propriétaire.

Highlights

  • Dogra offre une alternative open source auto-hébergeable à des plateformes comme Vapi, Bland ou Retell.

  • L'installation s'effectue simplement via Docker en utilisant la commande docker compose up.

  • La plateforme intègre un générateur de flux de travail visuel permettant de concevoir des agents sans coder manuellement chaque étape d'orchestration.

  • Les développeurs peuvent inspecter les transcriptions, les appels d'outils API et les changements d'état en temps réel lors des tests d'appels.

  • La solution permet d'utiliser ses propres fournisseurs LLM, de synthèse vocale et de téléphonie, évitant ainsi le verrouillage imposé par les plateformes hébergées.

  • Le moteur vocal gère nativement les interruptions, les silences et les changements de sujet lors des interactions téléphoniques.

Timeline

Limitations des plateformes d'IA vocale propriétaires

  • Les solutions hébergées actuelles imposent des frais de plateforme cumulés à ceux du LLM, de la voix et des appels.
  • La gestion d'appels réels est complexe en raison des interruptions, des silences et des besoins en appels d'API dynamiques.
  • Le manque de transparence dans les plateformes propriétaires rend difficile le débogage lors d'échecs de réponses de l'agent.

L'utilisation de plateformes comme Vapi entraîne des coûts cachés et une perte de souveraineté sur le système. Les appels téléphoniques réels présentent des défis techniques imprévisibles, transformant la construction d'un agent en un système complexe comportant de nombreux éléments mobiles. L'absence d'outils de traçage internes empêche souvent de diagnostiquer précisément la cause d'une défaillance dans la chaîne de traitement.

Prise en main et configuration de Dogra

  • Le déploiement local s'effectue via Docker après clonage du dépôt GitHub.
  • L'interface permet de créer des agents qualifiés grâce à un canevas no-code orienté développeur.
  • Le système fournit des journaux détaillés incluant la transcription, le suivi de l'appel d'outil et les enregistrements audio.

Dogra se lance rapidement grâce à une configuration Docker simple. Le concepteur de flux visuel permet de définir des prompts, des étapes de qualification de leads et des transferts vers des humains sans écrire de code d'orchestration personnalisé. Lors des tests, les développeurs accèdent à une visibilité complète sur le déroulement de la conversation et les interactions avec le CRM.

Architecture et avantages de l'approche open source

  • Dogra se compose de trois couches : le moteur vocal, le générateur de flux de travail et la plateforme d'analyse.
  • Le moteur vocal assure la connexion entre l'appelant, le fournisseur téléphonique, le LLM et la synthèse vocale.
  • L'auto-hébergement permet de modifier le fonctionnement interne et de remplacer les fournisseurs pour optimiser les coûts.

Le générateur de flux permet de cartographier visuellement la logique de l'agent, rendant les changements de branches ou d'API simples. Comparé aux frameworks bruts qui exigent une construction totale, ou aux plateformes hébergées qui verrouillent l'utilisateur, Dogra offre un équilibre entre rapidité de développement et contrôle total de l'infrastructure.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video