Dieses Open-Source-Tool ersetzt Vapi für Voice AI (Dograh)
BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology
Transcript
00:00:00Sie haben gerade einen Voice-AI-Agenten gebaut, er funktioniert, dann kommt die Rechnung und Sie bezahlen für das LLM, die
00:00:05Stimme, das Telefonat und dann noch eine Plattformgebühr oben drauf. Das ist noch nicht einmal das Schlimmste.
00:00:10Das Schlimmste ist, dass Ihnen das System eigentlich gar nicht gehört. Heute zeige ich Ihnen Dogra
00:00:16und eine Open-Source-Alternative, die Sie selbst hosten, inspizieren und kontrollieren können.
00:00:26Voice-AI sieht heutzutage von außen betrachtet etwas einfach aus: Einen Anruf entgegennehmen, Sprache in Text umwandeln,
00:00:33an das LLM senden, die Antwort wieder in Sprache umwandeln, fertig. Das ist einfach, oder? Nun, wie wir alle wissen,
00:00:39die das versucht haben: Nicht wirklich, denn echte Anrufe sind chaotisch. Menschen unterbrechen, Menschen schweigen, sie
00:00:46wechseln die Themen, sie stellen wirklich seltsame Fragen. Ihr Agent muss APIs aufrufen, und wenn
00:00:53es kaputtgeht, müssen Sie wissen, warum. Das ist der Punkt, an dem die meisten Voice-AI-Projekte zur Qual werden. Ein Voice-Agent
00:00:59ist nicht einfach ChatGPT mit einer Telefonnummer. Es ist ein Live-System mit einer Menge beweglicher Teile, richtig?
00:01:06Da sind Speech-to-Text, LLM, Text-to-Speech, Status, Tool-Aufrufe und jede Menge anderer Dinge. Sie verstehen schon, da gibt es
00:01:12viele bewegliche Teile, die wir gar nicht wirklich sehen. Und wenn der Anruf fehlschlägt und der Bot eine
00:01:17schlechte Antwort gibt, reicht das nicht. Lag es am Prompt? Am Modell? Was war es? Warum ist es fehlgeschlagen? Und genau
00:01:23hier kommt Dogra ins Spiel. Wenn Sie Coding-Tools mögen, die Ihren Workflow beschleunigen, abonnieren Sie uns. Wir haben
00:01:29ständig neue Videos. Also gut, schauen wir uns das in der Praxis an. Ich fange lokal an,
00:01:34denn wenn ein Tool behauptet, für Entwickler gebaut zu sein, will ich Docker sehen, bevor alles andere passiert. Das war super einfach
00:01:39aufzusetzen. Ich klone es von GitHub, ich wechsle in den Ordner und dann muss ich nur
00:01:44docker-compose up ausführen, das ist einfach genug für uns. Sobald die Container laufen, können wir
00:01:50in die Dogra-Benutzeroberfläche springen. Jetzt baue ich einen einfachen Agenten zur Lead-Qualifizierung. Was meine ich damit?
00:01:57Jemand ruft an, der Agent fragt, was sie aufbauen wollen, dann fragt er nach dem Unternehmen,
00:02:03der Größe, dem Budget, solche Kleinigkeiten. Dann ruft er ein API-Tool auf, um einen CRM-Lead zu erstellen oder zu aktualisieren. Wenn
00:02:11wir das einbetten, und vielleicht könnte ich sogar sagen, wenn der Lead qualifiziert wurde, wird er an einen Menschen übertragen. Also füge ich einen
00:02:18Prompt-Knoten hinzu, dann einen Qualifizierungsschritt, dann einen API-Tool-Aufruf und dann kann ich einen Zweig und eine Übertragung hinzufügen.
00:02:28Es gibt noch keinen benutzerdefinierten Orchestrierungscode, und das ist irgendwie der Punkt hier.
00:02:32Das sieht aus wie ein No-Code-Canvas, aber für Entwickler, und der Wert ist nicht “No-Code”. Der Wert liegt darin, keine Zeit
00:02:39mit dem Schreiben von Code zu verschwenden, um alles miteinander zu verknüpfen. Lassen Sie uns jetzt einen Testanruf versuchen. Hallo, hier ist Sarah von
00:02:46Inbound Calls. Sind Sie noch da? Wir suchen einen KI-Telefonagenten für Inbound-Demo-Anfragen. Das ist
00:02:55großartig, da kann ich Ihnen definitiv helfen. Damit ich Sie mit der richtigen Lösung verbinde, könnten
00:03:00Sie mir ein wenig mehr darüber erzählen, was Sie mit einem KI-Telefonagenten für Ihre eingehenden
00:03:05Demo-Anfragen erreichen möchten? Sagen wir etwa 20.000 Minuten. Danke, dass Sie das teilen. Und wie ist Ihre Unternehmensgröße
00:03:11und Branche? Jetzt können wir hier das Transkript sehen, wir können den Trace sehen, wir können den Tool-Aufruf sehen,
00:03:18der tatsächlich stattgefunden hat, und wir können die Zustandsänderungen sehen. Plus, hier ist die Aufnahme, die ich wollte,
00:03:24von Anfang an. Und das ist es, was ich als Entwickler will: nicht nur, dass der Bot funktioniert hat, ich will wissen, warum er funktioniert hat.
00:03:31Wenn er fehlschlägt, will ich Beweise dafür, dass es tatsächlich passiert ist. Was ist also Dogra? Dogra scheint uns
00:03:37drei verschiedene Dinge aus all dem zu geben: einen Voice-Agenten, einen visuellen Workflow-Builder auf der Plattform-Ebene,
00:03:44die man normalerweise selbst bauen muss. Die Voice-Engine ist der Teil, der den Anrufer, den Telefonanbieter,
00:03:50Speech-to-Text, das LLM und Text-to-Speech verbindet. Das ist es, was den Anruf tatsächlich ermöglicht. Der
00:03:57Workflow-Builder ist der Ort, an dem Sie die Logik dieses gesamten Systems entwerfen. Anstatt jeden Prompt, jeden Zweig,
00:04:03jeden API-Aufruf und jede Übertragung hart zu codieren, können Sie den Ablauf visuell abbilden, also ein riesiger Gewinn hier. Ich mag diese Art von
00:04:09Karten: Diese Frage stellen, auf die Antwort warten, das ist irgendwie das, was wir hier abbilden. Ich kann diesen
00:04:15API-Zweig hier aufrufen, dort übertragen, diese Art von Logik sollte leicht zu ändern sein. Dann gibt es zu all dem noch
00:04:21die Plattform-Ebene: Testen, Tracing, Aufzeichnungen, Analysen, das ist das langweilige Zeug, das jedes ernsthafte Voice-Projekt
00:04:28irgendwann braucht. Mit all dem können Sie Ihre eigenen Anbieter, Ihr eigenes LLM und Ihr eigenes TTS einbringen,
00:04:34da Dogra Open Source ist. Sie können den Code inspizieren, ändern, wie er funktioniert, und ihn selbst hosten. Zum Zeitpunkt dieser Aufnahme
00:04:41sind die GitHub-Sterne noch niedrig, also ist dies ein super neuer Fund, den ich entdeckt habe, aber es ist ehrlich gesagt ein ziemlich cooler.
00:04:47Lassen Sie uns nun Dogra mit anderen Dingen vergleichen, die wir bereits hier haben. Sie haben drei Hauptwege, um
00:04:51Voice-Agenten zu bauen: erstens gehostete Plattformen, Vapi, Bland, Retell. Diese sind gut, wenn Sie schnell vorankommen wollen und
00:04:58Sie keine Infrastruktur betreiben wollen. Sie erhalten saubere Dashboards, APIs, Transkripte, Test-Tools, das alles ist
00:05:04wirklich nützlich, aber Sie fangen an, die Kontrolle zu verlieren, richtig? Wenn die Plattform die Preise ändert, müssen Sie damit
00:05:10umgehen. Wenn die Plattform die Limits ändert, gehen Sie damit um, richtig? Wenn Sie eine benutzerdefinierte Bereitstellung benötigen oder so etwas,
00:05:17könnten Sie wieder gegen eine Wand laufen. Gehostete Tools sind jedoch schnell, also denke ich, das ist ein Gewinn. Sie haben einige dieser
00:05:23rohen Frameworks, wie uh, ich bin über LiveKit gestolpert, glaube ich, eines davon,
00:05:30diese geben Ihnen viel mehr Kontrolle. Sie können fast alles bauen, aber jetzt bauen Sie alles
00:05:36um dieses Framework herum ohne UI-Workflow-Editor. Das ist also ein großer Kompromiss bei der Verwendung solcher Dinge.
00:05:42Nun, Dogra ist noch viel zu neu, aber es ist da, und ich denke, ihre Wette ist irgendwie einfach: Was, wenn Sie
00:05:49einen visuellen Voice-Agenten-Builder verwenden könnten, ohne auf das Selbst-Hosten, die Auswahl eines Anbieters, das Tracing und
00:05:56die Kontrolle zu verzichten? Das scheint es zu sein: Schreiben Sie Code, wo Code wichtig ist, verwenden Sie den Builder, wo Ihr Ablauf
00:06:02wichtig ist, inspizieren Sie die Laufzeit, wenn Dinge kaputtgehen, und tauschen Sie Anbieter aus, wenn sich die Kosten ändern. Selbst-Hosten gibt
00:06:09uns viel Kontrolle, was riesig ist. Vapi, Bland, Retell sind am besten für schnelle gehostete Bereitstellung, aber der Kompromiss ist
00:06:16Kostenbindung und weniger Kontrolle. Wenn Sie solche Coding-Tools mögen, abonnieren Sie unbedingt den “Better Stack”-Kanal.
00:06:22Wir sehen uns in einem anderen Video.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video