Dieses Open-Source-Tool ersetzt Vapi für Voice AI (Dograh)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00Sie haben gerade einen Voice-AI-Agenten gebaut, er funktioniert, dann kommt die Rechnung und Sie bezahlen für das LLM, die
00:00:05Stimme, das Telefonat und dann noch eine Plattformgebühr oben drauf. Das ist noch nicht einmal das Schlimmste.
00:00:10Das Schlimmste ist, dass Ihnen das System eigentlich gar nicht gehört. Heute zeige ich Ihnen Dogra
00:00:16und eine Open-Source-Alternative, die Sie selbst hosten, inspizieren und kontrollieren können.
00:00:26Voice-AI sieht heutzutage von außen betrachtet etwas einfach aus: Einen Anruf entgegennehmen, Sprache in Text umwandeln,
00:00:33an das LLM senden, die Antwort wieder in Sprache umwandeln, fertig. Das ist einfach, oder? Nun, wie wir alle wissen,
00:00:39die das versucht haben: Nicht wirklich, denn echte Anrufe sind chaotisch. Menschen unterbrechen, Menschen schweigen, sie
00:00:46wechseln die Themen, sie stellen wirklich seltsame Fragen. Ihr Agent muss APIs aufrufen, und wenn
00:00:53es kaputtgeht, müssen Sie wissen, warum. Das ist der Punkt, an dem die meisten Voice-AI-Projekte zur Qual werden. Ein Voice-Agent
00:00:59ist nicht einfach ChatGPT mit einer Telefonnummer. Es ist ein Live-System mit einer Menge beweglicher Teile, richtig?
00:01:06Da sind Speech-to-Text, LLM, Text-to-Speech, Status, Tool-Aufrufe und jede Menge anderer Dinge. Sie verstehen schon, da gibt es
00:01:12viele bewegliche Teile, die wir gar nicht wirklich sehen. Und wenn der Anruf fehlschlägt und der Bot eine
00:01:17schlechte Antwort gibt, reicht das nicht. Lag es am Prompt? Am Modell? Was war es? Warum ist es fehlgeschlagen? Und genau
00:01:23hier kommt Dogra ins Spiel. Wenn Sie Coding-Tools mögen, die Ihren Workflow beschleunigen, abonnieren Sie uns. Wir haben
00:01:29ständig neue Videos. Also gut, schauen wir uns das in der Praxis an. Ich fange lokal an,
00:01:34denn wenn ein Tool behauptet, für Entwickler gebaut zu sein, will ich Docker sehen, bevor alles andere passiert. Das war super einfach
00:01:39aufzusetzen. Ich klone es von GitHub, ich wechsle in den Ordner und dann muss ich nur
00:01:44docker-compose up ausführen, das ist einfach genug für uns. Sobald die Container laufen, können wir
00:01:50in die Dogra-Benutzeroberfläche springen. Jetzt baue ich einen einfachen Agenten zur Lead-Qualifizierung. Was meine ich damit?
00:01:57Jemand ruft an, der Agent fragt, was sie aufbauen wollen, dann fragt er nach dem Unternehmen,
00:02:03der Größe, dem Budget, solche Kleinigkeiten. Dann ruft er ein API-Tool auf, um einen CRM-Lead zu erstellen oder zu aktualisieren. Wenn
00:02:11wir das einbetten, und vielleicht könnte ich sogar sagen, wenn der Lead qualifiziert wurde, wird er an einen Menschen übertragen. Also füge ich einen
00:02:18Prompt-Knoten hinzu, dann einen Qualifizierungsschritt, dann einen API-Tool-Aufruf und dann kann ich einen Zweig und eine Übertragung hinzufügen.
00:02:28Es gibt noch keinen benutzerdefinierten Orchestrierungscode, und das ist irgendwie der Punkt hier.
00:02:32Das sieht aus wie ein No-Code-Canvas, aber für Entwickler, und der Wert ist nicht “No-Code”. Der Wert liegt darin, keine Zeit
00:02:39mit dem Schreiben von Code zu verschwenden, um alles miteinander zu verknüpfen. Lassen Sie uns jetzt einen Testanruf versuchen. Hallo, hier ist Sarah von
00:02:46Inbound Calls. Sind Sie noch da? Wir suchen einen KI-Telefonagenten für Inbound-Demo-Anfragen. Das ist
00:02:55großartig, da kann ich Ihnen definitiv helfen. Damit ich Sie mit der richtigen Lösung verbinde, könnten
00:03:00Sie mir ein wenig mehr darüber erzählen, was Sie mit einem KI-Telefonagenten für Ihre eingehenden
00:03:05Demo-Anfragen erreichen möchten? Sagen wir etwa 20.000 Minuten. Danke, dass Sie das teilen. Und wie ist Ihre Unternehmensgröße
00:03:11und Branche? Jetzt können wir hier das Transkript sehen, wir können den Trace sehen, wir können den Tool-Aufruf sehen,
00:03:18der tatsächlich stattgefunden hat, und wir können die Zustandsänderungen sehen. Plus, hier ist die Aufnahme, die ich wollte,
00:03:24von Anfang an. Und das ist es, was ich als Entwickler will: nicht nur, dass der Bot funktioniert hat, ich will wissen, warum er funktioniert hat.
00:03:31Wenn er fehlschlägt, will ich Beweise dafür, dass es tatsächlich passiert ist. Was ist also Dogra? Dogra scheint uns
00:03:37drei verschiedene Dinge aus all dem zu geben: einen Voice-Agenten, einen visuellen Workflow-Builder auf der Plattform-Ebene,
00:03:44die man normalerweise selbst bauen muss. Die Voice-Engine ist der Teil, der den Anrufer, den Telefonanbieter,
00:03:50Speech-to-Text, das LLM und Text-to-Speech verbindet. Das ist es, was den Anruf tatsächlich ermöglicht. Der
00:03:57Workflow-Builder ist der Ort, an dem Sie die Logik dieses gesamten Systems entwerfen. Anstatt jeden Prompt, jeden Zweig,
00:04:03jeden API-Aufruf und jede Übertragung hart zu codieren, können Sie den Ablauf visuell abbilden, also ein riesiger Gewinn hier. Ich mag diese Art von
00:04:09Karten: Diese Frage stellen, auf die Antwort warten, das ist irgendwie das, was wir hier abbilden. Ich kann diesen
00:04:15API-Zweig hier aufrufen, dort übertragen, diese Art von Logik sollte leicht zu ändern sein. Dann gibt es zu all dem noch
00:04:21die Plattform-Ebene: Testen, Tracing, Aufzeichnungen, Analysen, das ist das langweilige Zeug, das jedes ernsthafte Voice-Projekt
00:04:28irgendwann braucht. Mit all dem können Sie Ihre eigenen Anbieter, Ihr eigenes LLM und Ihr eigenes TTS einbringen,
00:04:34da Dogra Open Source ist. Sie können den Code inspizieren, ändern, wie er funktioniert, und ihn selbst hosten. Zum Zeitpunkt dieser Aufnahme
00:04:41sind die GitHub-Sterne noch niedrig, also ist dies ein super neuer Fund, den ich entdeckt habe, aber es ist ehrlich gesagt ein ziemlich cooler.
00:04:47Lassen Sie uns nun Dogra mit anderen Dingen vergleichen, die wir bereits hier haben. Sie haben drei Hauptwege, um
00:04:51Voice-Agenten zu bauen: erstens gehostete Plattformen, Vapi, Bland, Retell. Diese sind gut, wenn Sie schnell vorankommen wollen und
00:04:58Sie keine Infrastruktur betreiben wollen. Sie erhalten saubere Dashboards, APIs, Transkripte, Test-Tools, das alles ist
00:05:04wirklich nützlich, aber Sie fangen an, die Kontrolle zu verlieren, richtig? Wenn die Plattform die Preise ändert, müssen Sie damit
00:05:10umgehen. Wenn die Plattform die Limits ändert, gehen Sie damit um, richtig? Wenn Sie eine benutzerdefinierte Bereitstellung benötigen oder so etwas,
00:05:17könnten Sie wieder gegen eine Wand laufen. Gehostete Tools sind jedoch schnell, also denke ich, das ist ein Gewinn. Sie haben einige dieser
00:05:23rohen Frameworks, wie uh, ich bin über LiveKit gestolpert, glaube ich, eines davon,
00:05:30diese geben Ihnen viel mehr Kontrolle. Sie können fast alles bauen, aber jetzt bauen Sie alles
00:05:36um dieses Framework herum ohne UI-Workflow-Editor. Das ist also ein großer Kompromiss bei der Verwendung solcher Dinge.
00:05:42Nun, Dogra ist noch viel zu neu, aber es ist da, und ich denke, ihre Wette ist irgendwie einfach: Was, wenn Sie
00:05:49einen visuellen Voice-Agenten-Builder verwenden könnten, ohne auf das Selbst-Hosten, die Auswahl eines Anbieters, das Tracing und
00:05:56die Kontrolle zu verzichten? Das scheint es zu sein: Schreiben Sie Code, wo Code wichtig ist, verwenden Sie den Builder, wo Ihr Ablauf
00:06:02wichtig ist, inspizieren Sie die Laufzeit, wenn Dinge kaputtgehen, und tauschen Sie Anbieter aus, wenn sich die Kosten ändern. Selbst-Hosten gibt
00:06:09uns viel Kontrolle, was riesig ist. Vapi, Bland, Retell sind am besten für schnelle gehostete Bereitstellung, aber der Kompromiss ist
00:06:16Kostenbindung und weniger Kontrolle. Wenn Sie solche Coding-Tools mögen, abonnieren Sie unbedingt den “Better Stack”-Kanal.
00:06:22Wir sehen uns in einem anderen Video.

Key Takeaway

Dogra ermöglicht Entwicklern die Erstellung und Selbsthostung komplexer Voice-AI-Agenten über eine visuelle Oberfläche, wodurch Kosten durch Plattformgebühren entfallen und volle Kontrolle über Infrastruktur und Daten gewährleistet bleibt.

Highlights

  • Dogra ist ein Open-Source-Tool zum selbst gehosteten Aufbau von Voice-AI-Agenten, das volle Kontrolle über LLM, Stimme und Anbieter ermöglicht.

  • Die Installation von Dogra erfolgt lokal via Docker mit dem Befehl 'docker-compose up', nachdem das Repository von GitHub geklont wurde.

  • Die Plattform bietet eine visuelle Oberfläche zur Orchestrierung von Workflows wie Lead-Qualifizierung, API-Aufrufen und Anrufweiterleitungen ohne manuelles Coding der Logik.

  • Entwickler erhalten für jeden Anruf detaillierte Traces, Transkripte und Zustandsänderungen, um Fehlerursachen präzise zu analysieren.

  • Im Vergleich zu gehosteten Plattformen wie Vapi, Bland oder Retell entfallen bei Dogra Plattformgebühren und die Abhängigkeit von externen Preis- oder Limitänderungen.

Timeline

Probleme proprietärer Voice-AI-Plattformen

  • Proprietäre Voice-AI-Dienste verursachen Kosten durch LLM-Nutzung, Stimmen, Telefonate und zusätzliche Plattformgebühren.
  • Der Mangel an Transparenz bei Anruffehlern macht die Fehlersuche in komplexen Live-Systemen schwierig.
  • Ein Voice-Agent besteht aus vielen beweglichen Teilen wie Speech-to-Text, LLM, Text-to-Speech und API-Tool-Aufrufen.

Voice-AI-Projekte scheitern oft an der Komplexität realer Anrufe, bei denen Menschen unterbrechen, schweigen oder Themen wechseln. Wenn ein Bot schlecht reagiert, lässt sich bei gehosteten Plattformen schwer nachvollziehen, ob das Problem am Prompt, am Modell oder an der Logik liegt.

Praktische Implementierung von Dogra

  • Die lokale Einrichtung erfolgt durch Klonen des GitHub-Repositorys und Ausführen von 'docker-compose up'.
  • Der Workflow-Builder ermöglicht die visuelle Definition von Prozessen zur Lead-Qualifizierung und CRM-Integration.
  • Das System dokumentiert nach jedem Anruf das Transkript, den Trace und die Tool-Aufrufe zur direkten Überprüfung.

Der Workflow-Builder fungiert als 'No-Code-Canvas' für Entwickler, um Logik wie Fragen, API-Zweige und Anrufweiterleitungen visuell zu verbinden. Während eines Testanrufs zeichnet das System alle relevanten Daten auf, sodass Entwickler beweisen können, warum ein Agent auf eine bestimmte Weise gehandelt hat.

Vergleich von Architekturansätzen

  • Dogra kombiniert eine Voice-Engine, einen visuellen Workflow-Builder und eine Plattform-Ebene für Tracing und Analysen.
  • Gehostete Plattformen wie Vapi oder Retell bieten schnelle Implementierung, aber eingeschränkte Kontrolle und hohe Kostenbindung.
  • Rohe Frameworks wie LiveKit erlauben maximale Kontrolle, erfordern jedoch den Aufbau der gesamten UI-Infrastruktur von Grund auf.
  • Die Wahl von Dogra ermöglicht den Austausch einzelner Anbieter bei gleichbleibender visueller Logik.

Die Architektur von Dogra zielt darauf ab, Code nur dort zu schreiben, wo er notwendig ist, während der Ablauf visuell verwaltet wird. Dies stellt einen Mittelweg zwischen proprietären Plattformen und komplexen, rein codebasierten Frameworks dar, indem die Hoheit über das Selbst-Hosten erhalten bleibt.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video