这款开源工具是 Vapi 的替代方案,助力语音 AI 开发 (Dograh)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00你刚刚构建了一个语音 AI 代理,它能工作了,然后账单就来了,你得为大语言模型支付
00:00:05语音通话费用,还要额外支付平台费,但这还不是最糟糕的部分
00:00:10最糟糕的是你甚至还没真正拥有这个系统。今天我要向你展示 Dogra
00:00:16一个你可以自托管、检查和控制的开源语音 AI 替代方案
00:00:26如今的语音 AI 从表面上看似乎很简单:接听电话,将语音转为文字
00:00:33发送给大语言模型,再把回答转回语音。完成了,这很简单,对吧?好吧,正如我们所知
00:00:39尝试过的人都知道,其实不然,因为真实的通话很复杂:人们会打断、会沉默、他们
00:00:46会改变话题,他们会问非常奇怪的问题。你的代理需要调用 API,而当
00:00:53它出故障时你需要知道原因。这就是大多数语音 AI 项目变得令人头疼的地方。一个语音
00:00:59代理不仅仅是带电话号码的 ChatGPT,它是一个拥有许多活动部件的实时系统,对吧?
00:01:06这包括语音转文字、大语言模型、文字转语音、状态、工具调用以及其他一大堆东西。你懂的,这里有
00:01:12很多我们实际上看不见正在发生的活动部件。当通话失败,机器人给出了
00:01:17糟糕的回答,仅仅知道这一点是不够的。是提示词的问题吗?是模型的问题吗?到底是什么原因?为什么会失败?这就是
00:01:23Dogra 发挥作用的地方。如果你喜欢能加速工作流的编程工具,请务必订阅。我们有
00:01:29不断更新的视频。好了,现在让我们在实践中看看。我打算在本地启动
00:01:34因为如果一个工具说它是为开发者构建的,我在做任何事情之前都想先看到 Docker。这非常容易
00:01:39就能启动。我要从 GitHub 克隆它,进入文件夹,然后我只需要
00:01:44运行 docker compose up。这对于我们来说足够简单。容器运行后,我们可以
00:01:50进入 Dogra 用户界面。现在,我将构建一个简单的线索资格审查代理。这到底是什么意思呢?
00:01:57有人打进电话,代理会问他们想构建什么,然后询问关于公司的情况
00:02:03规模、预算,诸如此类的小事。然后它会调用一个 API 工具来创建或更新 CRM 线索。如果
00:02:11我们嵌入这个,甚至可以说,如果线索合格,就转接到人工。所以我添加一个
00:02:18提示词节点,然后是资格审查步骤,接着是一个 API 工具调用,然后我可以添加一个分支和一个转接
00:02:28目前还没有自定义的编排代码,而这正是重点所在
00:02:32这看起来像是一个无代码画布,但却是为开发者准备的。其价值不在于无代码,而在于不用浪费
00:02:39代码去尝试连接所有东西。现在,让我们尝试在这里进行一次测试通话。嘿,我是 Sarah,来自
00:02:46Inbound Calls。你还在吗?我们正在为入站演示请求寻找一个 AI 电话代理。那
00:02:55太好了,我绝对可以帮你解决这个问题。为了确保我为你对接合适的解决方案,能不能
00:03:00告诉我更多关于你希望通过 AI 电话代理为你的入站
00:03:05演示请求实现什么目标吗?大概 20000 分钟吧。感谢分享,那么你的公司
00:03:11规模和行业是怎样的?现在我们可以看到转录内容,我们可以看到追踪信息,我们可以看到工具调用
00:03:18实际发生了什么,我们还可以看到状态变化,加上这是录音,这正是我首先想要的
00:03:24这也是我作为开发者想要的,不仅仅是机器人能工作,我还想知道它为什么能工作
00:03:31当它失败时,我想要它实际发生情况的证据。那么什么是 Dogra?Dogra 似乎给予我们
00:03:37三种不同的东西。通过所有这些,我们得到了一个语音代理,一个视觉工作流构建器,在平台
00:03:44层面上,你通常需要自己构建。语音引擎是连接呼叫者、电话
00:03:50提供商、语音转文字、大语言模型和文字转语音的部分。这就是让通话真正实现的部分。
00:03:57工作流构建器是你设计整个系统逻辑的地方。所以不需要硬编码每一个
00:04:03提示词、分支、API 调用和转接,你可以直观地规划流程。所以这是一个巨大的胜利,我喜欢这种
00:04:09地图:询问这个问题,等待回答,这正是我们在这里规划的内容。我可以调用这个
00:04:15API 分支到那里,转接到那边,这种逻辑应该很容易改变。此外,还有
00:04:21平台层:测试、追踪、录音、分析。这就是每个严肃的语音项目
00:04:28最终都需要的东西。有了这一切,你可以自带提供商、自带大语言模型和文字转语音服务
00:04:34因为 Dogra 是开源的,你可以检查代码、更改它的工作方式并进行自托管。截至本录制时间
00:04:41GitHub 的星数很少,所以这是一个我刚发现的超级新的工具,但它确实相当酷
00:04:47现在让我们比较一下 Dogra 和我们现有的其他工具。构建
00:04:51语音代理有三种主要方式。首先是托管平台:Vapi、Bland、Retell。当你想要快速行动且
00:04:58不想运行基础设施时,它们很好。你获得干净的仪表板、API、转录测试工具,所有这些都
00:05:04确实非常有用。但你开始失去控制权了,对吧?如果平台更改定价,你就得处理
00:05:10如果平台更改限制,你也得处理。对吧?如果你需要自定义部署或任何类似的事情
00:05:17再一次,你可能会碰到墙。不过托管工具很快,所以我想这算是一种胜利。你有一些
00:05:23原始框架,比如我遇到的 PipeCat,LiveKit 我想是其中之一
00:05:30这些为你提供了更多的控制权,你可以构建任何东西,但现在你却在围绕这个框架构建一切
00:05:36没有用户界面工作流编辑器,所以使用这些工具是一个很大的权衡
00:05:42Dogra 仍然太新了,但它就在这里。我认为他们的赌注很简单:如果你可以
00:05:49使用视觉语音代理构建器,同时又不必放弃自托管、选择提供商、追踪功能和
00:05:56控制权,那会怎样?这似乎就是它的意义所在。在代码重要的地方编写代码,在流程重要的地方使用构建器
00:06:02在出现故障时检查运行时,并在成本变化时更换提供商。自托管给了
00:06:09我们很多控制权,这是巨大的。Vapi、Bland、Retell 最适合快速托管部署,但权衡是
00:06:16成本锁定和更少的控制。如果你喜欢这样的编程工具,请务必订阅 Better Stack 频道
00:06:22我们会在下一个视频中见

Key Takeaway

Dogra 通过可视化工作流编辑器与自托管架构的结合,让开发者在保留对底层技术栈完全控制权的同时,能够高效构建并调试复杂的语音 AI 代理系统。

Highlights

  • Dogra 是一个支持自托管的开源语音 AI 平台,允许开发者完全控制语音转文字、大语言模型和文字转语音等组件。

  • 该工具通过 Docker 容器化部署,只需通过 `docker compose up` 命令即可完成本地初始化。

  • Dogra 提供的可视化工作流构建器允许开发者在不编写复杂编排代码的情况下,设计提示词、分支逻辑及 API 工具调用。

  • 系统内置了完整的通话追踪功能,提供通话录音、实时转录内容查看、工具调用证据及状态变化记录。

  • 相较于 Vapi、Bland 或 Retell 等托管平台,Dogra 避免了供应商定价变动带来的成本锁定风险。

  • 该平台允许用户自由更换底层的语音引擎和模型提供商,满足自定义部署的灵活性需求。

Timeline

语音 AI 开发的痛点

  • 语音 AI 系统不仅仅是连接 LLM,还需要处理复杂的实时互动,如用户打断、沉默和话题转换。
  • 托管平台通常隐藏了语音转文字、状态管理和工具调用的内部细节,导致系统故障时难以排查根本原因。
  • 开发高质量语音代理面临高额的平台费用、复杂的 API 调用以及对系统控制权的丧失。

语音代理的实时性导致了许多难以察觉的活动部件,如状态维护和工具链编排。当通话失败时,仅知晓结果而不了解背后的提示词或模型响应原因,限制了开发者的优化能力。Dogra 旨在通过透明化这些流程来解决此类痛点。

Dogra 的构建与实践

  • Dogra 支持本地部署,通过 GitHub 克隆代码库并运行 `docker compose up` 即可快速启动环境。
  • 可视化工作流构建器允许直观地连接提示词节点、资格审查步骤和 API 工具,无需编写繁琐的编排代码。
  • 实时通话测试中,系统能够展示详细的转录内容、追踪信息及 API 调用结果,帮助开发者验证逻辑。

通过构建一个线索资格审查代理,用户可以亲身体验如何设计一套包含 CRM 线索更新和人工转接功能的复杂逻辑。这种方式将工作流的视觉设计与代码逻辑分离,既保持了开发者的灵活性,又降低了连接各组件的冗余工作。

平台架构与替代方案对比

  • Dogra 的核心由语音引擎、工作流构建器和测试追踪平台三大层级组成。
  • 与 Vapi 等托管平台相比,Dogra 提供了更高的自主权,用户可自带模型和语音提供商。
  • 相较于 LiveKit 等纯底层框架,Dogra 提供了 UI 编辑器,解决了框架构建过程中缺乏可视化管理界面的问题。

在现有语音 AI 开发模式中,托管平台追求速度但牺牲了控制权,而原始框架提供了控制权但增加了开发难度。Dogra 试图在两者之间取得平衡,让开发者在重要的业务流程上使用图形化构建,在性能关键处保持对底层基础设施的完全管理。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video