这款开源工具是 Vapi 的替代方案,助力语音 AI 开发 (Dograh)
BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology
Transcript
00:00:00你刚刚构建了一个语音 AI 代理,它能工作了,然后账单就来了,你得为大语言模型支付
00:00:05语音通话费用,还要额外支付平台费,但这还不是最糟糕的部分
00:00:10最糟糕的是你甚至还没真正拥有这个系统。今天我要向你展示 Dogra
00:00:16一个你可以自托管、检查和控制的开源语音 AI 替代方案
00:00:26如今的语音 AI 从表面上看似乎很简单:接听电话,将语音转为文字
00:00:33发送给大语言模型,再把回答转回语音。完成了,这很简单,对吧?好吧,正如我们所知
00:00:39尝试过的人都知道,其实不然,因为真实的通话很复杂:人们会打断、会沉默、他们
00:00:46会改变话题,他们会问非常奇怪的问题。你的代理需要调用 API,而当
00:00:53它出故障时你需要知道原因。这就是大多数语音 AI 项目变得令人头疼的地方。一个语音
00:00:59代理不仅仅是带电话号码的 ChatGPT,它是一个拥有许多活动部件的实时系统,对吧?
00:01:06这包括语音转文字、大语言模型、文字转语音、状态、工具调用以及其他一大堆东西。你懂的,这里有
00:01:12很多我们实际上看不见正在发生的活动部件。当通话失败,机器人给出了
00:01:17糟糕的回答,仅仅知道这一点是不够的。是提示词的问题吗?是模型的问题吗?到底是什么原因?为什么会失败?这就是
00:01:23Dogra 发挥作用的地方。如果你喜欢能加速工作流的编程工具,请务必订阅。我们有
00:01:29不断更新的视频。好了,现在让我们在实践中看看。我打算在本地启动
00:01:34因为如果一个工具说它是为开发者构建的,我在做任何事情之前都想先看到 Docker。这非常容易
00:01:39就能启动。我要从 GitHub 克隆它,进入文件夹,然后我只需要
00:01:44运行 docker compose up。这对于我们来说足够简单。容器运行后,我们可以
00:01:50进入 Dogra 用户界面。现在,我将构建一个简单的线索资格审查代理。这到底是什么意思呢?
00:01:57有人打进电话,代理会问他们想构建什么,然后询问关于公司的情况
00:02:03规模、预算,诸如此类的小事。然后它会调用一个 API 工具来创建或更新 CRM 线索。如果
00:02:11我们嵌入这个,甚至可以说,如果线索合格,就转接到人工。所以我添加一个
00:02:18提示词节点,然后是资格审查步骤,接着是一个 API 工具调用,然后我可以添加一个分支和一个转接
00:02:28目前还没有自定义的编排代码,而这正是重点所在
00:02:32这看起来像是一个无代码画布,但却是为开发者准备的。其价值不在于无代码,而在于不用浪费
00:02:39代码去尝试连接所有东西。现在,让我们尝试在这里进行一次测试通话。嘿,我是 Sarah,来自
00:02:46Inbound Calls。你还在吗?我们正在为入站演示请求寻找一个 AI 电话代理。那
00:02:55太好了,我绝对可以帮你解决这个问题。为了确保我为你对接合适的解决方案,能不能
00:03:00告诉我更多关于你希望通过 AI 电话代理为你的入站
00:03:05演示请求实现什么目标吗?大概 20000 分钟吧。感谢分享,那么你的公司
00:03:11规模和行业是怎样的?现在我们可以看到转录内容,我们可以看到追踪信息,我们可以看到工具调用
00:03:18实际发生了什么,我们还可以看到状态变化,加上这是录音,这正是我首先想要的
00:03:24这也是我作为开发者想要的,不仅仅是机器人能工作,我还想知道它为什么能工作
00:03:31当它失败时,我想要它实际发生情况的证据。那么什么是 Dogra?Dogra 似乎给予我们
00:03:37三种不同的东西。通过所有这些,我们得到了一个语音代理,一个视觉工作流构建器,在平台
00:03:44层面上,你通常需要自己构建。语音引擎是连接呼叫者、电话
00:03:50提供商、语音转文字、大语言模型和文字转语音的部分。这就是让通话真正实现的部分。
00:03:57工作流构建器是你设计整个系统逻辑的地方。所以不需要硬编码每一个
00:04:03提示词、分支、API 调用和转接,你可以直观地规划流程。所以这是一个巨大的胜利,我喜欢这种
00:04:09地图:询问这个问题,等待回答,这正是我们在这里规划的内容。我可以调用这个
00:04:15API 分支到那里,转接到那边,这种逻辑应该很容易改变。此外,还有
00:04:21平台层:测试、追踪、录音、分析。这就是每个严肃的语音项目
00:04:28最终都需要的东西。有了这一切,你可以自带提供商、自带大语言模型和文字转语音服务
00:04:34因为 Dogra 是开源的,你可以检查代码、更改它的工作方式并进行自托管。截至本录制时间
00:04:41GitHub 的星数很少,所以这是一个我刚发现的超级新的工具,但它确实相当酷
00:04:47现在让我们比较一下 Dogra 和我们现有的其他工具。构建
00:04:51语音代理有三种主要方式。首先是托管平台:Vapi、Bland、Retell。当你想要快速行动且
00:04:58不想运行基础设施时,它们很好。你获得干净的仪表板、API、转录测试工具,所有这些都
00:05:04确实非常有用。但你开始失去控制权了,对吧?如果平台更改定价,你就得处理
00:05:10如果平台更改限制,你也得处理。对吧?如果你需要自定义部署或任何类似的事情
00:05:17再一次,你可能会碰到墙。不过托管工具很快,所以我想这算是一种胜利。你有一些
00:05:23原始框架,比如我遇到的 PipeCat,LiveKit 我想是其中之一
00:05:30这些为你提供了更多的控制权,你可以构建任何东西,但现在你却在围绕这个框架构建一切
00:05:36没有用户界面工作流编辑器,所以使用这些工具是一个很大的权衡
00:05:42Dogra 仍然太新了,但它就在这里。我认为他们的赌注很简单:如果你可以
00:05:49使用视觉语音代理构建器,同时又不必放弃自托管、选择提供商、追踪功能和
00:05:56控制权,那会怎样?这似乎就是它的意义所在。在代码重要的地方编写代码,在流程重要的地方使用构建器
00:06:02在出现故障时检查运行时,并在成本变化时更换提供商。自托管给了
00:06:09我们很多控制权,这是巨大的。Vapi、Bland、Retell 最适合快速托管部署,但权衡是
00:06:16成本锁定和更少的控制。如果你喜欢这样的编程工具,请务必订阅 Better Stack 频道
00:06:22我们会在下一个视频中见
Community Posts
No posts yet. Be the first to write about this video!
Write about this video