Vapi를 대체할 오픈소스 보이스 AI (Dograh)

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00음성 AI 에이전트를 막 만들고 작동시키면, 청구서가 날아옵니다. LLM 비용에
00:00:05음성 통화 비용, 거기에 플랫폼 수수료까지 더해지죠. 근데 더 심각한 문제가 있습니다.
00:00:10가장 큰 문제는 시스템을 완전히 소유하지 못한다는 점입니다. 오늘 제가 Dogra를 소개할 텐데,
00:00:16직접 호스팅하고 검사하고 제어할 수 있는 오픈소스 음성 AI 대안입니다.
00:00:26요즘 음성 AI는 겉보기엔 꽤 단순해 보입니다. 전화를 받고, 음성을 텍스트로 바꾸고,
00:00:33LLM에 보낸 뒤, 대답을 다시 음성으로 바꾸면 끝. 간단해 보이죠? 하지만 우리 모두 알다시피
00:00:39실제로 해보면 그렇지 않습니다. 실제 통화는 엉망이거든요. 사람들은 말을 끊고, 침묵하기도 하고,
00:00:46주제를 바꾸고, 정말 이상한 질문을 하기도 합니다. 에이전트는 API를 호출해야 하고,
00:00:53문제가 생기면 그 이유를 알아야 하죠. 대부분의 음성 AI 프로젝트가 골치 아파지는 지점입니다.
00:00:59음성 에이전트는 단순히 전화번호가 달린 ChatGPT가 아닙니다. 수많은 요소가 움직이는 라이브 시스템이죠.
00:01:06음성 인식, LLM, 음성 합성, 상태 관리, 툴 호출 등 수많은 과정이 복잡하게 얽혀 있습니다.
00:01:12우리가 보지 못하는 사이에 많은 일이 일어나죠. 봇이 이상한 대답을 해서
00:01:17통화가 실패했을 때, 그게 프롬프트 문제였는지, 모델 문제였는지 알기 어렵습니다. 여기서
00:01:23Dogra가 필요한 겁니다. 개발 워크플로우를 개선하는 도구에 관심이 있다면 구독해 주세요.
00:01:29계속해서 좋은 영상을 올리고 있습니다. 자, 이제 실제로 어떻게 작동하는지 보겠습니다. 로컬에서 시작할 건데,
00:01:34개발자를 위한 도구라면 먼저 Docker부터 확인해야죠. 실행하기가 정말 쉽더군요.
00:01:39깃허브에서 클론하고, 폴더로 이동한 다음,
00:01:44docker compose up만 실행하면 됩니다. 정말 간단하죠. 컨테이너가 실행되면
00:01:50Dogra UI로 접속할 수 있습니다. 이제 간단한 리드 자격 확인 에이전트를 만들어 보겠습니다.
00:01:57누군가 전화를 걸면 에이전트가 무엇을 만들고 싶은지 묻고, 회사 규모와
00:02:03예산을 물어봅니다. 이런 정보들을 수집한 뒤, API 툴을 호출해 CRM 리드를 생성하거나 업데이트하죠.
00:02:11리드가 적합한지 판단해서 상담원에게 연결할 수도 있고요. 그래서 프롬프트 노드를 추가하고,
00:02:18자격 확인 단계, API 툴 호출, 그리고 분기 처리를 통해 상담원 연결 노드를 만들겠습니다.
00:02:28아직 복잡한 오케스트레이션 코드를 하나도 짜지 않았는데, 바로 이게 핵심입니다.
00:02:32개발자를 위한 노코드 캔버스 같은 모습이죠. 가치는 코드를 짜지 않는 데 있는 게 아니라,
00:02:39연결하느라 코드를 낭비하지 않는 데 있습니다. 자, 이제 테스트 전화를 해보죠. 안녕, 인바운드 콜의
00:02:46사라입니다. 거기 계신가요? 인바운드 데모 요청을 처리할 AI 전화 에이전트를 찾고 있어요.
00:02:55좋아요, 확실히 도와드릴 수 있습니다. 적절한 솔루션을 연결해 드리기 위해,
00:03:00인바운드 데모 요청을 위해 AI 전화 에이전트로 달성하고자 하는 목표를 조금 더
00:03:05알려주실 수 있을까요? 약 2만 분 정도 처리하고 싶어요. 공유해 주셔서 감사합니다. 회사 규모와
00:03:11산업 분야는 어떻게 되나요? 이제 여기에서 대본을 볼 수 있고, 추적 정보와 도구 호출 내역,
00:03:18상태 변화도 확인할 수 있습니다. 게다가 제가 처음에 원했던 통화 녹음 파일까지 있죠.
00:03:24개발자로서 단순히 봇이 작동하는 것만 아는 걸로는 부족합니다. 왜 작동했는지 알고 싶거든요.
00:03:31실패했을 때 실제로 무슨 일이 있었는지 증거가 필요합니다. 그렇다면 Dogra란 무엇일까요?
00:03:37Dogra는 우리에게 세 가지를 제공합니다. 음성 에이전트, 비주얼 워크플로우 빌더,
00:03:44그리고 보통 직접 만들어야 하는 플랫폼 레이어입니다. 음성 엔진은 통화와 전화 서비스,
00:03:50음성 인식, LLM, 음성 합성을 연결해 실제 통화가 가능하게 만드는 부분입니다.
00:03:57워크플로우 빌더는 이 시스템의 논리를 설계하는 곳이죠. 모든 프롬프트, 분기,
00:04:03API 호출, 연결을 하드코딩하는 대신 시각적으로 흐름을 매핑할 수 있습니다. 정말 큰 장점이죠.
00:04:09질문을 하고 대답을 기다리는 이런 맵을 좋아합니다. 여기서 API를 호출하고,
00:04:15분기하고 연결하는 식의 논리는 변경하기 쉬워야 합니다. 그리고 이 모든 것 위에
00:04:21테스트, 추적, 녹음, 분석 같은 플랫폼 레이어가 있습니다. 모든 음성 프로젝트에 필요한 지루한 작업들이죠.
00:04:28이를 통해 직접 서비스 제공업체, LLM, TTS를 가져와 사용할 수 있습니다.
00:04:34Dogra는 오픈소스이므로 코드를 검사하고 수정해서 직접 호스팅할 수 있습니다. 이 영상 녹화 시점에는
00:04:41깃허브 스타가 적은 아주 새로운 도구지만, 정말 멋진 발견이라고 생각합니다.
00:04:47이제 Dogra와 기존의 다른 도구들을 비교해 보죠. 음성 에이전트를 구축하는 세 가지 방법이 있습니다.
00:04:51첫째는 Vapi, Bland, Retell 같은 호스팅 플랫폼입니다. 빠르게 움직이고 싶고,
00:04:58인프라를 운영하고 싶지 않을 때 좋습니다. 깔끔한 대시보드, API, 테스트 도구 등 모든 게
00:05:04정말 유용하죠. 하지만 거기서 제어권을 잃게 됩니다. 플랫폼이 가격을 바꾸면 따라가야 하고,
00:05:10제한을 바꾸면 그것도 감당해야 하죠. 커스텀 배포가 필요하다면
00:05:17한계에 부딪힐 수 있습니다. 호스팅 도구는 빠르다는 점이 장점이죠. 그 다음은
00:05:23PipeCap, LiveKit 같은 로우 프레임워크입니다.
00:05:30이런 도구들은 더 많은 제어권을 제공합니다. 거의 모든 걸 만들 수 있지만, 이제는
00:05:36프레임워크 주위의 모든 걸 직접 구축해야 하죠. UI나 워크플로우 에디터가 없다는 게 큰 단점입니다.
00:05:42Dogra는 아직 너무 새롭지만, 여기에 존재합니다. 그들의 목표는 단순한 것 같습니다.
00:05:49자체 호스팅, 제공업체 선택, 추적, 제어 권한을 포기하지 않으면서도
00:05:56비주얼 음성 에이전트 빌더를 사용할 수 있다면 어떨까요? 코드가 필요한 곳엔 코드를 작성하고,
00:06:02흐름이 중요한 곳엔 빌더를 사용하세요. 문제가 생기면 런타임을 검사하고 비용이 변하면 제공업체를 바꾸세요.
00:06:09자체 호스팅은 엄청난 제어권을 줍니다. Vapi나 Bland는 빠른 배포에 최적이지만 비용과 제어권이 문제죠.
00:06:16이런 코딩 도구들을 좋아하신다면, Better Stack 채널을 구독해 주세요.
00:06:22다음 영상에서 뵙겠습니다.

Key Takeaway

Dogra는 자체 호스팅을 통해 완전한 데이터 제어권과 비용 효율성을 제공하며, 시각적 워크플로우 도구로 복잡한 음성 AI 시스템을 손쉽게 설계하고 분석하게 한다.

Highlights

  • Dogra는 로컬 환경에서 Docker Compose를 통해 즉시 배포 가능한 오픈소스 음성 AI 에이전트 빌더이다.

  • 호스팅 플랫폼과 달리 자체 호스팅을 지원하여 플랫폼 수수료와 비용 구조, 시스템 제어권을 완전히 확보할 수 있다.

  • 시각적 워크플로우 빌더를 통해 복잡한 코딩 없이 프롬프트, API 호출, 분기 처리 등의 논리를 설계할 수 있다.

  • 플랫폼 레이어 내에서 통화 기록, 도구 호출 내역, 실시간 상태 변화를 추적하여 에이전트 오류의 원인을 정밀하게 분석할 수 있다.

  • Vapi나 Bland 같은 기존 서비스가 가진 빠른 배포의 장점과, LiveKit 등이 제공하는 커스텀 제어권의 장점을 결합한 형태를 지향한다.

Timeline

음성 AI 에이전트 구축의 기술적 난제

  • 음성 AI 서비스는 LLM 비용, 통화 비용, 플랫폼 수수료가 결합되어 운영 비용이 높다.
  • 음성 에이전트는 음성 인식, LLM, 음성 합성, 상태 관리 등이 복잡하게 얽힌 라이브 시스템이다.
  • 에이전트가 통화 중 실패했을 때 프롬프트 문제인지 모델 문제인지 파악하기 어렵다.

음성 AI를 단순한 전화번호가 달린 ChatGPT로 오해하기 쉽지만, 실제 환경에서는 사용자 발화 끊김, 침묵, 주제 변경 등 다양한 변수가 발생한다. 개발자는 수많은 요소가 얽힌 통화 과정에서 발생하는 에러의 근본 원인을 추적하는 데 큰 어려움을 겪는다.

Dogra를 이용한 개발 및 워크플로우 설계

  • Docker Compose를 사용하여 로컬 환경에서 즉시 실행 가능하다.
  • 코드 작성 없이 노드 기반의 시각적 캔버스에서 리드 자격 확인 및 API 호출 논리를 구성할 수 있다.
  • 테스트 통화 중에 실시간으로 대본, 추적 정보, 도구 호출 내역, 녹음 파일을 검증할 수 있다.

개발자는 리드 자격 확인 단계부터 CRM 연동, 상담원 연결까지의 과정을 복잡한 오케스트레이션 코드 없이 워크플로우 빌더로 구현한다. 각 단계별로 상태 변화와 API 호출 내역을 시각적으로 확인하여 봇의 작동 원리를 투명하게 파악할 수 있다.

Dogra의 기능적 특징과 시장 내 위치

  • 음성 엔진, 비주얼 워크플로우 빌더, 플랫폼 레이어로 구성된다.
  • 플랫폼 레이어는 테스트, 추적, 분석 등 음성 프로젝트에 필요한 공통 작업들을 지원한다.
  • 기존 호스팅 플랫폼과 로우 프레임워크의 장점을 취해 비용 절감과 시스템 제어권 확보를 동시에 가능하게 한다.

Vapi나 Bland가 빠른 배포에 최적화되었으나 제어권이 낮고, LiveKit 같은 로우 프레임워크는 제어권은 높으나 개발 난도가 높은 반면, Dogra는 이를 중재한다. 자체 호스팅을 통해 제공업체와 LLM을 자유롭게 선택할 수 있으며, 서비스 변경 시 플랫폼 정책에 구애받지 않는다.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video