Transcript
00:00:00음성 AI 에이전트를 막 만들고 작동시키면, 청구서가 날아옵니다. LLM 비용에
00:00:05음성 통화 비용, 거기에 플랫폼 수수료까지 더해지죠. 근데 더 심각한 문제가 있습니다.
00:00:10가장 큰 문제는 시스템을 완전히 소유하지 못한다는 점입니다. 오늘 제가 Dogra를 소개할 텐데,
00:00:16직접 호스팅하고 검사하고 제어할 수 있는 오픈소스 음성 AI 대안입니다.
00:00:26요즘 음성 AI는 겉보기엔 꽤 단순해 보입니다. 전화를 받고, 음성을 텍스트로 바꾸고,
00:00:33LLM에 보낸 뒤, 대답을 다시 음성으로 바꾸면 끝. 간단해 보이죠? 하지만 우리 모두 알다시피
00:00:39실제로 해보면 그렇지 않습니다. 실제 통화는 엉망이거든요. 사람들은 말을 끊고, 침묵하기도 하고,
00:00:46주제를 바꾸고, 정말 이상한 질문을 하기도 합니다. 에이전트는 API를 호출해야 하고,
00:00:53문제가 생기면 그 이유를 알아야 하죠. 대부분의 음성 AI 프로젝트가 골치 아파지는 지점입니다.
00:00:59음성 에이전트는 단순히 전화번호가 달린 ChatGPT가 아닙니다. 수많은 요소가 움직이는 라이브 시스템이죠.
00:01:06음성 인식, LLM, 음성 합성, 상태 관리, 툴 호출 등 수많은 과정이 복잡하게 얽혀 있습니다.
00:01:12우리가 보지 못하는 사이에 많은 일이 일어나죠. 봇이 이상한 대답을 해서
00:01:17통화가 실패했을 때, 그게 프롬프트 문제였는지, 모델 문제였는지 알기 어렵습니다. 여기서
00:01:23Dogra가 필요한 겁니다. 개발 워크플로우를 개선하는 도구에 관심이 있다면 구독해 주세요.
00:01:29계속해서 좋은 영상을 올리고 있습니다. 자, 이제 실제로 어떻게 작동하는지 보겠습니다. 로컬에서 시작할 건데,
00:01:34개발자를 위한 도구라면 먼저 Docker부터 확인해야죠. 실행하기가 정말 쉽더군요.
00:01:39깃허브에서 클론하고, 폴더로 이동한 다음,
00:01:44docker compose up만 실행하면 됩니다. 정말 간단하죠. 컨테이너가 실행되면
00:01:50Dogra UI로 접속할 수 있습니다. 이제 간단한 리드 자격 확인 에이전트를 만들어 보겠습니다.
00:01:57누군가 전화를 걸면 에이전트가 무엇을 만들고 싶은지 묻고, 회사 규모와
00:02:03예산을 물어봅니다. 이런 정보들을 수집한 뒤, API 툴을 호출해 CRM 리드를 생성하거나 업데이트하죠.
00:02:11리드가 적합한지 판단해서 상담원에게 연결할 수도 있고요. 그래서 프롬프트 노드를 추가하고,
00:02:18자격 확인 단계, API 툴 호출, 그리고 분기 처리를 통해 상담원 연결 노드를 만들겠습니다.
00:02:28아직 복잡한 오케스트레이션 코드를 하나도 짜지 않았는데, 바로 이게 핵심입니다.
00:02:32개발자를 위한 노코드 캔버스 같은 모습이죠. 가치는 코드를 짜지 않는 데 있는 게 아니라,
00:02:39연결하느라 코드를 낭비하지 않는 데 있습니다. 자, 이제 테스트 전화를 해보죠. 안녕, 인바운드 콜의
00:02:46사라입니다. 거기 계신가요? 인바운드 데모 요청을 처리할 AI 전화 에이전트를 찾고 있어요.
00:02:55좋아요, 확실히 도와드릴 수 있습니다. 적절한 솔루션을 연결해 드리기 위해,
00:03:00인바운드 데모 요청을 위해 AI 전화 에이전트로 달성하고자 하는 목표를 조금 더
00:03:05알려주실 수 있을까요? 약 2만 분 정도 처리하고 싶어요. 공유해 주셔서 감사합니다. 회사 규모와
00:03:11산업 분야는 어떻게 되나요? 이제 여기에서 대본을 볼 수 있고, 추적 정보와 도구 호출 내역,
00:03:18상태 변화도 확인할 수 있습니다. 게다가 제가 처음에 원했던 통화 녹음 파일까지 있죠.
00:03:24개발자로서 단순히 봇이 작동하는 것만 아는 걸로는 부족합니다. 왜 작동했는지 알고 싶거든요.
00:03:31실패했을 때 실제로 무슨 일이 있었는지 증거가 필요합니다. 그렇다면 Dogra란 무엇일까요?
00:03:37Dogra는 우리에게 세 가지를 제공합니다. 음성 에이전트, 비주얼 워크플로우 빌더,
00:03:44그리고 보통 직접 만들어야 하는 플랫폼 레이어입니다. 음성 엔진은 통화와 전화 서비스,
00:03:50음성 인식, LLM, 음성 합성을 연결해 실제 통화가 가능하게 만드는 부분입니다.
00:03:57워크플로우 빌더는 이 시스템의 논리를 설계하는 곳이죠. 모든 프롬프트, 분기,
00:04:03API 호출, 연결을 하드코딩하는 대신 시각적으로 흐름을 매핑할 수 있습니다. 정말 큰 장점이죠.
00:04:09질문을 하고 대답을 기다리는 이런 맵을 좋아합니다. 여기서 API를 호출하고,
00:04:15분기하고 연결하는 식의 논리는 변경하기 쉬워야 합니다. 그리고 이 모든 것 위에
00:04:21테스트, 추적, 녹음, 분석 같은 플랫폼 레이어가 있습니다. 모든 음성 프로젝트에 필요한 지루한 작업들이죠.
00:04:28이를 통해 직접 서비스 제공업체, LLM, TTS를 가져와 사용할 수 있습니다.
00:04:34Dogra는 오픈소스이므로 코드를 검사하고 수정해서 직접 호스팅할 수 있습니다. 이 영상 녹화 시점에는
00:04:41깃허브 스타가 적은 아주 새로운 도구지만, 정말 멋진 발견이라고 생각합니다.
00:04:47이제 Dogra와 기존의 다른 도구들을 비교해 보죠. 음성 에이전트를 구축하는 세 가지 방법이 있습니다.
00:04:51첫째는 Vapi, Bland, Retell 같은 호스팅 플랫폼입니다. 빠르게 움직이고 싶고,
00:04:58인프라를 운영하고 싶지 않을 때 좋습니다. 깔끔한 대시보드, API, 테스트 도구 등 모든 게
00:05:04정말 유용하죠. 하지만 거기서 제어권을 잃게 됩니다. 플랫폼이 가격을 바꾸면 따라가야 하고,
00:05:10제한을 바꾸면 그것도 감당해야 하죠. 커스텀 배포가 필요하다면
00:05:17한계에 부딪힐 수 있습니다. 호스팅 도구는 빠르다는 점이 장점이죠. 그 다음은
00:05:23PipeCap, LiveKit 같은 로우 프레임워크입니다.
00:05:30이런 도구들은 더 많은 제어권을 제공합니다. 거의 모든 걸 만들 수 있지만, 이제는
00:05:36프레임워크 주위의 모든 걸 직접 구축해야 하죠. UI나 워크플로우 에디터가 없다는 게 큰 단점입니다.
00:05:42Dogra는 아직 너무 새롭지만, 여기에 존재합니다. 그들의 목표는 단순한 것 같습니다.
00:05:49자체 호스팅, 제공업체 선택, 추적, 제어 권한을 포기하지 않으면서도
00:05:56비주얼 음성 에이전트 빌더를 사용할 수 있다면 어떨까요? 코드가 필요한 곳엔 코드를 작성하고,
00:06:02흐름이 중요한 곳엔 빌더를 사용하세요. 문제가 생기면 런타임을 검사하고 비용이 변하면 제공업체를 바꾸세요.
00:06:09자체 호스팅은 엄청난 제어권을 줍니다. Vapi나 Bland는 빠른 배포에 최적이지만 비용과 제어권이 문제죠.
00:06:16이런 코딩 도구들을 좋아하신다면, Better Stack 채널을 구독해 주세요.
00:06:22다음 영상에서 뵙겠습니다.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video