Voice AIのVapiを置き換えるオープンソースツール「Dograh」
BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology
Transcript
00:00:00音声AIエージェントを作ったとします。動作は問題ありませんが、請求書が届くとLLMの利用料や
00:00:05音声通話の料金、さらにプラットフォーム利用料が上乗せされます。でも、最悪なのはそこではありません。
00:00:10最悪なのは、システムを本当の意味で所有できていないこと。今日は「Dogra」を紹介します。
00:00:16セルフホスト可能で、中身を検査・制御できるオープンソースのVAPI代替ツールです。
00:00:26今の音声AIは一見シンプルに見えるかもしれません。電話を受けて、音声をテキストに変換し、
00:00:33それをLLMに送り、回答を音声に戻して終わり。簡単そうですよね?でも、ご存知の通り
00:00:39実際に試すとそうはいきません。実際の通話は複雑です。人が話を遮ったり、沈黙が続いたり、
00:00:46話題が急に変わったり、突拍子もない質問をされたり。エージェントはAPIを呼び出す必要があり、
00:00:53問題が発生したときに原因を知る必要があります。ここが多くの音声AIプロジェクトで苦労する点です。
00:00:59音声エージェントは単にChatGPTに電話番号を付けただけのものではありません。多くの要素が動くライブシステムです。
00:01:06音声テキスト変換、LLM、テキスト音声変換、状態管理、ツール呼び出しなど、やるべきことが山ほどあります。
00:01:12目に見えないところで多くの処理が行われています。通話が失敗し、ボットが
00:01:17ひどい回答をしたとき、「なぜ失敗したのか」がプロンプトのせいなのか、モデルのせいなのか分かりません。
00:01:23そこでDograの出番です。ワークフローを加速させるコーディングツールがお好きなら、ぜひ購読してください。
00:01:29動画を次々公開しています。では、実際に見てみましょう。ローカルから始めます。
00:01:34エンジニア向けというツールなら、何よりもまずDockerを確認したいですよね。起動は非常に簡単でした。
00:01:39GitHubからクローンし、ディレクトリに移動して、
00:01:44「docker compose up」を実行するだけです。簡単ですね。コンテナが起動したら、
00:01:50DograのUIにアクセスできます。今回は簡単な「リード(見込み客)選別エージェント」を作ってみます。
00:01:57顧客が電話をかけてきて、エージェントが何を作りたいか尋ね、次に会社について、
00:02:03規模や予算を聞くという流れです。その後、APIツールを呼び出してCRMのリードを作成・更新します。
00:02:11リードが条件を満たしていれば、人間に転送することも可能です。プロンプトノードを追加して、
00:02:18選別ステップ、API呼び出しを行い、ブランチを追加して転送を設定します。
00:02:28ここまでカスタムのオーケストレーションコードは一切書いていません。それが重要なんです。
00:02:32エンジニア向けのノーコードキャンバスといった見た目ですが、価値は「ノーコード」ではなく、
00:02:39接続部分で無駄なコードを書かなくて済む点にあります。では、テスト通話をしてみます。「もしもし、サラです。」
00:02:46「インバウンドコールの件ですが、デモ依頼用のAI電話エージェントを探しています。」
00:02:55「素晴らしい。ぜひお手伝いさせてください。最適なソリューションを提案するために、
00:03:00デモ依頼のAIエージェントで具体的に何を達成したいか詳しく教えていただけますか?」
00:03:05「例えば、月2万分くらいです。」「ありがとうございます。では、御社の規模と業界を教えてください。」
00:03:11このようにトランスクリプト(文字起こし)が表示され、追跡(トレース)やツール呼び出し、
00:03:18状態変化が確認できます。さらに録音データもあります。これが私が求めていたものです。
00:03:24エンジニアとして、「ボットが動いた」だけでなく、なぜ動いたのか、失敗したときには
00:03:31何が起きたのかという証拠が欲しいのです。では、Dograとは何か?主に3つの利点があります。
00:03:37音声エージェント機能、ビジュアルワークフロービルダー、そして通常は自分で構築する必要がある
00:03:44プラットフォーム層が含まれている点です。音声エンジンは、電話の発着信や
00:03:50音声認識、LLM、音声合成を接続し、実際に通話を実現させる役割を担います。
00:03:57ワークフロービルダーでは、システム全体のロジックを設計します。全てのプロンプトや
00:04:03ブランチ、API呼び出しをハードコーディングする代わりに、フローを視覚的にマップできます。
00:04:09こういう「質問して回答を待つ」というマッピングは素晴らしいです。APIを呼び出し、
00:04:15条件分岐し、転送するといったロジックを簡単に変更できるのが理想です。
00:04:21さらにテスト、トレース、録音、分析機能があります。これらは全ての音声プロジェクトで最終的に必要となる
00:04:28退屈な部分ですが、すべて揃っています。プロバイダー、LLM、TTSは自分で選択可能です。
00:04:34オープンソースなのでコードを検査し、動作を変更し、セルフホストできます。
00:04:41この動画の時点ではGitHubのスター数は少ないですが、非常にクールなツールを見つけました。
00:04:47では、既存のツールと比較してみましょう。音声エージェントを作る方法は主に3つあります。
00:04:511つ目はホスト型プラットフォーム(VapiやBlandなど)。素早く動きたい場合に最適です。
00:04:58インフラ運用が不要で、整理されたダッシュボードやテストツールが使えます。
00:05:04しかし、制御権を失い始めます。価格設定や制限の変更に振り回されることになります。
00:05:10独自のデプロイ環境が必要な場合、壁にぶつかるかもしれません。スピード重視なら勝ちです。
00:05:172つ目は、生フレームワークです。LiveKitなどがこれに該当すると思います。
00:05:23これらは高い制御性があり、ほぼ何でも構築可能ですが、すべてを自分たちで構築する必要があります。
00:05:30ワークフローエディタもありません。大きなトレードオフです。
00:05:36Dograはまだ新しすぎますが、その挑戦はシンプルです。「ビジュアルビルダーを使いつつ、
00:05:42セルフホストやプロバイダーの選択、トレース、制御権を諦めない」というものです。
00:05:49重要な部分にはコードを書き、流れが重要な場所にはビルダーを使う。ここが素晴らしい点です。
00:05:56実行環境を検査し、コストが変わればプロバイダーを入れ替える。セルフホストは大きな制御力を与えてくれます。
00:06:02VapiやBlandは素早い導入に最適ですが、コストと制御権の面でトレードオフがあります。
00:06:09この種のコーディングツールがお好きなら、Better Stackチャンネルをぜひ購読してください。
00:06:16また別の動画でお会いしましょう。
00:06:22ありがとうございました。
Community Posts
No posts yet. Be the first to write about this video!
Write about this video