Voice AIのVapiを置き換えるオープンソースツール「Dograh」

日本語العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 한국어 Português Русский 中文

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00音声AIエージェントを作ったとします。動作は問題ありませんが、請求書が届くとLLMの利用料や

00:00:05音声通話の料金、さらにプラットフォーム利用料が上乗せされます。でも、最悪なのはそこではありません。

00:00:10最悪なのは、システムを本当の意味で所有できていないこと。今日は「Dogra」を紹介します。

00:00:16セルフホスト可能で、中身を検査・制御できるオープンソースのVAPI代替ツールです。

00:00:26今の音声AIは一見シンプルに見えるかもしれません。電話を受けて、音声をテキストに変換し、

00:00:33それをLLMに送り、回答を音声に戻して終わり。簡単そうですよね？でも、ご存知の通り

00:00:39実際に試すとそうはいきません。実際の通話は複雑です。人が話を遮ったり、沈黙が続いたり、

00:00:46話題が急に変わったり、突拍子もない質問をされたり。エージェントはAPIを呼び出す必要があり、

00:00:53問題が発生したときに原因を知る必要があります。ここが多くの音声AIプロジェクトで苦労する点です。

00:00:59音声エージェントは単にChatGPTに電話番号を付けただけのものではありません。多くの要素が動くライブシステムです。

00:01:06音声テキスト変換、LLM、テキスト音声変換、状態管理、ツール呼び出しなど、やるべきことが山ほどあります。

00:01:12目に見えないところで多くの処理が行われています。通話が失敗し、ボットが

00:01:17ひどい回答をしたとき、「なぜ失敗したのか」がプロンプトのせいなのか、モデルのせいなのか分かりません。

00:01:23そこでDograの出番です。ワークフローを加速させるコーディングツールがお好きなら、ぜひ購読してください。

00:01:29動画を次々公開しています。では、実際に見てみましょう。ローカルから始めます。

00:01:34エンジニア向けというツールなら、何よりもまずDockerを確認したいですよね。起動は非常に簡単でした。

00:01:39GitHubからクローンし、ディレクトリに移動して、

00:01:44「docker compose up」を実行するだけです。簡単ですね。コンテナが起動したら、

00:01:50DograのUIにアクセスできます。今回は簡単な「リード（見込み客）選別エージェント」を作ってみます。

00:01:57顧客が電話をかけてきて、エージェントが何を作りたいか尋ね、次に会社について、

00:02:03規模や予算を聞くという流れです。その後、APIツールを呼び出してCRMのリードを作成・更新します。

00:02:11リードが条件を満たしていれば、人間に転送することも可能です。プロンプトノードを追加して、

00:02:18選別ステップ、API呼び出しを行い、ブランチを追加して転送を設定します。

00:02:28ここまでカスタムのオーケストレーションコードは一切書いていません。それが重要なんです。

00:02:32エンジニア向けのノーコードキャンバスといった見た目ですが、価値は「ノーコード」ではなく、

00:02:39接続部分で無駄なコードを書かなくて済む点にあります。では、テスト通話をしてみます。「もしもし、サラです。」

00:02:46「インバウンドコールの件ですが、デモ依頼用のAI電話エージェントを探しています。」

00:02:55「素晴らしい。ぜひお手伝いさせてください。最適なソリューションを提案するために、

00:03:00デモ依頼のAIエージェントで具体的に何を達成したいか詳しく教えていただけますか？」

00:03:05「例えば、月2万分くらいです。」「ありがとうございます。では、御社の規模と業界を教えてください。」

00:03:11このようにトランスクリプト（文字起こし）が表示され、追跡（トレース）やツール呼び出し、

00:03:18状態変化が確認できます。さらに録音データもあります。これが私が求めていたものです。

00:03:24エンジニアとして、「ボットが動いた」だけでなく、なぜ動いたのか、失敗したときには

00:03:31何が起きたのかという証拠が欲しいのです。では、Dograとは何か？主に3つの利点があります。

00:03:37音声エージェント機能、ビジュアルワークフロービルダー、そして通常は自分で構築する必要がある

00:03:44プラットフォーム層が含まれている点です。音声エンジンは、電話の発着信や

00:03:50音声認識、LLM、音声合成を接続し、実際に通話を実現させる役割を担います。

00:03:57ワークフロービルダーでは、システム全体のロジックを設計します。全てのプロンプトや

00:04:03ブランチ、API呼び出しをハードコーディングする代わりに、フローを視覚的にマップできます。

00:04:09こういう「質問して回答を待つ」というマッピングは素晴らしいです。APIを呼び出し、

00:04:15条件分岐し、転送するといったロジックを簡単に変更できるのが理想です。

00:04:21さらにテスト、トレース、録音、分析機能があります。これらは全ての音声プロジェクトで最終的に必要となる

00:04:28退屈な部分ですが、すべて揃っています。プロバイダー、LLM、TTSは自分で選択可能です。

00:04:34オープンソースなのでコードを検査し、動作を変更し、セルフホストできます。

00:04:41この動画の時点ではGitHubのスター数は少ないですが、非常にクールなツールを見つけました。

00:04:47では、既存のツールと比較してみましょう。音声エージェントを作る方法は主に3つあります。

00:04:511つ目はホスト型プラットフォーム（VapiやBlandなど）。素早く動きたい場合に最適です。

00:04:58インフラ運用が不要で、整理されたダッシュボードやテストツールが使えます。

00:05:04しかし、制御権を失い始めます。価格設定や制限の変更に振り回されることになります。

00:05:10独自のデプロイ環境が必要な場合、壁にぶつかるかもしれません。スピード重視なら勝ちです。

00:05:172つ目は、生フレームワークです。LiveKitなどがこれに該当すると思います。

00:05:23これらは高い制御性があり、ほぼ何でも構築可能ですが、すべてを自分たちで構築する必要があります。

00:05:30ワークフローエディタもありません。大きなトレードオフです。

00:05:36Dograはまだ新しすぎますが、その挑戦はシンプルです。「ビジュアルビルダーを使いつつ、

00:05:42セルフホストやプロバイダーの選択、トレース、制御権を諦めない」というものです。

00:05:49重要な部分にはコードを書き、流れが重要な場所にはビルダーを使う。ここが素晴らしい点です。

00:05:56実行環境を検査し、コストが変わればプロバイダーを入れ替える。セルフホストは大きな制御力を与えてくれます。

00:06:02VapiやBlandは素早い導入に最適ですが、コストと制御権の面でトレードオフがあります。

00:06:09この種のコーディングツールがお好きなら、Better Stackチャンネルをぜひ購読してください。

00:06:16また別の動画でお会いしましょう。

00:06:22ありがとうございました。

Key Takeaway

Dograは、Vapiのようなホスト型サービスの利便性と、生フレームワーク並みの詳細な制御・検証能力を両立するオープンソースの音声AI構築ツールである。

Highlights

Dograはセルフホスト可能なオープンソースの音声AIエージェント構築プラットフォームである。
Dockerコンテナを使用して迅速に環境を立ち上げ、プロンプトノードやAPI呼び出しを含む複雑な通話ワークフローを視覚的に設計できる。
通話内容の文字起こし、ツール呼び出し履歴、状態遷移、録音データを通話ごとに詳細に追跡・検査できる。
VapiやBlandのようなフルマネージド型サービスと比較して、インフラの所有権とプロバイダー選択の自由度を維持できる。
LiveKitのような生フレームワークと異なり、ビジュアルワークフロービルダーを備えているため、カスタムコードの記述量を削減できる。

Timeline

音声AI構築における現状の課題

音声AIエージェントはLLMや通話料などのプラットフォーム利用料が重なるコスト構造を持つ。
実際の電話対応には人の割り込みや沈黙などの複雑な要素が含まれる。
通話失敗時の原因特定（プロンプト起因かモデル起因か）が困難であることが多い。

単純な音声AIエージェントであっても、音声テキスト変換、LLM、状態管理など複数のシステムが連動する複雑なライブシステムである。そのため、システムを自前で所有・検査できない環境では、運用上の問題が発生した際のデバッグが困難になる。

Dograを用いたエージェント構築と機能

Dockerによる容易なセットアップが可能である。
ビジュアルキャンバス上でプロンプト設計、条件分岐、API呼び出しを設定できる。
構築したエージェントは通話ごとの詳細なトレースログと録音データを保持する。

エンジニア向けのノーコードに近いインターフェースにより、オーケストレーションコードをほとんど書かずにリード選別エージェントなどを構築可能。重要なのは単なるノーコード化ではなく、接続部分の冗長なコード記述を排除しつつ、実行プロセスの証拠を明確に把握できる点にある。

既存ツールとの比較とDograの利点

音声エンジン、ワークフロービルダー、管理用プラットフォーム層が統合されている。
ホスト型プラットフォームと比較してコスト制限やサービス変更の影響を受けない。
生フレームワークと比較して、ビジュアルビルダーによるワークフロー設計が可能。

ホスト型は導入の速さに優れるが制御権を失い、生フレームワークは高度な制御が可能だが構築コストが高いというトレードオフが存在する。Dograはその中間に位置し、必要な場所にはコードを書き、流れが重要な場所は視覚的に管理できる設計により、運用上の透明性と柔軟性を確保する。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video