Этот open-source инструмент заменяет Vapi для голосового ИИ (Dograh)
BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology
Transcript
00:00:00Вы только что создали голосового ИИ-агента, он работает, но потом приходит счет, и вы платите за LLM,
00:00:05голосовую связь, телефонный звонок, а сверху еще и комиссию платформы. И это еще не самое худшее.
00:00:10Худшее в том, что вы даже не владеете системой по-настоящему. Сегодня я покажу вам Dogra
00:00:16— альтернативу Vapi с открытым исходным кодом, которую можно самостоятельно хостить, проверять и контролировать.
00:00:26Голосовой ИИ сегодня со стороны может выглядеть довольно просто: принять телефонный звонок, преобразовать речь в текст,
00:00:33отправить в LLM, превратить ответ обратно в речь, и готово. Просто, правда? Что ж, как знает любой из нас,
00:00:39кто пробовал это делать — не совсем, потому что реальные звонки полны хаоса: люди перебивают, замолкают,
00:00:46меняют темы, задают очень странные вопросы. Вашему агенту нужно вызывать API, и когда
00:00:53все ломается, вам нужно знать почему. Вот где большинство проектов голосового ИИ становятся головной болью. Голосовой
00:00:59агент — это не просто ChatGPT с телефонным номером, это «живая» система с кучей движущихся частей,
00:01:06таких как преобразование речи в текст, LLM, преобразование текста в речь, состояние, вызовы инструментов и многое другое.
00:01:12Есть много скрытых процессов, и когда звонок срывается или бот дает
00:01:17плохой ответ, этого недостаточно. Была ли проблема в промпте, в модели, в чем именно, почему это произошло? И здесь
00:01:23на сцену выходит Dogra. Если вам нравятся инструменты для разработки, ускоряющие рабочий процесс, подписывайтесь — у нас
00:01:29постоянно выходят новые видео. Ладно, теперь давайте посмотрим на это на практике. Я начну локально,
00:01:34потому что если инструмент позиционируется для разработчиков, я хочу видеть Docker прежде всего. Это было очень легко
00:01:39развернуть: я клонирую репозиторий с GitHub, перехожу в папку, а затем мне нужно всего лишь
00:01:44запустить docker-compose up. Достаточно просто. Как только контейнеры запущены, мы
00:01:50можем зайти в UI Dogra. Сейчас я создам простого агента для квалификации лидов. Что я имею в виду?
00:01:57Кто-то звонит, агент спрашивает, что они хотят построить, затем спрашивает о компании,
00:02:03размере, бюджете и подобных вещах. Затем он вызывает API-инструмент для создания или обновления лида в CRM. Если
00:02:11мы добавим это, возможно, я смогу даже настроить перевод на оператора, если лид квалифицирован. Итак, я добавляю
00:02:18узел промпта, затем шаг квалификации, затем вызов API-инструмента, а после могу добавить ветвление и переключение.
00:02:28Здесь пока нет никакого кода оркестрации, и в этом вся суть.
00:02:32Это выглядит как no-code холст, но для разработчиков, и ценность не в отсутствии кода, а в том, чтобы не тратить
00:02:39время, пытаясь связать все воедино. Теперь давайте попробуем сделать тестовый звонок. Привет, это Сара из
00:02:46Inbound Calls. Вы еще здесь? Мы ищем ИИ-агента для телефонных звонков для обработки входящих демо-запросов. Это
00:02:55отлично, я определенно могу вам с этим помочь. Чтобы убедиться, что я подберу правильное решение, могли бы вы
00:03:00рассказать немного больше о том, чего вы хотите достичь с помощью ИИ-агента для ваших входящих
00:03:05демо-запросов? Допустим, около 20 000 минут. Спасибо, что поделились этим. А какой размер вашей компании
00:03:11и отрасль? Теперь мы видим транскрипт, видим трейс, видим вызов инструмента,
00:03:18который действительно произошел, и видим изменения состояния. Плюс вот запись, которую я хотел
00:03:24получить в первую очередь. И это то, что мне нужно как разработчику: не просто «бот сработал», а понимание того, почему он сработал.
00:03:31Когда все падает, я хочу доказательства того, что именно произошло. Итак, что такое Dogra? Dogra, по-видимому, дает
00:03:37нам три разные вещи: голосового агента, визуальный конструктор рабочих процессов на уровне платформы,
00:03:44который обычно приходится строить самостоятельно. Голосовой движок — это часть, соединяющая звонящего, телефонного
00:03:50провайдера, систему преобразования речи в текст, LLM и преобразования текста в речь. Это то, что делает звонок возможным.
00:03:57Конструктор рабочих процессов — это место, где вы проектируете логику всей системы. Вместо того чтобы жестко кодировать каждый
00:04:03промпт, ветвление, вызов API и переключение, вы можете визуально отобразить поток. Огромный плюс, мне нравятся такие
00:04:09карты: задать вопрос, дождаться ответа — это именно то, что мы здесь отображаем. Я могу вызвать это
00:04:15API-ветвление здесь, перевод туда — такая логика должна легко меняться. И ко всему этому прилагается
00:04:21слой платформы: тестирование, трассировка, записи, аналитика — это скучные вещи, которые рано или поздно нужны каждому
00:04:28серьезному голосовому проекту. Со всем этим вы можете использовать своих провайдеров, свою LLM и свой TTS,
00:04:34потому что Dogra имеет открытый исходный код: вы можете изучать код, менять принципы работы и самостоятельно хостить его. На момент записи
00:04:41звезд на GitHub мало, так что это супер-новая находка, но честно говоря, довольно крутая.
00:04:47Теперь давайте сравним Dogra с другими решениями. У вас есть три основных пути для создания
00:04:51голосовых агентов. Первое — хостинговые платформы: Vapi, Bland, Retell. Они хороши, когда нужно двигаться быстро и
00:04:58вы не хотите заниматься инфраструктурой. Вы получаете чистые дашборды, API, инструменты тестирования транскриптов — все это
00:05:04очень полезно, но вы начинаете терять контроль. Если платформа меняет цены — вы с этим имеете дело.
00:05:10Если платформа меняет лимиты — вы с этим имеете дело. Если вам нужно специфическое развертывание или что-то в этом роде,
00:05:17вы снова можете упереться в стену. Но хостинговые инструменты быстры, так что, полагаю, это плюс. У вас есть некоторые из этих
00:05:23сырых фреймворков, вроде... я наткнулся на Pipe, Cap, LiveKit, кажется, один из них.
00:05:30Они дают гораздо больше контроля. Вы можете построить почти что угодно, но теперь вы строите все
00:05:36вокруг этого фреймворка, без UI-редактора процессов, так что это большой компромисс при их использовании.
00:05:42Dogra все еще слишком новая, но она здесь, и я думаю, их ставка проста: что, если вы могли бы
00:05:49использовать визуальный конструктор голосовых агентов, не отказываясь от self-hosting, выбора провайдера, трассировки и
00:05:56контроля? Похоже, это то, что здесь предлагается. Пишите код там, где он важен, используйте конструктор там, где важен поток,
00:06:02проверяйте рантайм, когда все ломается, и меняйте провайдеров, когда меняются затраты. Self-hosting дает
00:06:09нам много контроля, а это огромное преимущество. Vapi, Bland, Retell — лучшие для быстрого развертывания, но компромисс —
00:06:16привязка к затратам и меньший контроль. Если вам нравятся такие инструменты для разработки, подписывайтесь на канал Better
00:06:22Stack. Увидимся в следующем видео.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video