Этот open-source инструмент заменяет Vapi для голосового ИИ (Dograh)

Русскийالعربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português 中文

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Вы только что создали голосового ИИ-агента, он работает, но потом приходит счет, и вы платите за LLM,

00:00:05голосовую связь, телефонный звонок, а сверху еще и комиссию платформы. И это еще не самое худшее.

00:00:10Худшее в том, что вы даже не владеете системой по-настоящему. Сегодня я покажу вам Dogra

00:00:16— альтернативу Vapi с открытым исходным кодом, которую можно самостоятельно хостить, проверять и контролировать.

00:00:26Голосовой ИИ сегодня со стороны может выглядеть довольно просто: принять телефонный звонок, преобразовать речь в текст,

00:00:33отправить в LLM, превратить ответ обратно в речь, и готово. Просто, правда? Что ж, как знает любой из нас,

00:00:39кто пробовал это делать — не совсем, потому что реальные звонки полны хаоса: люди перебивают, замолкают,

00:00:46меняют темы, задают очень странные вопросы. Вашему агенту нужно вызывать API, и когда

00:00:53все ломается, вам нужно знать почему. Вот где большинство проектов голосового ИИ становятся головной болью. Голосовой

00:00:59агент — это не просто ChatGPT с телефонным номером, это «живая» система с кучей движущихся частей,

00:01:06таких как преобразование речи в текст, LLM, преобразование текста в речь, состояние, вызовы инструментов и многое другое.

00:01:12Есть много скрытых процессов, и когда звонок срывается или бот дает

00:01:17плохой ответ, этого недостаточно. Была ли проблема в промпте, в модели, в чем именно, почему это произошло? И здесь

00:01:23на сцену выходит Dogra. Если вам нравятся инструменты для разработки, ускоряющие рабочий процесс, подписывайтесь — у нас

00:01:29постоянно выходят новые видео. Ладно, теперь давайте посмотрим на это на практике. Я начну локально,

00:01:34потому что если инструмент позиционируется для разработчиков, я хочу видеть Docker прежде всего. Это было очень легко

00:01:39развернуть: я клонирую репозиторий с GitHub, перехожу в папку, а затем мне нужно всего лишь

00:01:44запустить docker-compose up. Достаточно просто. Как только контейнеры запущены, мы

00:01:50можем зайти в UI Dogra. Сейчас я создам простого агента для квалификации лидов. Что я имею в виду?

00:01:57Кто-то звонит, агент спрашивает, что они хотят построить, затем спрашивает о компании,

00:02:03размере, бюджете и подобных вещах. Затем он вызывает API-инструмент для создания или обновления лида в CRM. Если

00:02:11мы добавим это, возможно, я смогу даже настроить перевод на оператора, если лид квалифицирован. Итак, я добавляю

00:02:18узел промпта, затем шаг квалификации, затем вызов API-инструмента, а после могу добавить ветвление и переключение.

00:02:28Здесь пока нет никакого кода оркестрации, и в этом вся суть.

00:02:32Это выглядит как no-code холст, но для разработчиков, и ценность не в отсутствии кода, а в том, чтобы не тратить

00:02:39время, пытаясь связать все воедино. Теперь давайте попробуем сделать тестовый звонок. Привет, это Сара из

00:02:46Inbound Calls. Вы еще здесь? Мы ищем ИИ-агента для телефонных звонков для обработки входящих демо-запросов. Это

00:02:55отлично, я определенно могу вам с этим помочь. Чтобы убедиться, что я подберу правильное решение, могли бы вы

00:03:00рассказать немного больше о том, чего вы хотите достичь с помощью ИИ-агента для ваших входящих

00:03:05демо-запросов? Допустим, около 20 000 минут. Спасибо, что поделились этим. А какой размер вашей компании

00:03:11и отрасль? Теперь мы видим транскрипт, видим трейс, видим вызов инструмента,

00:03:18который действительно произошел, и видим изменения состояния. Плюс вот запись, которую я хотел

00:03:24получить в первую очередь. И это то, что мне нужно как разработчику: не просто «бот сработал», а понимание того, почему он сработал.

00:03:31Когда все падает, я хочу доказательства того, что именно произошло. Итак, что такое Dogra? Dogra, по-видимому, дает

00:03:37нам три разные вещи: голосового агента, визуальный конструктор рабочих процессов на уровне платформы,

00:03:44который обычно приходится строить самостоятельно. Голосовой движок — это часть, соединяющая звонящего, телефонного

00:03:50провайдера, систему преобразования речи в текст, LLM и преобразования текста в речь. Это то, что делает звонок возможным.

00:03:57Конструктор рабочих процессов — это место, где вы проектируете логику всей системы. Вместо того чтобы жестко кодировать каждый

00:04:03промпт, ветвление, вызов API и переключение, вы можете визуально отобразить поток. Огромный плюс, мне нравятся такие

00:04:09карты: задать вопрос, дождаться ответа — это именно то, что мы здесь отображаем. Я могу вызвать это

00:04:15API-ветвление здесь, перевод туда — такая логика должна легко меняться. И ко всему этому прилагается

00:04:21слой платформы: тестирование, трассировка, записи, аналитика — это скучные вещи, которые рано или поздно нужны каждому

00:04:28серьезному голосовому проекту. Со всем этим вы можете использовать своих провайдеров, свою LLM и свой TTS,

00:04:34потому что Dogra имеет открытый исходный код: вы можете изучать код, менять принципы работы и самостоятельно хостить его. На момент записи

00:04:41звезд на GitHub мало, так что это супер-новая находка, но честно говоря, довольно крутая.

00:04:47Теперь давайте сравним Dogra с другими решениями. У вас есть три основных пути для создания

00:04:51голосовых агентов. Первое — хостинговые платформы: Vapi, Bland, Retell. Они хороши, когда нужно двигаться быстро и

00:04:58вы не хотите заниматься инфраструктурой. Вы получаете чистые дашборды, API, инструменты тестирования транскриптов — все это

00:05:04очень полезно, но вы начинаете терять контроль. Если платформа меняет цены — вы с этим имеете дело.

00:05:10Если платформа меняет лимиты — вы с этим имеете дело. Если вам нужно специфическое развертывание или что-то в этом роде,

00:05:17вы снова можете упереться в стену. Но хостинговые инструменты быстры, так что, полагаю, это плюс. У вас есть некоторые из этих

00:05:23сырых фреймворков, вроде... я наткнулся на Pipe, Cap, LiveKit, кажется, один из них.

00:05:30Они дают гораздо больше контроля. Вы можете построить почти что угодно, но теперь вы строите все

00:05:36вокруг этого фреймворка, без UI-редактора процессов, так что это большой компромисс при их использовании.

00:05:42Dogra все еще слишком новая, но она здесь, и я думаю, их ставка проста: что, если вы могли бы

00:05:49использовать визуальный конструктор голосовых агентов, не отказываясь от self-hosting, выбора провайдера, трассировки и

00:05:56контроля? Похоже, это то, что здесь предлагается. Пишите код там, где он важен, используйте конструктор там, где важен поток,

00:06:02проверяйте рантайм, когда все ломается, и меняйте провайдеров, когда меняются затраты. Self-hosting дает

00:06:09нам много контроля, а это огромное преимущество. Vapi, Bland, Retell — лучшие для быстрого развертывания, но компромисс —

00:06:16привязка к затратам и меньший контроль. Если вам нравятся такие инструменты для разработки, подписывайтесь на канал Better

00:06:22Stack. Увидимся в следующем видео.

Key Takeaway

Dogra предоставляет разработчикам голосовых ИИ-агентов визуальный конструктор рабочих процессов и инструменты отладки с возможностью self-hosting, что устраняет зависимость от закрытых облачных платформ и сторонних комиссий.

Highlights

Dogra представляет собой open-source альтернативу сервисам вроде Vapi с возможностью локального хостинга и полным контролем над инфраструктурой.
Развертывание системы осуществляется через Docker с помощью команды docker-compose up, что упрощает настройку для разработчиков.
Визуальный редактор рабочих процессов позволяет проектировать логику голосового агента, включая ветвления, вызовы API и переключение на оператора, без написания кода оркестрации.
Платформа предоставляет инструменты трассировки, логирования записей и аналитики, необходимые для отладки проблем при сбоях или неверных ответах агента.
Пользователи сохраняют независимость от изменений ценовой политики и лимитов сторонних облачных платформ благодаря возможности использования собственных провайдеров, LLM и TTS.

Timeline

Проблематика современных голосовых агентов

Использование облачных платформ ведет к скрытым комиссиям и потере контроля над системой.
Голосовые агенты — это сложные системы, требующие интеграции Speech-to-Text, LLM, Text-to-Speech, управления состоянием и вызова инструментов.
Трудности при отладке возникают из-за непрозрачности процессов, когда непонятно, где именно произошел сбой в цепочке обработки звонка.

Разработка голосовых интерфейсов сталкивается с хаосом реальных телефонных разговоров, где люди перебивают, молчат или меняют темы. Большинство проектов становятся сложными в поддержке, так как стандартные облачные сервисы не дают глубокого понимания причин сбоев. Владение системой и доступ к внутренней логике становятся ключевыми факторами успеха.

Развертывание и создание логики в Dogra

Инструмент разворачивается локально через Docker с помощью репозитория с GitHub.
Конструктор на основе холста позволяет визуально настраивать квалификацию лидов и взаимодействие с CRM-системами.
Интерфейс предоставляет доступ к транскриптам, логам вызовов инструментов и истории изменений состояния в реальном времени.

Разработчик клонирует репозиторий и запускает систему через docker-compose up. Визуальный редактор позволяет задавать узлы промптов, шаги квалификации и ветвление логики без необходимости писать код оркестрации. При тестовом звонке система фиксирует все этапы диалога, что дает разработчику полное понимание того, почему бот сработал определенным образом.

Компоненты платформы и сравнение решений

Dogra состоит из голосового движка, визуального конструктора процессов и платформенного слоя для отладки.
Хостинговые платформы типа Vapi или Retell подходят для быстрого старта, но накладывают ограничения на контроль и стоимость.
Сырые фреймворки типа LiveKit дают контроль, но требуют построения собственного UI для управления процессами.
Dogra объединяет преимущества визуального проектирования и гибкость self-hosting архитектуры.

Система позволяет пользователю самостоятельно выбирать провайдеров и менять логику работы без привязки к проприетарным ограничениям. В то время как готовые облачные решения предлагают удобные дашборды, они создают риски из-за зависимости от цен и лимитов платформы. Dogra предлагает баланс, позволяя визуализировать потоки там, где это важно, и контролировать рантайм при возникновении ошибок.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video