Alat Open-Source Ini Menggantikan Vapi untuk Voice AI (Dograh)

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00Anda baru saja membangun agen AI suara, berfungsi, lalu tagihannya datang dan Anda harus membayar untuk LLM,
00:00:05suara, panggilan telepon, lalu biaya platform tambahan di atasnya, itu belum seberapa.
00:00:10Yang terburuk adalah Anda bahkan tidak benar-benar memiliki sistemnya. Hari ini saya akan menunjukkan Dogra,
00:00:16alternatif open source untuk Vapi yang bisa Anda host sendiri, periksa, dan kendalikan.
00:00:26AI suara saat ini terlihat agak sederhana dari luar, terima panggilan telepon, ubah ucapan menjadi teks,
00:00:33kirim ke LLM, ubah jawaban kembali menjadi ucapan, selesai, mudah bukan? Yah, seperti yang kita tahu,
00:00:39siapa pun yang sudah mencobanya, tidak juga karena panggilan nyata itu berantakan, orang menyela, orang diam,
00:00:46mereka akan mengubah topik, mereka bisa menanyakan pertanyaan yang sangat aneh, agen Anda perlu memanggil API dan saat
00:00:53itu rusak Anda perlu tahu alasannya. Di situlah kebanyakan proyek AI suara menjadi sangat merepotkan, agen suara
00:00:59bukan sekadar ChatGPT dengan nomor telepon, ini adalah sistem langsung dengan banyak bagian yang bergerak,
00:01:06yaitu ucapan ke teks, LLM, teks ke ucapan, state, pemanggilan alat, dan banyak hal lainnya, Anda mengerti, ada
00:01:12banyak bagian yang bergerak yang tidak benar-benar kita lihat terjadi, dan saat panggilan gagal, bot memberikan
00:01:17jawaban yang buruk, itu tidak cukup, apakah karena prompt-nya, apakah karena modelnya, apa penyebabnya, mengapa gagal, dan di situlah
00:01:23Dogra hadir. Jika Anda menikmati alat coding yang mempercepat alur kerja Anda, pastikan untuk subscribe, kami punya
00:01:29video yang dirilis setiap saat. Baiklah sekarang mari kita lihat ini dalam praktiknya, saya akan mulai secara lokal,
00:01:34karena jika suatu alat mengatakan dibangun untuk pengembang, saya ingin melihat Docker sebelum hal lainnya, ini sangat mudah
00:01:39untuk disiapkan, saya akan melakukan clone dari GitHub, saya akan cd ke dalam folder lalu saya hanya perlu
00:01:44menjalankan docker compose up, itu cukup sederhana, cukup mudah bagi kita. Setelah container berjalan, kita
00:01:50bisa masuk ke UI Dogra, sekarang saya akan membangun agen kualifikasi prospek sederhana, jadi apa yang saya maksud dengan itu?
00:01:57Seseorang akan menelepon, agen bertanya apa yang ingin mereka bangun, lalu menanyakan tentang perusahaan,
00:02:03ukuran, anggaran, hal-hal kecil seperti ini, lalu ia akan memanggil alat API untuk membuat atau memperbarui prospek CRM jika
00:02:11kita menyematkannya dan mungkin saya bahkan bisa mengatakan jika prospek memenuhi syarat, itu transfer ke manusia, jadi saya tambahkan
00:02:18node prompt lalu langkah kualifikasi, lalu pemanggilan alat API, dan kemudian saya bisa menambahkan cabang dan transfer.
00:02:28Belum ada kode orkestrasi khusus, dan itulah intinya di sini.
00:02:32Ini terlihat seperti kanvas no-code tetapi untuk pengembang, dan nilainya bukan no-code, nilainya adalah tidak membuang-buang
00:02:39kode untuk mencoba menyatukan semuanya. Sekarang mari kita coba menjalankan panggilan uji coba di sini. Hai ini Sarah dari
00:02:46panggilan masuk, apakah Anda masih di sana? Kami mencari agen telepon AI untuk permintaan demo masuk, itu
00:02:55hebat, saya pasti bisa membantu Anda dengan itu, untuk memastikan saya menghubungkan Anda dengan solusi yang tepat, bisa
00:03:00Anda beritahu saya lebih banyak tentang apa yang ingin Anda capai dengan agen telepon AI untuk permintaan
00:03:05demo masuk Anda, katakanlah sekitar 20.000 menit. Terima kasih telah berbagi, dan berapa ukuran perusahaan
00:03:11dan industri Anda? Sekarang kita bisa melihat transkrip di sini, kita bisa melihat jejaknya, kita bisa melihat pemanggilan alat
00:03:18yang benar-benar terjadi dan kita bisa melihat perubahan state, ditambah lagi ini rekamannya yang saya inginkan
00:03:24sejak awal, dan itulah yang saya inginkan sebagai pengembang, bukan hanya bot-nya berfungsi, saya ingin tahu mengapa itu berfungsi,
00:03:31saat gagal saya ingin bukti tentang apa yang sebenarnya terjadi. Jadi, apa itu Dogra? Dogra tampaknya memberikan
00:03:37kita tiga hal berbeda dari semua ini, kita mendapatkan agen suara, pembuat alur kerja visual di lapisan platform
00:03:44yang biasanya harus Anda bangun sendiri. Mesin suara adalah bagian yang menghubungkan penelepon, penyedia telepon,
00:03:50ucapan ke teks, LLM, dan teks ke ucapan, itulah yang membuat panggilan benar-benar terjadi. Pembuat
00:03:57alur kerja adalah tempat Anda merancang logika dari seluruh sistem ini, jadi alih-alih melakukan hard code pada setiap
00:04:03prompt, cabang, pemanggilan API, dan transfer, Anda bisa memetakan alurnya secara visual, jadi ini kemenangan besar, saya suka peta semacam ini,
00:04:09ajukan pertanyaan ini, tunggu jawabannya, itulah semacam hal yang kita petakan di sini, saya bisa memanggil
00:04:15cabang API di sini, transfer ke sana, logika semacam itu seharusnya mudah diubah. Kemudian untuk semua ini ada
00:04:21lapisan platform: pengujian, pelacakan, rekaman, analitik, itu adalah hal-hal membosankan yang dibutuhkan setiap proyek suara serius,
00:04:28pada akhirnya. Dengan semua ini, Anda bisa membawa penyedia Anda sendiri, LLM Anda sendiri, dan TTS Anda sendiri,
00:04:34karena Dogra adalah open source, Anda bisa memeriksa kodenya, mengubah cara kerjanya, dan melakukan self-host. Saat rekaman ini dibuat,
00:04:41bintang di GitHub masih sedikit, jadi ini adalah penemuan yang sangat baru tapi jujur saja cukup keren.
00:04:47Sekarang mari kita bandingkan Dogra dengan hal lain yang sudah ada di sini, Anda memiliki tiga cara utama untuk membangun
00:04:51agen suara: pertama adalah platform hosted, Vapi, Bland, Retell, ini bagus ketika Anda ingin bergerak cepat dan
00:04:58Anda tidak ingin menjalankan infrastruktur, Anda mendapatkan dasbor yang bersih, API, alat pengujian transkrip, semua itu sangat
00:05:04berguna, tetapi Anda mulai kehilangan kendali, bukan? Jika platform mengubah harga, Anda harus menghadapinya,
00:05:10jika platform mengubah batas, hadapi juga, bukan? Jika Anda membutuhkan deployment khusus, apa pun seperti itu,
00:05:17sekali lagi Anda mungkin menemui jalan buntu. Alat hosted memang cepat sih, jadi saya rasa itu keunggulannya. Anda punya beberapa
00:05:23framework mentah seperti, saya menemukan Pipe, Cap, entahlah kode, LiveKit saya rasa salah satunya,
00:05:30ini memberi Anda lebih banyak kendali, Anda bisa membangun hampir segalanya, tetapi sekarang Anda membangun semuanya
00:05:36di sekitar kerangka kerja ini, tanpa UI editor alur kerja, jadi itu trade-off besar menggunakan hal-hal seperti itu.
00:05:42Sekarang Dogra masih terlalu baru, tetapi ini ada di sini, dan saya pikir taruhan mereka cukup sederhana: bagaimana jika Anda bisa
00:05:49menggunakan pembangun agen suara visual tanpa harus menyerahkan self-hosting, memilih penyedia, pelacakan, dan
00:05:56kendali? Itulah yang tampaknya menjadi ini, tulis kode di tempat yang penting, gunakan pembangun di tempat alur Anda
00:06:02penting, periksa runtime saat terjadi kerusakan, dan tukar penyedia saat biaya berubah. Self-hosting memberikan
00:06:09kita banyak kendali, yang mana sangat besar. Vapi, Bland, Retell adalah yang terbaik untuk deployment hosted yang cepat, tetapi trade-off-nya adalah
00:06:16biaya yang mengunci dan kendali yang lebih sedikit. Jika Anda menikmati alat coding seperti ini, pastikan untuk subscribe ke channel Better
00:06:22Stack, sampai jumpa di video lainnya.

Key Takeaway

Dogra menyediakan kerangka kerja open-source untuk membangun agen AI suara dengan kontrol penuh atas infrastruktur, model, dan pemantauan alur kerja melalui antarmuka visual yang dapat di-host sendiri.

Highlights

  • Dogra menawarkan alternatif open-source untuk platform AI suara hosted seperti Vapi, Bland, dan Retell.

  • Instalasi sistem dilakukan melalui Docker dengan menjalankan perintah docker compose up setelah melakukan clone repository dari GitHub.

  • Sistem ini memungkinkan kontrol penuh atas penyedia LLM, teks-ke-ucapan (TTS), dan ucapan-ke-teks (STT) sendiri.

  • Fitur pembuat alur kerja visual memetakan logika panggilan seperti cabang API dan transfer manusia tanpa perlu menulis kode orkestrasi khusus.

  • Transkrip, jejak pemanggilan alat, dan perubahan state tersedia secara real-time untuk kebutuhan debugging saat panggilan terjadi.

  • Self-hosting dengan Dogra menghilangkan ketergantungan pada perubahan harga atau pembatasan fitur yang ditetapkan oleh penyedia platform hosted.

Timeline

Keterbatasan Platform AI Suara Hosted

  • Sistem AI suara yang kompleks terdiri dari banyak bagian yang bergerak, termasuk STT, LLM, TTS, state, dan pemanggilan alat.
  • Kegagalan pada panggilan AI suara sering kali sulit didiagnosis penyebab pastinya, apakah karena prompt, model, atau kegagalan API.
  • Ketergantungan pada platform hosted seperti Vapi menyebabkan hilangnya kendali atas sistem dan biaya tambahan.

Agen suara lebih dari sekadar ChatGPT dengan nomor telepon. Kegagalan dalam panggilan nyata sering kali disebabkan oleh interupsi, kesunyian, atau topik yang berubah secara tiba-tiba. Pengembang memerlukan visibilitas mendalam tentang mengapa bot memberikan jawaban buruk atau mengapa panggilan gagal.

Implementasi dan Penggunaan Dogra

  • Dogra dapat disiapkan secara lokal menggunakan Docker dengan perintah sederhana.
  • Antarmuka visual memungkinkan desain logika agen untuk tugas spesifik seperti kualifikasi prospek CRM tanpa kode orkestrasi khusus.
  • Platform menyediakan bukti transkrip, jejak pemanggilan alat, dan perubahan state yang esensial untuk kebutuhan pengembangan.

Proses instalasi dimulai dengan mengkloning repositori dari GitHub dan menjalankan container melalui docker compose. Pengguna dapat membangun agen kualifikasi prospek yang mampu memanggil API CRM dan mentransfer panggilan ke manusia berdasarkan kondisi yang ditetapkan. Bukti rekaman dan data pemanggilan alat memungkinkan pengembang melacak alasan di balik setiap tindakan agen.

Arsitektur dan Perbandingan Platform

  • Dogra menyediakan tiga komponen utama yaitu mesin suara, pembuat alur kerja visual, dan lapisan platform untuk pelacakan serta analitik.
  • Platform hosted menawarkan kecepatan deployment tetapi mengunci pengguna dalam biaya dan keterbatasan kendali.
  • Framework mentah memberikan kendali penuh tetapi tidak memiliki editor alur kerja visual yang mempermudah perancangan logika.
  • Dogra menempatkan dirinya sebagai solusi tengah yang menggabungkan kemudahan pembangun visual dengan fleksibilitas self-hosting.

Dogra memungkinkan penggunaan penyedia pihak ketiga untuk model dan suara sambil tetap mempertahankan kendali atas infrastruktur. Pilihan antara platform hosted yang cepat versus framework mentah yang rumit kini memiliki alternatif yang menggabungkan visualisasi alur kerja dengan kemampuan self-hosting. Hal ini memungkinkan perubahan penyedia atau kustomisasi runtime dilakukan saat kebutuhan teknis atau biaya berubah.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video