यह ओपन-सोर्स टूल वॉयस AI के लिए Vapi की जगह ले सकता है (Dograh)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00आपने अभी एक वॉइस एआई एजेंट बनाया, वह काम करता है, फिर बिल आता है और आप एलएलएम (LLM) और
00:00:05वॉइस के लिए फोन कॉल और फिर उसके ऊपर एक और प्लेटफॉर्म फीस चुका रहे होते हैं, वह भी सबसे बुरी बात नहीं है
00:00:10सबसे बुरी बात ये है कि आप वास्तव में सिस्टम के मालिक भी नहीं हैं। आज मैं आपको डॉग्रा (Dogra)
00:00:16और एक ओपन सोर्स वॉइस एआई विकल्प दिखाऊंगा जिसे आप खुद होस्ट, इंस्पेक्ट और कंट्रोल कर सकते हैं
00:00:26वॉइस एआई आजकल बाहर से देखने में काफी सरल लग सकता है: फोन कॉल लें, स्पीच को टेक्स्ट में बदलें
00:00:33उसे एलएलएम (LLM) को भेजें, जवाब को वापस स्पीच में बदलें, काम हो गया, यह आसान है ना? खैर, जैसा कि हम में से कोई भी जानता है
00:00:39जिसने भी यह कोशिश की है, ऐसा नहीं है क्योंकि असली कॉल अव्यवस्थित होती हैं, लोग बीच में टोकते हैं, लोग चुप हो जाते हैं,
00:00:46वे विषय बदल देते हैं, वे बहुत अजीब सवाल पूछ सकते हैं। आपके एजेंट को एपीआई (APIs) को कॉल करने की जरूरत होती है और जब
00:00:53यह टूटता है तो आपको पता होना चाहिए कि क्यों। यही वह जगह है जहाँ अधिकांश वॉइस एआई प्रोजेक्ट्स परेशानी का कारण बन जाते हैं। एक वॉइस
00:00:59एजेंट सिर्फ फोन नंबर वाला चैट जीपीटी (ChatGPT) नहीं है, यह बहुत सारे मूविंग पार्ट्स वाला एक लाइव सिस्टम है,
00:01:06यानी स्पीच टू टेक्स्ट, एलएलएम, टेक्स्ट टू स्पीच, स्टेट, टूल कॉल्स और बहुत कुछ। आप समझ गए, इसमें
00:01:12बहुत सारे मूविंग पार्ट्स हैं जो वास्तव में हो रहे होते हैं और हमें दिखाई नहीं देते। और जब कॉल फेल हो जाती है, बॉट ने एक
00:01:17खराब जवाब दिया, तो सिर्फ इतना काफी नहीं है, क्या यह प्रॉम्प्ट था? क्या यह मॉडल था? यह क्या था? यह फेल क्यों हुआ?
00:01:23यहीं पर डॉग्रा (Dogra) काम आता है। यदि आप ऐसे कोडिंग टूल्स का आनंद लेते हैं जो आपके वर्कफ़्लो को तेज करते हैं, तो सब्सक्राइब जरूर करें, हमारे पास
00:01:29हर समय नए वीडियो आते रहते हैं। ठीक है, अब इसे व्यवहार में देखते हैं, मैं इसे स्थानीय रूप से शुरू करने जा रहा हूँ
00:01:34क्योंकि अगर कोई टूल कहता है कि यह डेवलपर्स के लिए बनाया गया है, तो मैं बाकी सब से पहले डॉकर देखना चाहता हूँ। इसे स्पिन अप करना सुपर आसान था
00:01:39मैं इसे गिटहब (GitHub) से क्लोन करूँगा, मैं फ़ोल्डर में सीडी (cd) करूँगा और फिर मुझे बस
00:01:44डॉकर कंपोज़ अप (docker compose up) रन करना है, यह काफी सरल है, हमारे लिए आसान है। एक बार कंटेनर चल जाने के बाद हम
00:01:50डॉग्रा यूआई (Dogra UI) में जा सकते हैं। अब मैं एक सरल लीड क्वालिफिकेशन एजेंट बनाऊँगा, तो मेरा उससे क्या मतलब है?
00:01:57कोई कॉल करेगा, एजेंट पूछेगा कि वे क्या बनाना चाहते हैं, फिर यह कंपनी के
00:02:03बारे में पूछेगा, आकार, बजट, इस जैसी छोटी चीजें। यह फिर एक सीआरएम (CRM) लीड बनाने या अपडेट करने के लिए एक एपीआई टूल कॉल करेगा, अगर
00:02:11हम उसे एम्बेड करते हैं, और शायद मैं यह भी कह सकता हूँ कि अगर लीड क्वालिफाइड है तो यह किसी इंसान को ट्रांसफर कर दे, इसलिए मैं एक
00:02:18प्रॉम्प्ट नोड जोड़ता हूँ, फिर एक क्वालिफिकेशन स्टेप, फिर एक एपीआई टूल कॉल, और फिर मैं एक ब्रांच और एक ट्रांसफर जोड़ सकता हूँ
00:02:28अभी तक कोई कस्टम ऑर्केस्ट्रेशन कोड नहीं है और यहाँ यही मतलब है
00:02:32यह डेवलपर्स के लिए नो-कोड कैनवास जैसा दिखता है और इसकी वैल्यू नो-कोड नहीं है, इसकी वैल्यू कोड बर्बाद न करना है
00:02:39सब कुछ एक साथ जोड़ने की कोशिश में। अब यहाँ एक टेस्ट कॉल चलाने की कोशिश करते हैं। हाय, यह सारा है, इनबाउंड कॉल्स से
00:02:46क्या आप अभी भी वहाँ हैं? हम इनबाउंड डेमो अनुरोधों के लिए एक एआई फोन एजेंट की तलाश कर रहे हैं।
00:02:55यह बहुत अच्छा है, मैं निश्चित रूप से इसमें आपकी मदद कर सकता हूँ। यह सुनिश्चित करने के लिए कि मैं आपको सही समाधान से जोड़ूँ, क्या आप
00:03:00मुझे थोड़ा और बता सकते हैं कि आप अपने इनबाउंड डेमो अनुरोधों के लिए एक एआई फोन एजेंट के साथ क्या हासिल करना चाहते हैं?
00:03:05मान लीजिए लगभग 20,000 मिनट। इसे साझा करने के लिए धन्यवाद, और आपकी कंपनी का
00:03:11आकार और उद्योग क्या है? अब हम यहाँ ट्रांसक्रिप्ट देख सकते हैं, हम ट्रेस देख सकते हैं, हम टूल कॉल देख सकते हैं
00:03:18जो वास्तव में हुआ था और हम स्टेट में बदलाव देख सकते हैं। प्लस, यहाँ रिकॉर्डिंग है जो मुझे
00:03:24सबसे पहले चाहिए थी। और एक डेवलपर के रूप में मैं यही चाहता हूँ, सिर्फ ये नहीं कि बॉट ने काम किया, मैं जानना चाहता हूँ कि इसने क्यों काम किया
00:03:31जब यह फेल होता है, तो मुझे इसका सबूत चाहिए कि यह वास्तव में हो रहा है। तो डॉग्रा (Dogra) क्या है? डॉग्रा हमें इस सब से
00:03:37तीन अलग-अलग चीजें देता है: एक वॉइस एजेंट, एक विजुअल वर्कफ़्लो बिल्डर जो उस प्लेटफॉर्म
00:03:44लेयर में है जिसे आपको आमतौर पर खुद बनाना पड़ता है। वॉइस इंजन वह हिस्सा है जो कॉलर, फोन
00:03:50प्रदाता, स्पीच टू टेक्स्ट, एलएलएम और टेक्स्ट टू स्पीच को जोड़ता है। वही है जो कॉल को वास्तव में संभव बनाता है।
00:03:57वर्कफ़्लो बिल्डर वह जगह है जहाँ आप इस पूरे सिस्टम का लॉजिक डिज़ाइन करते हैं। तो हर प्रॉम्प्ट, ब्रांच, एपीआई कॉल और ट्रांसफर को
00:04:03हार्ड कोड करने के बजाय, आप फ़्लो को विज़ुअली मैप कर सकते हैं। तो यहाँ एक बड़ी जीत है, मुझे इस तरह के मैप पसंद हैं
00:04:09यह सवाल पूछें, जवाब का इंतज़ार करें, यही वह चीज़ है जिसे हम यहाँ मैप कर रहे हैं। मैं इस एपीआई ब्रांच को कॉल कर सकता हूँ,
00:04:15वहाँ ट्रांसफर कर सकता हूँ, उस तरह के लॉजिक को बदलना आसान होना चाहिए। फिर इस सबके ऊपर, वहाँ
00:04:21प्लेटफॉर्म लेयर है: टेस्टिंग, ट्रेसिंग, रिकॉर्डिंग, एनालिटिक्स। वह उबाऊ सामान है जिसकी हर गंभीर वॉइस प्रोजेक्ट को
00:04:28अंततः ज़रूरत होती है। इस सबके साथ, आप अपने खुद के प्रदाता, अपना खुद का एलएलएम और अपना खुद का टीटीएस (TTS) ला सकते हैं,
00:04:34क्योंकि डॉग्रा ओपन सोर्स है, आप कोड को इंस्पेक्ट कर सकते हैं, यह कैसे काम करता है उसे बदल सकते हैं और इसे खुद होस्ट कर सकते हैं। इस रिकॉर्डिंग के समय तक,
00:04:41गिटहब स्टार्स कम हैं, तो यह एक सुपर नई खोज है जो मैंने की है, लेकिन यह वास्तव में काफी शानदार है।
00:04:47अब डॉग्रा की तुलना उन अन्य चीजों से करते हैं जो हमारे पास पहले से यहाँ हैं। आपके पास बनाने के तीन मुख्य तरीके हैं
00:04:51वॉइस एजेंट। पहला है होस्टेड प्लेटफॉर्म्स, जैसे वैपी (Vapi), ब्लैंड (Bland), रिटेल (Retell)। ये तब अच्छे होते हैं जब आप तेजी से आगे बढ़ना चाहते हैं और
00:04:58आप इंफ्रास्ट्रक्चर नहीं चलाना चाहते। आपको साफ डैशबोर्ड, एपीआई, ट्रांसक्रिप्ट, टेस्टिंग टूल्स मिलते हैं, वह सब
00:05:04वास्तव में उपयोगी है। लेकिन आप वहाँ नियंत्रण खोना शुरू कर देते हैं, है ना? अगर प्लेटफॉर्म प्राइजिंग बदलता है, तो आपको निपटना होगा,
00:05:10अगर प्लेटफॉर्म लिमिट्स बदलता है, तो आपको निपटना होगा, है ना? अगर आपको कस्टम डिप्लॉयमेंट या ऐसा कुछ चाहिए,
00:05:17तो फिर से, आप एक दीवार से टकरा सकते हैं। होस्टेड टूल्स तेज जरूर हैं, तो मुझे लगता है कि यह एक जीत है। आपके पास कुछ
00:05:23रॉ फ्रेमवर्क हैं, जैसे, मैं पाइप कैप (Pipecat) से आया हूँ, हालांकि कोड ए लाइव किट (LiveKit) शायद उनमें से एक है,
00:05:30ये आपको बहुत अधिक नियंत्रण देते हैं। आप लगभग कुछ भी बना सकते हैं, लेकिन अब आप सब कुछ बना रहे हैं
00:05:36इस फ्रेमवर्क के चारों ओर। कोई यूआई वर्कफ़्लो एडिटर नहीं है, तो इस तरह की चीजों का उपयोग करने में यह एक बड़ा ट्रेड-ऑफ है।
00:05:42अब डॉग्रा अभी भी बहुत नया है, लेकिन यह यहाँ है और मुझे लगता है कि उनकी शर्त काफी सरल है: क्या होगा अगर आप
00:05:49सेल्फ-होस्टिंग, एक प्रदाता को चुनने, ट्रेसिंग और नियंत्रण छोड़े बिना एक विजुअल वॉइस एजेंट बिल्डर का उपयोग कर सकें,
00:05:56यह वही है जो यह प्रतीत होता है। वहाँ कोड लिखें जहाँ कोड मायने रखता है, बिल्डर का उपयोग वहाँ करें जहाँ आपका फ्लो
00:06:02मायने रखता है, जब चीजें टूटती हैं तो रनटाइम का निरीक्षण करें और जब लागत बदलती है तो प्रदाताओं को स्वैप करें। सेल्फ-होस्टिंग हमें
00:06:09बहुत अधिक नियंत्रण देती है, जो बहुत बड़ी बात है। वैपी, ब्लैंड, रिटेल फास्ट होस्टेड डिप्लॉयमेंट के लिए सबसे अच्छे हैं, लेकिन ट्रेड-ऑफ
00:06:16कॉस्ट लॉकिंग और कम नियंत्रण है। यदि आप इस तरह के कोडिंग टूल्स का आनंद लेते हैं, तो बेटर स्टैक (Better Stack) चैनल को सब्सक्राइब करना सुनिश्चित करें,
00:06:22हम आपको अगले वीडियो में देखेंगे।

Key Takeaway

Dogra एक ओपन-सोर्स वॉयस एआई विकल्प है जो डेवलपर्स को Vapi जैसे होस्टेड प्लेटफॉर्म के विपरीत पूर्ण नियंत्रण, स्वयं-होस्टिंग क्षमता और विजुअल वर्कफ़्लो निर्माण प्रदान करता है।

Highlights

  • Dogra एक ओपन-सोर्स वॉयस एआई प्लेटफॉर्म है जिसे स्थानीय रूप से होस्ट किया जा सकता है, जो बाहरी प्लेटफॉर्म फीस को समाप्त करता है।

  • Docker का उपयोग करके Dogra को क्लोन करना और चलाना एक सरल कमांड 'docker compose up' के माध्यम से संभव है।

  • यह प्लेटफॉर्म एक नो-कोड विजुअल वर्कफ़्लो बिल्डर प्रदान करता है जो प्रॉम्प्ट, ब्रांचिंग, एपीआई कॉल और ह्यूमन-ट्रांसफर लॉजिक को मैप करने की अनुमति देता है।

  • डेवलपर्स कॉलर, टेलीफोनी प्रदाता, स्पीच-टू-टेक्स्ट, एलएलएम (LLM) और टेक्स्ट-टू-स्पीच के एकीकरण को गहराई से इंस्पेक्ट कर सकते हैं।

  • प्लेटफॉर्म में इन-बिल्ट टेस्टिंग, ट्रेसिंग, रिकॉर्डिंग और एनालिटिक्स क्षमताएं शामिल हैं जो वॉइस एजेंट के फेल होने के कारणों का पता लगाने में मदद करती हैं।

Timeline

वॉइस एआई डेवलपमेंट की चुनौतियाँ

  • वॉइस एआई प्रोजेक्ट्स सिर्फ फोन नंबर वाले चैट जीपीटी नहीं हैं, बल्कि कई मूविंग पार्ट्स वाला एक जटिल लाइव सिस्टम हैं।
  • अव्यवस्थित कॉल्स में लोगों द्वारा टोकने, विषय बदलने या चुप हो जाने जैसी स्थितियाँ सिस्टम को जटिल बनाती हैं।

वॉइस एआई कॉल्स में स्पीच-टू-टेक्स्ट, एलएलएम, टेक्स्ट-टू-स्पीच और एपीआई कॉल्स के बीच तालमेल बिठाना चुनौतीपूर्ण होता है। जब कॉल फेल होती है, तो यह पता लगाना मुश्किल होता है कि समस्या प्रॉम्प्ट में थी, मॉडल में, या कहीं और। ज्यादातर मौजूदा समाधान डेवलपर्स को सिस्टम के पूर्ण नियंत्रण से वंचित रखते हैं और प्लेटफॉर्म फीस पर निर्भर करते हैं।

Dogra का उपयोग और कार्यक्षमता

  • Dogra को डॉकर कंटेनर का उपयोग करके आसानी से सेटअप और स्थानीय रूप से होस्ट किया जा सकता है।
  • विजुअल वर्कफ़्लो बिल्डर का उपयोग करके बिना कस्टम ऑर्केस्ट्रेशन कोड लिखे लीड क्वालिफिकेशन जैसे जटिल लॉजिक तैयार किए जा सकते हैं।
  • डेवलपर्स को कॉल्स के दौरान ट्रांसक्रिप्ट, ट्रेस और टूल कॉल्स का विस्तृत रिकॉर्ड मिलता है।

Dogra का यूआई (UI) डेवलपर्स के लिए एक नो-कोड कैनवास जैसा है, जिसका मुख्य मूल्य कोड बर्बाद किए बिना जटिल लॉजिक बनाना है। एक टेस्ट कॉल के दौरान, सिस्टम ने एजेंट को इनबाउंड डेमो अनुरोधों को संभालने और लीड्स को क्वालिफाई करने में सक्षम बनाया। यह सिस्टम डेवलपर्स को पारदर्शिता प्रदान करता है कि एजेंट ने क्या और क्यों किया, जो विफलताओं को समझने के लिए आवश्यक है।

प्लेटफॉर्म वास्तुकला और तुलना

  • Dogra के तीन मुख्य घटक वॉइस इंजन, वर्कफ़्लो बिल्डर और प्लेटफॉर्म लेयर (टेस्टिंग/ट्रेसिंग) हैं।
  • Vapi या Retell जैसे होस्टेड प्लेटफॉर्म उपयोग में तेज हैं, लेकिन इनमें नियंत्रण की कमी है और प्लेटफॉर्म आधारित लागत का जोखिम रहता है।
  • Pipecat या LiveKit जैसे रॉ फ्रेमवर्क अधिक नियंत्रण देते हैं, लेकिन इनमें विजुअल वर्कफ़्लो बिल्डर जैसे टूल्स का अभाव होता है।

Dogra का लक्ष्य सेल्फ-होस्टिंग के लाभों और विजुअल बिल्डर की सरलता के बीच संतुलन बनाना है। ओपन-सोर्स होने के नाते, यह प्रदाताओं को स्वैप करने और रनटाइम का निरीक्षण करने की अनुमति देता है। यह उन डेवलपर्स के लिए एक विकल्प है जो होस्टेड प्लेटफॉर्म के लॉक-इन प्रभावों से बचना चाहते हैं लेकिन फ्रेमवर्क्स पर सब कुछ स्क्रैच से नहीं बनाना चाहते।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video