यह ओपन-सोर्स टूल वॉयस AI के लिए Vapi की जगह ले सकता है (Dograh)
BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology
Transcript
00:00:00आपने अभी एक वॉइस एआई एजेंट बनाया, वह काम करता है, फिर बिल आता है और आप एलएलएम (LLM) और
00:00:05वॉइस के लिए फोन कॉल और फिर उसके ऊपर एक और प्लेटफॉर्म फीस चुका रहे होते हैं, वह भी सबसे बुरी बात नहीं है
00:00:10सबसे बुरी बात ये है कि आप वास्तव में सिस्टम के मालिक भी नहीं हैं। आज मैं आपको डॉग्रा (Dogra)
00:00:16और एक ओपन सोर्स वॉइस एआई विकल्प दिखाऊंगा जिसे आप खुद होस्ट, इंस्पेक्ट और कंट्रोल कर सकते हैं
00:00:26वॉइस एआई आजकल बाहर से देखने में काफी सरल लग सकता है: फोन कॉल लें, स्पीच को टेक्स्ट में बदलें
00:00:33उसे एलएलएम (LLM) को भेजें, जवाब को वापस स्पीच में बदलें, काम हो गया, यह आसान है ना? खैर, जैसा कि हम में से कोई भी जानता है
00:00:39जिसने भी यह कोशिश की है, ऐसा नहीं है क्योंकि असली कॉल अव्यवस्थित होती हैं, लोग बीच में टोकते हैं, लोग चुप हो जाते हैं,
00:00:46वे विषय बदल देते हैं, वे बहुत अजीब सवाल पूछ सकते हैं। आपके एजेंट को एपीआई (APIs) को कॉल करने की जरूरत होती है और जब
00:00:53यह टूटता है तो आपको पता होना चाहिए कि क्यों। यही वह जगह है जहाँ अधिकांश वॉइस एआई प्रोजेक्ट्स परेशानी का कारण बन जाते हैं। एक वॉइस
00:00:59एजेंट सिर्फ फोन नंबर वाला चैट जीपीटी (ChatGPT) नहीं है, यह बहुत सारे मूविंग पार्ट्स वाला एक लाइव सिस्टम है,
00:01:06यानी स्पीच टू टेक्स्ट, एलएलएम, टेक्स्ट टू स्पीच, स्टेट, टूल कॉल्स और बहुत कुछ। आप समझ गए, इसमें
00:01:12बहुत सारे मूविंग पार्ट्स हैं जो वास्तव में हो रहे होते हैं और हमें दिखाई नहीं देते। और जब कॉल फेल हो जाती है, बॉट ने एक
00:01:17खराब जवाब दिया, तो सिर्फ इतना काफी नहीं है, क्या यह प्रॉम्प्ट था? क्या यह मॉडल था? यह क्या था? यह फेल क्यों हुआ?
00:01:23यहीं पर डॉग्रा (Dogra) काम आता है। यदि आप ऐसे कोडिंग टूल्स का आनंद लेते हैं जो आपके वर्कफ़्लो को तेज करते हैं, तो सब्सक्राइब जरूर करें, हमारे पास
00:01:29हर समय नए वीडियो आते रहते हैं। ठीक है, अब इसे व्यवहार में देखते हैं, मैं इसे स्थानीय रूप से शुरू करने जा रहा हूँ
00:01:34क्योंकि अगर कोई टूल कहता है कि यह डेवलपर्स के लिए बनाया गया है, तो मैं बाकी सब से पहले डॉकर देखना चाहता हूँ। इसे स्पिन अप करना सुपर आसान था
00:01:39मैं इसे गिटहब (GitHub) से क्लोन करूँगा, मैं फ़ोल्डर में सीडी (cd) करूँगा और फिर मुझे बस
00:01:44डॉकर कंपोज़ अप (docker compose up) रन करना है, यह काफी सरल है, हमारे लिए आसान है। एक बार कंटेनर चल जाने के बाद हम
00:01:50डॉग्रा यूआई (Dogra UI) में जा सकते हैं। अब मैं एक सरल लीड क्वालिफिकेशन एजेंट बनाऊँगा, तो मेरा उससे क्या मतलब है?
00:01:57कोई कॉल करेगा, एजेंट पूछेगा कि वे क्या बनाना चाहते हैं, फिर यह कंपनी के
00:02:03बारे में पूछेगा, आकार, बजट, इस जैसी छोटी चीजें। यह फिर एक सीआरएम (CRM) लीड बनाने या अपडेट करने के लिए एक एपीआई टूल कॉल करेगा, अगर
00:02:11हम उसे एम्बेड करते हैं, और शायद मैं यह भी कह सकता हूँ कि अगर लीड क्वालिफाइड है तो यह किसी इंसान को ट्रांसफर कर दे, इसलिए मैं एक
00:02:18प्रॉम्प्ट नोड जोड़ता हूँ, फिर एक क्वालिफिकेशन स्टेप, फिर एक एपीआई टूल कॉल, और फिर मैं एक ब्रांच और एक ट्रांसफर जोड़ सकता हूँ
00:02:28अभी तक कोई कस्टम ऑर्केस्ट्रेशन कोड नहीं है और यहाँ यही मतलब है
00:02:32यह डेवलपर्स के लिए नो-कोड कैनवास जैसा दिखता है और इसकी वैल्यू नो-कोड नहीं है, इसकी वैल्यू कोड बर्बाद न करना है
00:02:39सब कुछ एक साथ जोड़ने की कोशिश में। अब यहाँ एक टेस्ट कॉल चलाने की कोशिश करते हैं। हाय, यह सारा है, इनबाउंड कॉल्स से
00:02:46क्या आप अभी भी वहाँ हैं? हम इनबाउंड डेमो अनुरोधों के लिए एक एआई फोन एजेंट की तलाश कर रहे हैं।
00:02:55यह बहुत अच्छा है, मैं निश्चित रूप से इसमें आपकी मदद कर सकता हूँ। यह सुनिश्चित करने के लिए कि मैं आपको सही समाधान से जोड़ूँ, क्या आप
00:03:00मुझे थोड़ा और बता सकते हैं कि आप अपने इनबाउंड डेमो अनुरोधों के लिए एक एआई फोन एजेंट के साथ क्या हासिल करना चाहते हैं?
00:03:05मान लीजिए लगभग 20,000 मिनट। इसे साझा करने के लिए धन्यवाद, और आपकी कंपनी का
00:03:11आकार और उद्योग क्या है? अब हम यहाँ ट्रांसक्रिप्ट देख सकते हैं, हम ट्रेस देख सकते हैं, हम टूल कॉल देख सकते हैं
00:03:18जो वास्तव में हुआ था और हम स्टेट में बदलाव देख सकते हैं। प्लस, यहाँ रिकॉर्डिंग है जो मुझे
00:03:24सबसे पहले चाहिए थी। और एक डेवलपर के रूप में मैं यही चाहता हूँ, सिर्फ ये नहीं कि बॉट ने काम किया, मैं जानना चाहता हूँ कि इसने क्यों काम किया
00:03:31जब यह फेल होता है, तो मुझे इसका सबूत चाहिए कि यह वास्तव में हो रहा है। तो डॉग्रा (Dogra) क्या है? डॉग्रा हमें इस सब से
00:03:37तीन अलग-अलग चीजें देता है: एक वॉइस एजेंट, एक विजुअल वर्कफ़्लो बिल्डर जो उस प्लेटफॉर्म
00:03:44लेयर में है जिसे आपको आमतौर पर खुद बनाना पड़ता है। वॉइस इंजन वह हिस्सा है जो कॉलर, फोन
00:03:50प्रदाता, स्पीच टू टेक्स्ट, एलएलएम और टेक्स्ट टू स्पीच को जोड़ता है। वही है जो कॉल को वास्तव में संभव बनाता है।
00:03:57वर्कफ़्लो बिल्डर वह जगह है जहाँ आप इस पूरे सिस्टम का लॉजिक डिज़ाइन करते हैं। तो हर प्रॉम्प्ट, ब्रांच, एपीआई कॉल और ट्रांसफर को
00:04:03हार्ड कोड करने के बजाय, आप फ़्लो को विज़ुअली मैप कर सकते हैं। तो यहाँ एक बड़ी जीत है, मुझे इस तरह के मैप पसंद हैं
00:04:09यह सवाल पूछें, जवाब का इंतज़ार करें, यही वह चीज़ है जिसे हम यहाँ मैप कर रहे हैं। मैं इस एपीआई ब्रांच को कॉल कर सकता हूँ,
00:04:15वहाँ ट्रांसफर कर सकता हूँ, उस तरह के लॉजिक को बदलना आसान होना चाहिए। फिर इस सबके ऊपर, वहाँ
00:04:21प्लेटफॉर्म लेयर है: टेस्टिंग, ट्रेसिंग, रिकॉर्डिंग, एनालिटिक्स। वह उबाऊ सामान है जिसकी हर गंभीर वॉइस प्रोजेक्ट को
00:04:28अंततः ज़रूरत होती है। इस सबके साथ, आप अपने खुद के प्रदाता, अपना खुद का एलएलएम और अपना खुद का टीटीएस (TTS) ला सकते हैं,
00:04:34क्योंकि डॉग्रा ओपन सोर्स है, आप कोड को इंस्पेक्ट कर सकते हैं, यह कैसे काम करता है उसे बदल सकते हैं और इसे खुद होस्ट कर सकते हैं। इस रिकॉर्डिंग के समय तक,
00:04:41गिटहब स्टार्स कम हैं, तो यह एक सुपर नई खोज है जो मैंने की है, लेकिन यह वास्तव में काफी शानदार है।
00:04:47अब डॉग्रा की तुलना उन अन्य चीजों से करते हैं जो हमारे पास पहले से यहाँ हैं। आपके पास बनाने के तीन मुख्य तरीके हैं
00:04:51वॉइस एजेंट। पहला है होस्टेड प्लेटफॉर्म्स, जैसे वैपी (Vapi), ब्लैंड (Bland), रिटेल (Retell)। ये तब अच्छे होते हैं जब आप तेजी से आगे बढ़ना चाहते हैं और
00:04:58आप इंफ्रास्ट्रक्चर नहीं चलाना चाहते। आपको साफ डैशबोर्ड, एपीआई, ट्रांसक्रिप्ट, टेस्टिंग टूल्स मिलते हैं, वह सब
00:05:04वास्तव में उपयोगी है। लेकिन आप वहाँ नियंत्रण खोना शुरू कर देते हैं, है ना? अगर प्लेटफॉर्म प्राइजिंग बदलता है, तो आपको निपटना होगा,
00:05:10अगर प्लेटफॉर्म लिमिट्स बदलता है, तो आपको निपटना होगा, है ना? अगर आपको कस्टम डिप्लॉयमेंट या ऐसा कुछ चाहिए,
00:05:17तो फिर से, आप एक दीवार से टकरा सकते हैं। होस्टेड टूल्स तेज जरूर हैं, तो मुझे लगता है कि यह एक जीत है। आपके पास कुछ
00:05:23रॉ फ्रेमवर्क हैं, जैसे, मैं पाइप कैप (Pipecat) से आया हूँ, हालांकि कोड ए लाइव किट (LiveKit) शायद उनमें से एक है,
00:05:30ये आपको बहुत अधिक नियंत्रण देते हैं। आप लगभग कुछ भी बना सकते हैं, लेकिन अब आप सब कुछ बना रहे हैं
00:05:36इस फ्रेमवर्क के चारों ओर। कोई यूआई वर्कफ़्लो एडिटर नहीं है, तो इस तरह की चीजों का उपयोग करने में यह एक बड़ा ट्रेड-ऑफ है।
00:05:42अब डॉग्रा अभी भी बहुत नया है, लेकिन यह यहाँ है और मुझे लगता है कि उनकी शर्त काफी सरल है: क्या होगा अगर आप
00:05:49सेल्फ-होस्टिंग, एक प्रदाता को चुनने, ट्रेसिंग और नियंत्रण छोड़े बिना एक विजुअल वॉइस एजेंट बिल्डर का उपयोग कर सकें,
00:05:56यह वही है जो यह प्रतीत होता है। वहाँ कोड लिखें जहाँ कोड मायने रखता है, बिल्डर का उपयोग वहाँ करें जहाँ आपका फ्लो
00:06:02मायने रखता है, जब चीजें टूटती हैं तो रनटाइम का निरीक्षण करें और जब लागत बदलती है तो प्रदाताओं को स्वैप करें। सेल्फ-होस्टिंग हमें
00:06:09बहुत अधिक नियंत्रण देती है, जो बहुत बड़ी बात है। वैपी, ब्लैंड, रिटेल फास्ट होस्टेड डिप्लॉयमेंट के लिए सबसे अच्छे हैं, लेकिन ट्रेड-ऑफ
00:06:16कॉस्ट लॉकिंग और कम नियंत्रण है। यदि आप इस तरह के कोडिंग टूल्स का आनंद लेते हैं, तो बेटर स्टैक (Better Stack) चैनल को सब्सक्राइब करना सुनिश्चित करें,
00:06:22हम आपको अगले वीडियो में देखेंगे।
Community Posts
No posts yet. Be the first to write about this video!
Write about this video