मैंने ओपन सोर्स ElevenLabs विकल्प (Voicebox) को आज़माया

BBetter Stack
컴퓨터/소프트웨어가전제품/카메라AI/미래기술

Transcript

00:00:00वे कहते हैं कि यह वॉयस एआई का ओलामा है। यह आवाजों को क्लोन करता है, स्पीच जेनरेट करता है, किसी भी ऐप में डिक्टेशन कर सकता है,
00:00:07और उन आवाजों में एजेंटों से बात करता है जिनकी आप वास्तव में मालिक हैं। यह वॉयसबॉक्स है, और यह वही कहता है
00:00:13जो यहाँ लिखा है। यह फ्री है और 11 लैब्स का एक लोकल विकल्प है, और सच कहूँ तो, यह पागलपन है।
00:00:19गिटहब पर इसके लगभग 30,000 स्टार्स हैं। यह लोकल स्तर पर चलता है, और अगले 60 सेकंड में,
00:00:24मैं आपको क्लोनिंग, लोकल वॉयस जनरेशन और एडिटर के अंदर डिक्टेशन करके दिखाऊंगा।
00:00:29यह हमारे लिए कितना उपयोगी है, और इसे शुरू करना कितना आसान है? हम बस यह पता लगाने वाले हैं।
00:00:39अब, वॉयसबॉक्स एक ओपन-सोर्स लोकल एआई वॉयस स्टूडियो है। इसे सोचने का सरल तरीका यह है।
00:00:46ओलामा लोकल टेक्स्ट मॉडल के लिए है। वॉयसबॉक्स वही काम आवाज के लिए करने की कोशिश कर रहा है। तो यह सिर्फ टेक्स्ट-टू-स्पीच नहीं है।
00:00:54यह वॉयस क्लोनिंग, सिस्टम-वाइड डिक्टेशन, क्रिएटिव एडिटिंग करता है, और इसमें कहानियां और
00:01:00टाइमलाइन भी हैं, और यह एआई एजेंटों से जुड़ता है। तो यह हमें वास्तविक नियंत्रण और और भी अधिक गोपनीयता देता है।
00:01:06मैं यह पूछे बिना चीजें बनाना चाहता हूँ कि, इसे टेस्ट करने के लिए मैंने कितने क्रेडिट का उपयोग किया? वॉयसबॉक्स
00:01:12यह नहीं पूछता, क्योंकि वॉयसबॉक्स हमारी मशीन पर चलता है। इसलिए कोई सब्सक्रिप्शन नहीं है। कोई
00:01:17कैरेक्टर लिमिट नहीं है। इसके अलावा, यह क्लोनिंग, व्हिस्पर-पावर्ड डिक्टेशन, एक मल्टी-ट्रैक एडिटर,
00:01:23अटारी डेस्कटॉप ऐप, एमसीपी सपोर्ट, और लोकल रेस्ट एपीआई को एक साथ लाता है। तो पांच अलग-अलग टूल्स के बजाय,
00:01:29आपको एक डेस्कटॉप ऐप मिलता है जिसमें सब कुछ यहाँ है। मैं इस वीडियो में तीन चीजें करने वाला हूँ।
00:01:36मैं एक आवाज को क्लोन करूँगा, मैं इसे बुलवाऊंगा, और फिर मैं एडिटर के अंदर डिक्टेशन का उपयोग करूँगा।
00:01:41उसके बाद, मैं आपको दिखाऊंगा कि एजेंट इंटीग्रेशन वास्तव में कितना शानदार है, या कम से कम
00:01:46हम इसके बारे में बात करेंगे। यदि आप ऐसे कोडिंग टूल्स का आनंद लेते हैं जो आपके वर्कफ़्लो को तेज करते हैं, तो सब्सक्राइब करना सुनिश्चित करें।
00:01:50हमारे वीडियो हर समय आते रहते हैं। ठीक है, अब मैं इसे अपने मैक एम4 पर चला रहा हूँ।
00:01:55यह वॉयसबॉक्स है। मेरे पास पहले से ही एक वॉयस प्रोफाइल तैयार है, लेकिन फ्लो बहुत सरल था। अब आप
00:02:02इसे डॉकर के साथ शुरू कर सकते हैं, हाँ, लेकिन मैंने वह किया, और कंटेनरों को चालू करने में लगभग 30 मिनट लगे।
00:02:08इसलिए इसके लिए, मैंने डेस्कटॉप ऐप प्राप्त करना चुना, जो बहुत तेज़ था, और यह वास्तव में बहुत
00:02:13अच्छा है। मैं यहाँ ऑडियो को नाम दे सकता हूँ। मैं एक विवरण जोड़ सकता हूँ और यहाँ तक कि इसे यह भी बता सकता हूँ कि मॉडल के साथ कैसे व्यवहार करना है।
00:02:19फिर मैं या तो खुद को बोलते हुए रिकॉर्ड कर सकता हूँ या इसके विश्लेषण के लिए एक छोटी फाइल अपलोड कर सकता हूँ, साथ ही
00:02:26उस ऑडियो का ट्रांसक्रिप्शन भी डाल सकता हूँ। अब मैं एक ऐसी लाइन टाइप करूँगा जिसका मैं वास्तव में उपयोग करना चाहता हूँ। तो
00:02:32शायद एक डेवलपर के रूप में, यह मुझे क्लाउड लागत और उन सभी गोपनीयता चीजों के बिना वॉयस एआई पर पूरा नियंत्रण देता है।
00:02:38मैं अपनी वॉयस प्रोफाइल चुनूंगा। मैं अपनी वॉयस प्रोफाइल चुन सकता हूँ। मैं वह मॉडल चुन सकता हूँ जिसे मैं चाहता हूँ और जेनरेट दबा सकता हूँ।
00:02:44अब इसे पहली बार चलाने पर मॉडल डाउनलोड करना होगा। तो इसमें कुछ समय लग सकता है,
00:02:50लेकिन इन सबके बाद, और इसे चलाने के बाद, हमें वेवफॉर्म मिलते हैं। चलिए सुनते हैं।
00:02:57एक डेवलपर के रूप में, यह मुझे क्लाउड लागत और उन सभी गोपनीयता चीजों के बिना वॉयस एआई पर पूरा नियंत्रण देता है।
00:03:02वह ऑडियो मेरी मशीन से स्थानीय रूप से जेनरेट किया गया था और मैंने अपनी आवाज को क्लोन किया। कोई ब्राउज़र टैब नहीं था।
00:03:09मुझे एपीआई की की आवश्यकता नहीं थी, लेकिन यहाँ वह हिस्सा है जो एक वास्तविक वर्कफ़्लो जैसा लगता है। सिस्टम-वाइड
00:03:16डिक्टेशन। मैं एक ग्लोबल हॉटकी दबा सकता हूँ और मैं वह कह सकता हूँ जो मैं इस समय सोच रहा हूँ। यदि आपको
00:03:22ऐसे कोडिंग टूल्स और ट्रिक्स ढूंढना पसंद है, तो हमारे चैनल को देखें। अब यह सीधे मेरे एडिटर में आ जाता है।
00:03:29तो, मेरा मतलब है, यह नोट्स, कमेंट्स, या ऐसी किसी भी चीज के लिए काफी उपयोगी था।
00:03:33लेकिन वे सभी छोटे क्षण जहाँ बोलना वास्तव में टाइप करने से तेज है, यह बहुत बड़ी बात है। यह
00:03:38सिर्फ आपके कंप्यूटर से बात करने के लिए नहीं है। आपके एजेंट अब वास्तव में वापस बात कर सकते हैं।
00:03:43क्लाउड कोड, कर्सर, या आपका अपना लोकल एजेंट वॉयसबॉक्स के माध्यम से स्पीच ट्रिगर कर सकता है,
00:03:49सिर्फ उसे अपने टर्मिनल में डालने के बजाय। हमें अपने एआई से पहले ही फीडबैक मिल रहा है।
00:03:55क्यों न इसे हमसे बात करने दें? अब इसकी तुलना उन टूल्स से करते हैं जिन्हें हम पहले से जानते हैं।
00:03:59स्पष्ट कारणों से, सही है, हमारे पास इलेवन लैब्स है। इलेवन लैब्स बहुत अच्छा है। ब्रावो। मैंने इस पर तुलना की है
00:04:05पहले। यह होस्ट किया गया है। हम जानते हैं कि गुणवत्ता अद्भुत है। लेकिन फिर, सही है, यह क्लाउड-आधारित है। यह
00:04:11सब्सक्रिप्शन-संचालित है। तो हम उसके लिए भुगतान कर रहे हैं। हम अपनी चीजों को क्लाउड में डाल रहे हैं।
00:04:16वॉयसबॉक्स बिल्कुल उसके विपरीत है। क्यों? खैर, यह लोकल है। यह फ्री है। यह असीमित है। हम
00:04:22उसमें जाने वाले सभी डेटा को नियंत्रित करते हैं। इलेवन लैब्स अभी भी जीत सकता है यदि आप इसका दिन भर उपयोग कर रहे हैं,
00:04:27लेकिन मुझे लगता है कि मैं वॉयसबॉक्स रखूंगा क्योंकि मुझे यह पसंद आया कि यह कितना आसान था। और सच कहूँ तो, यह बहुत अच्छा लगता है
00:04:33भी। हम डेवलपर्स के लिए, सबसे अच्छा टूल हमेशा सबसे सुंदर आउटपुट वाला नहीं होता है। हम वास्तव में परवाह नहीं करते हैं
00:04:38कि बहुत समय। कभी-कभी यह वह होता है जिसे आप वास्तव में नियंत्रित कर सकते हैं। फिर ओपन सोर्स पक्ष है।
00:04:43आप पहले से ही पाइपर, व्हिस्पर, और ढेर सारी अलग-अलग स्क्रिप्ट जैसे टूल्स का उपयोग कर सकते हैं।
00:04:50लेकिन फिर, मुख्य बात वहाँ, दोस्तों, यह है कि वे सभी अलग हैं, सही है? हमारे पास ट्रांसक्रिप्शन के लिए एक टूल है,
00:04:56क्लोनिंग के लिए एक, टीटीएस के लिए एक, यूआई के लिए एक, यह सब कुछ जो हम वास्तव में एक साथ मिला रहे हैं।
00:05:03वॉयसबॉक्स पूरे वर्कफ़्लो को एक स्टूडियो ऐप में पैक करता है। इनपुट, आउटपुट, एडिटिंग, प्रोफाइल,
00:05:09डॉक्यूमेंटेशन, एजेंट इंटीग्रेशन, और हेक, आप एमसीपी सर्वर का भी उपयोग कर सकते हैं। जैसा मैंने कहा,
00:05:14इसका मतलब है कि क्लाउड या कर्सर वॉयसबॉक्स को एक टूल की तरह बुला सकते हैं, बजाय इसके कि आपका एजेंट केवल जवाब दे
00:05:20टेक्स्ट के साथ। अब यह आपसे वापस बात करता है। लेकिन क्या आप खुद को वापस बोलते हुए सुनना चाहते हैं? मुझे नहीं
00:05:25पता। शायद इसके लिए आवाज बदल दें। लेकिन कल्पना करें कि आपका कोडिंग एजेंट कह रहा है, बिल्ड विफल रहा। तीन टेस्ट
00:05:30मॉड्यूल ने ऑथ मॉड्यूल को तोड़ दिया। यह वास्तविक नहीं लगता जब तक आपको यह एहसास न हो जाए कि दिन में कितनी बार आप पहले से ही
00:05:36अपने टूल्स से फीडबैक प्राप्त कर रहे हैं। वॉयसबॉक्स उन अपडेट्स को एक वास्तविक आवाज देता है।
00:05:42तो मुझे दूसरों की तुलना में यह इतना पसंद क्यों आया? खैर, ठीक है, गोपनीयता और लागत। सच कहूँ तो,
00:05:48वे मेरे लिए वास्तव में बड़ी जीत हैं। वे आसान जीत हैं। वॉयस सैंपल्स, ऑडियो,
00:05:53आंतरिक सामग्री, या वास्तव में कुछ भी संवेदनशील, लोकल-फर्स्ट वही है जो हम चाहते हैं। यह बहुत अच्छा है।
00:05:57फिर एजेंट इंटीग्रेशन है, जिसे मैंने यहाँ पूर्ण परीक्षण में नहीं डाला, लेकिन डेवलपर्स पहले से ही
00:06:02इसके बारे में बात कर रहे हैं क्योंकि वे इसे क्लाउड कोड, कर्सर में एकीकृत कर रहे हैं। वॉयसबॉक्स उन सिस्टम को देता है
00:06:08एक होस्टेड स्पीच प्रदाता की आवश्यकता के बिना एक वॉयस लेयर। वर्कफ़्लो बहुत साफ-सुथरा था। मुझे पसंद है
00:06:14कि यह सब एक यूआई में है जिसे हम नियंत्रित कर सकते हैं। यह वास्तव में आसान है। और यदि आप एप्पल सिलिकॉन पर हैं,
00:06:18विशेष रूप से लोकल प्रदर्शन उन कारणों में से एक है कि यह इतना अच्छा लगा। लेकिन यहाँ
00:06:23इन सबके साथ ध्यान रखने वाली बात है। यह इस साल आया है। यह अभी भी शुरुआती दौर में है। तो समस्याएं
00:06:28होने वाली हैं। कुछ उपयोगकर्ता मुश्किल दौर का सामना करेंगे यदि आप विंडोज पर हैं, विशेष रूप से जीपीयू डिटेक्शन, मॉडल सेटअप, और एक्सपोर्ट के आसपास।
00:06:33यदि ऐसा होता है, तो बस ऐप को रीस्टार्ट करें। मुझे मेरे मैक पर समस्या होती है।
00:06:39इसे रीस्टार्ट करने से यह ठीक हो जाता है। लॉन्ग फॉर्म निरंतरता अभी भी इलेवन लैब्स से पीछे रह सकती है।
00:06:46इमोशन कंट्रोल में, यह सुधार कर रहा है, लेकिन यह उस मॉडल पर निर्भर करता है जिसे आप चुनते हैं। यदि आप चुनते हैं
00:06:50शैटरबॉक्स टीटीएस टर्बो, तो हमारे पास वो भावनाएं पहले से ही अंतर्निहित हैं।
00:06:55तो क्या आपको वॉयसबॉक्स इंस्टॉल करना चाहिए? सच कहूँ तो, यह बहुत आसान था। यह पूरी तरह से आज़माने लायक है
00:07:00क्योंकि यह उस घर्षण को दूर करता है जो हमारे पास उन वर्कफ़्लो से है जिन्हें हम बस
00:07:04वास्तव में एक साथ जोड़ रहे हैं। मुख्य मूल्य सिर्फ आवाज की गुणवत्ता नहीं है। यह वास्तव में नियंत्रण है
00:07:09जो हमें यहाँ दिया गया है। यह डेटा पर नियंत्रण, लागत पर नियंत्रण, एकीकरण पर नियंत्रण है। यही
00:07:15कारण है कि यह सब वास्तव में मायने रखता है। अब, शुरू करना बहुत सरल था। एक बंदर भी ऐसा कर सकता है। जाएं
00:07:20वॉयसबॉक्स वेबसाइट या गिटहब रिलीज़ पर, अपने प्लेटफॉर्म के लिए इंस्टॉलर डाउनलोड करें, ऐप लॉन्च करें,
00:07:25और फिर वे लोकल मॉडल खींचें जिनकी आपको आवश्यकता है। लेकिन यहाँ मुख्य विचार वास्तव में मजबूत है,
00:07:30और यह वास्तव में इंस्टॉल करने के लिए पर्याप्त उपयोगी है। यदि आप ऐसे कोडिंग टूल्स का आनंद लेते हैं,
00:07:35तो बेटरस्टैक चैनल को सब्सक्राइब करना सुनिश्चित करें। हम आपको अगले वीडियो में देखेंगे।

Key Takeaway

वॉयसबॉक्स (Voicebox) क्लाउड लागत और गोपनीयता की चिंताओं को दूर करते हुए, स्थानीय हार्डवेयर पर वॉयस क्लोनिंग, डिक्टेशन और एजेंट इंटीग्रेशन के लिए एक मुफ्त, असीमित और पूर्ण नियंत्रण वाला विकल्प प्रदान करता है।

Highlights

  • वॉयसबॉक्स (Voicebox) एक ओपन-सोर्स स्थानीय एआई स्टूडियो है जो वॉयस क्लोनिंग, सिस्टम-वाइड डिक्टेशन और मल्टी-ट्रैक एडिटिंग को एक ही डेस्कटॉप ऐप में लाता है।

  • यह क्लाउड-आधारित सेवाओं के विपरीत कोई सब्सक्रिप्शन शुल्क या कैरेक्टर लिमिट नहीं लगाता है क्योंकि सभी प्रोसेसिंग सीधे यूजर की मशीन पर होती है।

  • मैक एम4 (Mac M4) पर किए गए परीक्षणों में, वॉयसबॉक्स का डेस्कटॉप ऐप इंस्टॉलेशन के बाद तेजी से काम करता है और स्थानीय हार्डवेयर का उपयोग करने के कारण डेटा गोपनीयता सुनिश्चित करता है।

  • यह एमसीपी (MCP) सपोर्ट के माध्यम से कोडिंग एजेंटों जैसे कर्सर (Cursor) के साथ एकीकृत हो सकता है, जिससे एजेंट अब टेक्स्ट के साथ-साथ आवाज के माध्यम से भी प्रतिक्रिया दे सकते हैं।

  • विंडोज पर जीपीयू डिटेक्शन और मॉडल सेटअप के दौरान शुरुआती दौर में कुछ तकनीकी समस्याओं का सामना करना पड़ सकता है जिन्हें अक्सर ऐप को रीस्टार्ट करके ठीक किया जा सकता है।

Timeline

वॉयसबॉक्स का परिचय और कार्यक्षमता

  • वॉयसबॉक्स एक ओपन-सोर्स लोकल एआई वॉयस स्टूडियो है जो वॉयस एआई के लिए ओलामा (Ollama) जैसा अनुभव देता है।
  • यह वॉयस क्लोनिंग, सिस्टम-वाइड डिक्टेशन और एआई एजेंट इंटीग्रेशन जैसी सुविधाएं एक ही डेस्कटॉप ऐप में प्रदान करता है।

यह उपकरण वॉयस एआई वर्कफ़्लो को सुव्यवस्थित करता है, जिससे पांच अलग-अलग टूल्स के बजाय एक ही ऐप का उपयोग करना संभव होता है। यह सब्सक्रिप्शन आधारित सेवाओं की तुलना में अधिक गोपनीयता और नियंत्रण देता है क्योंकि यह यूजर की अपनी मशीन पर चलता है।

इंस्टॉलेशन और उपयोग प्रक्रिया

  • मैक एम4 पर डॉकर की तुलना में डेस्कटॉप ऐप का उपयोग करना अधिक तेज़ और सरल रहा।
  • वॉयस प्रोफाइल तैयार करने के लिए रिकॉर्डिंग या ऑडियो फाइल अपलोड करना आवश्यक होता है।

ऐप को सेटअप करने में डेस्कटॉप इंस्टॉलर का उपयोग करना डॉकर कंटेनर की तुलना में काफी कम समय लेता है। एक बार मॉडल डाउनलोड हो जाने के बाद, यह स्थानीय रूप से वेवफॉर्म जेनरेट करता है और बिना किसी एपीआई की (API Key) के काम करता है।

वर्कफ़्लो और एजेंट इंटीग्रेशन

  • सिस्टम-वाइड डिक्टेशन फीचर किसी भी समय ग्लोबल हॉटकी दबाकर विचारों को सीधे एडिटर में दर्ज करने की अनुमति देता है।
  • कोडिंग एजेंट अब टेक्स्ट के अलावा आवाज के माध्यम से भी अपडेट या फीडबैक दे सकते हैं।

यह फीचर टाइपिंग की तुलना में तेज काम करता है और कोडिंग वर्कफ़्लो में सीधे फीडबैक लूप जोड़ता है। उदाहरण के लिए, कर्सर जैसे कोड एडिटर्स को वॉयसबॉक्स के माध्यम से स्पीच ट्रिगर करने के लिए कॉन्फ़िगर किया जा सकता है।

तुलना और तकनीकी विचार

  • इलेवन लैब्स (ElevenLabs) उच्च गुणवत्ता प्रदान करता है, लेकिन वॉयसबॉक्स गोपनीयता, लागत और स्थानीय नियंत्रण के मामले में बेहतर है।
  • यह टूल अभी अपने शुरुआती दौर में है, इसलिए विंडोज पर हार्डवेयर डिटेक्शन जैसी कुछ तकनीकी चुनौतियां हो सकती हैं।

डेवलपर्स के लिए सबसे महत्वपूर्ण गुण सुंदर आउटपुट के बजाय नियंत्रण है, जो वॉयसबॉक्स प्रदान करता है। हालाँकि लॉन्ग-फॉर्म निरंतरता और इमोशन कंट्रोल अभी भी परिपक्व हो रहे हैं, लेकिन यह टूल डेटा पर पूर्ण स्वामित्व रखने वाले डेवलपर्स के लिए एक प्रभावी विकल्प है।

Community Posts

View all posts