00:00:00तो पिछले हफ्ते, Google ने Genie 3 पेश किया, जो उनका प्रमुख इन्फिनिट वर्ल्ड मॉडल है, जहाँ आपको
00:00:05एक माहौल को सिमुलेट करने और उसमें एक असली वीडियो गेम की तरह इंटरैक्ट करने का मौका मिलता है।
00:00:10और अचानक वीडियो गेम के सभी स्टॉक्स इस डर से पूरी तरह गिर गए कि यह शायद
00:00:16वीडियो गेम इंडस्ट्री के अंत की शुरुआत हो सकती है।
00:00:20और फिर कुछ और भी दिलचस्प हुआ।
00:00:22Robiant नाम की एक चीनी टेक कंपनी ने अपना खुद का ओपन सोर्स Genie कंपटीटर लॉन्च किया, जो
00:00:28अपने Google समकक्ष की तुलना में बेहतर ग्राफिक्स वाला लगता है।
00:00:32और अब अचानक यह तय करने की होड़ लग गई है कि कौन सी कंपनी
00:00:37सबसे पहले पारंपरिक वीडियो गेम को गेमिंग की इस नई तकनीक से रिप्लेस करेगी।
00:00:43लेकिन जब हर कोई इस नए इन्फिनिट वर्ल्ड मॉडल के क्रेज को बढ़ा-चढ़ाकर बता रहा है, तो मैं यहाँ आपको यह बताने आया हूँ कि
00:00:49यह बिना किसी वास्तविक आधार के सिर्फ एक बढ़ा-चढ़ाकर किया गया वादा हो सकता है।
00:00:54मुझे इसका इतना यकीन क्यों है?
00:00:55खैर, आज के वीडियो में हम इसी बारे में बात करने वाले हैं।
00:01:02जैसे ही Genie 3 आया, मैं इसे खुद आज़माने के लिए तुरंत साइट पर पहुँचा।
00:01:07लेकिन जैसे ही मैंने एक्सप्लोर बटन पर क्लिक किया, मेरे सामने एक निराशाजनक 404 एरर आ गया।
00:01:14और ऐसा इसलिए है क्योंकि मैं कनाडा में रहता हूँ।
00:01:16और फिलहाल, Google ने केवल संयुक्त राज्य अमेरिका के नागरिकों को ही इस
00:01:20अत्याधुनिक तकनीकी अजूबे को आज़माने की अनुमति दी है।
00:01:23तो जाहिर है कि मैंने अपना VPN चालू किया और अमेरिकी लोकेशन से दोबारा कोशिश की।
00:01:27और इस बार मुझे एक और निराशाजनक रिजेक्शन मिला, जिसमें कहा गया कि इस क्रांतिकारी सॉफ़्टवेयर
00:01:33का उपयोग करने के लिए मुझे अल्ट्राप्लान मेंबर होना ज़रूरी है।
00:01:37और अगर आप सोच रहे हैं कि अल्ट्राप्लान की कीमत कितनी है, तो चलिए बस इतना कहूँ कि यह
00:01:41सिर्फ इस हाइप वाले AI टूल को आज़माने के लिए मेरी बजट सीमा से थोड़ा ज़्यादा है।
00:01:46लेकिन यह सवाल उठता है कि Genie 3 को हासिल करना इतना मुश्किल क्यों है?
00:01:51और इस सवाल का जवाब हमारी कहानी के लिए बहुत महत्वपूर्ण होगा, लेकिन मैं इस पर
00:01:56वीडियो में बाद में बात करूँगा।
00:01:57तो हालाँकि मेरी किस्मत ने साथ नहीं दिया और न ही मेरे पास Genie 3 आज़माने के लिए फालतू पैसे थे, पर इसी बीच खुशकिस्मती से,
00:02:04दुनिया के दूसरी तरफ एक चीनी कंपनी Robiont, जो Ant Group की
00:02:09एक सहायक कंपनी लगती है (जो बदले में अलीबाबा ग्रुप की एक सहयोगी कंपनी है, जिसके
00:02:15पास Quen का भी स्वामित्व है), अपना खुद का इन्फिनिट वर्ल्ड मॉडल
00:02:20लेकर आई जिसका नाम है Lingbot World, और हैरानी की बात यह है कि यह ओपन सोर्स है।
00:02:25इसका मतलब है कि हम वास्तव में इसका परीक्षण कर सकते हैं और देख सकते हैं कि यह क्या कर सकता है।
00:02:29और उनके उदाहरणों को देखते हुए, यह बिल्कुल शानदार लग रहा था।
00:02:32लेकिन जैसे ही मैंने प्रोजेक्ट पेज की जांच शुरू की, मुझे एक और बड़ी निराशा हाथ लगी।
00:02:38हालाँकि उनका प्रोजेक्ट पेज उदाहरण वीडियो से भरा है जहाँ आप एरो कीज़ का उपयोग करके
00:02:43स्पेस में स्वतंत्र रूप से घूम सकते हैं, लेकिन असलियत में, मॉडल का वह वर्शन जिसमें फुल कैरेक्टर
00:02:48कंट्रोल शामिल हैं, अभी भी विकास के अधीन है।
00:02:51वे Lingbot Fast जारी करने की योजना बना रहे हैं, जो पूरी तरह से Genie 3 के बराबर होगा, लेकिन
00:02:56हमें नहीं पता कि वह कब आ रहा है।
00:02:57फिलहाल, हमें उनके 14 बिलियन पैरामीटर बेस मॉडल तक पहुँच मिली है, जो
00:03:03“हाई फिडेलिटी कंट्रोलेबल और लॉजिकली कंसिस्टेंट सिमुलेशन” का दावा करता है।
00:03:08लेकिन मूल रूप से अभी यह मॉडल केवल एक वीडियो जनरेट करने में सक्षम है।
00:03:14जी हाँ, सिर्फ एक वीडियो।
00:03:16तो मैं थोड़ा उलझन में था, इसमें कंट्रोल वाला फैक्टर कहाँ आता है?
00:03:20खैर, उनके पास अपनी खुद की इंट्रिन्सिक कैमरा पोजीशन वैल्यू प्रदान करने का विकल्प है, जिससे आप
00:03:25एक तरह से कैमरा मूवमेंट को नियंत्रित कर सकते हैं, जो मुझे लगता है कि एरो कीज़ का उपयोग करके
00:03:31नेविगेशन का एक विकल्प देता है, लेकिन आपको उसे प्री-रिकॉर्ड करना होगा।
00:03:35यह किसी भी अन्य वीडियो जनरेटर से कैसे अलग है जो कैमरा मूवमेंट को
00:03:40कंट्रोल करने की सुविधा देते हैं?
00:03:41तो, यहाँ मुख्य अंतर है।
00:03:44एक सामान्य AI वीडियो जनरेटर में, AI मॉडल हमेशा संदर्भ वीडियो के आगे बढ़ने के साथ
00:03:50अगले फ्रेम की भविष्यवाणी करने की कोशिश करता है, और हमने कई इंटरनेट मीम वीडियो में देखा है कि
00:03:55अगर वीडियो चलता रहे तो यह कितना भयानक हो जाता है, और ऐसा इसलिए है क्योंकि मॉडल
00:04:00फ्रेम के बाहर क्या हो रहा है इसके बारे में जानकारी नहीं रखता।
00:04:04इसलिए यदि कैमरा किसी वस्तु से दूर जाता है और फिर वापस मुड़ता है, तो वह वस्तु शायद वहाँ
00:04:09नहीं होगी क्योंकि पूरा दृश्य तुरंत जनरेट किया जाता है।
00:04:13यहीं पर Lingbot World मॉडल का 14 बिलियन पैरामीटर वाला जियोमेट्रिक दिमाग
00:04:18काम आता है।
00:04:19एक स्टैंडर्ड वीडियो जनरेटर के विपरीत जो सिर्फ अगले पिक्सेल का अनुमान लगाता है, Lingbot World
00:04:24कैमरा इंट्रिन्सिक डेटा और 6 डिग्री ऑफ फ्रीडम पोज़ का उपयोग करता है ताकि हर पिक्सेल को
00:04:313D स्पेस में एक विशिष्ट बिंदु से मिलाया जा सके।
00:04:33यह वह बनाता है जिसे शोधकर्ता “ऑब्जेक्ट परमानेंस” कहते हैं क्योंकि यह कैमरे के लेंस
00:04:39और वातावरण के बीच गणितीय संबंध को समझता है।
00:04:42तो मूल रूप से यह याद रखता है कि एक विशिष्ट वस्तु विशिष्ट निर्देशांक (coordinates) पर मौजूद है।
00:04:47और यही स्ट्रक्चरल इंटीग्रिटी वह कारण है जिसकी वजह से यह मॉडल इतना विशाल और कंप्यूटेशन का भूखा है।
00:04:52कितना भूखा?
00:04:53ओह भाई, मैं आपको बताता हूँ।
00:04:55मैंने सिंगल RTX 1590 GPU वाले इंस्टेंस पर Lingbot World मॉडल को तैनात करने की कोशिश की और
00:05:02उनके द्वारा दिए गए बेसिक सैंपल डेमो को चलाने की कोशिश की और वह तुरंत क्रैश हो गया।
00:05:07यह सोचना मेरी नादानी थी कि एक अकेला 1590 उस लोड को संभाल पाएगा।
00:05:13फिर मैंने इसे डुअल 1590 के साथ चलाने की कोशिश की और नहीं, यह फिर भी क्रैश हो गया।
00:05:18फिर मैंने इसे 4 1590 के साथ आज़माया और एक बार फिर, यह अभी भी क्रैश हो गया।
00:05:23फिर मैंने 8 RTX 1590 के साथ एक कंटेनर शुरू किया और बेसिक डेमो उदाहरण चलाने की
00:05:31कोशिश की और यह फिर भी क्रैश हो गया।
00:05:32देखिए, कारण यह है कि जब इस इन्फिनिट वर्ल्ड मॉडल को लंबे समय तक चलाया जाता है,
00:05:38तो मॉडल को दृश्यों के बारे में जो मेमोरी स्टोर करनी पड़ती है वह बड़ी होती जाती है
00:05:44एक ऐसे बिंदु तक जहाँ आपको आउट ऑफ मेमोरी एरर मिल जाएगा क्योंकि आपके पास
00:05:49RAM खत्म हो गई है।
00:05:50लेकिन मैंने 8 GPU सेटअप पर सैंपल साइज को डिफ़ॉल्ट 70 से घटाकर सिर्फ 20 करके
00:05:55सैंपल डेमो को सफलतापूर्वक चलाने में कामयाबी हासिल की।
00:05:59और सच कहूँ तो, 70 और 20 सैंपल के बीच का अंतर इतना ध्यान देने योग्य नहीं था।
00:06:03लेकिन यह दिखाता है कि इस इन्फिनिट वर्ल्ड मॉडल को चलाना कंप्यूटेशनल रूप से
00:06:09कितना महंगा हो जाता है।
00:06:10और वापस Genie 3 पर आएं तो, यही कारण है कि वे केवल अल्ट्रा सदस्यों को ही इसकी एक्सेस देते हैं
00:06:16क्योंकि उन्हें इस चीज़ को चलाने की GPU लागत की किसी तरह भरपाई करनी होती है।
00:06:21और यही कारण है कि आपको एक डेमो के लिए केवल कुछ ही सेकंड मिलते हैं क्योंकि एक
00:06:27निश्चित बिंदु पर मेमोरी इतनी बढ़ जाती है कि पूरा सिस्टम ही क्रैश हो जाता है।
00:06:32और आपको अंदाज़ा देने के लिए कि कंज्यूमर ग्रेड हार्डवेयर पर ऐसा मॉडल चलाना कितना महंगा होगा,
00:06:37एक सिंगल RTX 1590 की कीमत $5,000 तक है।
00:06:43अब इनमें से 8 को लें, जो इस चीज़ को चलाने के लिए न्यूनतम आवश्यकता है।
00:06:48भाई, इसे जोर से कहना भी मज़ाक जैसा लगता है।
00:06:51लेकिन खैर, उनमें से 8 की लागत आपको $40,000 तक पड़ेगी, अन्य सभी पार्ट्स
00:06:57और RAM का तो जिक्र ही नहीं जिसकी कीमत भी अभी आसमान छू रही है।
00:07:01और जब आप इसे ध्यान में रखते हैं, तो यह आंकड़ा, प्लस 60 सेकंड की मैक्स रनटाइम लिमिट
00:07:06जिस पर Genie अपने रन को कैप कर रहा है, प्लस बढ़ती RAM मेमोरी की समस्या, ठीक वही
00:07:12कारण हैं कि यह पूरी इन्फिनिट वर्ल्ड मॉडल वाली बात सिर्फ एक हाइप है और हमारे पास मौजूद
00:07:18मौजूदा आर्किटेक्चर के साथ कंज्यूमर हार्डवेयर पर इसे पाना मुमकिन नहीं है।
00:07:24और इन दोनों टूल्स के निर्माता भी इन समस्याओं को स्वीकार कर रहे हैं।
00:07:28हाई इन्फरेंस कॉस्ट के लिए वर्तमान में एंटरप्राइज ग्रेड GPU की आवश्यकता होती है, जिससे यह तकनीक
00:07:34कंज्यूमर हार्डवेयर पर पहुंच से बाहर हो जाती है।
00:07:37सिमुलेशन में लॉन्ग-टर्म स्टेबिलिटी की कमी है।
00:07:39इससे अक्सर एनवायर्नमेंटल ड्रिफ्टिंग होती है जहाँ दृश्य धीरे-धीरे लंबी अवधि के दौरान
00:07:44अपनी स्ट्रक्चरल इंटीग्रिटी खो देता है।
00:07:46बिल्कुल सही।
00:07:48और कम से कम LinkBot टीम इस बारे में खुलकर बात कर रही है।
00:07:51देखते हैं Google का इस बारे में क्या कहना है।
00:07:53मॉडल घंटों तक चलने के बजाय कुछ मिनटों के निरंतर इंटरैक्शन का समर्थन कर सकता है।
00:07:59मेरा मतलब है, वे इसे खुलकर स्वीकार नहीं कर रहे हैं, लेकिन इस समय हम सभी जानते हैं कि ऐसा क्यों है।
00:08:04तो इसीलिए मैं आपसे कह रहा हूँ दोस्तों, पारंपरिक वीडियो गेम जल्द कहीं नहीं जा रहे हैं।
00:08:09यह इस समय बस एक हसीन सपने जैसा लगता है और शायद, भविष्य में, अगर वे
00:08:15इन कंप्यूटेशनल समस्याओं को हल करने का तरीका ढूंढ लेते हैं, तो हम इसके बारे में सोच सकते हैं।
00:08:20लेकिन अभी तो, भाई, हद है।
00:08:23मैं भी LinkBot Fast को आज़माने के लिए बहुत उत्सुक हूँ जब वह आखिरकार आएगा।
00:08:27लेकिन तब तक, मुझे नहीं लगता कि यह तकनीक जल्द ही मुख्यधारा में आने वाली है।
00:08:32लेकिन अगर आप खुद LinkBot World आज़माने के लिए उत्सुक हैं, तो मेरी सलाह यहाँ है।
00:08:37वह मत कीजिए जो मैंने किया।
00:08:38आठ RTX 1590 को एक साथ मत लगाइए क्योंकि RunPod जैसे प्लेटफॉर्म पर ऐसा कॉन्फ़िगरेशन
00:08:45इसके रनटाइम के हर घंटे $7 खर्च कर देगा।
00:08:48इसके बजाय, एक सिंगल H200 कंटेनर चलाएं, जिसकी लागत केवल $3.50 प्रति घंटा है और
00:08:55“nproc/node” फ्लैग को 1 पर सेट करें और शायद सैंपल काउंट को 50 या यहाँ तक कि 20 तक कम कर दें
00:09:01और आप तैयार हैं।
00:09:02आप इस मॉडल के 4-बिट क्वांटाइज़्ड वर्शन का भी उपयोग कर सकते हैं, जिसे यूजर Caelan Humphries ने बनाया है,
00:09:08जो इन्फरेंस के लिए तुलनात्मक विज़ुअल क्वालिटी बनाए रखते हुए GPU मेमोरी की खपत को काफी कम कर देता है।
00:09:13तो तकनीकी रूप से आप उसे एक सिंगल RTX 1590 पर चलाने की कोशिश कर सकते हैं।
00:09:15और अगर आप ऐसा करते हैं, तो मुझे बताएं कि यह कैसा रहा।
00:09:19जहाँ तक मेरी बात है, मैंने एक H200 कंटेनर पर बेसिक डेमो चलाया और हाँ, मूल रूप से
00:09:21वही परिणाम मिला जो उनके डेमो पेज पर था।
00:09:28और फिर मैंने लोकी के खिलाफ लड़ रहे इस वाइकिंग की एक AI इमेज बनाई और इस इमेज को
00:09:30उसी कमांड में डाला।
00:09:36और यह वह परिणाम है जो मुझे मिला।
00:09:37मुझे लगता है कि आप देख सकते हैं कि कैसे मॉडल पूरे वीडियो के दौरान वातावरण और महल की
00:09:39इंटीग्रिटी बनाए रखता है, लेकिन यह अभी भी कुछ अजीब आर्टिफैक्ट्स पैदा करता है।
00:09:44तो सच कहूँ तो, मुझे नहीं पता कि इसके बारे में क्या सोचूँ।
00:09:48मुझे पूरा यकीन है कि मैं एक स्टैंडर्ड Comfy UI पाइपलाइन का उपयोग करके इससे बेहतर गेमप्ले वीडियो बना सकता हूँ,
00:09:52जिसके बारे में, वैसे, अगर आप भारी कंप्यूट लागत के बिना Sora जैसा अपना खुद का वीडियो जनरेटर
00:09:59बनाना सीखना चाहते हैं, तो उस विषय पर मेरा वह वीडियो देखें जो मैंने कुछ समय पहले बनाया था।
00:10:04तो दोस्तों, Genie 3 और पूरी हाइप और वीडियो गेम के भविष्य पर यह मेरा नज़रिया था।
00:10:09मैं वास्तव में Lingbot के पीछे की टीम की सराहना करता हूँ जिन्होंने अपने मॉडल ओपन सोर्स किए ताकि हमें
00:10:15इस बारे में बेहतर जानकारी मिल सके कि Genie जैसा मॉडल कैसे काम करता है।
00:10:16लेकिन इस विषय पर यह सिर्फ मेरी राय है।
00:10:20ज़्यादा महत्वपूर्ण यह है कि आप इन इन्फिनिट वर्ल्ड मॉडल के बारे में क्या सोचते हैं?
00:10:25मैं यह जानने को उत्सुक हूँ कि आप क्या सोचते हैं, इसलिए अपने विचार नीचे
00:10:27कमेंट सेक्शन में ज़रूर लिखें।
00:10:30और दोस्तों, अगर आपको यह वीडियो उपयोगी लगा, तो वीडियो के नीचे उस लाइक बटन को दबाकर मुझे बताएं।
00:10:35और साथ ही इसी तरह के और वीडियो के लिए हमारे चैनल को सब्सक्राइब करना न भूलें।
00:10:36यह Better Stack से Andris थे और मैं आपसे अगले वीडियो में मिलूँगा।
00:10:40(उत्साहजनक संगीत)
00:10:41And also don't forget to subscribe to our channel for more videos like this one.
00:10:45This has been Andris from Better Stack and I will see you in the next videos.
00:11:00(upbeat music)