Google के नए Genie 3 AI का बढ़ता शोर: असलियत या सिर्फ दिखावा?

BBetter Stack
컴퓨터/소프트웨어게임/e스포츠주식 투자가전제품/카메라

Transcript

00:00:00तो पिछले हफ्ते, Google ने Genie 3 पेश किया, जो उनका प्रमुख इन्फिनिट वर्ल्ड मॉडल है, जहाँ आपको
00:00:05एक माहौल को सिमुलेट करने और उसमें एक असली वीडियो गेम की तरह इंटरैक्ट करने का मौका मिलता है।
00:00:10और अचानक वीडियो गेम के सभी स्टॉक्स इस डर से पूरी तरह गिर गए कि यह शायद
00:00:16वीडियो गेम इंडस्ट्री के अंत की शुरुआत हो सकती है।
00:00:20और फिर कुछ और भी दिलचस्प हुआ।
00:00:22Robiant नाम की एक चीनी टेक कंपनी ने अपना खुद का ओपन सोर्स Genie कंपटीटर लॉन्च किया, जो
00:00:28अपने Google समकक्ष की तुलना में बेहतर ग्राफिक्स वाला लगता है।
00:00:32और अब अचानक यह तय करने की होड़ लग गई है कि कौन सी कंपनी
00:00:37सबसे पहले पारंपरिक वीडियो गेम को गेमिंग की इस नई तकनीक से रिप्लेस करेगी।
00:00:43लेकिन जब हर कोई इस नए इन्फिनिट वर्ल्ड मॉडल के क्रेज को बढ़ा-चढ़ाकर बता रहा है, तो मैं यहाँ आपको यह बताने आया हूँ कि
00:00:49यह बिना किसी वास्तविक आधार के सिर्फ एक बढ़ा-चढ़ाकर किया गया वादा हो सकता है।
00:00:54मुझे इसका इतना यकीन क्यों है?
00:00:55खैर, आज के वीडियो में हम इसी बारे में बात करने वाले हैं।
00:01:02जैसे ही Genie 3 आया, मैं इसे खुद आज़माने के लिए तुरंत साइट पर पहुँचा।
00:01:07लेकिन जैसे ही मैंने एक्सप्लोर बटन पर क्लिक किया, मेरे सामने एक निराशाजनक 404 एरर आ गया।
00:01:14और ऐसा इसलिए है क्योंकि मैं कनाडा में रहता हूँ।
00:01:16और फिलहाल, Google ने केवल संयुक्त राज्य अमेरिका के नागरिकों को ही इस
00:01:20अत्याधुनिक तकनीकी अजूबे को आज़माने की अनुमति दी है।
00:01:23तो जाहिर है कि मैंने अपना VPN चालू किया और अमेरिकी लोकेशन से दोबारा कोशिश की।
00:01:27और इस बार मुझे एक और निराशाजनक रिजेक्शन मिला, जिसमें कहा गया कि इस क्रांतिकारी सॉफ़्टवेयर
00:01:33का उपयोग करने के लिए मुझे अल्ट्राप्लान मेंबर होना ज़रूरी है।
00:01:37और अगर आप सोच रहे हैं कि अल्ट्राप्लान की कीमत कितनी है, तो चलिए बस इतना कहूँ कि यह
00:01:41सिर्फ इस हाइप वाले AI टूल को आज़माने के लिए मेरी बजट सीमा से थोड़ा ज़्यादा है।
00:01:46लेकिन यह सवाल उठता है कि Genie 3 को हासिल करना इतना मुश्किल क्यों है?
00:01:51और इस सवाल का जवाब हमारी कहानी के लिए बहुत महत्वपूर्ण होगा, लेकिन मैं इस पर
00:01:56वीडियो में बाद में बात करूँगा।
00:01:57तो हालाँकि मेरी किस्मत ने साथ नहीं दिया और न ही मेरे पास Genie 3 आज़माने के लिए फालतू पैसे थे, पर इसी बीच खुशकिस्मती से,
00:02:04दुनिया के दूसरी तरफ एक चीनी कंपनी Robiont, जो Ant Group की
00:02:09एक सहायक कंपनी लगती है (जो बदले में अलीबाबा ग्रुप की एक सहयोगी कंपनी है, जिसके
00:02:15पास Quen का भी स्वामित्व है), अपना खुद का इन्फिनिट वर्ल्ड मॉडल
00:02:20लेकर आई जिसका नाम है Lingbot World, और हैरानी की बात यह है कि यह ओपन सोर्स है।
00:02:25इसका मतलब है कि हम वास्तव में इसका परीक्षण कर सकते हैं और देख सकते हैं कि यह क्या कर सकता है।
00:02:29और उनके उदाहरणों को देखते हुए, यह बिल्कुल शानदार लग रहा था।
00:02:32लेकिन जैसे ही मैंने प्रोजेक्ट पेज की जांच शुरू की, मुझे एक और बड़ी निराशा हाथ लगी।
00:02:38हालाँकि उनका प्रोजेक्ट पेज उदाहरण वीडियो से भरा है जहाँ आप एरो कीज़ का उपयोग करके
00:02:43स्पेस में स्वतंत्र रूप से घूम सकते हैं, लेकिन असलियत में, मॉडल का वह वर्शन जिसमें फुल कैरेक्टर
00:02:48कंट्रोल शामिल हैं, अभी भी विकास के अधीन है।
00:02:51वे Lingbot Fast जारी करने की योजना बना रहे हैं, जो पूरी तरह से Genie 3 के बराबर होगा, लेकिन
00:02:56हमें नहीं पता कि वह कब आ रहा है।
00:02:57फिलहाल, हमें उनके 14 बिलियन पैरामीटर बेस मॉडल तक पहुँच मिली है, जो
00:03:03“हाई फिडेलिटी कंट्रोलेबल और लॉजिकली कंसिस्टेंट सिमुलेशन” का दावा करता है।
00:03:08लेकिन मूल रूप से अभी यह मॉडल केवल एक वीडियो जनरेट करने में सक्षम है।
00:03:14जी हाँ, सिर्फ एक वीडियो।
00:03:16तो मैं थोड़ा उलझन में था, इसमें कंट्रोल वाला फैक्टर कहाँ आता है?
00:03:20खैर, उनके पास अपनी खुद की इंट्रिन्सिक कैमरा पोजीशन वैल्यू प्रदान करने का विकल्प है, जिससे आप
00:03:25एक तरह से कैमरा मूवमेंट को नियंत्रित कर सकते हैं, जो मुझे लगता है कि एरो कीज़ का उपयोग करके
00:03:31नेविगेशन का एक विकल्प देता है, लेकिन आपको उसे प्री-रिकॉर्ड करना होगा।
00:03:35यह किसी भी अन्य वीडियो जनरेटर से कैसे अलग है जो कैमरा मूवमेंट को
00:03:40कंट्रोल करने की सुविधा देते हैं?
00:03:41तो, यहाँ मुख्य अंतर है।
00:03:44एक सामान्य AI वीडियो जनरेटर में, AI मॉडल हमेशा संदर्भ वीडियो के आगे बढ़ने के साथ
00:03:50अगले फ्रेम की भविष्यवाणी करने की कोशिश करता है, और हमने कई इंटरनेट मीम वीडियो में देखा है कि
00:03:55अगर वीडियो चलता रहे तो यह कितना भयानक हो जाता है, और ऐसा इसलिए है क्योंकि मॉडल
00:04:00फ्रेम के बाहर क्या हो रहा है इसके बारे में जानकारी नहीं रखता।
00:04:04इसलिए यदि कैमरा किसी वस्तु से दूर जाता है और फिर वापस मुड़ता है, तो वह वस्तु शायद वहाँ
00:04:09नहीं होगी क्योंकि पूरा दृश्य तुरंत जनरेट किया जाता है।
00:04:13यहीं पर Lingbot World मॉडल का 14 बिलियन पैरामीटर वाला जियोमेट्रिक दिमाग
00:04:18काम आता है।
00:04:19एक स्टैंडर्ड वीडियो जनरेटर के विपरीत जो सिर्फ अगले पिक्सेल का अनुमान लगाता है, Lingbot World
00:04:24कैमरा इंट्रिन्सिक डेटा और 6 डिग्री ऑफ फ्रीडम पोज़ का उपयोग करता है ताकि हर पिक्सेल को
00:04:313D स्पेस में एक विशिष्ट बिंदु से मिलाया जा सके।
00:04:33यह वह बनाता है जिसे शोधकर्ता “ऑब्जेक्ट परमानेंस” कहते हैं क्योंकि यह कैमरे के लेंस
00:04:39और वातावरण के बीच गणितीय संबंध को समझता है।
00:04:42तो मूल रूप से यह याद रखता है कि एक विशिष्ट वस्तु विशिष्ट निर्देशांक (coordinates) पर मौजूद है।
00:04:47और यही स्ट्रक्चरल इंटीग्रिटी वह कारण है जिसकी वजह से यह मॉडल इतना विशाल और कंप्यूटेशन का भूखा है।
00:04:52कितना भूखा?
00:04:53ओह भाई, मैं आपको बताता हूँ।
00:04:55मैंने सिंगल RTX 1590 GPU वाले इंस्टेंस पर Lingbot World मॉडल को तैनात करने की कोशिश की और
00:05:02उनके द्वारा दिए गए बेसिक सैंपल डेमो को चलाने की कोशिश की और वह तुरंत क्रैश हो गया।
00:05:07यह सोचना मेरी नादानी थी कि एक अकेला 1590 उस लोड को संभाल पाएगा।
00:05:13फिर मैंने इसे डुअल 1590 के साथ चलाने की कोशिश की और नहीं, यह फिर भी क्रैश हो गया।
00:05:18फिर मैंने इसे 4 1590 के साथ आज़माया और एक बार फिर, यह अभी भी क्रैश हो गया।
00:05:23फिर मैंने 8 RTX 1590 के साथ एक कंटेनर शुरू किया और बेसिक डेमो उदाहरण चलाने की
00:05:31कोशिश की और यह फिर भी क्रैश हो गया।
00:05:32देखिए, कारण यह है कि जब इस इन्फिनिट वर्ल्ड मॉडल को लंबे समय तक चलाया जाता है,
00:05:38तो मॉडल को दृश्यों के बारे में जो मेमोरी स्टोर करनी पड़ती है वह बड़ी होती जाती है
00:05:44एक ऐसे बिंदु तक जहाँ आपको आउट ऑफ मेमोरी एरर मिल जाएगा क्योंकि आपके पास
00:05:49RAM खत्म हो गई है।
00:05:50लेकिन मैंने 8 GPU सेटअप पर सैंपल साइज को डिफ़ॉल्ट 70 से घटाकर सिर्फ 20 करके
00:05:55सैंपल डेमो को सफलतापूर्वक चलाने में कामयाबी हासिल की।
00:05:59और सच कहूँ तो, 70 और 20 सैंपल के बीच का अंतर इतना ध्यान देने योग्य नहीं था।
00:06:03लेकिन यह दिखाता है कि इस इन्फिनिट वर्ल्ड मॉडल को चलाना कंप्यूटेशनल रूप से
00:06:09कितना महंगा हो जाता है।
00:06:10और वापस Genie 3 पर आएं तो, यही कारण है कि वे केवल अल्ट्रा सदस्यों को ही इसकी एक्सेस देते हैं
00:06:16क्योंकि उन्हें इस चीज़ को चलाने की GPU लागत की किसी तरह भरपाई करनी होती है।
00:06:21और यही कारण है कि आपको एक डेमो के लिए केवल कुछ ही सेकंड मिलते हैं क्योंकि एक
00:06:27निश्चित बिंदु पर मेमोरी इतनी बढ़ जाती है कि पूरा सिस्टम ही क्रैश हो जाता है।
00:06:32और आपको अंदाज़ा देने के लिए कि कंज्यूमर ग्रेड हार्डवेयर पर ऐसा मॉडल चलाना कितना महंगा होगा,
00:06:37एक सिंगल RTX 1590 की कीमत $5,000 तक है।
00:06:43अब इनमें से 8 को लें, जो इस चीज़ को चलाने के लिए न्यूनतम आवश्यकता है।
00:06:48भाई, इसे जोर से कहना भी मज़ाक जैसा लगता है।
00:06:51लेकिन खैर, उनमें से 8 की लागत आपको $40,000 तक पड़ेगी, अन्य सभी पार्ट्स
00:06:57और RAM का तो जिक्र ही नहीं जिसकी कीमत भी अभी आसमान छू रही है।
00:07:01और जब आप इसे ध्यान में रखते हैं, तो यह आंकड़ा, प्लस 60 सेकंड की मैक्स रनटाइम लिमिट
00:07:06जिस पर Genie अपने रन को कैप कर रहा है, प्लस बढ़ती RAM मेमोरी की समस्या, ठीक वही
00:07:12कारण हैं कि यह पूरी इन्फिनिट वर्ल्ड मॉडल वाली बात सिर्फ एक हाइप है और हमारे पास मौजूद
00:07:18मौजूदा आर्किटेक्चर के साथ कंज्यूमर हार्डवेयर पर इसे पाना मुमकिन नहीं है।
00:07:24और इन दोनों टूल्स के निर्माता भी इन समस्याओं को स्वीकार कर रहे हैं।
00:07:28हाई इन्फरेंस कॉस्ट के लिए वर्तमान में एंटरप्राइज ग्रेड GPU की आवश्यकता होती है, जिससे यह तकनीक
00:07:34कंज्यूमर हार्डवेयर पर पहुंच से बाहर हो जाती है।
00:07:37सिमुलेशन में लॉन्ग-टर्म स्टेबिलिटी की कमी है।
00:07:39इससे अक्सर एनवायर्नमेंटल ड्रिफ्टिंग होती है जहाँ दृश्य धीरे-धीरे लंबी अवधि के दौरान
00:07:44अपनी स्ट्रक्चरल इंटीग्रिटी खो देता है।
00:07:46बिल्कुल सही।
00:07:48और कम से कम LinkBot टीम इस बारे में खुलकर बात कर रही है।
00:07:51देखते हैं Google का इस बारे में क्या कहना है।
00:07:53मॉडल घंटों तक चलने के बजाय कुछ मिनटों के निरंतर इंटरैक्शन का समर्थन कर सकता है।
00:07:59मेरा मतलब है, वे इसे खुलकर स्वीकार नहीं कर रहे हैं, लेकिन इस समय हम सभी जानते हैं कि ऐसा क्यों है।
00:08:04तो इसीलिए मैं आपसे कह रहा हूँ दोस्तों, पारंपरिक वीडियो गेम जल्द कहीं नहीं जा रहे हैं।
00:08:09यह इस समय बस एक हसीन सपने जैसा लगता है और शायद, भविष्य में, अगर वे
00:08:15इन कंप्यूटेशनल समस्याओं को हल करने का तरीका ढूंढ लेते हैं, तो हम इसके बारे में सोच सकते हैं।
00:08:20लेकिन अभी तो, भाई, हद है।
00:08:23मैं भी LinkBot Fast को आज़माने के लिए बहुत उत्सुक हूँ जब वह आखिरकार आएगा।
00:08:27लेकिन तब तक, मुझे नहीं लगता कि यह तकनीक जल्द ही मुख्यधारा में आने वाली है।
00:08:32लेकिन अगर आप खुद LinkBot World आज़माने के लिए उत्सुक हैं, तो मेरी सलाह यहाँ है।
00:08:37वह मत कीजिए जो मैंने किया।
00:08:38आठ RTX 1590 को एक साथ मत लगाइए क्योंकि RunPod जैसे प्लेटफॉर्म पर ऐसा कॉन्फ़िगरेशन
00:08:45इसके रनटाइम के हर घंटे $7 खर्च कर देगा।
00:08:48इसके बजाय, एक सिंगल H200 कंटेनर चलाएं, जिसकी लागत केवल $3.50 प्रति घंटा है और
00:08:55“nproc/node” फ्लैग को 1 पर सेट करें और शायद सैंपल काउंट को 50 या यहाँ तक कि 20 तक कम कर दें
00:09:01और आप तैयार हैं।
00:09:02आप इस मॉडल के 4-बिट क्वांटाइज़्ड वर्शन का भी उपयोग कर सकते हैं, जिसे यूजर Caelan Humphries ने बनाया है,
00:09:08जो इन्फरेंस के लिए तुलनात्मक विज़ुअल क्वालिटी बनाए रखते हुए GPU मेमोरी की खपत को काफी कम कर देता है।
00:09:13तो तकनीकी रूप से आप उसे एक सिंगल RTX 1590 पर चलाने की कोशिश कर सकते हैं।
00:09:15और अगर आप ऐसा करते हैं, तो मुझे बताएं कि यह कैसा रहा।
00:09:19जहाँ तक मेरी बात है, मैंने एक H200 कंटेनर पर बेसिक डेमो चलाया और हाँ, मूल रूप से
00:09:21वही परिणाम मिला जो उनके डेमो पेज पर था।
00:09:28और फिर मैंने लोकी के खिलाफ लड़ रहे इस वाइकिंग की एक AI इमेज बनाई और इस इमेज को
00:09:30उसी कमांड में डाला।
00:09:36और यह वह परिणाम है जो मुझे मिला।
00:09:37मुझे लगता है कि आप देख सकते हैं कि कैसे मॉडल पूरे वीडियो के दौरान वातावरण और महल की
00:09:39इंटीग्रिटी बनाए रखता है, लेकिन यह अभी भी कुछ अजीब आर्टिफैक्ट्स पैदा करता है।
00:09:44तो सच कहूँ तो, मुझे नहीं पता कि इसके बारे में क्या सोचूँ।
00:09:48मुझे पूरा यकीन है कि मैं एक स्टैंडर्ड Comfy UI पाइपलाइन का उपयोग करके इससे बेहतर गेमप्ले वीडियो बना सकता हूँ,
00:09:52जिसके बारे में, वैसे, अगर आप भारी कंप्यूट लागत के बिना Sora जैसा अपना खुद का वीडियो जनरेटर
00:09:59बनाना सीखना चाहते हैं, तो उस विषय पर मेरा वह वीडियो देखें जो मैंने कुछ समय पहले बनाया था।
00:10:04तो दोस्तों, Genie 3 और पूरी हाइप और वीडियो गेम के भविष्य पर यह मेरा नज़रिया था।
00:10:09मैं वास्तव में Lingbot के पीछे की टीम की सराहना करता हूँ जिन्होंने अपने मॉडल ओपन सोर्स किए ताकि हमें
00:10:15इस बारे में बेहतर जानकारी मिल सके कि Genie जैसा मॉडल कैसे काम करता है।
00:10:16लेकिन इस विषय पर यह सिर्फ मेरी राय है।
00:10:20ज़्यादा महत्वपूर्ण यह है कि आप इन इन्फिनिट वर्ल्ड मॉडल के बारे में क्या सोचते हैं?
00:10:25मैं यह जानने को उत्सुक हूँ कि आप क्या सोचते हैं, इसलिए अपने विचार नीचे
00:10:27कमेंट सेक्शन में ज़रूर लिखें।
00:10:30और दोस्तों, अगर आपको यह वीडियो उपयोगी लगा, तो वीडियो के नीचे उस लाइक बटन को दबाकर मुझे बताएं।
00:10:35और साथ ही इसी तरह के और वीडियो के लिए हमारे चैनल को सब्सक्राइब करना न भूलें।
00:10:36यह Better Stack से Andris थे और मैं आपसे अगले वीडियो में मिलूँगा।
00:10:40(उत्साहजनक संगीत)
00:10:41And also don't forget to subscribe to our channel for more videos like this one.
00:10:45This has been Andris from Better Stack and I will see you in the next videos.
00:11:00(upbeat music)

Key Takeaway

Genie 3 और Lingbot World जैसे इन्फिनिट वर्ल्ड मॉडल गेमिंग के भविष्य की झलक तो दिखाते हैं, लेकिन भारी कंप्यूटिंग लागत और तकनीकी अस्थिरता के कारण ये अभी मुख्यधारा के वीडियो गेम का विकल्प नहीं बन सकते।

Highlights

Google ने Genie 3 पेश किया है, जिसे 'इन्फिनिट वर्ल्ड मॉडल' कहा जा रहा है, जो वीडियो गेम की तरह इंटरैक्टिव वातावरण बनाता है।

चीनी कंपनी Robiont ने 'Lingbot World' नाम का एक ओपन-सोर्स प्रतिस्पर्धी मॉडल लॉन्च किया है जो 3D स्पेस में ऑब्जेक्ट परमानेंस का दावा करता है।

इन AI मॉडल्स को चलाने के लिए अत्यधिक कंप्यूटेशनल पावर और महंगे हार्डवेयर (जैसे 8 RTX 1590 GPUs) की आवश्यकता होती है।

मौजूदा तकनीक में 'एनवायर्नमेंटल ड्रिफ्टिंग' और 'आउट ऑफ मेमोरी' जैसी गंभीर समस्याएं हैं, जो लंबे समय तक गेमप्ले को रोकती हैं।

लेखक का तर्क है कि पारंपरिक वीडियो गेम अभी कहीं नहीं जा रहे हैं क्योंकि AI गेमिंग वर्तमान में सिर्फ एक 'हाइप' है।

Timeline

Genie 3 का उदय और बाजार की प्रतिक्रिया

वीडियो की शुरुआत Google द्वारा Genie 3 के अनावरण के साथ होती है, जो एक क्रांतिकारी इन्फिनिट वर्ल्ड मॉडल है। इस घोषणा के बाद वीडियो गेमिंग उद्योग में हलचल मच गई और गेमिंग स्टॉक्स में गिरावट देखी गई क्योंकि लोगों को लगा कि यह पारंपरिक गेमिंग का अंत हो सकता है। इसी बीच, Robiont नाम की एक चीनी कंपनी ने अपना प्रतिस्पर्धी ओपन-सोर्स मॉडल पेश कर दिया है। वक्ता यहाँ यह सवाल उठाते हैं कि क्या यह तकनीक वास्तव में गेमिंग को बदल देगी या यह सिर्फ एक दिखावा है। वह इस बात पर जोर देते हैं कि इस तकनीक के पीछे के वास्तविक आधार की जाँच करना आवश्यक है।

पहुंच की बाधाएं और लागत की समस्या

वक्ता Genie 3 को व्यक्तिगत रूप से आज़माने की अपनी कोशिशों और विफलताओं का वर्णन करते हैं। उन्हें कनाडा में होने के कारण 404 एरर मिला, और VPN के बाद भी उन्हें 'अल्ट्राप्लान' सदस्यता की आवश्यकता पड़ी जो बहुत महंगी है। यह अनुभाग बताता है कि Google ने इस टूल तक पहुंच को इतना सीमित क्यों रखा है। पहुँच की यह कठिनाई दर्शाती है कि इस मॉडल को चलाने की लागत बहुत अधिक है। वक्ता संकेत देते हैं कि यह सीमित पहुंच कहानी का एक बहुत महत्वपूर्ण हिस्सा है।

Lingbot World: ओपन सोर्स विकल्प और उसकी सीमाएं

चूंकि Genie 3 पहुंच से बाहर था, वक्ता ने चीनी कंपनी Robiont के 'Lingbot World' का परीक्षण किया जो कि ओपन-सोर्स है। हालांकि इसके डेमो वीडियो प्रभावशाली थे, लेकिन वास्तविक परीक्षण में पता चला कि फुल कैरेक्टर कंट्रोल वाला वर्शन अभी भी विकास के अधीन है। वर्तमान में उपलब्ध 14 बिलियन पैरामीटर वाला बेस मॉडल मुख्य रूप से केवल वीडियो जनरेट करने तक सीमित है। इसमें कैमरा मूवमेंट को नियंत्रित करने के लिए 'इंट्रिन्सिक कैमरा पोजीशन' का उपयोग किया जाता है। यह खंड स्पष्ट करता है कि इन्फिनिट वर्ल्ड मॉडल और साधारण AI वीडियो जनरेटर के बीच क्या अंतर है।

ऑब्जेक्ट परमानेंस और तकनीकी पेचीदगियाँ

यहाँ वक्ता 'ऑब्जेक्ट परमानेंस' की अवधारणा को समझाते हैं जो Lingbot World को खास बनाती है। साधारण AI वीडियो जनरेटर अक्सर पिछले फ्रेम को भूल जाते हैं, लेकिन यह मॉडल 3D स्पेस में निर्देशांकों को याद रखता है। यह 6 डिग्री ऑफ फ्रीडम (6DoF) पोज़ और जियोमेट्रिक गणनाओं का उपयोग करके पिक्सेल को 3D बिंदुओं से मिलाता है। इससे वातावरण में स्थिरता बनी रहती है, भले ही कैमरा वस्तु से दूर जाकर वापस आए। हालांकि, यही संरचनात्मक अखंडता इस मॉडल को कंप्यूटेशनली बहुत भारी और 'भूखा' बनाती है।

हार्डवेयर की विफलता और भारी कंप्यूट लागत

वक्ता ने Lingbot World को एक शक्तिशाली RTX 1590 GPU पर चलाने की कोशिश की, जो तुरंत क्रैश हो गया। उन्होंने 8 GPUs तक का उपयोग किया, फिर भी मेमोरी की कमी (RAM) के कारण सिस्टम बार-बार विफल हुआ। एक सेटअप की कीमत लगभग $40,000 बताई गई है, जो इसे औसत उपभोक्ता की पहुंच से पूरी तरह बाहर कर देती है। यही कारण है कि Google अपने उपयोगकर्ताओं को केवल 60 सेकंड का रनटाइम देता है ताकि सिस्टम क्रैश न हो। यह अनुभाग साबित करता है कि मौजूदा आर्किटेक्चर के साथ यह तकनीक वर्तमान उपभोक्ता हार्डवेयर पर संभव नहीं है।

तकनीकी चुनौतियाँ और भविष्य की संभावना

वक्ता उन तकनीकी समस्याओं का विवरण देते हैं जिन्हें खुद डेवलपर्स भी स्वीकार करते हैं, जैसे 'एंटरप्राइज ग्रेड GPU' की आवश्यकता और 'एनवायर्नमेंटल ड्रिफ्टिंग'। लंबे समय तक चलने पर दृश्यों की संरचना बिगड़ने लगती है, जिसे Google ने भी अप्रत्यक्ष रूप से स्वीकार किया है। वह सलाह देते हैं कि अगर कोई इसे आज़माना चाहता है, तो उसे H200 कंटेनर या '4-बिट क्वांटाइज़्ड' वर्शन का उपयोग करना चाहिए। ये विकल्प GPU मेमोरी की खपत को कम करने में मदद कर सकते हैं। अंततः, पारंपरिक वीडियो गेम अभी सुरक्षित हैं क्योंकि यह तकनीक मुख्यधारा से बहुत दूर है।

निष्कर्ष और व्यक्तिगत परीक्षण के परिणाम

अंतिम भाग में, वक्ता एक वाइकिंग छवि का उपयोग करके अपने स्वयं के परीक्षण के परिणाम दिखाते हैं। यद्यपि वातावरण की स्थिरता बनी रहती है, लेकिन परिणाम में अभी भी कई 'आर्टिफैक्ट्स' और कमियाँ दिखाई देती हैं। उनका मानना है कि वर्तमान में मानक Comfy UI पाइपलाइन के साथ बेहतर परिणाम प्राप्त किए जा सकते हैं। वह Lingbot टीम को उनके ओपन-सोर्स योगदान के लिए धन्यवाद देते हैं लेकिन दर्शकों को आगाह करते हैं कि हाइप पर पूरी तरह भरोसा न करें। वीडियो दर्शकों से उनके विचार पूछने और चैनल को सब्सक्राइब करने के अनुरोध के साथ समाप्त होता है।

Community Posts

View all posts