मल्टी-मोडल जनरेटिव विजुअल एआई को समझना

VVercel
Internet TechnologyAdvertising/MarketingPhotography/Art

Transcript

00:00:00आप सभी को यहां देखकर अच्छा लगा। जैसा कि मैंने परिचय में बताया था,
00:00:05मैं आपको फ्लक्स के बारे में विस्तार से बताऊंगा,
00:00:09जो छवियों को बनाने और संपादित करने के लिए हमारे मॉडल परिवार का हिस्सा है। मैं पहले ही...
00:00:16क्या यह काम कर रहा है.
00:00:18मैं एंडी,
00:00:19ब्लैक फोर्स लैब्स का सह-संस्थापक हूं। मॉडल शुरू करने से पहले,
00:00:24मैं आपको हमारे काम का एक संक्षिप्त परिचय देना चाहता हूं। ब्लैक फोर्स लैब्स में,
00:00:30हमारा मानना है कि भविष्य में दृश्य मीडिया मानव संचार का केंद्रीय माध्यम बन जाएगा। हम खुद को एक केंद्रीय इंफ्रास्ट्रक्चर प्रदाता के रूप में देखते हैं,
00:00:43जो उन सभी छवियों और वीडियो को शक्ति प्रदान करेगा जिनका उपयोग मनुष्य एक-दूसरे के साथ बातचीत करने के लिए करेंगे,
00:00:52और न केवल वह जो कैमरे कैप्चर कर सकते हैं,
00:00:55बल्कि उससे कहीं आगे भी। इसी विचार के साथ,
00:00:59हमने अगस्त 2024 में कंपनी शुरू की। तब से,
00:01:02हमने इसे 45 कर्मचारियों तक बढ़ाया है,
00:01:05और हमारे दो मुख्यालय हैं। मुख्य मुख्यालय जर्मनी के ब्लैक फॉरेस्ट में फ्रीबर्ग में है,
00:01:12और हमारा एक कार्यालय सैन फ्रांसिस्को में भी है। अगस्त 2024 में कंपनी शुरू करने के बाद से,
00:01:20जब हमने अपनी इमेज जनरेशन फैमिली,
00:01:22फ्लक्स,
00:01:23जारी की,
00:01:24हमने हमेशा रिलीज़ को तीन अलग-अलग स्तरों में संरचित किया है,
00:01:28और हमने लगातार मॉडल परिवार को उन्नत किया है। स्तर इस प्रकार हैं: हमारे पास प्रो मॉडल हैं। वे अत्यधिक शक्तिशाली और हमारे द्वारा पेश किए जाने वाले सबसे तेज़ मॉडल हैं। वे केवल VFL API के माध्यम से और कुछ इन्फरेंस पार्टनर्स जैसे फाइल और रेप्लिकेट के माध्यम से उपलब्ध हैं। मुझे लगता है कि आप उन्हें भी जानते होंगे। वे एकीकृत करने में बहुत आसान हैं और लगभग तुरंत बड़े पैमाने पर वॉल्यूम तक स्केल कर सकते हैं।.
00:02:03यह पहला स्तर है,
00:02:04लेकिन जैसा कि आप में से कुछ लोग जानते होंगे,
00:02:07मेरे सह-संस्थापकों और मेरे,
00:02:09हमारी ओपन सोर्स में बहुत गहरी जड़ें हैं,
00:02:12ठीक वैसे ही जैसे मुझे लगता है कि आज हमें आमंत्रित करने वाले संस्थापक की हैं। हम स्टेबल डिफ्यूजन के पीछे के मूल डेवलपर भी हैं। हम अभी भी उस पर कायम हैं। हम ओपन सोर्स समुदाय से प्यार करते हैं,
00:02:25और इसीलिए हम ओपन वेट्स और ओपन सोर्स मॉडल भी प्रदान करते हैं।
00:02:29हमारे पास फ्लक्स देव मॉडल हैं। ये डाउनलोड करने और प्रयोग करने के लिए सार्वजनिक रूप से उपलब्ध हैं। वे पूरी तरह से अनुकूलन योग्य हैं और उन्हें उपयोग करने वाले सभी लोगों के लिए बहुत लचीलापन प्रदान करते हैं। अंत में,
00:02:46हमारे पास फ्लक्स श्नेल मॉडल हैं। वे पूरी तरह से ओपन सोर्स हैं और एक तरह से,
00:02:51फ्लक्स इकोसिस्टम में प्रवेश करने का सही बिंदु हैं। इकोसिस्टम की बात करें तो,
00:02:57यदि आप हगिंग फेस पर मॉडल एटलस को देखते हैं,
00:03:00जो मुझे लगता है कि विभिन्न डोमेन में सबसे अधिक उपयोग किए जाने वाले ओपन सोर्स फाउंडेशन मॉडल को दर्शाता है,
00:03:08तो हम वास्तव में देख सकते हैं कि हगिंग फेस पर सबसे बड़ा एकल मॉडल,
00:03:13जिससे सबसे बड़ा इकोसिस्टम जुड़ा हुआ है,
00:03:16हमारा फ्लक्स देव मॉडल है। यह काफी हद तक दर्शाता है कि फ्लक्स पहले ही ओपन इमेज जनरेशन के लिए एक मानक बन चुका है। जाहिर है,
00:03:26हम भविष्य में अपने वितरण को और आगे बढ़ाने या विस्तारित करने की दिशा में देख रहे हैं। कंपनी के बारे में इतना ही। मुझे देखने दें कि क्या यह अभी भी काम नहीं कर रहा है। खैर। अब बात के मुख्य भाग पर आते हैं।
00:03:41मैं आपके साथ फ्लक्स में गहराई से जाना चाहता था,
00:03:45खासकर हमारे सबसे हाल के मॉडल फ्लक्स कॉन्टेक्स्ट में,
00:03:49जो टेक्स्ट-टू-इमेज जनरेशन और एडिटिंग को एकीकृत करता है। आज मैं इस एकीकरण के बारे में बात करना चाहता हूं।
00:03:56उससे पहले कुछ शब्द। मुझे लगता है कि यह संयुक्त मॉडल होना बहुत महत्वपूर्ण है क्योंकि जाहिर है कि इमेज जनरेशन के कई अच्छे अनुप्रयोग हैं और हमने पिछले साल यह देखा है,
00:04:09लेकिन इमेज एडिटिंग ने वास्तव में इस साल तक विकास की समान गति नहीं पकड़ी है। इमेज एडिटिंग वास्तव में एक बहुत महत्वपूर्ण उपयोग का मामला है। यह हमें मौजूदा छवियों पर पुनरावृति करने की अनुमति देता है और लोगों को,
00:04:25मुझे लगता है,
00:04:26छवियों और अन्य चीजों को सटीक रूप से संशोधित करने के लिए नियंत्रण का एक अतिरिक्त स्तर प्रदान करता है। यह बहुत महत्वपूर्ण है। फ्लक्स कॉन्टेक्स्ट के साथ,
00:04:37हमने इमेज एडिटिंग के लिए एक निर्णायक क्षण बनाया है। इसे जून 2025 में जारी किया गया था। यह एक ऐसा मॉडल है जो इमेज जनरेशन को संपादन के लिए चरित्र स्थिरता,
00:04:49स्टाइल संदर्भ,
00:04:50स्थानीय संपादन और वह सब कुछ लगभग वास्तविक समय की गति से जोड़ता है। हम इसे बाद में देखेंगे।
00:04:57लेकिन एक अच्छे उदाहरण के तौर पर,
00:04:59मैं आपके लिए यह इमेज रो लाया हूं। बाएं से दाएं,
00:05:03हम एक इनपुट इमेज से शुरू करते हैं। फिर हम मॉडल को उसके चेहरे से इस वस्तु को हटाने के लिए प्रॉम्प्ट कर सकते हैं और फिर हम उसे एक पूरी तरह से नए संदर्भ में रख सकते हैं,
00:05:14जबकि चरित्र को सुसंगत बनाए रख सकते हैं। यह बहुत महत्वपूर्ण है। सार्वजनिक रूप से उपलब्ध टेक्स्ट-टू-इमेज मॉडल के आधार पर इस तरह की चरित्र स्थिरता को मॉडल में लाने के लिए अतीत में बहुत सारे फाइन-ट्यूनिंग का काम किया गया था,
00:05:29लेकिन इस तत्काल इमेज एडिटिंग ने हमें उस सभी फाइन-ट्यूनिंग को हटाने की अनुमति दी,
00:05:34जो हमेशा थोड़ा प्रयासपूर्ण होता है,
00:05:36मैं कहूंगा। यह वास्तव में बहुत अद्भुत है कि इसमें अब चार सेकंड या कुछ और लगते हैं। अंत में,
00:05:42हम बस दृश्य बदल सकते हैं। इस मामले में,
00:05:45सबसे दाहिनी छवि को,
00:05:46हम एक सर्दियों के दृश्य में बदलते हैं। बढ़िया। यहां कुछ और उदाहरण दिए गए हैं कि यह और क्या कर सकता है। यह केवल चरित्र-सुसंगत संपादन या कुछ और के लिए ही अच्छा नहीं है,
00:05:58बल्कि स्टाइल ट्रांसफर के लिए भी बहुत अच्छा है। हम इसे बाईं ओर देखते हैं। हम इनपुट इमेज से स्टाइल लेते हैं और इसे एक नई सामग्री पर मैप करते हैं या हम टेक्स्ट एडिटिंग जैसी चीजें कर सकते हैं,
00:06:10बस मॉन्ट्रियल को फ्रीबर्ग में बदलते हुए फ़ॉन्ट को सुसंगत रखते हुए। यह सब एक मॉडल में संयुक्त है और आप इसके साथ एक बहुत ही सरल टेक्स्ट इंटरफ़ेस के माध्यम से बातचीत कर सकते हैं। बढ़िया। बहुत महत्वपूर्ण बात यह है कि यह मॉडल केवल एक सामान्य मॉडल नहीं है,
00:06:27बल्कि यह विशिष्ट महत्वपूर्ण और दिलचस्प व्यावसायिक समस्याओं को हल करने में भी बहुत अच्छा है। उदाहरण के लिए,
00:06:34यहां बाईं ओर के उदाहरण में,
00:06:36हम एक 'इन-द-वाइल्ड' इमेज से इस स्कर्ट को निकाल सकते हैं और हमें इस चीज़ का एक उत्पाद शॉट और लगभग तुरंत एक ज़ूम-इन मिलता है,
00:06:44फिर से,
00:06:45कुछ ही सेकंड में। यह,
00:06:46इन एडिटिंग मॉडल से पहले घंटों,
00:06:48दिनों लगते थे,
00:06:49या संभव भी नहीं था। इसी तरह,
00:06:51यहां दाईं ओर,
00:06:52हम एक स्केच से कुछ ही सेकंड में पूरी तरह से रेंडर किया गया आउटपुट प्राप्त कर सकते हैं। बढ़िया। जैसा कि मैंने पहले ही उल्लेख किया है,
00:07:01फ्लक्स कॉन्टेक्स्ट टेक्स्ट-टू-इमेज और इमेज एडिटिंग को जोड़ता है। हमने अभी कुछ उदाहरण देखे। आइए संक्षेप में देखें कि मॉडल पाइपलाइन के संदर्भ में इसका वास्तव में क्या मतलब है जो आपको करने की आवश्यकता है। यहां हम क्लासिक टेक्स्ट-टू-इमेज पाइपलाइन देखते हैं। काफी सरल। हम सभी इसे जानते हैं। हम एक टेक्स्ट प्रॉम्प्ट का उपयोग करते हैं। हम इसे मॉडल के माध्यम से धकेलते हैं। मॉडल फिर कुछ जादू करता है। मैं आपको एक सेकंड में समझाऊंगा कि ऐसा मॉडल कैसे बनाया जाए। फिर हमें एक छवि मिलती है जो उम्मीद है,
00:07:34यदि मॉडल अच्छा है,
00:07:35तो हमारे इनपुट टेक्स्ट प्रॉम्प्ट का पालन करती है। यदि आप इमेज एडिटिंग को देखते हैं,
00:07:41तो यह काफी अलग दिखता है। हम एक छवि से शुरू करते हैं,
00:07:44जिसे हम एक तरह से मॉडल को दिखाते हैं,
00:07:47और फिर हम एक टेक्स्ट निर्देश नहीं जोड़ते हैं जो एक पूरे दृश्य का वर्णन करता है,
00:07:52बल्कि केवल उस छवि में एक बदलाव का वर्णन करते हैं। यहां हमारे पास दो कंडीशनिंग हैं। पहला भाग,
00:07:58हमारे पास केवल अधिक इनपुट हैं। पहले उदाहरण में,
00:08:01हमारे पास केवल एक इनपुट था। अब हम एक बदलाव का वर्णन करते हैं और मॉडल को फिर बदलाव के अनुसार छवि को संशोधित करना चाहिए। कुछ हिस्से,
00:08:10जैसे यहां चर्च,
00:08:11संपादन के बाद समान रहने चाहिए। अन्य नहीं। ये एडिटिंग मॉडल यही करते हैं। यह काफी अलग कार्य है। इसे एक ही मॉडल में संयोजित करना वास्तव में बहुत अच्छा है क्योंकि आप सब कुछ कर सकते हैं। आप एक छवि बना सकते हैं,
00:08:25फिर उसे बाद में संपादित कर सकते हैं,
00:08:27और एक तरह से बहुत अधिक लचीलापन प्राप्त कर सकते हैं। मैंने पहले ही उल्लेख किया है कि इन एडिटिंग मॉडल को जारी करने से पहले,
00:08:36या इन सामान्य एडिटिंग मॉडल को देखने से पहले,
00:08:39टेक्स्ट-टू-इमेज मॉडल को फाइन-ट्यून करने पर बहुत काम किया गया था ताकि इस तरह के नियंत्रण स्तर को मॉडल में लाया जा सके। लेकिन अब इसकी आवश्यकता नहीं है। हम इसे तुरंत कर सकते हैं। यह बस अच्छे परिणाम प्राप्त करने के लिए आवश्यक समय को काफी कम कर देता है। तो पाइपलाइन के संदर्भ में यह इतना ही है। अब,
00:08:58आइए देखें कि हम वास्तव में इन मॉडलों को कैसे प्रशिक्षित कर सकते हैं। और एक बहुत महत्वपूर्ण एल्गोरिथम है जिसके बारे में मैं बात करना चाहता हूं। वह एल्गोरिथम जो हमें इन मॉडलों को प्रशिक्षित करने में सक्षम बनाता है,
00:09:13उसे लेटेंट फ्लो मैचिंग कहा जाता है,
00:09:15जो दो पहलुओं,
00:09:16लेटेंट और फ्लो मैचिंग से बना है,
00:09:18और मैं उन दोनों पर थोड़ा प्रकाश डालना चाहता हूं।
00:09:24आइए लेटेंट से शुरू करें। यह लेटेंट जनरेटिव मॉडलिंग से आता है। यह एक एल्गोरिथम है जिसे मैंने और मेरे सह-संस्थापकों ने लगभग पांच साल पहले विकसित किया था। इसका क्या मतलब है,
00:09:34यह समझाने के लिए,
00:09:36आइए पहले निम्नलिखित उदाहरण देखें। मैं यहां जो दिखा रहा हूं,
00:09:39वह मूल रूप से दो छवियां हैं,
00:09:41और हमारे लिए,
00:09:42वे बिल्कुल समान दिखती हैं। बाईं ओर वाली एक जेपीईजी है,
00:09:45और दाईं ओर वाली एक पीएनजी के रूप में वही छवि है। तो बाईं ओर वाली दाईं ओर वाली का एक अनुमान है,
00:09:51लेकिन हमें कोई अंतर नहीं दिखता।
00:09:53या क्या कोई ऐसा है जो इन दोनों छवियों में कोई अंतर देखता है?
00:09:58मुझे नहीं लगता। ठीक है,
00:10:00अब इन छवियों के फ़ाइल आकार को देखें। जेपीईजी का फ़ाइल आकार वास्तव में पीएनजी के फ़ाइल आकार से लगभग एक परिमाण कम है। यह काफी उल्लेखनीय है,
00:10:12और हम सभी जानते हैं कि इमेज कम्प्रेशन कैसे काम करता है,
00:10:16लेकिन यह महसूस करना कि हम एक छवि से बहुत सारी जानकारी को बिना ध्यान दिए हटा सकते हैं,
00:10:23काफी उल्लेखनीय है,
00:10:25मैं कहूंगा।
00:10:26तो जाहिर है,
00:10:27एक छवि में बहुत सारी जानकारी होती है जिसे हम अपनी मानवीय आंख से नहीं देख सकते। इसे देखने का एक और तरीका यह है कि एक छवि की अवधारणात्मक समानता को प्लॉट किया जाए,
00:10:38पिछले उदाहरण में एक जेपीईजी की,
00:10:41और इस छवि का अनुमान - क्षमा करें,
00:10:43पिछले उदाहरण में एक पीएनजी छवि है - और अनुमान इस छवि का जेपीईजी है,
00:10:48और हम इसे फ़ाइल आकार के मुकाबले प्लॉट कर सकते हैं। ऐसा करने पर,
00:10:52हमें यह प्लॉट मिलता है। यह एक वैचारिक प्लॉट है,
00:10:56इसलिए यह वास्तविक नहीं है,
00:10:58लेकिन वैचारिक रूप से ऐसा दिखता है। अवधारणात्मक समानता तेजी से बढ़ती है और फिर लगभग पूरे फ़ाइल आकार के लिए एक स्थिर स्तर पर बनी रहती है। यही वह है जिसका उपयोग जेपीईजी जैसे लॉसलेस कम्प्रेशन एल्गोरिदम करते हैं,
00:11:12और अब आप पूछ सकते हैं कि इसका जनरेटिव मॉडलिंग से क्या लेना-देना है?
00:11:17यह हमें दिखाता है कि एक अवधारणात्मक संकेत,
00:11:20या एक प्राकृतिक संकेत,
00:11:22जैसे एक छवि,
00:11:23ऑडियो के लिए यह वास्तव में समान है,
00:11:25वास्तविक दिखने के लिए,
00:11:27या वास्तविक के रूप में माना जाने के लिए। हमें उन सभी उच्च-आवृत्ति विवरणों को मॉडल करने की आवश्यकता नहीं है जिन्हें हम नहीं देख सकते हैं,
00:11:37और इसलिए इन सभी उच्च-आवृत्ति विवरणों पर पिक्सेल स्पेस में एक जनरेटिव मॉडल को प्रशिक्षित करना वास्तव में कंप्यूट और समय की भारी बर्बादी होगी,
00:11:47क्योंकि मॉडल उन पहलुओं का प्रतिनिधित्व करना सीखेगा जिन्हें हम महसूस भी नहीं करते हैं,
00:11:53इसलिए इसे सीखना व्यर्थ है,
00:11:55है ना?
00:11:55और यही लेटेंट जनरेटिव मॉडलिंग का मूल है। तो छवियों पर सीधे पिक्सेल स्पेस में एक जनरेटिव मॉडल को प्रशिक्षित करने के बजाय,
00:12:04हम एक कम्प्रेशन मॉडल सीखते हैं जो एक निम्न-आयामी तथाकथित लेटेंट स्पेस निकालता है। यह लेटेंट स्पेस वही है जो हम यहां केंद्र में देखते हैं। देखते हैं कि लेजर पॉइंटर काम करता है या नहीं। ओह,
00:12:17हाँ,
00:12:18तो यह वाला। हम इस मॉडल को कैसे सीखते हैं?
00:12:20यह वास्तव में बहुत सरल है।
00:12:24हम यहां बाईं ओर एक छवि का उपयोग करते हैं। हम इसे एक एन्कोडर के माध्यम से धकेलते हैं,
00:12:29तो प्रभावी रूप से यह एक ऑटोएन्कोडर है,
00:12:31हम छवि को एन्कोडर के माध्यम से धकेलते हैं,
00:12:34फिर हम इस लेटेंट स्पेस पर पहुंचते हैं,
00:12:36और उस प्रतिनिधित्व को हम एक ऑपरेशन के माध्यम से धकेलते हैं जिसे रेगुलराइजेशन कहा जाता है।
00:12:42यह मॉडल को इस लेटेंट प्रतिनिधित्व से जानकारी हटाने के लिए मजबूर करता है। इसे या तो असतत रूप से या निरंतर रूप से लागू किया जा सकता है,
00:12:51और फिर हम इस लेटेंट प्रतिनिधित्व से छवि का पुनर्निर्माण करते हैं। तो क्लासिकल ऑटोएन्कोडर,
00:12:58जिसे हम मूल रूप से इनपुट के समान पुनर्निर्माण प्राप्त करने के लिए प्रशिक्षित करते हैं,
00:13:04और,
00:13:05बहुत महत्वपूर्ण रूप से,
00:13:06हम इस डिस्क्रिमिनेटर लॉस को जोड़ते हैं। इसे एक पूर्वधारणा के रूप में कल्पना की जा सकती है ताकि यह सुनिश्चित किया जा सके कि वास्तव में केवल वही विवरण जो हमारी मानवीय आंखों के लिए अवधारणात्मक रूप से मायने रखते हैं,
00:13:21इस लेटेंट प्रतिनिधित्व में परिलक्षित होते हैं। फिर से,
00:13:25यह रेगुलराइजेशन मॉडल को जानकारी कम करने या हटाने के लिए मजबूर करता है,
00:13:30और डिस्क्रिमिनेटर यह सुनिश्चित करता है कि यह सही जानकारी हटाता है जिसे हम महसूस नहीं कर सकते। इस तरह,
00:13:37एक बार जब हम इस मॉडल को प्रशिक्षित कर लेते हैं,
00:13:41तो हम इस लेटेंट स्पेस पर पहुंचते हैं जिसका उपयोग फिर जनरेट किए गए मॉडल को प्रशिक्षित करने के लिए किया जाता है। लेटेंट स्पेस इनपुट इमेज या एक ऐसी इमेज का निम्न-आयामी प्रतिनिधित्व है जो अवधारणात्मक रूप से समतुल्य है। यह मूल रूप से लेटेंट फ्लो-मैचिंग एल्गोरिथम का लेटेंट पहलू है। आइए दूसरे,
00:14:01फ्लो-मैचिंग के बारे में बात करते हैं। फिर से,
00:14:05मैं अभी जो कुछ भी समझा रहा हूं वह इस लेटेंट स्पेस में होता है। तो हम अभी जो कुछ भी करते हैं,
00:14:11आप इसे यहां देखते हैं। बाईं ओर,
00:14:13हर छवि मूल रूप से उस लेटेंट स्पेस में एम्बेड हो जाती है। तो,
00:14:18हाँ,
00:14:18आइए फ्लो-मैचिंग के बारे में बात करते हैं। फ्लो-मैचिंग एल्गोरिदम एल्गोरिदम का एक सामान्य परिवार है जिसका उपयोग एक बहुत ही सरल वितरण से अनुवाद करने के लिए किया जाता है,
00:14:30जो हमारे मामले में,
00:14:32हमेशा मानक सामान्य वितरण होता है,
00:14:34तो हम अब संभाव्यता वितरण के बारे में बात कर रहे हैं। मैंने इसे यहां दर्शाया है। यह यहां एक बहुत ही सरल वितरण है। फ्लो-मैचिंग एल्गोरिदम इसे अनुवाद करते हैं या हमें एक वेक्टर क्षेत्र को प्रशिक्षित करने के साधन प्रदान करते हैं जो एक न्यूरल नेटवर्क द्वारा दर्शाया जाता है,
00:14:53यह वाला यहां,
00:14:54सरल वितरण और बहुत जटिल वितरणों के बीच मैप करने के लिए,
00:14:58जैसे प्राकृतिक छवियों का डेटा वितरण। तो यह डेटा वितरण है। इसे प्रशिक्षित करने के लिए हम क्या करते हैं?
00:15:05फ्लो-मैचिंग एल्गोरिथम हमें ऐसा करने का एक बहुत ही सरल साधन प्रदान करता है। प्रशिक्षण के दौरान हमें बस इतना करना है कि यहां इस मानक सामान्य वितरण से एक नमूना निकालना है। तो हमारे पास एक नमूना है,
00:15:19और फिर हम इसे डेटा वितरण से एक नमूने,
00:15:22एक प्रशिक्षण उदाहरण को असाइन करते हैं,
00:15:25और हम इसे जोड़ते हैं,
00:15:26और फिर हम इस तरह के वेक्टर का निर्माण कर सकते हैं जो उन्हें सीधे,
00:15:31रैखिक रूप से जोड़ता है।
00:15:34यदि आप हमारे प्रशिक्षण डेटासेट में हर उदाहरण के लिए ऐसा करते हैं,
00:15:38तो बस हम उदाहरण लेते हैं,
00:15:40हम मानक सामान्य से एक बिंदु को यादृच्छिक रूप से नमूना करते हैं,
00:15:45और हम उन्हें जोड़ते हैं,
00:15:46तो हम यहां इस तरह के निर्मित वेक्टर क्षेत्र पर पहुंचते हैं। मैं अब वेक्टर क्षेत्रों के गुणों के बारे में बहुत कुछ बात कर सकता हूं। एक महत्वपूर्ण गुण यह है कि वेक्टर क्षेत्रों में पथ पार नहीं कर सकते,
00:16:00और हम देखते हैं कि बहुत सारे क्रॉसिंग हो रहे हैं,
00:16:04तो यह स्पष्ट रूप से वह सच्चा वेक्टर क्षेत्र नहीं है जो इस वितरण पर हर बिंदु के बीच,
00:16:10या इस वितरण और उस एक के बीच अनुवाद करता है।
00:16:13फ्लो-मैचिंग के बारे में अद्भुत बात यह है कि,
00:16:16यदि आप बस इस नियम का पालन करते हैं,
00:16:19तो हम मॉडल को मूल रूप से हमेशा डेटा नमूने और मानक सामान्य वितरण से नमूने के बीच इस तरह के वैक्टर की भविष्यवाणी करने के लिए प्रशिक्षित करते हैं। हम सच्चे वेक्टर क्षेत्र पर पहुंचते हैं,
00:16:31और वह फिर ऐसा दिखता है। तो यहां हम देखते हैं कि पथ अब पार नहीं करते हैं,
00:16:36और फ्लो-मैचिंग एल्गोरिथम बस इसकी गारंटी देता है। यह थोड़ा जादू जैसा है,
00:16:41लेकिन यदि आप इसे गणितीय रूप से लिखते हैं,
00:16:44तो हम वास्तव में देखते हैं कि यह समझ में आता है। और इस तरह,
00:16:48हम वास्तव में मॉडल को इस सच्चे वेक्टर क्षेत्र का प्रतिनिधित्व करने के लिए प्रशिक्षित कर सकते हैं जो मानक सामान्य और हमारे डेटा वितरण के बीच अनुवाद करता है।
00:17:00और महत्वपूर्ण बात यह है कि हम टेक्स्ट इनपुट के आधार पर छवियां बनाने में सक्षम होना चाहते हैं,
00:17:07इसलिए हम जो करते हैं वह यह है कि हम इस नेटवर्क को हमेशा एक टेक्स्ट इनपुट पर कंडीशन करते हैं,
00:17:14मूल रूप से,
00:17:15हर छवि उदाहरण के लिए। बढ़िया।
00:17:17तो जब हम मॉडल का नमूना ले रहे होते हैं तो हम क्या कर रहे होते हैं?
00:17:21हमारे पास यह वेक्टर क्षेत्र है जो उन दो वितरणों के बीच मैपिंग का प्रतिनिधित्व करता है। हम जो करते हैं वह यह है कि हम मानक सामान्य से एक नमूने के साथ शुरू करते हैं। हम इसे कंप्यूटर से नमूना कर सकते हैं,
00:17:34है ना?
00:17:35हम सभी जानते हैं। और फिर हम न्यूरल नेटवर्क द्वारा दर्शाई गई इन प्रक्षेपवक्रों के साथ एकीकृत करते हैं। हम इसे एक साधारण यूलर-फॉरवर्ड एल्गोरिथम के साथ कर सकते हैं। शायद आप में से बहुत से लोग उन्हें जानते होंगे। तो एक संख्यात्मक एकीकरण योजना के साथ,
00:17:51हम बस यहां इन प्रक्षेपवक्रों के साथ एकीकृत कर सकते हैं और फिर डेटा नमूने पर पहुंच सकते हैं। हम इसे फिर से डिकोडर के माध्यम से धकेलते हैं और हम पहुंचते हैं। तो फिर से,
00:18:02यह लेटेंट स्पेस में होता है,
00:18:03लेकिन यहां हम फिर से पिक्सेल स्पेस में पहुंचते हैं। और इस तरह मैं फिर एक टेक्स्ट प्रॉम्प्ट के आधार पर छवियां बना सकता हूं। बढ़िया। एक बात,
00:18:12ये संख्यात्मक एकीकरण योजनाएं काफी,
00:18:15मुझे लगता है,
00:18:15वे बहुत सारे चरणों का उपयोग करती हैं,
00:18:18तो वे इस प्रक्रिया को यहां कदम दर कदम 50 चरणों तक तोड़ देती हैं। तो ये लेटेंट फ्लो मैचिंग मॉडल स्वाभाविक रूप से काफी धीमे होते हैं और एक छवि बनाने में लगभग 30 सेकंड से एक मिनट लगते हैं,
00:18:30जो थोड़ा लंबा है।
00:18:32मैं बहुत जल्द उन्हें तेज़ कैसे बनाया जाए,
00:18:34इस बारे में बात करूंगा। लेकिन यह सामान्य लेटेंट फ्लो मैचिंग एल्गोरिथम है। तो लेटेंट फिर से,
00:18:39इस लेटेंट स्पेस को जोड़ता या प्रतिनिधित्व करता है या इस लेटेंट स्पेस के लिए खड़ा है जहां हम मॉडल को प्रशिक्षित करते हैं। और फ्लो मैचिंग एल्गोरिथम वही है जिसकी हमने अभी यहां चर्चा की। ठीक है,
00:18:50अब मैंने समझाया कि हम टेक्स्ट प्रॉम्प्ट के आधार पर छवियां कैसे बनाते हैं,
00:18:54लेकिन यह अब कॉन्टेक्स्ट पर कैसे लागू होता है,
00:18:56जो एक एडिटिंग मॉडल है,
00:18:57है ना?
00:18:58यह भी बहुत सरल है। तो यह एक बुनियादी फ्लक्स कॉन्टेक्स्ट आर्किटेक्चर है। यह एक ट्रांसफार्मर मॉडल है। हम सभी यह जानते हैं।
00:19:05यह थोड़ा खास है,
00:19:06लेकिन जादू इनपुट में निहित है। तो हम यहां बाईं ओर मॉडल में इनपुट देखते हैं। सबसे पहले हमारे पास टेक्स्ट इनपुट होता है जिसे एक टेक्स्ट एन्कोडर द्वारा टेक्स्ट टोकन के एक सेट में एम्बेड किया जाता है। और फिर हमारे पास इमेज एन्कोडर है जिसे हमने पिछली स्लाइड में यहां देखा था,
00:19:26है ना?
00:19:26यह वाला यहां। यह वही है जो हम अब यहां देखते हैं। तो हमारे पास यह इमेज एन्कोडर है और वहां हमारे पास विजुअल टोकन के दो सेट हैं। सबसे पहले हमारे पास विजुअल टोकन का सेट होता है जिसका उपयोग हम वास्तव में उत्पन्न करने के लिए करते हैं। यह आउटपुट इमेज होगी। और फिर हमारे पास,
00:19:45यदि हम इमेज एडिटिंग करना चाहते हैं,
00:19:48तो विजुअल टोकन का एक दूसरा सेट होता है जो केवल मॉडल करता है या जो केवल संदर्भ छवि का प्रतिनिधित्व करता है। तो मूल रूप से संदर्भ छवि जो मैं मॉडल को दिखा रहा हूं। और फिर हम जो करते हैं वह यह है कि हम इसे ट्रांसफार्मर मॉडल में धकेलते हैं। यह एक खास है क्योंकि इसमें तथाकथित डबल स्ट्रीम ब्लॉक होते हैं। ये,
00:20:10मैं कहूंगा,
00:20:11प्रत्येक निष्ठा के लिए विशेषज्ञ मॉडल के प्रकार हैं। तो यहां हम विजुअल टोकन और टेक्स्ट टोकन को अलग-अलग संभालते हैं।
00:20:20अटेंशन ऑपरेशन को छोड़कर हर चीज के लिए,
00:20:23अटेंशन ऑपरेशन फिर सभी टोकन पर संयुक्त रूप से होता है। और फिर हमारे पास मानक ब्लॉक होते हैं,
00:20:31मानक ट्रांसफार्मर ब्लॉक जहां हम मूल रूप से अटेंशन ऑपरेशन से पहले सभी इनपुट और टेक्स्ट टोकन और विजुअल टोकन को समान मैपिंग के साथ मैप करते हैं। और इस तरह,
00:20:45हम बस इमेज एडिटिंग में जा सकते हैं।
00:20:48यदि आप यहां एक इनपुट इमेज प्रदान करते हैं और यदि आप टेक्स्ट इमेज जनरेशन करते हैं,
00:20:54तो आप बस इसे प्रदान नहीं करते हैं और फिर हमारे पास इनपुट के रूप में केवल एक टेक्स्ट प्रॉम्प्ट होता है,
00:21:01है ना?
00:21:01बढ़िया। यहां अंतिम बिंदु। मॉडल इतना तेज़ कैसे है?
00:21:05तो मुझे नहीं पता कि आप में से कितने लोग फ्लक्स मॉडल जानते हैं। क्या आप बस अपना हाथ उठा सकते हैं यदि आप फ्लक्स मॉडल जानते हैं?
00:21:13या वास्तव में कुछ। ठीक है,
00:21:15बढ़िया। तो हम सभी जानते हैं कि वे काफी तेज़ हैं,
00:21:18है ना?
00:21:19जब मैं तेज़ कहता हूं तो मेरा क्या मतलब है?
00:21:22हम मूल रूप से अक्सर तुलनीय मॉडलों की तुलना में परिमाण के क्रम में तेज़ होते हैं। तो यहां,
00:21:28उदाहरण के लिए,
00:21:29हम स्पष्ट रूप से यहां एक बहुत धीमे मॉडल को देखते हैं लेकिन अच्छा वाला,
00:21:34जीपीडी इमेज वन। संपादन के लिए भी यहां,
00:21:36फ्लक्स मॉडल यहां 10 गुना से अधिक तेज़ हैं,
00:21:39यहां तक कि,
00:21:40हाँ,
00:21:4020 गुना से भी अधिक। तो यह वास्तव में पागलपन है कि वे कितने तेज़ हैं,
00:21:45तुलनीय रूप से शक्तिशाली मॉडल। और इसका कारण एक एल्गोरिथम है जिसे हमने दो साल,
00:21:50तीन साल पहले विकसित किया था। इसे एडवर्सरियल डिफ्यूजन डिस्टिलेशन कहा जाता है और इस एल्गोरिथम का लक्ष्य संख्यात्मक एकीकरण चरणों की संख्या को कम करना है। मैंने आपको पहले बताया था कि ये एक मानक फ्लो मैचिंग मॉडल के लिए अक्सर 50 होते हैं और यहां लक्ष्य उन्हें चार तक कम करना है। प्रत्येक संख्यात्मक एकीकरण चरण का मतलब न्यूरल नेटवर्क के माध्यम से एक फॉरवर्ड पास होता है,
00:22:15इसलिए हम कल्पना कर सकते हैं कि इसमें बस बहुत समय लगता है,
00:22:19इसलिए हम इसे जितना संभव हो उतना कम करना चाहते हैं। यह कैसे काम करता है?
00:22:24हम यहां दो नेटवर्क,
00:22:25एक शिक्षक और एक छात्र को इनिशियलाइज़ करते हैं। दोनों को मैंने अभी आपको दिखाए गए एल्गोरिथम के माध्यम से सीखे गए फ्लो मैचिंग मॉडल से इनिशियलाइज़ किया जाता है। और फिर हम जो करते हैं वह यह है कि छात्र को चार चरणों में आउटपुट में वही छवि गुणवत्ता प्राप्त करने के लिए प्रशिक्षित करते हैं जो शिक्षक 50 चरणों में करता है। यह लक्ष्य है और हम इसे ऐसे करते हैं। हम एक छवि से शुरू करते हैं,
00:22:51हम इसे यहां एक विलंबता में फिर से एन्कोड करते हैं और फिर हम छात्र के लिए चार चरणों में या उन लक्ष्य चरणों की संख्या में एक आउटपुट छवि उत्पन्न करते हैं जो हम करना चाहते हैं। और फिर हम इसे फिर से पिक्सेल में डिकोड करते हैं।
00:23:08शुरुआत में,
00:23:09यहां यह छवि बहुत धुंधली और बिल्कुल भी वास्तविक नहीं दिखती है। और लक्ष्य स्पष्ट रूप से इसे सुधारना है। तो हम जो कर रहे हैं वह यह है कि इसे फिर से उपयोग करें,
00:23:19इसे फिर से विलंबता में एन्कोड करें और फिर शिक्षक के साथ वही काम करें लेकिन चार चरणों के बजाय 50 चरणों में। इससे एक उच्च गुणवत्ता वाली छवि प्राप्त होती है और फिर हम इस डिस्टिलेशन लॉस का उपयोग करते हैं,
00:23:32मूल रूप से एक लॉस यह सुनिश्चित करने के लिए कि शिक्षक या छात्र का वितरण शिक्षक के वितरण से मेल खाता है। यह अकेले दुर्भाग्य से हमें मूल रूप से ऐसी छवियां उत्पन्न करने की अनुमति नहीं देगा जो वास्तविक दिखती हैं। तो हम जो जोड़ते हैं वह एक और डिस्क्रिमिनेटर लॉस है। हमने इसे पहले ही बात के लेटेंट जनरेटिव मॉडलिंग भाग में ऑटोएन्कोडर भाग के लिए देखा था। यह मूल रूप से वही है। तो हम एक डिस्क्रिमिनेटर को प्रशिक्षित करते हैं ताकि छात्र से उत्पन्न छवियों को वास्तविक छवियों से अलग किया जा सके जिन्हें हम यहां इनपुट करते हैं। और यह एक डायनो v2 फीचर स्पेस में या एक सीखे हुए इमेज रिप्रेजेंटेशन मॉडल स्पेस में एक तरह से होता है। और इस तरह,
00:24:12हम वास्तव में मॉडल को अंत में यथार्थवादी छवियां उत्पन्न करने के लिए प्रशिक्षित कर सकते हैं,
00:24:1850 चरणों का उपयोग करने के बजाय,
00:24:20यह केवल चार चरणों का उपयोग करता है। यह स्पष्ट रूप से एक बहुत बड़ी गति वृद्धि है। हालांकि,
00:24:26यहां अंतिम बिंदु। यदि हम यहां इस चीज़ को देखते हैं,
00:24:29तो यह काफी,
00:24:30मैं कहूंगा कि यहां बहुत सारे ओवरहेड दिखते हैं,
00:24:33है ना?
00:24:34क्योंकि यहां हमें लेटेंट में अतिक्रमण करना होगा। तो हम इमेज स्पेस में शुरू करते हैं,
00:24:39लेटेंट स्पेस की संस्कृति होने के नाते,
00:24:42और हम फिर से डिकोड करते हैं,
00:24:43फिर हमें फिर से एन्कोड करना होगा और फिर से डिकोड करना होगा। और फिर हम,
00:24:48यह वाला भी फिर से एक और प्रतिनिधित्व स्थान में एन्कोड कर रहा है। बहुत सारे ओवरहेड,
00:24:53इससे संबंधित बहुत सारी मेमोरी लागतें। और यह बस बहुत,
00:24:57जब हमने इसे विकसित किया,
00:24:58तो हम इससे चकित थे क्योंकि इसने हमें तेज़ मॉडल प्रशिक्षित करने की अनुमति दी। इसे प्रशिक्षित करना बहुत प्रयासपूर्ण था। तो हमने सोचा,
00:25:07ठीक है,
00:25:07हम इसे वास्तव में कैसे सरल बना सकते हैं?
00:25:10और जवाब हमेशा जवाब होता है। जब भी आपके पास एक पिक्सेल हो,
00:25:14बस इसे लेटेंट स्पेस में ले जाएं। तो हमने जो किया वह एक लेटेंट एडवर्सरियल डिफ्यूजन डिस्टिलेशन दृष्टिकोण के साथ आना है। यह मूल रूप से बहुत समान है जो हमने सामान्य लेटेंट जनरेटिव मॉडलिंग एल्गोरिथम के लिए किया था। हम बस यहां सब कुछ लेटेंट स्पेस में ले जाते हैं। वही बात,
00:25:31लेकिन इन एन्कोडर और डिकोडर का उपयोग करने के बजाय,
00:25:34हम बस उनसे छुटकारा पा सकते हैं। और महत्वपूर्ण बात यह है कि,
00:25:38एक डिस्क्रिमिनेटर के रूप में,
00:25:40हम अब डायनो का उपयोग नहीं करते हैं।
00:25:44इस इमेज रिप्रेजेंटेशन मॉडल के लिए,
00:25:46हम शिक्षक का उपयोग करते हैं क्योंकि वह वैसे भी पहले से ही लेटेंट स्पेस में रहता है,
00:25:50हमें एक बहुत अच्छा इमेज रिप्रेजेंटेशन प्रदान करता है। तो हम शिक्षक को एक डिस्क्रिमिनेटर के रूप में भी उपयोग कर सकते हैं। और बाकी सब कुछ मूल रूप से लगभग समान है। हम डिस्टिलेशन लॉस को भी हटा देते हैं। हमने पाया कि हमें इसकी आवश्यकता नहीं है,
00:26:04जो भी बढ़िया है।
00:26:06तो हमारे पास एक लॉस कम है और सब कुछ सरल हो जाता है। और इस तरह,
00:26:12हम वास्तव में फिर एक बहुत ही मेमोरी कुशल तरीके से एकीकरण चरणों की संख्या को पांच से चार तक भी कम कर सकते हैं। तो हमारे पास 12.5 गुना गति वृद्धि है,
00:26:26और यही वास्तव में हम इस खंड की शुरुआत में आपको दिखाए गए प्लॉटों में इस परिमाण के क्रम के रूप में देखते हैं। तो मूल रूप से हम एक फ्लो मैचिंग से,
00:26:40एक बेस फ्लो मैचिंग मॉडल से एक बहुत तेज़ मॉडल कैसे प्राप्त करते हैं। और अब इस बात के समाप्त होने से पहले,
00:26:50मैं वास्तव में आपके लिए फ्लक्स को थोड़ा कार्रवाई में दिखाने के लिए एक डेमो लाया हूं। आइए देखें। तो आइए इसे यहां इमेज एडिटिंग के लिए उपयोग करें। मुझे बाद में कुछ अपलोड करने दें। हम यहां क्या कर रहे हैं.
00:27:09यह वाला अच्छा लग रहा है। हाँ। ठीक है। हाँ। यह अच्छा है। तो यहां मैं अपने पसंदीदा फुटबॉल क्लब,
00:27:18एससी फ्रीबर्ग सॉकर क्लब के लोगो से शुरू करता हूं। जब मैं अमेरिका में होता हूं तो मुझे सॉकर कहना पड़ता है। ठीक है। यह मेरा पसंदीदा क्लब है और मैं इस लोगो के साथ एक टी-शर्ट बनाना चाहता हूं। तो मान लीजिए कि इस लोगो को एक टी-शर्ट पर लगाएं। थोड़ा अजीब लग रहा है क्योंकि मेरे सामने कोई स्क्रीन नहीं है। ठीक है। यह रहा। जनरेट हो रहा है। मुझे इसे थोड़ा छोटा करने दें।?
00:27:53शायद ऐसे। ठीक है। बढ़िया। हम कुछ सेकंड इंतजार करते हैं और हमें टी-शर्ट पर यह अच्छा लोगो मिल जाता है। और अब अच्छी बात यह है कि हम वास्तव में आगे बढ़ सकते हैं,
00:28:09है ना?
00:28:09हम इस पर पुनरावृति कर सकते हैं। तो मान लीजिए कि यह लोगो थोड़ा बड़ा है,
00:28:16मैं कहूंगा। लोगो को छोटा करें और इसे बाकी हिस्से पर लगाएं। फिर से। कुछ सेकंड प्रतीक्षा करें। ठीक है। बढ़िया। और हम एक ऐसे परिणाम पर पहुंचते हैं जो वास्तव में बहुत अच्छा है। वास्तव में यही मैं चाहता था। मैं फिर से इससे शुरू करना चाहता हूं। और मैं अब रंग बदलना चाहता हूं क्योंकि एससी फ्रीबर्ग का रंग काला नहीं,
00:28:47लाल है। तो टी-शर्ट को लाल करें। यह भी बहुत सरल है। अब हम स्थानीय संपादन पर हैं। हम बस छवि के स्थानीय हिस्सों को संपादित कर रहे हैं,
00:28:59है ना?
00:29:00इस मामले में रंग। और महत्वपूर्ण बात यह है कि,
00:29:04हमने अब कुछ संपादन किए हैं और हम अभी भी देखते हैं कि लोगो बहुत सुसंगत रूप से दर्शाया गया है। तो यह चरित्र या इस मामले में वस्तु की स्थिरता है जिसे हमने देखा। यह बहुत महत्वपूर्ण है। एक मार्केटर के बारे में सोचें जिसके पास बस एक वस्तु है और वह उसे एक निश्चित संदर्भ में स्थापित करना चाहता है,
00:29:33है ना?
00:29:34व्यावसायिक मूल्य के संदर्भ में यह बहुत अच्छा है,
00:29:38यह बहुत महत्वपूर्ण है। और अब अंत में हम एक अधिक जटिल परिवर्तन जोड़ते हैं। हम कह सकते हैं कि टी-शर्ट को पार्क में टहलते हुए एक आदमी पर लगाएं। ऊप्स। तो यह एक जटिल परिवर्तन है और आप कह सकते थे,
00:29:57ठीक है,
00:29:58रंग बदलने जैसी चीजें आप फोटोशॉप में कर सकते हैं,
00:30:02है ना?
00:30:03ऐतिहासिक रूप से,
00:30:05ऐसी चीजें,
00:30:06यह वह नहीं है जो मानक या पहले के गैर-एआई इमेज जनरेशन टूल कर सकते थे या कर पाते थे। यह वास्तव में बहुत अच्छा है। तो यहां हमारे पास अब इस तरह का न्यूनतम है और अंत में,
00:30:22मुझे लगता है कि मेरा समय हो गया है,
00:30:25लेकिन आइए एक आखिरी चीज करें जो दिखाती है कि यह मॉडल कितना सामान्य है। हम स्टाइल ट्रांसफर भी कर सकते हैं,
00:30:35है ना?
00:30:36तो मान लीजिए कि इसे एक वॉटरकलर पेंटिंग बनाएं।
00:30:42ठीक है,
00:30:43अंतिम वाला। और इन मॉडलों से पहले,
00:30:46आपने शायद इन प्रत्येक प्रकार के कार्यों के लिए इस एकल फाइन ट्यून को प्रशिक्षित किया होगा और अब हम इसे एक ही चीज़ में जोड़ सकते हैं जो काफी बढ़िया है। बढ़िया। तो अब मैं इसे प्रिंट करके अपनी दीवार पर या कहीं और लटका सकता हूं। खैर,
00:31:05तो हाँ,
00:31:05मुझे लगता है कि यह इन मॉडलों की शक्ति दिखा रहा है। ओह,
00:31:10कुछ क्रैश हो गया। मैं आपको एक आखिरी स्लाइड दिखाना चाहता था क्योंकि मैं समाप्त कर चुका हूं,
00:31:17लेकिन हम भर्ती कर रहे हैं और यदि आप हमसे जुड़ना चाहते हैं,
00:31:22तो कृपया इसे यहां स्कैन करें या प्लेग्राउंड पर जाएं,
00:31:26जो डेमो मैंने अभी आपको दिखाया वह मुफ्त में उपलब्ध है। बहुत-बहुत धन्यवाद। मुझे उम्मीद है कि आपने कुछ सीखा होगा।

Key Takeaway

ब्लैक फ़ॉरेस्ट लैब्स का फ्लक्स कॉन्टेक्स्ट मॉडल मल्टी-मोडल जनरेटिव विजुअल एआई में एक महत्वपूर्ण प्रगति है, जो टेक्स्ट-टू-इमेज जनरेशन और एडिटिंग को एक तेज़, कुशल और बहुमुखी प्लेटफॉर्म में एकीकृत करता है।

Highlights

ब्लैक फ़ॉरेस्ट लैब्स ने फ्लक्स मॉडल परिवार विकसित किया है, जो टेक्स्ट-टू-इमेज जनरेशन और एडिटिंग को एकीकृत करता है, जिससे दृश्य मीडिया निर्माण में क्रांति आती है।

फ्लक्स कॉन्टेक्स्ट मॉडल जून 2025 में जारी किया गया था, जो चरित्र स्थिरता, स्टाइल संदर्भ और स्थानीय संपादन जैसी सुविधाओं के साथ वास्तविक समय के करीब इमेज एडिटिंग प्रदान करता है।

कंपनी तीन मॉडल स्तर प्रदान करती है: प्रो (सबसे तेज़, API के माध्यम से), देव (ओपन वेट्स, अनुकूलन योग्य, हगिंग फेस पर सबसे बड़ा इकोसिस्टम), और श्नेल (पूरी तरह से ओपन सोर्स)।

फ्लक्स मॉडल लेटेंट फ्लो मैचिंग एल्गोरिथम का उपयोग करके प्रशिक्षित किए जाते हैं, जो अवधारणात्मक रूप से प्रासंगिक जानकारी को कैप्चर करने के लिए एक निम्न-आयामी लेटेंट स्पेस का लाभ उठाता है।

एडवर्सरियल डिफ्यूजन डिस्टिलेशन (ADD) और लेटेंट एडवर्सरियल डिफ्यूजन डिस्टिलेशन (LADD) एल्गोरिदम के माध्यम से फ्लक्स मॉडल 10-20 गुना तेज़ हैं, जो संख्यात्मक एकीकरण चरणों को 50 से घटाकर 4 कर देते हैं।

फ्लक्स कॉन्टेक्स्ट व्यावसायिक समस्याओं को हल करने में उत्कृष्ट है, जैसे कि कुछ ही सेकंड में 'इन-द-वाइल्ड' छवियों से उत्पाद शॉट्स बनाना या स्केच से पूरी तरह से रेंडर किए गए आउटपुट प्राप्त करना।

डेमो ने फ्लक्स की बहुमुखी प्रतिभा को प्रदर्शित किया, जिसमें लोगो को टी-शर्ट पर लगाना, रंग बदलना, दृश्यों को बदलना और चरित्र स्थिरता बनाए रखते हुए स्टाइल ट्रांसफर करना शामिल था।

Timeline

ब्लैक फ़ॉरेस्ट लैब्स और फ्लक्स का परिचय

वक्ता, एंडी, ब्लैक फ़ॉरेस्ट लैब्स के सह-संस्थापक हैं और फ्लक्स मॉडल परिवार का परिचय देते हैं, जो छवियों को बनाने और संपादित करने के लिए डिज़ाइन किया गया है। कंपनी का मानना है कि दृश्य मीडिया भविष्य में मानव संचार का केंद्र होगा, और वे इस माध्यम को शक्ति प्रदान करने के लिए एक केंद्रीय इंफ्रास्ट्रक्चर प्रदाता के रूप में कार्य करते हैं। अगस्त 2024 में स्थापित, कंपनी जर्मनी और सैन फ्रांसिस्को में मुख्यालयों के साथ 45 कर्मचारियों तक बढ़ गई है। फ्लक्स मॉडल तीन स्तरों में संरचित हैं: प्रो (सबसे तेज़, API के माध्यम से), देव (ओपन वेट्स, अनुकूलन योग्य, हगिंग फेस पर सबसे बड़ा इकोसिस्टम), और श्नेल (पूरी तरह से ओपन सोर्स)। फ्लक्स देव मॉडल हगिंग फेस पर सबसे बड़ा एकल मॉडल है, जो ओपन इमेज जनरेशन के लिए एक मानक बन गया है।

फ्लक्स कॉन्टेक्स्ट: इमेज जनरेशन और एडिटिंग का एकीकरण

यह खंड फ्लक्स कॉन्टेक्स्ट मॉडल पर केंद्रित है, जिसे जून 2025 में जारी किया गया था, जो टेक्स्ट-टू-इमेज जनरेशन और एडिटिंग को एक साथ लाता है। वक्ता इमेज एडिटिंग के महत्व पर जोर देते हैं, जो मौजूदा छवियों पर पुनरावृति करने और सटीक संशोधन के लिए नियंत्रण प्रदान करता है। फ्लक्स कॉन्टेक्स्ट चरित्र स्थिरता, स्टाइल संदर्भ, स्थानीय संपादन और वास्तविक समय के करीब गति जैसी क्षमताओं को प्रदर्शित करता है। उदाहरणों में वस्तुओं को हटाना, चरित्र को सुसंगत रखते हुए संदर्भ बदलना, स्टाइल ट्रांसफर, टेक्स्ट एडिटिंग और 'इन-द-वाइल्ड' छवियों से उत्पाद शॉट्स या स्केच से रेंडर किए गए आउटपुट प्राप्त करना शामिल है। यह मॉडल महत्वपूर्ण व्यावसायिक समस्याओं को हल करता है, जिससे घंटों या दिनों का काम कुछ ही सेकंड में हो जाता है।

मॉडल पाइपलाइन: टेक्स्ट-टू-इमेज बनाम इमेज एडिटिंग

वक्ता टेक्स्ट-टू-इमेज जनरेशन और इमेज एडिटिंग के लिए अलग-अलग मॉडल पाइपलाइनों की व्याख्या करते हैं और उन्हें एक ही मॉडल में संयोजित करने के लाभों पर प्रकाश डालते हैं। क्लासिक टेक्स्ट-टू-इमेज पाइपलाइन में एक टेक्स्ट प्रॉम्प्ट का उपयोग करके एक छवि बनाना शामिल है। इमेज एडिटिंग पाइपलाइन एक इनपुट छवि और एक टेक्स्ट निर्देश लेती है जो छवि में एक विशिष्ट परिवर्तन का वर्णन करता है, जिससे मॉडल को तदनुसार संशोधित करने की अनुमति मिलती है। इन दोनों कार्यों को एक ही फ्लक्स कॉन्टेक्स्ट मॉडल में एकीकृत करने से बहुत अधिक लचीलापन मिलता है, जिससे उपयोगकर्ता पहले एक छवि बना सकते हैं और फिर उसे संपादित कर सकते हैं, जिससे अच्छे परिणाम प्राप्त करने के लिए आवश्यक समय काफी कम हो जाता है। यह एकीकरण नियंत्रण के स्तर को मॉडल में लाने के लिए टेक्स्ट-टू-इमेज मॉडल को फाइन-ट्यून करने की पिछली आवश्यकता को समाप्त करता है।

लेटेंट फ्लो मैचिंग के साथ मॉडल प्रशिक्षण

यह खंड बताता है कि फ्लक्स मॉडल को लेटेंट फ्लो मैचिंग नामक एक महत्वपूर्ण एल्गोरिथम का उपयोग करके कैसे प्रशिक्षित किया जाता है। वक्ता पहले लेटेंट जनरेटिव मॉडलिंग की अवधारणा का परिचय देते हैं, यह बताते हुए कि छवियों में बहुत सारी जानकारी होती है जिसे मानवीय आंख नहीं देख सकती (जैसे JPEG बनाम PNG)। इसलिए, मॉडल को सीधे पिक्सेल स्पेस में प्रशिक्षित करने के बजाय, एक ऑटोएन्कोडर का उपयोग एक निम्न-आयामी 'लेटेंट स्पेस' निकालने के लिए किया जाता है जो केवल अवधारणात्मक रूप से प्रासंगिक विवरणों को कैप्चर करता है। इसके बाद फ्लो मैचिंग एल्गोरिथम आता है, जो एक न्यूरल नेटवर्क को एक साधारण मानक सामान्य वितरण से प्राकृतिक छवियों के जटिल डेटा वितरण तक मैप करने के लिए प्रशिक्षित करता है। प्रशिक्षण में मानक सामान्य से नमूने लेना, उन्हें डेटा नमूनों को असाइन करना और एक वेक्टर क्षेत्र बनाना शामिल है, जिसे टेक्स्ट इनपुट पर कंडीशन किया जाता है। हालांकि, मानक फ्लो मैचिंग मॉडल कई संख्यात्मक एकीकरण चरणों के कारण धीमे होते हैं, जिसमें एक छवि बनाने में 30-60 सेकंड लगते हैं।

एडवर्सरियल डिफ्यूजन डिस्टिलेशन (ADD) के साथ गति बढ़ाना

वक्ता बताते हैं कि फ्लक्स मॉडल एडवर्सरियल डिफ्यूजन डिस्टिलेशन (ADD) एल्गोरिथम का उपयोग करके 10-20 गुना तेज़ कैसे होते हैं, जिसका लक्ष्य संख्यात्मक एकीकरण चरणों को 50 से घटाकर 4 करना है। मूल ADD दृष्टिकोण में एक शिक्षक (50 चरण) और एक छात्र (4 चरण) नेटवर्क को प्रशिक्षित करना शामिल था, जिसमें छात्र को शिक्षक के समान गुणवत्ता प्राप्त करने के लिए प्रशिक्षित किया गया था, जिसमें डिस्टिलेशन और डिस्क्रिमिनेटर लॉस का उपयोग किया गया था। हालांकि, इसमें पिक्सेल और लेटेंट स्पेस के बीच कई एन्कोडिंग/डिकोडिंग के कारण महत्वपूर्ण ओवरहेड और मेमोरी लागत थी। इस समस्या को हल करने के लिए, उन्होंने लेटेंट एडवर्सरियल डिफ्यूजन डिस्टिलेशन (LADD) विकसित किया, जो सब कुछ लेटेंट स्पेस में ले जाता है, अनावश्यक एन्कोडर और डिकोडर को हटाता है, और शिक्षक मॉडल को डिस्क्रिमिनेटर के रूप में उपयोग करता है। यह सरलीकरण एक बहुत ही मेमोरी-कुशल तरीके से 12.5 गुना गति वृद्धि प्राप्त करता है, जिससे फ्लक्स मॉडल की प्रभावशाली गति संभव हो पाती है।

फ्लक्स का लाइव डेमो और व्यावसायिक मूल्य

वक्ता फ्लक्स की क्षमताओं को प्रदर्शित करने के लिए एक लाइव डेमो प्रस्तुत करते हैं, जिसमें इमेज एडिटिंग पर ध्यान केंद्रित किया गया है। डेमो में एससी फ्रीबर्ग सॉकर क्लब के लोगो को टी-शर्ट पर लगाना, लोगो का आकार बदलना और टी-शर्ट का रंग लाल करना शामिल है, यह सब चरित्र स्थिरता बनाए रखते हुए किया जाता है। इसके बाद एक अधिक जटिल परिवर्तन दिखाया गया, जिसमें टी-शर्ट को पार्क में टहलते हुए एक आदमी पर लगाना शामिल था, जो मॉडल की जटिल दृश्यों को बदलने की क्षमता को उजागर करता है। अंत में, वक्ता ने स्टाइल ट्रांसफर का प्रदर्शन किया, छवि को वॉटरकलर पेंटिंग में बदल दिया। यह डेमो फ्लक्स की बहुमुखी प्रतिभा और सामान्यता को दर्शाता है, जो विभिन्न संपादन और जनरेशन कार्यों को एक ही मॉडल में जोड़ता है, जिससे विपणक और व्यवसायों के लिए महत्वपूर्ण व्यावसायिक मूल्य मिलता है। वक्ता ने भर्ती के अवसरों और मुफ्त में उपलब्ध प्लेग्राउंड डेमो का भी उल्लेख किया।

Community Posts

View all posts