Claude Code + RAG-Anything = असीमित

CChase AI
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00लगभग हर RAG सिस्टम एक ही समस्या से जूझता है।
00:00:04वे केवल टेक्स्ट दस्तावेज़ों को ही संभाल सकते हैं।
00:00:06इसलिए यदि आप इसे इमेज, चार्ट, ग्राफ़ या कुछ भी देने की कोशिश करते हैं,
00:00:10तो अधिकांश RAG सिस्टम इसे संभाल नहीं पाते।
00:00:12और जब मैंने कल आपको Light RAG दिखाया था,
00:00:13तो उसमें भी बिल्कुल यही समस्या थी।
00:00:16लेकिन आज मैं आपको इसका समाधान दिखाने जा रहा हूँ।
00:00:19और वह समाधान है "RAG anything"।
00:00:20RAG anything हमारे लिए दस्तावेज़ों की इस समस्या को हल करता है।
00:00:23यह इमेज को संभाल सकता है।
00:00:24यह चार्ट्स को संभाल सकता है।
00:00:25यह ग्राफ्स को भी संभाल सकता है।
00:00:25और यह हमें एक ऐसा RAG सिस्टम बनाने की अनुमति देता है
00:00:28जो वास्तव में उन दस्तावेज़ों पर काम करता है जिनका आप उपयोग करते हैं।
00:00:31RAG anything उसी टीम द्वारा बनाया गया है जिसने Light RAG बनाया था।
00:00:34यह सीधे उसी Light RAG सिस्टम से जुड़ जाता है
00:00:36जो हमने कल बनाया था।
00:00:37इसलिए इसे अपने स्टैक में शामिल करना बहुत आसान है।
00:00:40तो आज मैं आपको दिखाऊँगा कि इसे कैसे सेटअप करना है
00:00:43और यह पर्दे के पीछे कैसे काम करता है।
00:00:44ताकि आप सबसे शक्तिशाली RAG सिस्टम्स में से
00:00:46एक का उपयोग करना शुरू कर सकें।
00:00:48अगर शुरुआत से यह स्पष्ट नहीं था,
00:00:50तो मैं मानकर चल रहा हूँ कि आपने पहले ही
00:00:52कल का Light RAG वीडियो देख लिया है।
00:00:54अगर आपने नहीं देखा है, तो मैं ऊपर एक लिंक दे दूँगा,
00:00:56क्योंकि आज मैं मान रहा हूँ कि आपने पहले ही
00:00:58अपना Light RAG सर्वर सेटअप कर लिया है।
00:00:59आप समझते हैं कि RAG कैसे काम करता है और आप
00:01:02नॉलेज ग्राफ़ की इस पूरी अवधारणा को समझते हैं।
00:01:03क्योंकि RAG anything अनिवार्य रूप से Light RAG के ऊपर
00:01:06एक रैपर की तरह काम करने वाला है।
00:01:07हमारे पास अभी भी वही Light RAG वेब UI होगा
00:01:10कुछ अंतरों के साथ,
00:01:11लेकिन RAG anything में जो कुछ भी डाला जाएगा,
00:01:13मतलब ये बिना टेक्स्ट वाले दस्तावेज़,
00:01:15वे अंततः उसी नॉलेज ग्राफ़ में पहुँच जाएँगे।
00:01:17हम इससे वही प्रश्न पूछेंगे।
00:01:19हम इसे क्वेरी करने के लिए उसी API का उपयोग करेंगे
00:01:22जो हमने कल Claude code के माध्यम से किया था।
00:01:24और आज हम जो कार्यक्षमता जोड़ने जा रहे हैं
00:01:26वह काफी महत्वपूर्ण है।
00:01:28एक ऐसा RAG सिस्टम बनाना पर्याप्त नहीं है जो विशुद्ध रूप से टेक्स्ट पर आधारित हो।
00:01:30हम ऐसी दुनिया में नहीं रहते जो पूरी तरह से टेक्स्ट वाली हो।
00:01:32आप में से कितनों को ऐसा PDF दस्तावेज़ मिला है
00:01:34जो तकनीकी रूप से टेक्स्ट भी नहीं है, वह सिर्फ स्कैन किया हुआ है।
00:01:36Light RAG इसे वास्तव में संभाल नहीं सकता, लेकिन RAG anything कर सकता है।
00:01:39अब हम आज थोड़े तकनीकी पहलुओं पर बात करेंगे।
00:01:40हम इसकी गहराई में जाएँगे और मैं विस्तार से समझाऊँगा
00:01:43कि यह पूरा सिस्टम कैसे काम करता है।
00:01:44लेकिन बड़े स्तर पर, यह क्या कर रहा है?
00:01:46RAG anything बस उन दस्तावेज़ों को देख रहा है
00:01:49जो टेक्स्ट नहीं हैं।
00:01:50यह मूल रूप से वही करता है जो Light RAG करता है,
00:01:52बस इन बिना टेक्स्ट वाले दस्तावेज़ों के साथ।
00:01:55और अपना खुद का नॉलेज ग्राफ़
00:01:56और अपना खुद का वेक्टर डेटाबेस बनाने के बाद,
00:01:58यह इसे Light RAG वाले डेटाबेस के साथ मिला देता है,
00:02:00जिससे अंत में सब कुछ एक ही साफ़-सुथरी,
00:02:04छोटी जगह पर आ जाता है ताकि हम उसके बारे में सवाल पूछ सकें।
00:02:06अब, RAG anything की एकमात्र कमी यह है
00:02:08कि यह थोड़ा भारी है।
00:02:09हमें कुछ मॉडल डाउनलोड करने होंगे जो हमारे कंप्यूटर पर रहेंगे
00:02:12ताकि इन बिना टेक्स्ट वाले दस्तावेज़ों को पार्स करने में मदद मिल सके।
00:02:14और जब बिना टेक्स्ट वाले दस्तावेज़ों को लोड करने की बात आती है,
00:02:18तो हम इसे सीधे Light RAG UI के माध्यम से नहीं कर सकते।
00:02:22हमें एक स्क्रिप्ट का उपयोग करना होगा।
00:02:23सौभाग्य से, यहीं Claude code काम आता है।
00:02:25तो आपके लिए, यानी यूज़र के लिए, यह सब सेटअप करने के बाद,
00:02:28बिना टेक्स्ट वाले दस्तावेज़ों को लोड करने के लिए बस
00:02:31Claude code को कहना होगा, "अरे, जाओ और
00:02:33RAG anything स्किल का उपयोग करके इस दस्तावेज़ को लोड करो।"
00:02:36यह इतना सरल है।
00:02:37और आप सवाल भी उसी तरह पूछते हैं जैसे पहले पूछते थे।
00:02:39तो वास्तव में यह उतना बुरा नहीं है।
00:02:40और फिर से, आपको यह सारी कार्यक्षमता सिर्फ इतना करने से मिल जाती है।
00:02:43अब, RAG anything वास्तव में कैसे काम करता है, इस पर जाने से पहले,
00:02:46मैं बस अपनी Claude code मास्टरक्लास का प्रचार करना चाहता हूँ
00:02:49जो कुछ ही हफ़्ते पहले आई है,
00:02:50और यह शून्य से AI डेवलपर बनने के लिए सबसे अच्छी जगह है,
00:02:53खासकर यदि आप तकनीकी पृष्ठभूमि से नहीं हैं।
00:02:55मैं इसे सचमुच हर हफ़्ते अपडेट करता हूँ।
00:02:57कल एक नया अपडेट आने वाला है।
00:02:59तो यदि आप कोई ऐसे व्यक्ति हैं जो वास्तव में
00:03:01Claude code में महारत हासिल करना चाहते हैं और नहीं जानते कि कहाँ से शुरू करें,
00:03:03तो यह आपके लिए ही है।
00:03:05इसका लिंक कमेंट्स में दिया गया है।
00:03:07यह Chase AI Plus के अंदर है।
00:03:09मेरे पास मुफ़्त Chase AI कम्युनिटी भी है।
00:03:11यदि यह सब आपके लिए बहुत अधिक है,
00:03:12और आप अभी बस शुरुआत कर रहे हैं।
00:03:14उसका लिंक विवरण (description) में है।
00:03:15वहीं आपको वे प्रॉम्प्ट्स और स्किल्स भी मिलेंगे
00:03:19जिनके बारे में मैं आज बात करने जा रहा हूँ।
00:03:20तो चाहे जो भी हो, उसे ज़रूर देखें।
00:03:22अब चलिए RAG anything के बारे में बात करते हैं
00:03:23कि यह चीज़ वास्तव में कैसे काम करती है।
00:03:25सच कहूँ तो, यह काफी सरल और स्व-व्याख्यात्मक है।
00:03:28तो आपका समय बर्बाद न करते हुए,
00:03:29मैं बस 10 सेकंड के लिए इस इमेज को स्क्रीन पर रखूँगा,
00:03:32और फिर हम अगली चीज़ पर बढ़ेंगे।
00:03:34ठीक है, बहुत बढ़िया।
00:03:39चलिए, आगे बढ़ते हैं।
00:03:41मैं बस मज़ाक कर रहा था।
00:03:42वास्तव में इसमें काफी कुछ चल रहा है।
00:03:44यह इमेज इसे वास्तव में जितना है उससे कहीं अधिक भ्रमित करने वाला बनाती है।
00:03:46और अगर आप समझ गए कि हमने दूसरे दिन Light RAG के साथ क्या किया था,
00:03:50उस पूरी बातचीत को याद करें, तो आप समझ जाएँगे।
00:03:52RAG anything भी इसी तरह काम करता है,
00:03:55बस कुछ अतिरिक्त स्टेप्स के साथ।
00:03:56और मैं इसे विस्तार से बताना चाहता हूँ,
00:03:57क्योंकि मुझे लगता है कि यह समझना महत्वपूर्ण है
00:03:58कि ये चीज़ें कैसे काम करती हैं।
00:04:00मुझे लगता है कि सामान्य रूप से AI में,
00:04:01पूरी तरह से व्यावहारिक फोकस होना आसान है।
00:04:04जैसे कि Chase, मैं बस यह जानना चाहता हूँ कि इसे कैसे इंस्टॉल करें
00:04:05और फिर इसका उपयोग कैसे करें।
00:04:06वह ठीक है, अगर आप ऐसे ही हैं तो आप आगे बढ़ सकते हैं।
00:04:08लेकिन मुझे लगता है कि यदि आप एक अधिक परिपक्व AI डेवलपर बनना चाहते हैं
00:04:11और आप खुद को उस
00:04:13मैकेनिकल काम करने वाले से अलग करना चाहते हैं जिसे कोई भी बदल सकता है,
00:04:15जो बस स्वीकार करता जाता है और कॉपी करता है,
00:04:17प्रॉम्प्ट्स और स्किल्स का इस्तेमाल करता है,
00:04:18तो मुझे लगता है कि आर्किटेक्चर की थोड़ी
00:04:21समझ होना महत्वपूर्ण है,
00:04:22क्योंकि यही आपको
00:04:23अन्य लोगों से अलग करेगा।
00:04:24और न केवल इस बात में कि आप इस RAG सिस्टम का उपयोग कैसे कर सकते हैं,
00:04:27बल्कि उच्च स्तरीय, बड़े प्रोजेक्ट्स में भी, है न?
00:04:30इसी तरह से आप अपनी खुद की स्किल्स बनाना शुरू करते हैं,
00:04:34जैसे कि वास्तव में इन चीज़ों में माहिर बनना।
00:04:35तो चलिए इसके बारे में बात करते हैं।
00:04:37तो, RAG anything।
00:04:38चलिए समस्या के बारे में बात करते हैं, ठीक है?
00:04:40समस्या यह है कि मेरे पास एक PDF है जो एक स्कैन की गई PDF है
00:04:44और वह वास्तव में टेक्स्ट नहीं है,
00:04:45और फिर भी मुझे इसे अपने RAG सिस्टम में डालना है।
00:04:46Light RAG इसे संभाल नहीं सकता।
00:04:48तो यहाँ आता है RAG anything, ठीक है?
00:04:51इसमें वह कूल लामा है जिसने चश्मा पहना है।
00:04:53तो पहली चीज़ जो होती है
00:04:56वह यह है कि मैं इस दस्तावेज़ को RAG anything में लोड करने जा रहा हूँ।
00:05:00और पहली चीज़ जो यह करेगा
00:05:02वह यह कि यह Minor U नामक प्रोग्राम का उपयोग करेगा,
00:05:05जो आपके कंप्यूटर पर पूरी तरह से स्थानीय रूप से और मुफ़्त में चलता है।
00:05:08और यह अनिवार्य रूप से इस दस्तावेज़ को
00:05:11इसके अलग-अलग हिस्सों में तोड़ देगा।
00:05:12Minor U एक ओपन सोर्स प्रोजेक्ट है।
00:05:14फिर से, यह मूल रूप से एक दस्तावेज़ पार्सर है
00:05:16जिसमें कई छोटे विशेष मॉडल शामिल हैं।
00:05:19आपको बस यह जानने की ज़रूरत है कि यदि आप इससे डर रहे हैं,
00:05:21तो यह ओपन सोर्स है।
00:05:22मैं नीचे एक लिंक दे दूँगा।
00:05:23और फिर से, यही वह चीज़ है जो चलने वाली है
00:05:25और आज हमारे लिए अधिकांश काम करने वाली है।
00:05:26तो Minor U इस दस्तावेज़ को देख रहा है और कहता है,
00:05:29"ठीक है, यह एक हेडर है।"
00:05:32यह हेडर के चारों ओर एक बॉक्स बनाता है।
00:05:33यह कहता है, "यह टेक्स्ट है।"
00:05:36यह कहता है, "यह एक चार्ट है।"
00:05:39यह कहता है, "यह बार ग्राफ़ की एक इमेज है।"
00:05:41और यह कहता है, "यह लेटेक्स (latex) में लिखी गई एक समीकरण है।"
00:05:44इसने क्या किया है कि इसने दस्तावेज़ को देखा है
00:05:47और इसे इसके विशेष हिस्सों में तोड़ दिया है, ठीक है?
00:05:50Minor U यह नहीं समझता कि यहाँ अंदर क्या है।
00:05:52Minor U टेक्स्ट को नहीं पढ़ रहा है।
00:05:53इसे टेक्स्ट समझ नहीं आता।
00:05:55यह नहीं समझता कि चार्ट किस बारे में है।
00:05:56यह सिर्फ चार्ट, टेक्स्ट और इमेज को पहचानता है, ठीक है?
00:06:01वहाँ से, यह इन हिस्सों को
00:06:05अलग-अलग विशेष मॉडलों को भेजने वाला है जो Minor U का हिस्सा हैं।
00:06:10तो यह सब आपके लिए अदृश्य है।
00:06:12यह सब पर्दे के पीछे अपने आप हो रहा है।
00:06:15तो उन मॉडलों में से एक को 'Paddle OCR' कहा जाता है।
00:06:20वही टेक्स्ट को देखने वाला है।
00:06:21तो Minor U आपके कंप्यूटर पर इस टेक्स्ट ब्लॉक को Paddle OCR को भेज रहा है
00:06:24और यह टेक्स्ट को बाहर निकाल लेगा, ठीक है?
00:06:28तो अब स्कैन किया हुआ टेक्स्ट होने के बजाय,
00:06:30यह वास्तविक टेक्स्ट है जिसे पढ़ा जा सकता है: 'कंपनी X ने मजबूत Q3 23 की रिपोर्ट दी'।
00:06:34'राजस्व वृद्धि के साथ परिणाम, इत्यादि, इत्यादि'।
00:06:36ठीक है? इसी तरह इस टेक्स्ट के लिए भी।
00:06:40चार्ट के लिए भी यही बात है, है ना?
00:06:41यह इसे टेक्स्ट में भी बदल देगा, ठीक है?
00:06:43ऐसी चीज़ जिसे एक LLM संभाल सके।
00:06:45लेटेक्स समीकरणों के साथ भी यही बात है।
00:06:47इसके पास एक पूरा मॉडल है जो उसे संभालता है, है ना?
00:06:48यह अब लेटेक्स नहीं रह गया है, यह वास्तव में टेक्स्ट है।
00:06:52सिवाय इमेजेस के।
00:06:54तो चाहे यह बार चार्ट हो या बस,
00:06:57यह वास्तव में ऐसी कोई भी चीज़ है जिसे यह टेक्स्ट में नहीं बदल सकता।
00:07:00उसके बजाय यह क्या करेगा
00:07:01कि यह उसका एक स्क्रीनशॉट लेगा,
00:07:03और यह महत्वपूर्ण है, ठीक है?
00:07:05तो अब यह एक स्क्रीनशॉट है।
00:07:07यह एक इमेज है, स्क्रीनशॉट है। मुझे यह पसंद आया।
00:07:11तो हमारे पास क्या है?
00:07:13हमने एक बिना टेक्स्ट वाला दस्तावेज़ डाला।
00:07:16इसे इसके अलग-अलग हिस्सों में पहचाना गया है,
00:07:18और हमने उन हिस्सों को लिया है
00:07:20और उन्हें दो श्रेणियों में बाँट दिया है, ठीक है?
00:07:22हमारे पास टेक्स्ट बकेट है और हमारे पास इमेज बकेट है।
00:07:26इसे समझना महत्वपूर्ण है।
00:07:28इसके दो रास्ते हो सकते हैं, इमेज या टेक्स्ट।
00:07:31ठीक है, आप मेरे साथ हैं?
00:07:32तो अब यह जो करने जा रहा है
00:07:34वह यह है कि हमने इन इंटरनल मॉडल्स का उपयोग करना पूरा कर लिया है।
00:07:36अब हमें बड़े खिलाड़ियों को लाने की जरूरत है।
00:07:37अब हमें GPT 5.4 Mini जैसा कुछ लाने की जरूरत है।
00:07:40ध्यान दें, ऐसा होना हमेशा जरूरी नहीं है।
00:07:42अगर आप चाहें तो इसे पूरी तरह से लोकल रख सकते हैं।
00:07:44आप Ollama जैसा कुछ कर सकते हैं।
00:07:45तो अब मैं टेक्स्ट बकेट लेता हूँ और इसे GPT 5.4 Mini पर भेजता हूँ।
00:07:50और मैं एक प्रॉम्प्ट शामिल करता हूँ जो कहता है,
00:07:52मैं चाहता हूँ कि आप इस टेक्स्ट को दो चीजों के लिए अलग करें।
00:07:55मैं चाहता हूँ कि आप उस टेक्स्ट को लें
00:07:57और इसे एंटिटीज और रिलेशनशिप्स में तोड़ दें।
00:08:01एंटिटीज और रिलेशनशिप्स याद हैं?
00:08:03हमारा नॉलेज ग्राफ याद है?
00:08:05एंटिटी, एंटिटी, और उनके बीच का संबंध।
00:08:09ठीक है, और मैं चाहता हूँ कि आप इसे तोड़ें
00:08:13उन चीजों में जो वेक्टर डेटाबेस के लिए एम्बेडिंग्स बनेंगी।
00:08:17तो एम्बेडिंग्स, एम्बेड,
00:08:21और फिर मैं बस एंटिटीज प्लस रिलेशनशिप्स कहूँगा।
00:08:26अब, आगे की सोचते हुए, वहां क्या होने वाला है?
00:08:29ठीक है, एम्बेडिंग्स एक वेक्टर डेटाबेस में
00:08:32एम्बेडिंग्स बन जाएंगी और एंटिटीज और रिलेशनशिप्स
00:08:35एक नॉलेज ग्राफ बन जाएंगे,
00:08:37बिल्कुल वैसा ही जैसा हमने LightRag के साथ किया था, है ना?
00:08:39वही चीज़, वही चीज़, सिवाय इसके कि अब,
00:08:42अब यह टेक्स्ट बकेट से है।
00:08:44लेकिन उन इमेजेस का क्या जो हमारे पास थीं, है ना?
00:08:47हम इनके साथ क्या करने वाले हैं?
00:08:48वही चीज़, इसे भी 5.4 पर भेजा जाएगा,
00:08:52लेकिन यह एक स्क्रीनशॉट के रूप में, एक OCR के रूप में होगा।
00:08:55तो हम GPT 5.4 को बता रहे हैं, इस स्क्रीनशॉट को देखो
00:08:59और इसे दो चीजों में तोड़ दो, ठीक है?
00:09:02एम्बेडिंग्स और साथ ही एंटिटीज प्लस रिलेशनशिप्स।
00:09:06अब, हम ऐसा क्यों करते हैं?
00:09:07हम इसे उसी प्रॉम्प्ट में क्यों नहीं डाल देते
00:09:09और इस पूरी चीज़ का OCR क्यों नहीं कर लेते, है ना?
00:09:12हम इस पूरी चीज़ को एक स्क्रीनशॉट की तरह क्यों नहीं मानते?
00:09:14क्योंकि यह महंगा और धीमा है।
00:09:16RAG-anything ने जो करने का फैसला किया,
00:09:17और मुझे लगता है कि यह काफी स्मार्ट है,
00:09:19वह यह है कि यह आपके कंप्यूटर पर लोकल लेवल पर इसे बारीकी से काटता है,
00:09:21इसे टेक्स्ट में अलग करता है,
00:09:24इसे स्क्रीनशॉट में अलग करता है।
00:09:25तो जब हम इन दो रास्तों से गुजरते हैं,
00:09:27तो आप बहुत सारा पैसा और समय बचा रहे होते हैं।
00:09:29क्योंकि कल्पना कीजिए कि आप ChatGPT से
00:09:3110,000 स्क्रीनशॉट दिखवा रहे हैं और फिर सारा टेक्स्ट अलग करवा रहे हैं
00:09:34और उस टेक्स्ट से एम्बेडिंग्स
00:09:36और एंटिटीज और रिलेशनशिप्स अलग करवा रहे हैं।
00:09:37इसमें बहुत समय और पैसा लगता है।
00:09:38यह तरीका स्मार्ट है।
00:09:40तो इमेज की तरफ से भी एंटिटीज और रिलेशनशिप्स,
00:09:44बिल्कुल वही चीज़।
00:09:45इसे भी एक वेक्टर डेटाबेस मिलता है
00:09:49और इसे भी एक नॉलेज ग्राफ मिलता है।
00:09:52तो इसका क्या मतलब है?
00:09:53इसका मतलब है कि एक डॉक्यूमेंट से,
00:09:55हमने अब चार तरह की चीजें बना ली हैं, ठीक है?
00:09:59हमारे पास दो वेक्टर डेटाबेस हैं
00:10:02और हमारे पास दो नॉलेज ग्राफ हैं
00:10:04हमारे सिंगल नॉन-टेक्स्ट डॉक्यूमेंट से।
00:10:08आप मेरे साथ हैं?
00:10:09अब, हमें क्या करना है?
00:10:10ठीक है, यह बिल्कुल स्पष्ट है।
00:10:11हमें इन्हें मर्ज (मिलाना) करने की जरूरत है।
00:10:12तो यह इन चार चीजों को लेगा
00:10:15और उन्हें एक साथ जोड़ देगा, ठीक है?
00:10:18वे लगभग एक-दूसरे के ऊपर आ जाएंगे।
00:10:19यह उन्हें मुख्य रूप से एंटिटीज के आधार पर मैच करेगा।
00:10:22और अंत में आपको मिलेगा,
00:10:27एक वेक्टर डेटाबेस और एक नॉलेज ग्राफ।
00:10:31लगभग वही चीज़
00:10:32जो हमने यहाँ ऊपर light rag के साथ की थी।
00:10:34काफी सरल है।
00:10:35अगर हम सिर्फ rag anything का उपयोग कर रहे होते,
00:10:38तो यह बस इसकी सीमा होती।
00:10:40हालाँकि, याद रखें कि हम rag anything को
00:10:44light rag के ऊपर रखने की कोशिश कर रहे हैं।
00:10:46मुझे light rag की पूरी शक्ति चाहिए
00:10:48और मुझे rag anything की भी पूरी शक्ति चाहिए।
00:10:50तो अब क्या होता है?
00:10:52ठीक है, जो होता है वह वही है जो आपने अभी देखा।
00:10:54तो चलिए इसे थोड़ा नीचे लाते हैं।
00:10:55तो अब हमारे पास अपना rag anything सेट है
00:11:00एक वेक्टर डेटाबेस और एक नॉलेज ग्राफ के साथ
00:11:05और हमारे पास अपना light rag सेट है।
00:11:06तो हम क्या करते हैं?
00:11:07हम बस उन दोनों को मर्ज कर देते हैं।
00:11:09तो फिर जो होता है वह यह है कि हमें rag everything
00:11:13और light rag का कॉम्बिनेशन मिलता है,
00:11:15जो अंततः हमें एक वेक्टर डेटाबेस देता है
00:11:20और एक नॉलेज ग्राफ देता है।
00:11:21और वहां से, यह बिल्कुल वैसा ही है जैसा पहले था
00:11:24सिर्फ light rag के साथ, है ना?
00:11:27आप किसी भी चीज़ के बारे में सवाल पूछते हैं,
00:11:31वह सवाल यहाँ ऊपर एक वेक्टर में बदल जाता है।
00:11:33यह संबंधित वेक्टर्स को खींचता है
00:11:35और फिर यह यहाँ नीचे भी जाता है,
00:11:37सही एंटिटी ढूँढता है
00:11:39और फिर देखता है कि पास में क्या है, ठीक है?
00:11:43शायद यह थोड़ा भ्रमित करने वाला था।
00:11:44मुझे उम्मीद है कि मैंने इसे ठीक से समझाया है।
00:11:46आपको और अधिक भ्रमित करने के लिए संक्षेप में बताता हूँ।
00:11:51क्या होता है जब मैं ऐसा डॉक्यूमेंट जोड़ता हूँ जो टेक्स्ट नहीं हो सकता?
00:11:54यह rag anything में जाता है।
00:11:56Rag anything जितना हो सके टेक्स्ट को अलग करता है
00:11:58और फिर जितना हो सके इमेजेस को भी अलग करता है।
00:12:00यह उन दोनों को Chat GPT
00:12:02या जो भी AI सिस्टम आप चाहें, उस पर भेजता है।
00:12:05यह उसे एम्बेडिंग्स,
00:12:07एंटिटीज और रिलेशनशिप्स में तोड़ देता है।
00:12:09वे नॉलेज ग्राफ और वेक्टर डेटाबेस में बदल जाते हैं।
00:12:13फिर हम उन्हें एक साथ मर्ज करते हैं।
00:12:15अब हमारे पास rag anything के लिए एक वेक्टर डेटाबेस
00:12:17और एक नॉलेज ग्राफ है।
00:12:19और चूंकि हम इसे पहले से ही light rag में चला रहे हैं,
00:12:22या यदि आपने इसके ऊपर कोई और डॉक्यूमेंट जोड़े हैं,
00:12:24तो आपके पास एक मौजूदा वेक्टर डेटाबेस
00:12:27और एक मौजूदा नॉलेज ग्राफ है।
00:12:29उसे हल करने के लिए, हम बस उन्हें मर्ज कर देते हैं।
00:12:32और अंत में, आपको बिल्कुल भी पता नहीं चलेगा।
00:12:35फिर से, यूजर के तौर पर, यह सब आपके लिए अदृश्य है, ठीक है?
00:12:39इनमें से कोई भी चीज़ आपके लिए वास्तव में मायने नहीं रखती।
00:12:41एकमात्र चीज़ जो आपके लिए मायने रख सकती है
00:12:42वह यह है कि यहाँ GPT 5.4 के साथ क्या हो रहा है
00:12:45क्योंकि इसमें आपके कुछ पैसे खर्च होंगे।
00:12:47लेकिन शैक्षिक उद्देश्यों के लिए,
00:12:50यही तरीका है जिससे rag anything सिस्टम
00:12:53light rag सिस्टम के साथ एकीकृत (integrate) होता है।
00:12:55और अंत में,
00:12:57इसका मतलब यह है कि आपके पास एक ऐसा RAG सिस्टम है
00:12:58जो नॉन-टेक्स्ट डॉक्यूमेंट्स को संभाल सकता है।
00:13:00और अगर आप इस सब के बाद भी यहाँ बने हुए हैं,
00:13:03तो अब हम इस बारे में बात कर सकते हैं कि आप वास्तव में इसे कैसे इंस्टॉल करते हैं
00:13:07और इसका उपयोग करते हैं।
00:13:08तो अब चलिए इंस्टाल
00:13:09और वास्तव में इसका उपयोग कैसे करना है,
00:13:10और कुछ चीजों के बारे में बात करते हैं जिनका आपको ध्यान रखना होगा।
00:13:11तो मैंने एक वन-शॉट प्रॉम्प्ट बनाया है जिसे आप Claude Code को दे सकते हैं
00:13:14जो आपके लिए सब कुछ इंस्टॉल कर देगा
00:13:17और उचित मॉडल्स आदि को अपडेट कर देगा।
00:13:19आपको बस यह सुनिश्चित करना है
00:13:20कि जब आप इसे चलाएं तो आप अपनी light rag डायरेक्टरी में हों।
00:13:23तो वास्तव में यह तीन चीजें करने जा रहा है।
00:13:25सबसे पहले, यह सुनिश्चित करेगा
00:13:27कि हम उस सही स्टोरेज पाथ को अपडेट करें
00:13:29चूंकि आपके पास पहले से ही एक Docker light rag इंस्टेंस चल रहा है।
00:13:32दो, हम मॉडल को अपडेट करना चाहते हैं
00:13:33क्योंकि GitHub के आधार पर,
00:13:34इसे मूल रूप से कुछ समय पहले बनाया गया था।
00:13:37तो सभी उदाहरण स्क्रिप्ट और वह सब
00:13:39GPT 4.0 mini जैसी चीजों का उपयोग करते हैं।
00:13:41तो मैंने इसे 5.4 nano पर रखा है।
00:13:43समझें कि आप चाहें तो इसे बदल सकते हैं।
00:13:45लेकिन मैंने इसे 5.4 nano का उपयोग करने दिया और साथ ही टेक्स्ट
00:13:48एम्बेडिंग थ्री लार्ज को रखा ताकि हम हर चीज़ के लिए open AI
00:13:51का उपयोग कर सकें।
00:13:51यह चीजों को सरल रखता है, अपनी इच्छानुसार इसके साथ प्रयोग करें।
00:13:54अंत में, चूंकि हम rag anything का उपयोग कर रहे हैं
00:13:55अनिवार्य रूप से light rag के ऊपर एक रैपर के रूप में,
00:13:58GitHub रेपो में दी गई कुछ उदाहरण स्क्रिप्ट्स
00:14:02थोड़ी गलत हैं।
00:14:03तो इसमें यह एम्बेडिंग डबल रैप बग जैसा कुछ है,
00:14:05जिसे फिर से, हम बस Claude code को ठीक करने के लिए कहते हैं
00:14:08और वह इसे ठीक कर देगा।
00:14:09तो आप बस इस प्रॉम्प्ट का उपयोग करने जा रहे हैं।
00:14:12फिर से, यह फ्री स्कूल कम्युनिटी के अंदर है।
00:14:14लिंक डिस्क्रिप्शन में है।
00:14:15बस rag anything खोजें और आपको यह वहां मिल जाएगा।
00:14:18और एक बार जब आप वह प्रॉम्प्ट चला लेते हैं,
00:14:19तो यह सब कुछ डाउनलोड करना शुरू कर देगा
00:14:21और समझें कि यह थोड़ा भारी है
00:14:22क्योंकि इसे minor you
00:14:23और उन सभी डिपेंडेंसीज को भी डाउनलोड करने की आवश्यकता है।
00:14:25अब चलिए डॉक्यूमेंट्स इंजेस्ट करने (शामिल करने) के बारे में बात करते हैं
00:14:26क्योंकि यह काफी कष्टदायक और परेशानी भरा काम है।
00:14:28एक आदर्श दुनिया में, light rag प्लस rag anything की स्थिति
00:14:33बहुत सुव्यवस्थित होती और मैं
00:14:35जो कुछ भी चाहता उसे light rag slash rag anything में
00:14:40एक ही इंटरफेस के माध्यम से डाल सकता था।
00:14:41मैं UI में जा सकता था, अपलोड पर जा सकता था
00:14:44और मैं ऐसा कर सकता था।
00:14:45light rag के साथ rag anything में आप वास्तव में ऐसा नहीं कर सकते।
00:14:48आप अभी भी टेक्स्ट डॉक्यूमेंट्स के लिए ऐसा कर सकते हैं।
00:14:50तो आप अभी भी वही सामान्य वर्कफ़्लो अपना सकते हैं
00:14:52जो मैंने पिछले वीडियो में दिखाया था जहाँ आप UI पर जाते हैं
00:14:54या डॉक्यूमेंट्स अपलोड करने के लिए light rag स्किल का उपयोग करते हैं।
00:14:59आप rag anything के साथ ऐसा नहीं कर सकते।
00:15:01इसे अनिवार्य रूप से एक अलग सुरंग,
00:15:04एक अलग रास्ते से जाना होता है।
00:15:05लेकिन rag anything वाला वह अलग रास्ता
00:15:07एक Python स्क्रिप्ट है।
00:15:09कोई UI नहीं है, दबाने के लिए कोई बटन नहीं है।
00:15:11यह सचमुच एक स्क्रिप्ट है।
00:15:12यह कोड है जिसे आपको चलाना है।
00:15:14अब, सौभाग्य से यहाँ Claude code आता है
00:15:16और यह इसे बहुत सरल बना देता है क्योंकि हम बस
00:15:19रेपो के अंदर की उस स्क्रिप्ट को एक स्किल में बदल देंगे।
00:15:23तो आपके लिए, एक बार वह स्किल बन जाने के बाद,
00:15:25आपको बस इतना कहना है, Claude code,
00:15:28इन सभी दस्तावेज़ों को अपलोड करने के लिए rag anything स्किल का उपयोग करें,
00:15:32ये सभी गैर-टेक्स्ट दस्तावेज़।
00:15:33और जब यह ऐसा करेगा,
00:15:34तो यह 'minor you' प्रक्रिया से गुज़रेगा।
00:15:36इसमें कुछ समय लगेगा क्योंकि इसे ये सभी,
00:15:39चीज़ें करनी पड़ती हैं जैसा कि हमने
00:15:41तकनीकी अनुभाग में समझाया था,
00:15:43लेकिन यह इसे light rag पर अपलोड कर देगा
00:15:45और यह आपके दस्तावेज़ों के अंदर
00:15:47और आपके नॉलेज ग्राफ़ के अंदर दिखाई देगा।
00:15:49ठीक है, यह एकमात्र अजीब हिस्सा है जो आपको जानना चाहिए।
00:15:51सच कहूँ तो दूसरा अजीब हिस्सा यह है कि एक बार जब आप ऐसा कर लेते हैं,
00:15:54तो आपको डॉकर कंटेनर को रीस्टार्ट करने की भी आवश्यकता होती है,
00:15:58लेकिन स्किल के हिस्से के रूप में यह स्वचालित रूप से हो जाता है।
00:16:00तो फिर से, एक उपयोगकर्ता के रूप में आपके दृष्टिकोण से,
00:16:03एकमात्र अंतर यह है कि आपको बस स्किल को कॉल करना है।
00:16:06अब यह स्किल, rag anything अपलोड स्किल
00:16:08फ्री कम्युनिटी के अंदर भी है।
00:16:10तो बस इसे डाउनलोड करें और फिर इसे अपने .claude फ़ोल्डर में डाल दें
00:16:13और फिर यह बिल्कुल ठीक काम करेगा।
00:16:14अब, 'minor you' में समय लगने पर एक नोट,
00:16:17ऐसा इसलिए है क्योंकि जिस तरह से rag anything काम करता है
00:16:19जब आप इसे डाउनलोड करते हैं, तो यह आपके CPU पर चलेगा।
00:16:22यदि आप चाहते हैं कि यह आपके GPU पर चले,
00:16:24तो आपके पास PyTorch का एक अलग वर्शन होना चाहिए।
00:16:27अगर यह सब आपके सिर के ऊपर से निकल गया,
00:16:29तो बस अगर यह आपके लिए बहुत धीमा है, तो Claude code से कहें,
00:16:32हे, क्या हम PyTorch चला सकते हैं?
00:16:34क्या हम अपने GPU पर 'minor you' चला सकते हैं?
00:16:36और यह आपको इसके बारे में पूरी जानकारी देगा।
00:16:37या वास्तव में, यह सब अपने आप ही कर देगा।
00:16:39लेकिन डिफ़ॉल्ट रूप से, यह सिर्फ आपके CPU पर चलने वाला है।
00:16:41तो बस यह जान लें।
00:16:42तो चलिए इसका एक उदाहरण एक्शन में देखते हैं।
00:16:44तो जो दस्तावेज़ हमने शामिल किए थे उनमें से एक
00:16:48Novatech की यह PDF थी, सही?
00:16:50SaaS राजस्व विश्लेषण।
00:16:51यह पूरी तरह से नकली है।
00:16:52लेकिन बात यह है कि हमने कुछ ऐसा शामिल किया
00:16:55जिसमें इस तरह का बार चार्ट है, ठीक है?
00:16:57तो यह कुछ ऐसा है जिसे स्पष्ट रूप से खींचा गया होता
00:16:59एक छवि के रूप में ChatGPT को भेजा गया होता, इत्यादि।
00:17:01सामान्य तौर पर light rag इसे संभालने में सक्षम नहीं होता
00:17:03क्योंकि यह सिर्फ एक इमेज है।
00:17:05यह चार्ट है, इसके लिए इसे तोड़ना मुश्किल है।
00:17:07लेकिन चूंकि हमने इसे rag anything के माध्यम से चलाया,
00:17:10तो अब हम इसके बारे में Claude code के माध्यम से एक प्रश्न पूछ सकते हैं।
00:17:13तो मैंने Claude code से पूछा,
00:17:14क्या हम अपने light rag डेटाबेस से
00:17:15जनवरी से सितंबर 2025 के लिए Novatech Inc के
00:17:18मासिक राजस्व रुझान के बारे में पूछताछ कर सकते हैं?
00:17:20आप देख सकते हैं कि इसने स्किल का उपयोग भी नहीं किया।
00:17:22इसने सीधे API अनुरोध किया,
00:17:24जो कि क्वेरी के साथ भी ठीक है।
00:17:26Novatech Inc के लिए मासिक राजस्व रुझान क्या था
00:17:29वगैरह, वगैरह, वगैरह।
00:17:30अब इसने पूरा जवाब दिया।
00:17:32तो अगर मैं चाहूँ तो रॉ रिस्पॉन्स पर नज़र डाल सकता हूँ।
00:17:35लेकिन इसने क्या किया?
00:17:36यह पूरे मासिक विवरण के साथ वापस आया।
00:17:39हम जनवरी 4.6, 4.6, फरवरी 4.9, 4.9 देखते हैं,
00:17:43मार्च 5.4, 5.4, और इसी तरह।
00:17:46तो इन नए दस्तावेज़ों के बारे में प्रश्न पूछने के मामले में,
00:17:48वही बात है जो पहले थी।
00:17:49एकमात्र अंतर अपलोड है।
00:17:51आपको बस उस स्किल को कॉल करना है
00:17:53जो मैं आपको दे रहा हूँ और फिर Claude code को बताना है
00:17:55कि आप वहां क्या डालना चाहते हैं।
00:17:56आप इसे पूरे फ़ोल्डर की ओर इंगित कर सकते हैं।
00:17:58आप इसे किसी विशिष्ट डाउनलोड की ओर इंगित कर सकते हैं।
00:18:00यह उतना ही आसान है।
00:18:01यह एकमात्र वास्तव में अजीब चीज़ है जिसकी आपको आदत डालनी होगी
00:18:04ये दो अपलोड पाथ हैं।
00:18:05लेकिन वास्तविक सवाल और जवाब,
00:18:07यह सिर्फ सादी भाषा है।
00:18:09सादी भाषा, भले ही आपके पास स्किल भी हो,
00:18:11जिसे मैंने पिछले वीडियो में भी दिया था,
00:18:13लेकिन Claude code इतना स्मार्ट भी है
00:18:14कि वह इस पूरी चीज़ की API संरचना को समझ सके।
00:18:17क्योंकि यह स्थानीय है, यह आपके कंप्यूटर पर है।
00:18:19तो जब rag anything की बात आती है तो बस यही है।
00:18:21मुझे पता है कि इस वीडियो का अधिकांश हिस्सा
00:18:22तकनीकी पहलुओं पर केंद्रित था,
00:18:24लेकिन जैसा कि आप देखते हैं, एक बार जब हमने light rag की नींव बना ली,
00:18:28तो वास्तव में इसके ऊपर rag anything जोड़ना बहुत मुश्किल नहीं है,
00:18:32खासकर यदि हम उस वन-शॉट प्रॉम्प्ट का उपयोग करते हैं जो मैंने आपको दिया था।
00:18:35कुछ चीज़ें हैं जिन्हें आप किनारों पर बदल सकते हैं
00:18:37जैसे कि जब पूछताछ की बात आती है,
00:18:39लेकिन वास्तव में Claude code के साथ,
00:18:41यह उन सभी मापदंडों का प्रभारी है
00:18:43जिन्हें आप light rag के अंदर ट्यून कर सकते हैं।
00:18:45और उसके लिए, मैं बात कर रहा हूँ
00:18:45यदि हम रिट्रीवल सेक्शन में जाते हैं,
00:18:47तो दाईं ओर के सभी पैरामीटर।
00:18:49फिर से, Claude code जानता है कि आपके लिए कौन से सबसे अच्छे हैं।
00:18:52तो कुल मिलाकर, मुझे आशा है कि इससे स्पष्ट हो गया होगा
00:18:56कि rag anything सेट करना कितना आसान है,
00:18:58और यह भी कि इस स्तर की कार्यक्षमता जोड़ना कितना आसान है
00:19:02अपने rag सिस्टम में,
00:19:03जो कई rag सिस्टम में संभव ही नहीं है
00:19:05या यह बहुत महंगा है।
00:19:06और यह अपेक्षाकृत सस्ता है,
00:19:08विशेष रूप से उस पूरे minor U लोकल पार्सिंग सिस्टम के साथ
00:19:11जिसे हम सेटअप करने में सक्षम थे।
00:19:12तो हमेशा की तरह, मुझे बताएं कि आपने क्या सोचा।
00:19:14जरूर Chase AI+ को देखें
00:19:16यदि आप उस Claude code मास्टरक्लास को पाना चाहते हैं,
00:19:18और मैं आपसे मिलूँगा।

Key Takeaway

RAG Anything और Minor U का उपयोग करके Light RAG सिस्टम को इमेज और स्कैन किए गए डॉक्यूमेंट्स को प्रोसेस करने की क्षमता दी जा सकती है, जिससे पूरी तरह से टेक्स्ट-मुक्त डेटा से भी सटीक और एकीकृत उत्तर प्राप्त होते हैं।

Highlights

RAG Anything एक ओपन-सोर्स रैपर है जो Light RAG के टेक्स्ट-ओनली डेटाबेस को इमेज, चार्ट और स्कैन किए गए PDF को प्रोसेस करने की क्षमता देता है।

Minor U नामक लोकल प्रोग्राम बिना किसी क्लाउड लागत के डॉक्यूमेंट को हेडर, टेक्स्ट, चार्ट और लेटेक्स समीकरणों जैसे अलग-अलग हिस्सों में पहचान कर विभाजित करता है।

सिस्टम इमेज और चार्ट्स के स्क्रीनशॉट लेकर उन्हें GPT-4o-mini या GPT-4o-large जैसे मॉडल्स के माध्यम से एम्बेडिंग्स और नॉलेज ग्राफ़ एंटिटीज में बदलता है।

Claude Code के लिए उपलब्ध 'वन-शॉट प्रॉम्प्ट' ऑटोमैटिक तरीके से मॉडल्स को अपडेट करता है और एम्बेडिंग के बग्स को ठीक करके इंस्टॉलेशन को सरल बनाता है।

प्रोसेस्ड नॉन-टेक्स्ट डेटा और मौजूदा Light RAG डेटा को एंटिटीज के आधार पर मर्ज करके एक एकीकृत वेक्टर डेटाबेस और नॉलेज ग्राफ़ बनाया जाता है।

Timeline

टेक्स्ट-आधारित RAG सिस्टम की सीमाएं और समाधान

  • पारंपरिक RAG सिस्टम केवल टेक्स्ट दस्तावेज़ों तक सीमित होते हैं और इमेज या चार्ट्स को नहीं समझ पाते।
  • RAG Anything एक रैपर के रूप में काम करता है जो नॉन-टेक्स्ट डेटा को प्रोसेस करके उसे Light RAG के नॉलेज ग्राफ़ में जोड़ देता है।

अधिकांश RAG सिस्टम तकनीकी रूप से स्कैन किए गए PDF या विजुअल डेटा को संभालने में विफल रहते हैं। RAG Anything इस समस्या को हल करने के लिए विजुअल एलिमेंट्स को भी एम्बेडिंग और एंटिटीज में बदलता है। यह सेटअप Claude Code के माध्यम से API कॉल का उपयोग करके पुराने और नए डेटा को एक ही स्थान पर एकीकृत करता है।

RAG Anything का आर्किटेक्चर और वर्किंग मैकेनिज्म

  • Minor U प्रोग्राम स्थानीय रूप से डॉक्यूमेंट के स्ट्रक्चर को पहचानता है और उसे टेक्स्ट और इमेज श्रेणियों में विभाजित करता है।
  • Paddle OCR मॉडल स्कैन किए गए ब्लॉक्स से वास्तविक टेक्स्ट निकालता है जबकि विजुअल चार्ट्स के स्क्रीनशॉट लिए जाते हैं।

आर्किटेक्चर की समझ एक कुशल AI डेवलपर बनने के लिए आवश्यक है। Minor U डॉक्यूमेंट के हर हिस्से के चारों ओर बॉक्स बनाता है और उसे संबंधित मॉडल्स को भेजता है। लेटेक्स समीकरणों के लिए विशेष मॉडल का उपयोग किया जाता है ताकि वे LLM के समझने योग्य टेक्स्ट में बदल सकें।

डेटा प्रोसेसिंग की लागत और समय की बचत

  • लोकल लेवल पर डॉक्यूमेंट को छोटे हिस्सों में काटना क्लाउड मॉडल्स पर स्क्रीनशॉट भेजने की तुलना में काफी सस्ता और तेज़ है।
  • इमेज और टेक्स्ट दोनों रास्तों से प्राप्त एंटिटीज और रिलेशनशिप्स को अंत में एक सिंगल वेक्टर डेटाबेस में मर्ज किया जाता है।

पूरे डॉक्यूमेंट को एक साथ विजन मॉडल को भेजना महंगा होता है। RAG Anything पहले स्थानीय स्तर पर पार्सिंग करता है जिससे केवल आवश्यक विजुअल हिस्से ही GPT जैसे भारी मॉडल्स के पास जाते हैं। यह प्रक्रिया सुनिश्चित करती है कि नॉलेज ग्राफ़ में जानकारी का दोहराव न हो और सभी संबंध सही ढंग से जुड़े रहें।

Claude Code के साथ इंस्टॉलेशन और इंजेस्ट वर्कफ़्लो

  • Claude Code के लिए विशेष 'अपलोड स्किल' का उपयोग करके बिना किसी UI के स्क्रिप्ट के माध्यम से नॉन-टेक्स्ट डॉक्यूमेंट लोड किए जा सकते हैं।
  • डिफ़ॉल्ट रूप से यह प्रक्रिया CPU पर चलती है लेकिन PyTorch कॉन्फ़िगरेशन बदलकर इसे GPU पर तेज़ किया जा सकता है।

इंस्टॉलेशन के लिए Light RAG डायरेक्टरी में रहना अनिवार्य है। Claude Code ऑटोमैटिक तरीके से Docker कंटेनर को रीस्टार्ट करता है और एम्बेडिंग रैपर बग्स को फिक्स करता है। उपयोगकर्ता को केवल फोल्डर या फाइल का पाथ देना होता है और बाकी का जटिल पार्सिंग का काम सिस्टम खुद संभालता है।

वास्तविक डेटा के साथ प्रदर्शन का उदाहरण

  • सिस्टम बार चार्ट जैसी इमेजेस से सटीक राजस्व रुझान (Revenue Trends) निकालने में सक्षम है।
  • अपलोड के बाद प्रश्न पूछने की प्रक्रिया सामान्य भाषा में होती है और इसमें किसी विशेष तकनीकी ज्ञान की आवश्यकता नहीं होती।

एक नकली कंपनी 'Novatech' के चार्ट वाली PDF का उदाहरण दिया गया है जहाँ सिस्टम ने जनवरी से सितंबर 2025 तक का सटीक मासिक डेटा निकाला। Claude Code इतना स्मार्ट है कि वह API संरचना को समझकर सही रिट्रीवल पैरामीटर्स को ट्यून करता है। यह समाधान अन्य कमर्शियल RAG सिस्टम्स की तुलना में सस्ता और अधिक प्रभावी साबित होता है।

Community Posts

View all posts