00:00:00आपने कभी न कभी ईमेल, PDF या ट्रांसक्रिप्ट को स्ट्रक्चर्ड डेटा में बदलने की कोशिश की होगी
00:00:04और बात जल्दी ही बिगड़ गई होगी।
00:00:07सबको लगता है कि ऐप बनाना सबसे मुश्किल काम है।
00:00:09पर ऐसा नहीं है।
00:00:10असली मुश्किल टेक्स्ट है, क्योंकि असल दुनिया का ज़्यादातर डेटा अनस्ट्रक्चर्ड होता है और अधिकतर पाइपलाइन्स
00:00:15यहीं पर दम तोड़ देती हैं।
00:00:16अब आप उम्मीद करेंगे कि इसका हल ज़्यादा रोल्स या NLP होगा, लेकिन कुछ डेवेलोपर्स असल में
00:00:21इसका बिल्कुल उल्टा कर रहे हैं।
00:00:22यह है Lang Extract।
00:00:23यह Google का एक मुफ़्त ओपन सोर्स टूल है जो चुपचाप और तेज़ी से लोकप्रिय हो रहा है।
00:00:27हमारे वीडियो लगातार आते रहते हैं।
00:00:29सब्सक्राइब करना न भूलें।
00:00:32ठीक है, अब Lang Extract सुनने में एक और एक्सट्रैक्शन लाइब्रेरी जैसा लगता है, और पहली नज़र में यह
00:00:40वैसा ही है, लेकिन इसे जो अलग बनाता है वो ये है।
00:00:43Lang Extract एक Python लाइब्रेरी है जो बिखरे हुए टेक्स्ट से स्ट्रक्चर्ड डेटा निकालने के लिए
00:00:49Gemini या GPT जैसे LLMs का इस्तेमाल करती है।
00:00:51तो हाँ, एंटिटीज़, एट्रिब्यूट्स और रिश्तों को यह JSON या इंटरैक्टिव
00:00:57HTML जैसे साफ़-सुथरे आउटपुट में बदल देता है।
00:00:58डेवेलोपर्स को यह इसलिए पसंद है क्योंकि हर एक एक्सट्रैक्शन उसी सटीक टेक्स्ट स्पैन से जुड़ा होता है
00:01:02जहाँ से उसे लिया गया है।
00:01:04इसका मतलब है कि मॉडल यह कहने के बजाय कि "मुझ पर भरोसा करो", वह कहता है, "यह रहा वो सटीक वाक्य जिसे
00:01:09मैंने इस्तेमाल किया।"
00:01:10यही यहाँ सबसे बड़ा बदलाव है।
00:01:11यहाँ वर्कफ्लो कुछ ऐसा है: प्रॉम्प्ट जाता है, एक्सट्रैक्शन होता है,
00:01:15और फिर आपको स्ट्रक्चर्ड आउटपुट मिलता है जिसे आप वेरिफाई कर सकते हैं।
00:01:19मैं इस सवाल का जवाब दूँ कि डेवेलोपर्स पुराने NLP को छोड़कर इसे क्यों अपना रहे हैं, उससे पहले
00:01:24मैं आपको दिखाता हूँ कि यह कैसे काम करता है ताकि आप इसे खुद आज़मा सकें।
00:01:27ठीक है, यहाँ एक सरल उदाहरण है।
00:01:29स्क्रीन पर, हमारे पास क्लिनिकल नोट्स का कुछ अनस्ट्रक्चर्ड टेक्स्ट है, और अभी
00:01:33यह सिर्फ सादा टेक्स्ट है।
00:01:34यह एक टेक्स्ट फ़ाइल में है।
00:01:36एक इंसान इसे पढ़कर ज़रूरी बातें निकाल सकता है, पर कंप्यूटर के लिए यह सब कचरा है।
00:01:41सबसे पहले, मुझे Git रेपो क्लोन करके ज़रूरी रिक्वायरमेंट्स इनस्टॉल करनी पड़ीं, फिर मुझे
00:01:45अपनी Gemini API key की ज़रूरत थी, जिसे मैंने एक .env फ़ाइल में रखा है।
00:01:49फिर मैंने इसे चलाने के लिए यह Python स्क्रिप्ट लिखी और अपने प्रॉम्प्ट में बताया
00:01:54कि मुझे क्या एक्सट्रैक्ट करना है।
00:01:56इसीलिए आपको Python की थोड़ी समझ होनी चाहिए।
00:01:58मेरी सारी एंटिटीज़, एट्रिब्यूट्स और रिलेशनशिप्स इसी प्रॉम्प्ट के रूप में लिखी गई हैं।
00:02:02यहाँ न कोई ट्रेनिंग डेटा है, न ही कोई मॉडल ट्यूनिंग।
00:02:05फिर Lang Extract चलता है और मुझे स्ट्रक्चर्ड JSON आउटपुट मिल जाता है।
00:02:09अब इस हिस्से पर ध्यान दें क्योंकि यही असली बात है।
00:02:12यहाँ निकाला गया हर फील्ड सीधे उसी वाक्य से लिंक है जहाँ से
00:02:18उसे मेरे JSON में लाया गया है।
00:02:19तो अगर आप रिव्यू, डीबगिंग या किसी को समझा रहे हैं, तो अब आपको अंदाज़ा लगाने की ज़रूरत नहीं है।
00:02:23लेकिन इसका सबसे बेहतरीन फीचर जो मुझे लगा वो है इंटरैक्टिव HTML पेज, जो यह खुद बना देता है।
00:02:29यहाँ आप किसी एंटिटी पर क्लिक करके उसे ओरिजिनल टेक्स्ट में हाईलाइट हुआ देख सकते हैं और
00:02:33तेज़ी से उन सभी शब्दों को देख सकते हैं जिन्हें आप ढूंढ रहे थे।
00:02:38इसीलिए यह डीबगिंग, ऑडिट और रिव्यू जैसे कामों के लिए बहुत काम का है।
00:02:42और अगर आपको यह बड़े पैमाने पर करना है, तो बैच मोड आपको हज़ारों डॉक्यूमेंट्स पर
00:02:46ज़्यादा कुशलता से काम करने की सुविधा देता है।
00:02:48तो हाँ, यह बहुत बढ़िया दिख रहा है।
00:02:50यह वाकई मज़ेदार था, खासकर HTML वाला हिस्सा।
00:02:52ठीक है, अब डेवेलोपर्स इसके लिए पुराने NLP को क्यों छोड़ रहे हैं?
00:02:56वो इसलिए क्योंकि उलझा हुआ टेक्स्ट सिर्फ चिड़चिड़ाने वाला ही नहीं होता, है न?
00:02:59चिड़चिड़ाने वाला तो है ही, पर यह महंगा भी पड़ता है।
00:03:01इसमें समय खराब होता है और चीज़ें बिगड़ जाती हैं।
00:03:03इसीलिए हम देख रहे हैं कि जहाँ सटीकता और सबूत मायने रखते हैं, वहाँ Lang Extract इस्तेमाल हो रहा है।
00:03:08जैसे क्लिनिकल नोट्स से स्ट्रक्चर्ड डेटा निकालना और साथ ही यह ऑडिट कर पाना
00:03:12कि वह कहाँ से आया है।
00:03:13यह बहुत बड़ी बात है।
00:03:14या फिर शायद हम फीडबैक और सपोर्ट टिकटों को भारी-भरकम CSV फ़ाइलों के बजाय
00:03:18नॉलेज ग्राफ में बदल रहे हैं।
00:03:20इन टूल्स के साथ जहाँ हमें बहुत सी अच्छी चीज़ें मिलती हैं, वहीं कुछ कमियाँ भी हैं।
00:03:24ये बातें आपके इसे इस्तेमाल करने के फैसले पर असर डालेंगी।
00:03:26अच्छी बातों की बात करें, तो यहाँ बहुत कुछ है।
00:03:27इसका सेटअप बहुत आसान है, है न?
00:03:29Pip install करो, प्रॉम्प्ट लिखो और शुरू हो जाओ।
00:03:31ग्राउंडेड आउटपुट की वजह से LLM पर भरोसे की समस्या कम हो जाती है क्योंकि आप सब कुछ वेरिफाई कर सकते हैं और आप
00:03:36किसी एक मॉडल तक सीमित नहीं हैं।
00:03:37यह लोकल या क्लाउड, दोनों पर काम करता है।
00:03:39दोनों ही तरीके काम करेंगे और यह लंबे डॉक्यूमेंट्स को भी ज़्यादातर टूल्स से बेहतर संभालता है।
00:03:43यह मुफ़्त है, ओपन सोर्स है और तेज़ी से बेहतर हो रहा है।
00:03:45कुछ कमियाँ भी हैं जो आपको महसूस हो सकती हैं, जैसे बड़े स्केल पर आपको LLM की लागत चुकानी होगी।
00:03:51बहुत ज़्यादा शोर वाले टेक्स्ट से एक्सट्रैक्शन अधूरा रह सकता है।
00:03:53यह मुख्य रूप से Python पर आधारित है, तो अगर आप Python नहीं जानते, तो सीखने में थोड़ा समय लग सकता है, लेकिन
00:03:57Python बहुत बढ़िया है।
00:03:58यह उन ऐप्स के लिए सही नहीं है जहाँ रियल-टाइम में बहुत तेज़ रिस्पॉन्स चाहिए।
00:04:01आपको इस पर ध्यान क्यों देना चाहिए?
00:04:02क्योंकि Lang Extract बिना कस्टम मॉडल या कमज़ोर पाइपलाइन्स बनाए अनस्ट्रक्चर्ड डेटा पर
00:04:07काम करना आसान बना देता है।
00:04:09यह LLM आउटपुट को प्रोडक्शन में इस्तेमाल के लायक भरोसेमंद बनाता है क्योंकि यह अपने स्रोत से जुड़ा है,
00:04:14खासकर फाइनेंस, हेल्थकेयर और कंप्लायंस जैसे सेक्टर्स में
00:04:19जहाँ ये चीज़ें बहुत मायने रखती हैं।
00:04:21साथ ही, यह आधुनिक स्टैक्स जैसे RAG, सर्च, नॉलेज ग्राफ और एनालिटिक्स में आसानी से फिट हो जाता है।
00:04:26आप चाहे जो भी बना रहे हों।
00:04:27अगर अनस्ट्रक्चर्ड डेटा आपकी रफ़्तार धीमी कर रहा है, तो यह टूल आपको काफी आगे ले जा सकता है।
00:04:31अगर डेटा आपके काम का हिस्सा है, और सच कहें तो वो तो है ही, तो इसे आज़माना बनता है।
00:04:35मिलते हैं अगले वीडियो में।