Google का यह टूल बिखरे हुए टेक्स्ट को साफ-सुथरे डेटा में बदल देता है

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00आपने कभी न कभी ईमेल, PDF या ट्रांसक्रिप्ट को स्ट्रक्चर्ड डेटा में बदलने की कोशिश की होगी
00:00:04और बात जल्दी ही बिगड़ गई होगी।
00:00:07सबको लगता है कि ऐप बनाना सबसे मुश्किल काम है।
00:00:09पर ऐसा नहीं है।
00:00:10असली मुश्किल टेक्स्ट है, क्योंकि असल दुनिया का ज़्यादातर डेटा अनस्ट्रक्चर्ड होता है और अधिकतर पाइपलाइन्स
00:00:15यहीं पर दम तोड़ देती हैं।
00:00:16अब आप उम्मीद करेंगे कि इसका हल ज़्यादा रोल्स या NLP होगा, लेकिन कुछ डेवेलोपर्स असल में
00:00:21इसका बिल्कुल उल्टा कर रहे हैं।
00:00:22यह है Lang Extract।
00:00:23यह Google का एक मुफ़्त ओपन सोर्स टूल है जो चुपचाप और तेज़ी से लोकप्रिय हो रहा है।
00:00:27हमारे वीडियो लगातार आते रहते हैं।
00:00:29सब्सक्राइब करना न भूलें।
00:00:32ठीक है, अब Lang Extract सुनने में एक और एक्सट्रैक्शन लाइब्रेरी जैसा लगता है, और पहली नज़र में यह
00:00:40वैसा ही है, लेकिन इसे जो अलग बनाता है वो ये है।
00:00:43Lang Extract एक Python लाइब्रेरी है जो बिखरे हुए टेक्स्ट से स्ट्रक्चर्ड डेटा निकालने के लिए
00:00:49Gemini या GPT जैसे LLMs का इस्तेमाल करती है।
00:00:51तो हाँ, एंटिटीज़, एट्रिब्यूट्स और रिश्तों को यह JSON या इंटरैक्टिव
00:00:57HTML जैसे साफ़-सुथरे आउटपुट में बदल देता है।
00:00:58डेवेलोपर्स को यह इसलिए पसंद है क्योंकि हर एक एक्सट्रैक्शन उसी सटीक टेक्स्ट स्पैन से जुड़ा होता है
00:01:02जहाँ से उसे लिया गया है।
00:01:04इसका मतलब है कि मॉडल यह कहने के बजाय कि "मुझ पर भरोसा करो", वह कहता है, "यह रहा वो सटीक वाक्य जिसे
00:01:09मैंने इस्तेमाल किया।"
00:01:10यही यहाँ सबसे बड़ा बदलाव है।
00:01:11यहाँ वर्कफ्लो कुछ ऐसा है: प्रॉम्प्ट जाता है, एक्सट्रैक्शन होता है,
00:01:15और फिर आपको स्ट्रक्चर्ड आउटपुट मिलता है जिसे आप वेरिफाई कर सकते हैं।
00:01:19मैं इस सवाल का जवाब दूँ कि डेवेलोपर्स पुराने NLP को छोड़कर इसे क्यों अपना रहे हैं, उससे पहले
00:01:24मैं आपको दिखाता हूँ कि यह कैसे काम करता है ताकि आप इसे खुद आज़मा सकें।
00:01:27ठीक है, यहाँ एक सरल उदाहरण है।
00:01:29स्क्रीन पर, हमारे पास क्लिनिकल नोट्स का कुछ अनस्ट्रक्चर्ड टेक्स्ट है, और अभी
00:01:33यह सिर्फ सादा टेक्स्ट है।
00:01:34यह एक टेक्स्ट फ़ाइल में है।
00:01:36एक इंसान इसे पढ़कर ज़रूरी बातें निकाल सकता है, पर कंप्यूटर के लिए यह सब कचरा है।
00:01:41सबसे पहले, मुझे Git रेपो क्लोन करके ज़रूरी रिक्वायरमेंट्स इनस्टॉल करनी पड़ीं, फिर मुझे
00:01:45अपनी Gemini API key की ज़रूरत थी, जिसे मैंने एक .env फ़ाइल में रखा है।
00:01:49फिर मैंने इसे चलाने के लिए यह Python स्क्रिप्ट लिखी और अपने प्रॉम्प्ट में बताया
00:01:54कि मुझे क्या एक्सट्रैक्ट करना है।
00:01:56इसीलिए आपको Python की थोड़ी समझ होनी चाहिए।
00:01:58मेरी सारी एंटिटीज़, एट्रिब्यूट्स और रिलेशनशिप्स इसी प्रॉम्प्ट के रूप में लिखी गई हैं।
00:02:02यहाँ न कोई ट्रेनिंग डेटा है, न ही कोई मॉडल ट्यूनिंग।
00:02:05फिर Lang Extract चलता है और मुझे स्ट्रक्चर्ड JSON आउटपुट मिल जाता है।
00:02:09अब इस हिस्से पर ध्यान दें क्योंकि यही असली बात है।
00:02:12यहाँ निकाला गया हर फील्ड सीधे उसी वाक्य से लिंक है जहाँ से
00:02:18उसे मेरे JSON में लाया गया है।
00:02:19तो अगर आप रिव्यू, डीबगिंग या किसी को समझा रहे हैं, तो अब आपको अंदाज़ा लगाने की ज़रूरत नहीं है।
00:02:23लेकिन इसका सबसे बेहतरीन फीचर जो मुझे लगा वो है इंटरैक्टिव HTML पेज, जो यह खुद बना देता है।
00:02:29यहाँ आप किसी एंटिटी पर क्लिक करके उसे ओरिजिनल टेक्स्ट में हाईलाइट हुआ देख सकते हैं और
00:02:33तेज़ी से उन सभी शब्दों को देख सकते हैं जिन्हें आप ढूंढ रहे थे।
00:02:38इसीलिए यह डीबगिंग, ऑडिट और रिव्यू जैसे कामों के लिए बहुत काम का है।
00:02:42और अगर आपको यह बड़े पैमाने पर करना है, तो बैच मोड आपको हज़ारों डॉक्यूमेंट्स पर
00:02:46ज़्यादा कुशलता से काम करने की सुविधा देता है।
00:02:48तो हाँ, यह बहुत बढ़िया दिख रहा है।
00:02:50यह वाकई मज़ेदार था, खासकर HTML वाला हिस्सा।
00:02:52ठीक है, अब डेवेलोपर्स इसके लिए पुराने NLP को क्यों छोड़ रहे हैं?
00:02:56वो इसलिए क्योंकि उलझा हुआ टेक्स्ट सिर्फ चिड़चिड़ाने वाला ही नहीं होता, है न?
00:02:59चिड़चिड़ाने वाला तो है ही, पर यह महंगा भी पड़ता है।
00:03:01इसमें समय खराब होता है और चीज़ें बिगड़ जाती हैं।
00:03:03इसीलिए हम देख रहे हैं कि जहाँ सटीकता और सबूत मायने रखते हैं, वहाँ Lang Extract इस्तेमाल हो रहा है।
00:03:08जैसे क्लिनिकल नोट्स से स्ट्रक्चर्ड डेटा निकालना और साथ ही यह ऑडिट कर पाना
00:03:12कि वह कहाँ से आया है।
00:03:13यह बहुत बड़ी बात है।
00:03:14या फिर शायद हम फीडबैक और सपोर्ट टिकटों को भारी-भरकम CSV फ़ाइलों के बजाय
00:03:18नॉलेज ग्राफ में बदल रहे हैं।
00:03:20इन टूल्स के साथ जहाँ हमें बहुत सी अच्छी चीज़ें मिलती हैं, वहीं कुछ कमियाँ भी हैं।
00:03:24ये बातें आपके इसे इस्तेमाल करने के फैसले पर असर डालेंगी।
00:03:26अच्छी बातों की बात करें, तो यहाँ बहुत कुछ है।
00:03:27इसका सेटअप बहुत आसान है, है न?
00:03:29Pip install करो, प्रॉम्प्ट लिखो और शुरू हो जाओ।
00:03:31ग्राउंडेड आउटपुट की वजह से LLM पर भरोसे की समस्या कम हो जाती है क्योंकि आप सब कुछ वेरिफाई कर सकते हैं और आप
00:03:36किसी एक मॉडल तक सीमित नहीं हैं।
00:03:37यह लोकल या क्लाउड, दोनों पर काम करता है।
00:03:39दोनों ही तरीके काम करेंगे और यह लंबे डॉक्यूमेंट्स को भी ज़्यादातर टूल्स से बेहतर संभालता है।
00:03:43यह मुफ़्त है, ओपन सोर्स है और तेज़ी से बेहतर हो रहा है।
00:03:45कुछ कमियाँ भी हैं जो आपको महसूस हो सकती हैं, जैसे बड़े स्केल पर आपको LLM की लागत चुकानी होगी।
00:03:51बहुत ज़्यादा शोर वाले टेक्स्ट से एक्सट्रैक्शन अधूरा रह सकता है।
00:03:53यह मुख्य रूप से Python पर आधारित है, तो अगर आप Python नहीं जानते, तो सीखने में थोड़ा समय लग सकता है, लेकिन
00:03:57Python बहुत बढ़िया है।
00:03:58यह उन ऐप्स के लिए सही नहीं है जहाँ रियल-टाइम में बहुत तेज़ रिस्पॉन्स चाहिए।
00:04:01आपको इस पर ध्यान क्यों देना चाहिए?
00:04:02क्योंकि Lang Extract बिना कस्टम मॉडल या कमज़ोर पाइपलाइन्स बनाए अनस्ट्रक्चर्ड डेटा पर
00:04:07काम करना आसान बना देता है।
00:04:09यह LLM आउटपुट को प्रोडक्शन में इस्तेमाल के लायक भरोसेमंद बनाता है क्योंकि यह अपने स्रोत से जुड़ा है,
00:04:14खासकर फाइनेंस, हेल्थकेयर और कंप्लायंस जैसे सेक्टर्स में
00:04:19जहाँ ये चीज़ें बहुत मायने रखती हैं।
00:04:21साथ ही, यह आधुनिक स्टैक्स जैसे RAG, सर्च, नॉलेज ग्राफ और एनालिटिक्स में आसानी से फिट हो जाता है।
00:04:26आप चाहे जो भी बना रहे हों।
00:04:27अगर अनस्ट्रक्चर्ड डेटा आपकी रफ़्तार धीमी कर रहा है, तो यह टूल आपको काफी आगे ले जा सकता है।
00:04:31अगर डेटा आपके काम का हिस्सा है, और सच कहें तो वो तो है ही, तो इसे आज़माना बनता है।
00:04:35मिलते हैं अगले वीडियो में।

Key Takeaway

Lang Extract एक शक्तिशाली ओपन सोर्स टूल है जो अनस्ट्रक्चर्ड डेटा को LLM की मदद से सटीक, वेरीफ़िएबल और स्ट्रक्चर्ड फॉर्मेट में बदलकर डेवलपर्स की बड़ी मुश्किल हल करता है।

Highlights

Lang Extract Google का एक मुफ़्त ओपन सोर्स Python टूल है जो अनस्ट्रक्चर्ड टेक्स्ट को साफ़ JSON डेटा में बदलता है।

यह टूल Gemini और GPT जैसे LLMs का उपयोग करके डेटा के सटीक स्रोत (Text Span) को ट्रैक करता है

Timeline

अनस्ट्रक्चर्ड डेटा की चुनौती और Lang Extract का परिचय

वीडियो की शुरुआत इस बात से होती है कि असल दुनिया का ज़्यादातर डेटा ईमेल या PDF की तरह अनस्ट्रक्चर्ड होता है, जिसे प्रोसेस करना ऐप बनाने से भी ज़्यादा मुश्किल काम है। वक्ता बताते हैं कि पारंपरिक पाइपलाइन्स अक्सर इस टेक्स्ट डेटा को समझने में विफल हो जाती हैं। यहीं पर Google के मुफ़्त ओपन सोर्स टूल "Lang Extract" की एंट्री होती है जो तेज़ी से लोकप्रिय हो रहा है। यह टूल पुराने NLP तरीकों के बजाय एक आधुनिक दृष्टिकोण अपनाता है। यह उन डेवलपर्स के लिए एक गेम-चेंजर है जो डेटा एक्सट्रैक्शन को सरल बनाना चाहते हैं।

Lang Extract कैसे काम करता है और इसके मुख्य फीचर्स

Lang Extract एक Python लाइब्रेरी है जो बिखरे हुए टेक्स्ट से जानकारी निकालने के लिए Gemini या GPT जैसे बड़े भाषा मॉडल (LLMs) का उपयोग करती है। इसकी सबसे बड़ी खासियत यह है कि यह निकाले गए हर डेटा पॉइंट को मूल टेक्स्ट के सटीक हिस्से से जोड़ता है। यह "मुझ पर भरोसा करो" कहने के बजाय प्रमाण देता है कि डेटा कहाँ से लिया गया है। वक्ता बताते हैं कि यह एंटिटीज़ और उनके बीच के रिश्तों को साफ़-सुथरे JSON या HTML आउटपुट में बदल देता है। यह पारदर्शिता और सटीकता ही इसे अन्य साधारण एक्सट्रैक्शन लाइब्रेरीज़ से अलग बनाती है।

प्रैक्टिकल डेमो: सेटअप और कोडिंग प्रक्रिया

इस सेक्शन में वक्ता एक क्लिनिकल नोट्स के उदाहरण के जरिए दिखाते हैं कि इस टूल का उपयोग कैसे किया जाता है। सबसे पहले Git रिपॉजिटरी को क्लोन करना और Gemini API की का सेटअप करना आवश्यक है। इसके बाद एक साधारण Python स्क्रिप्ट लिखी जाती है जिसमें प्रॉम्प्ट के ज़रिए बताया जाता है कि क्या एक्सट्रैक्ट करना है। यहाँ खास बात यह है कि इसके लिए किसी विशेष ट्रेनिंग डेटा या मॉडल ट्यूनिंग की ज़रूरत नहीं पड़ती। अंत में यह टूल एक स्ट्रक्चर्ड JSON आउटपुट तैयार कर देता है जिसे कंप्यूटर आसानी से समझ सकता है।

विज़ुअलाइज़ेशन और बैच प्रोसेसिंग की शक्ति

वक्ता टूल के सबसे बेहतरीन फीचर, इंटरैक्टिव HTML पेज के बारे में विस्तार से बताते हैं। इस पेज पर आप किसी भी निकाली गई एंटिटी पर क्लिक कर सकते हैं और वह मूल टेक्स्ट में तुरंत हाईलाइट हो जाती है। यह फीचर डीबगिंग और डेटा ऑडिटिंग को बहुत आसान बना देता है क्योंकि आपको अब अंदाज़ा लगाने की ज़रूरत नहीं पड़ती। इसके अलावा, बड़े पैमाने पर काम करने के लिए इसमें एक बैच मोड भी है जो हज़ारों डॉक्यूमेंट्स को कुशलता से प्रोसेस कर सकता है। यह सेक्शन दिखाता है कि कैसे विज़ुअलाइज़ेशन डेटा समीक्षा की रफ़्तार को बढ़ा देता है।

डेवलपर्स के लिए इसके फायदे और वास्तविक उपयोग के मामले

अनस्ट्रक्चर्ड डेटा को मैन्युअल रूप से संभालना न केवल चिड़चिड़ाने वाला है बल्कि यह बहुत महंगा भी साबित होता है। वक्ता बताते हैं कि क्लिनिकल नोट्स से डेटा निकालना या सपोर्ट टिकटों को नॉलेज ग्राफ में बदलना इसके प्रमुख उदाहरण हैं। जहाँ सटीकता और सबूत (Grounding) की आवश्यकता होती है, वहाँ Lang Extract सबसे बेहतर विकल्प है। यह डेटा की पाइपलाइनों में होने वाली गलतियों को कम करता है और समय की बचत करता है। यह टूल व्यवसायों को उनके पुराने डेटा से अधिक मूल्य निकालने में मदद करता है।

टूल के फायदे, कमियाँ और निष्कर्ष

वीडियो के अंतिम भाग में टूल की खूबियों और सीमाओं पर चर्चा की गई है, जैसे कि इसका सेटअप आसान है और यह मुफ़्त है, लेकिन बड़े पैमाने पर LLM की लागत आ सकती है। यह टूल Python पर आधारित है और रियल-टाइम रिस्पॉन्स के लिए शायद सबसे तेज़ न हो, लेकिन यह बहुत भरोसेमंद है। यह फाइनेंस और हेल्थकेयर जैसे महत्वपूर्ण क्षेत्रों के लिए एकदम सही है जहाँ कंप्लायंस और ग्राउंडेड आउटपुट मायने रखते हैं। वक्ता निष्कर्ष निकालते हैं कि यदि अनस्ट्रक्चर्ड डेटा आपकी रफ़्तार धीमी कर रहा है, तो Lang Extract को आज़माना आपके काम को काफी आगे ले जा सकता है। यह आधुनिक डेटा स्टैक्स जैसे RAG और एनालिटिक्स के लिए एक अनिवार्य टूल साबित हो सकता है।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video