Google का यह टूल बिखरे हुए टेक्स्ट को साफ-सुथरे डेटा में बदल देता है

हिन्दीالعربية Deutsch English Español Français Bahasa Indonesia 日本語 한국어 Português Русский 中文

Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00आपने कभी न कभी ईमेल, PDF या ट्रांसक्रिप्ट को स्ट्रक्चर्ड डेटा में बदलने की कोशिश की होगी

00:00:04और बात जल्दी ही बिगड़ गई होगी।

00:00:07सबको लगता है कि ऐप बनाना सबसे मुश्किल काम है।

00:00:09पर ऐसा नहीं है।

00:00:10असली मुश्किल टेक्स्ट है, क्योंकि असल दुनिया का ज़्यादातर डेटा अनस्ट्रक्चर्ड होता है और अधिकतर पाइपलाइन्स

00:00:15यहीं पर दम तोड़ देती हैं।

00:00:16अब आप उम्मीद करेंगे कि इसका हल ज़्यादा रोल्स या NLP होगा, लेकिन कुछ डेवेलोपर्स असल में

00:00:21इसका बिल्कुल उल्टा कर रहे हैं।

00:00:22यह है Lang Extract।

00:00:23यह Google का एक मुफ़्त ओपन सोर्स टूल है जो चुपचाप और तेज़ी से लोकप्रिय हो रहा है।

00:00:27हमारे वीडियो लगातार आते रहते हैं।

00:00:29सब्सक्राइब करना न भूलें।

00:00:32ठीक है, अब Lang Extract सुनने में एक और एक्सट्रैक्शन लाइब्रेरी जैसा लगता है, और पहली नज़र में यह

00:00:40वैसा ही है, लेकिन इसे जो अलग बनाता है वो ये है।

00:00:43Lang Extract एक Python लाइब्रेरी है जो बिखरे हुए टेक्स्ट से स्ट्रक्चर्ड डेटा निकालने के लिए

00:00:49Gemini या GPT जैसे LLMs का इस्तेमाल करती है।

00:00:51तो हाँ, एंटिटीज़, एट्रिब्यूट्स और रिश्तों को यह JSON या इंटरैक्टिव

00:00:57HTML जैसे साफ़-सुथरे आउटपुट में बदल देता है।

00:00:58डेवेलोपर्स को यह इसलिए पसंद है क्योंकि हर एक एक्सट्रैक्शन उसी सटीक टेक्स्ट स्पैन से जुड़ा होता है

00:01:02जहाँ से उसे लिया गया है।

00:01:04इसका मतलब है कि मॉडल यह कहने के बजाय कि "मुझ पर भरोसा करो", वह कहता है, "यह रहा वो सटीक वाक्य जिसे

00:01:09मैंने इस्तेमाल किया।"

00:01:10यही यहाँ सबसे बड़ा बदलाव है।

00:01:11यहाँ वर्कफ्लो कुछ ऐसा है: प्रॉम्प्ट जाता है, एक्सट्रैक्शन होता है,

00:01:15और फिर आपको स्ट्रक्चर्ड आउटपुट मिलता है जिसे आप वेरिफाई कर सकते हैं।

00:01:19मैं इस सवाल का जवाब दूँ कि डेवेलोपर्स पुराने NLP को छोड़कर इसे क्यों अपना रहे हैं, उससे पहले

00:01:24मैं आपको दिखाता हूँ कि यह कैसे काम करता है ताकि आप इसे खुद आज़मा सकें।

00:01:27ठीक है, यहाँ एक सरल उदाहरण है।

00:01:29स्क्रीन पर, हमारे पास क्लिनिकल नोट्स का कुछ अनस्ट्रक्चर्ड टेक्स्ट है, और अभी

00:01:33यह सिर्फ सादा टेक्स्ट है।

00:01:34यह एक टेक्स्ट फ़ाइल में है।

00:01:36एक इंसान इसे पढ़कर ज़रूरी बातें निकाल सकता है, पर कंप्यूटर के लिए यह सब कचरा है।

00:01:41सबसे पहले, मुझे Git रेपो क्लोन करके ज़रूरी रिक्वायरमेंट्स इनस्टॉल करनी पड़ीं, फिर मुझे

00:01:45अपनी Gemini API key की ज़रूरत थी, जिसे मैंने एक .env फ़ाइल में रखा है।

00:01:49फिर मैंने इसे चलाने के लिए यह Python स्क्रिप्ट लिखी और अपने प्रॉम्प्ट में बताया

00:01:54कि मुझे क्या एक्सट्रैक्ट करना है।

00:01:56इसीलिए आपको Python की थोड़ी समझ होनी चाहिए।

00:01:58मेरी सारी एंटिटीज़, एट्रिब्यूट्स और रिलेशनशिप्स इसी प्रॉम्प्ट के रूप में लिखी गई हैं।

00:02:02यहाँ न कोई ट्रेनिंग डेटा है, न ही कोई मॉडल ट्यूनिंग।

00:02:05फिर Lang Extract चलता है और मुझे स्ट्रक्चर्ड JSON आउटपुट मिल जाता है।

00:02:09अब इस हिस्से पर ध्यान दें क्योंकि यही असली बात है।

00:02:12यहाँ निकाला गया हर फील्ड सीधे उसी वाक्य से लिंक है जहाँ से

00:02:18उसे मेरे JSON में लाया गया है।

00:02:19तो अगर आप रिव्यू, डीबगिंग या किसी को समझा रहे हैं, तो अब आपको अंदाज़ा लगाने की ज़रूरत नहीं है।

00:02:23लेकिन इसका सबसे बेहतरीन फीचर जो मुझे लगा वो है इंटरैक्टिव HTML पेज, जो यह खुद बना देता है।

00:02:29यहाँ आप किसी एंटिटी पर क्लिक करके उसे ओरिजिनल टेक्स्ट में हाईलाइट हुआ देख सकते हैं और

00:02:33तेज़ी से उन सभी शब्दों को देख सकते हैं जिन्हें आप ढूंढ रहे थे।

00:02:38इसीलिए यह डीबगिंग, ऑडिट और रिव्यू जैसे कामों के लिए बहुत काम का है।

00:02:42और अगर आपको यह बड़े पैमाने पर करना है, तो बैच मोड आपको हज़ारों डॉक्यूमेंट्स पर

00:02:46ज़्यादा कुशलता से काम करने की सुविधा देता है।

00:02:48तो हाँ, यह बहुत बढ़िया दिख रहा है।

00:02:50यह वाकई मज़ेदार था, खासकर HTML वाला हिस्सा।

00:02:52ठीक है, अब डेवेलोपर्स इसके लिए पुराने NLP को क्यों छोड़ रहे हैं?

00:02:56वो इसलिए क्योंकि उलझा हुआ टेक्स्ट सिर्फ चिड़चिड़ाने वाला ही नहीं होता, है न?

00:02:59चिड़चिड़ाने वाला तो है ही, पर यह महंगा भी पड़ता है।

00:03:01इसमें समय खराब होता है और चीज़ें बिगड़ जाती हैं।

00:03:03इसीलिए हम देख रहे हैं कि जहाँ सटीकता और सबूत मायने रखते हैं, वहाँ Lang Extract इस्तेमाल हो रहा है।

00:03:08जैसे क्लिनिकल नोट्स से स्ट्रक्चर्ड डेटा निकालना और साथ ही यह ऑडिट कर पाना

00:03:12कि वह कहाँ से आया है।

00:03:13यह बहुत बड़ी बात है।

00:03:14या फिर शायद हम फीडबैक और सपोर्ट टिकटों को भारी-भरकम CSV फ़ाइलों के बजाय

00:03:18नॉलेज ग्राफ में बदल रहे हैं।

00:03:20इन टूल्स के साथ जहाँ हमें बहुत सी अच्छी चीज़ें मिलती हैं, वहीं कुछ कमियाँ भी हैं।

00:03:24ये बातें आपके इसे इस्तेमाल करने के फैसले पर असर डालेंगी।

00:03:26अच्छी बातों की बात करें, तो यहाँ बहुत कुछ है।

00:03:27इसका सेटअप बहुत आसान है, है न?

00:03:29Pip install करो, प्रॉम्प्ट लिखो और शुरू हो जाओ।

00:03:31ग्राउंडेड आउटपुट की वजह से LLM पर भरोसे की समस्या कम हो जाती है क्योंकि आप सब कुछ वेरिफाई कर सकते हैं और आप

00:03:36किसी एक मॉडल तक सीमित नहीं हैं।

00:03:37यह लोकल या क्लाउड, दोनों पर काम करता है।

00:03:39दोनों ही तरीके काम करेंगे और यह लंबे डॉक्यूमेंट्स को भी ज़्यादातर टूल्स से बेहतर संभालता है।

00:03:43यह मुफ़्त है, ओपन सोर्स है और तेज़ी से बेहतर हो रहा है।

00:03:45कुछ कमियाँ भी हैं जो आपको महसूस हो सकती हैं, जैसे बड़े स्केल पर आपको LLM की लागत चुकानी होगी।

00:03:51बहुत ज़्यादा शोर वाले टेक्स्ट से एक्सट्रैक्शन अधूरा रह सकता है।

00:03:53यह मुख्य रूप से Python पर आधारित है, तो अगर आप Python नहीं जानते, तो सीखने में थोड़ा समय लग सकता है, लेकिन

00:03:57Python बहुत बढ़िया है।

00:03:58यह उन ऐप्स के लिए सही नहीं है जहाँ रियल-टाइम में बहुत तेज़ रिस्पॉन्स चाहिए।

00:04:01आपको इस पर ध्यान क्यों देना चाहिए?

00:04:02क्योंकि Lang Extract बिना कस्टम मॉडल या कमज़ोर पाइपलाइन्स बनाए अनस्ट्रक्चर्ड डेटा पर

00:04:07काम करना आसान बना देता है।

00:04:09यह LLM आउटपुट को प्रोडक्शन में इस्तेमाल के लायक भरोसेमंद बनाता है क्योंकि यह अपने स्रोत से जुड़ा है,

00:04:14खासकर फाइनेंस, हेल्थकेयर और कंप्लायंस जैसे सेक्टर्स में

00:04:19जहाँ ये चीज़ें बहुत मायने रखती हैं।

00:04:21साथ ही, यह आधुनिक स्टैक्स जैसे RAG, सर्च, नॉलेज ग्राफ और एनालिटिक्स में आसानी से फिट हो जाता है।

00:04:26आप चाहे जो भी बना रहे हों।

00:04:27अगर अनस्ट्रक्चर्ड डेटा आपकी रफ़्तार धीमी कर रहा है, तो यह टूल आपको काफी आगे ले जा सकता है।

00:04:31अगर डेटा आपके काम का हिस्सा है, और सच कहें तो वो तो है ही, तो इसे आज़माना बनता है।

00:04:35मिलते हैं अगले वीडियो में।

Key Takeaway

Lang Extract एक शक्तिशाली ओपन सोर्स टूल है जो अनस्ट्रक्चर्ड डेटा को LLM की मदद से सटीक, वेरीफ़िएबल और स्ट्रक्चर्ड फॉर्मेट में बदलकर डेवलपर्स की बड़ी मुश्किल हल करता है।

Highlights

Lang Extract Google का एक मुफ़्त ओपन सोर्स Python टूल है जो अनस्ट्रक्चर्ड टेक्स्ट को साफ़ JSON डेटा में बदलता है।
यह टूल Gemini और GPT जैसे LLMs का उपयोग करके डेटा के सटीक स्रोत (Text Span) को ट्रैक करता है

Timeline

अनस्ट्रक्चर्ड डेटा की चुनौती और Lang Extract का परिचय

वीडियो की शुरुआत इस बात से होती है कि असल दुनिया का ज़्यादातर डेटा ईमेल या PDF की तरह अनस्ट्रक्चर्ड होता है, जिसे प्रोसेस करना ऐप बनाने से भी ज़्यादा मुश्किल काम है। वक्ता बताते हैं कि पारंपरिक पाइपलाइन्स अक्सर इस टेक्स्ट डेटा को समझने में विफल हो जाती हैं। यहीं पर Google के मुफ़्त ओपन सोर्स टूल "Lang Extract" की एंट्री होती है जो तेज़ी से लोकप्रिय हो रहा है। यह टूल पुराने NLP तरीकों के बजाय एक आधुनिक दृष्टिकोण अपनाता है। यह उन डेवलपर्स के लिए एक गेम-चेंजर है जो डेटा एक्सट्रैक्शन को सरल बनाना चाहते हैं।

Lang Extract कैसे काम करता है और इसके मुख्य फीचर्स

Lang Extract एक Python लाइब्रेरी है जो बिखरे हुए टेक्स्ट से जानकारी निकालने के लिए Gemini या GPT जैसे बड़े भाषा मॉडल (LLMs) का उपयोग करती है। इसकी सबसे बड़ी खासियत यह है कि यह निकाले गए हर डेटा पॉइंट को मूल टेक्स्ट के सटीक हिस्से से जोड़ता है। यह "मुझ पर भरोसा करो" कहने के बजाय प्रमाण देता है कि डेटा कहाँ से लिया गया है। वक्ता बताते हैं कि यह एंटिटीज़ और उनके बीच के रिश्तों को साफ़-सुथरे JSON या HTML आउटपुट में बदल देता है। यह पारदर्शिता और सटीकता ही इसे अन्य साधारण एक्सट्रैक्शन लाइब्रेरीज़ से अलग बनाती है।

प्रैक्टिकल डेमो: सेटअप और कोडिंग प्रक्रिया

इस सेक्शन में वक्ता एक क्लिनिकल नोट्स के उदाहरण के जरिए दिखाते हैं कि इस टूल का उपयोग कैसे किया जाता है। सबसे पहले Git रिपॉजिटरी को क्लोन करना और Gemini API की का सेटअप करना आवश्यक है। इसके बाद एक साधारण Python स्क्रिप्ट लिखी जाती है जिसमें प्रॉम्प्ट के ज़रिए बताया जाता है कि क्या एक्सट्रैक्ट करना है। यहाँ खास बात यह है कि इसके लिए किसी विशेष ट्रेनिंग डेटा या मॉडल ट्यूनिंग की ज़रूरत नहीं पड़ती। अंत में यह टूल एक स्ट्रक्चर्ड JSON आउटपुट तैयार कर देता है जिसे कंप्यूटर आसानी से समझ सकता है।

विज़ुअलाइज़ेशन और बैच प्रोसेसिंग की शक्ति

वक्ता टूल के सबसे बेहतरीन फीचर, इंटरैक्टिव HTML पेज के बारे में विस्तार से बताते हैं। इस पेज पर आप किसी भी निकाली गई एंटिटी पर क्लिक कर सकते हैं और वह मूल टेक्स्ट में तुरंत हाईलाइट हो जाती है। यह फीचर डीबगिंग और डेटा ऑडिटिंग को बहुत आसान बना देता है क्योंकि आपको अब अंदाज़ा लगाने की ज़रूरत नहीं पड़ती। इसके अलावा, बड़े पैमाने पर काम करने के लिए इसमें एक बैच मोड भी है जो हज़ारों डॉक्यूमेंट्स को कुशलता से प्रोसेस कर सकता है। यह सेक्शन दिखाता है कि कैसे विज़ुअलाइज़ेशन डेटा समीक्षा की रफ़्तार को बढ़ा देता है।

डेवलपर्स के लिए इसके फायदे और वास्तविक उपयोग के मामले

अनस्ट्रक्चर्ड डेटा को मैन्युअल रूप से संभालना न केवल चिड़चिड़ाने वाला है बल्कि यह बहुत महंगा भी साबित होता है। वक्ता बताते हैं कि क्लिनिकल नोट्स से डेटा निकालना या सपोर्ट टिकटों को नॉलेज ग्राफ में बदलना इसके प्रमुख उदाहरण हैं। जहाँ सटीकता और सबूत (Grounding) की आवश्यकता होती है, वहाँ Lang Extract सबसे बेहतर विकल्प है। यह डेटा की पाइपलाइनों में होने वाली गलतियों को कम करता है और समय की बचत करता है। यह टूल व्यवसायों को उनके पुराने डेटा से अधिक मूल्य निकालने में मदद करता है।

टूल के फायदे, कमियाँ और निष्कर्ष

वीडियो के अंतिम भाग में टूल की खूबियों और सीमाओं पर चर्चा की गई है, जैसे कि इसका सेटअप आसान है और यह मुफ़्त है, लेकिन बड़े पैमाने पर LLM की लागत आ सकती है। यह टूल Python पर आधारित है और रियल-टाइम रिस्पॉन्स के लिए शायद सबसे तेज़ न हो, लेकिन यह बहुत भरोसेमंद है। यह फाइनेंस और हेल्थकेयर जैसे महत्वपूर्ण क्षेत्रों के लिए एकदम सही है जहाँ कंप्लायंस और ग्राउंडेड आउटपुट मायने रखते हैं। वक्ता निष्कर्ष निकालते हैं कि यदि अनस्ट्रक्चर्ड डेटा आपकी रफ़्तार धीमी कर रहा है, तो Lang Extract को आज़माना आपके काम को काफी आगे ले जा सकता है। यह आधुनिक डेटा स्टैक्स जैसे RAG और एनालिटिक्स के लिए एक अनिवार्य टूल साबित हो सकता है।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video