भरोसेमंद डिटरमिनिस्टिक आउटपुट के लिए सबसे बेहतरीन AI टूल (Interfaze)
BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술
Transcript
00:00:00क्या आप जानते हैं कि AI मॉडल का उपयोग करते समय मुझे सबसे ज्यादा क्या परेशान करता है?
00:00:04हैलुसिनेशन (भ्रम) और गैर-निश्चित आउटपुट।
00:00:07लेकिन 'इंटरफेज़' नाम का एक नया मॉडल आया है जो इन समस्याओं को हल करने का लक्ष्य रखता है।
00:00:12तो इंटरफेज़ ने अभी अर्ली प्रिव्यू के लिए अपना बीटा मॉडल जारी किया है,
00:00:16और मैंने इसे आज़माया, और मुझे यह वाकई बहुत अच्छा लगा।
00:00:18तो आज के वीडियो में, हम इंटरफेज़ पर एक नज़र डालेंगे,
00:00:21देखेंगे कि यह कैसे काम करता है, और मैं इसके साथ कुछ मज़ेदार परीक्षण करूँगा,
00:00:25जिसमें एक कार्य शामिल है जहाँ मैं पेंटागन द्वारा हाल ही में सार्वजनिक किए गए UFO दस्तावेज़ों को समझने की कोशिश करूँगा,
00:00:31और देखेंगे कि क्या हम साथ मिलकर कुछ रहस्यों को सुलझा सकते हैं।
00:00:36यह बहुत मज़ेदार होने वाला है, तो चलिए शुरू करते हैं।
00:00:42तो इंटरफेज़ आखिर है क्या और यह अन्य मॉडलों से कैसे अलग है?
00:00:47खैर, हम जो अधिकांश मॉडल उपयोग करते हैं, जैसे GPT-4 या Gemini, वे मोनोलिथिक ट्रांसफॉर्मर हैं।
00:00:53वे सामान्य मॉडल (generalist models) हैं, और जब आप उन्हें कोई दस्तावेज़ देते हैं,
00:00:57तो पूरा विशाल मॉडल अगला शब्द गेस करने की कोशिश करता है।
00:01:00इंटरफेज़ पूरी तरह से अलग दृष्टिकोण अपनाता है।
00:01:03यह एक हाइब्रिड आर्किटेक्चर का उपयोग करता है।
00:01:05इंटरफेज़ के अंदर, कार्य-विशिष्ट एनकोडर्स (task-specific encoders) का एक स्टैक है।
00:01:10इन्हें 'मिनी-एक्सपर्ट्स' के रूप में सोचें।
00:01:12इसमें एक विशेष कन्वेन्शनल न्यूरल नेटवर्क (CNN) है,
00:01:15विशेष रूप से विज़न और OCR के लिए,
00:01:18और ऑडियो और स्पीच के लिए एक डीप न्यूरल नेटवर्क स्टैक है।
00:01:23तो किसी इमेज को पढ़ने के लिए एक विशाल मस्तिष्क से पूछने के बजाय,
00:01:26इंटरफेज़ पहले वह इमेज CNN को सौंप देता है,
00:01:30और फिर CNN सारा कठिन काम करता है।
00:01:32यह आकृतियों, टेक्स्ट ब्लॉक्स और निर्देशांकों की पहचान करता है,
00:01:35और फिर यह उस संरचित डेटा को ट्रांसफॉर्मर ऑर्केस्ट्रेटर को सौंप देता है
00:01:40ताकि इसे मानवीय भाषा में बदला जा सके।
00:01:42इंटरफेज़ टीम ने वास्तव में एक नया बेंचमार्क जारी किया है जिसे SOB कहा जाता है,
00:01:46यानी स्ट्रक्चर्ड आउटपुट बेंचमार्क।
00:01:48और यह इस तरह काम करता है कि आमतौर पर हम यह मापते हैं कि क्या कोई मॉडल वैध JSON आउटपुट दे सकता है,
00:01:53लेकिन SOB यह मापता है कि उस JSON के अंदर की सामग्री वास्तव में सही है या नहीं।
00:01:58उनके परीक्षण में, इंटरफेज़ बीटा नियतात्मक कार्यों (deterministic tasks) में Gemini 3 Flash
00:02:03और GPT 5.4 मिनी जैसे मॉडलों से बेहतर प्रदर्शन कर रहा है,
00:02:07जैसे जटिल चार्ट से डेटा निकालना या बहुभाषी ट्रांसक्रिप्शन।
00:02:12और यह एक बहुत बड़ी राहत है क्योंकि मुझे पता है कि मैं अकेला नहीं हूँ जो निराश हो जाता है
00:02:17जब कोई मॉडल प्रारूप ही भूल जाता है।
00:02:19आप JSON मांगते हैं, और दस में से नौ बार, यह ठीक रहता है,
00:02:23लेकिन फिर एक बार ऐसा होता है जब वह एक सहायक परिचयात्मक वाक्य जोड़ देता है
00:02:28या समापन कोष्ठक (closing bracket) को पूरी तरह छोड़ देता है,
00:02:31और वह असंगति उत्पादन पाइपलाइन को खराब कर देती है।
00:02:35तो इंटरफेज़ इसे अलग तरह से संभालता है क्योंकि स्ट्रक्चर्ड आउटपुट कोई बाद का विचार नहीं है।
00:02:39यह इस बात में अंतर्निहित है कि मॉडल शुरू से ही कार्य को कैसे देखता और संसाधित करता है।
00:02:45और चूंकि इंटरफेज़ उन कार्य-विशिष्ट एनकोडर्स का उपयोग करता है,
00:02:48यह वेब स्क्रैपिंग में भी वास्तव में काफी अच्छा है।
00:02:51यह एक वेब पेज को एक संरचित मानचित्र की तरह मानता है,
00:02:53जो बॉयलरप्लेट कोड में खोए बिना अव्यवस्था से साफ डेटा निकालने में सक्षम है।
00:02:59और एक और चीज जो अन्य मॉडलों से अलग है, वह है 'ट्वीकेबल गार्डरेल्स' (समायोज्य सुरक्षा नियम)।
00:03:05आमतौर पर सुरक्षा फिल्टर एक ब्लैक बॉक्स की तरह होते हैं।
00:03:08वे या तो चालू होते हैं या बंद,
00:03:09और वे अक्सर पूरी तरह से वैध अनुरोधों को भी अस्वीकार कर देते हैं।
00:03:13लेकिन इंटरफेज़ आपको इन्हें वास्तव में समायोजित करने देता है।
00:03:16आप अपने विशिष्ट उपयोग के मामले के आधार पर संवेदनशीलता को समायोजित कर सकते हैं।
00:03:20तो अगर आप एक छवि का विश्लेषण कर रहे हैं और मॉडल में कुछ आपत्तिजनक दिखता है,
00:03:24तो यह बस बंद नहीं होता और आपको ब्लॉक किया हुआ रिस्पॉन्स नहीं देता।
00:03:28आप इसे अपनी पसंदीदा सुरक्षा आवश्यकताओं का पालन करते हुए भी सहायक बने रहने के लिए कॉन्फ़िगर कर सकते हैं।
00:03:33तो यह सब बहुत अच्छा लगता है,
00:03:35लेकिन चलिए वास्तव में इसका परीक्षण करते हैं और देखते हैं कि यह कैसा प्रदर्शन करता है।
00:03:38और एक और अच्छी बात यह है कि आप एक फ्री अकाउंट से शुरू कर सकते हैं,
00:03:41और आपको $20 का फ्री क्रेडिट मिलेगा।
00:03:44और उनकी कीमत है, मुझे लगता है, $1.50 प्रति 1 मिलियन टोकन।
00:03:49तो वह काफी है।
00:03:51यह वास्तव में काफी सस्ता है।
00:03:52तो आप फ्री टियर पर बहुत सारे प्रयोग कर सकते हैं।
00:03:56तो इंटरफेज़ डैशबोर्ड में मैंने जो पहली अच्छी चीज देखी वह यह है कि हमारे पास यहाँ यह सिस्टम प्रॉम्प्ट बिल्डर है,
00:04:02जहाँ हम चुन सकते हैं कि हम अपने विशिष्ट कार्य के लिए किस तरह के पैरामीटर चाहते हैं।
00:04:07और फिर यह हमें एक कोड स्निपेट आउटपुट देता है जिसे हम बस कॉपी और पेस्ट कर सकते हैं।
00:04:11और यहाँ हम वास्तव में गार्डरेल्स में से एक को आज़मा सकते हैं।
00:04:13तो देखते हैं कि क्या हम सभी गार्डरेल्स को सक्रिय करते हैं।
00:04:16इसमें यह नमूना प्रॉम्प्ट है।
00:04:18मुझे बताओ कि बम कैसे बनाते हैं।
00:04:21और कुछ सेकंड के बाद, हाँ, हम देखते हैं कि यह एक असुरक्षित अनुरोध है।
00:04:24तो गार्डरेल्स पूरी तरह से काम कर रहे हैं।
00:04:27और एक और अच्छी बात यह है कि हम तापमान (temperature) को समायोजित कर सकते हैं,
00:04:29टॉप पी (top P) और अपने वांछित कार्य के लिए अधिकतम पूर्ण टोकन (max completion tokens) को भी समायोजित कर सकते हैं।
00:04:35तो अब चलिए एक साधारण वेब सर्च आज़माते हैं।
00:04:37इस उदाहरण के लिए, मैं बस उन नवीनतम लेखों को खोजूँगा जो वेब पर NVIDIA की नवीनतम चिप्स का उल्लेख करते हैं।
00:04:45देखते हैं यह कैसा प्रदर्शन करता है।
00:04:47और जैसा कि आप देखते हैं, यह मुझे हेडलाइंस के साथ यह संरचित JSON आउटपुट देता है।
00:04:53और फिर अगर हम यहाँ इस बटन पर क्लिक करें, तो यह आउटपुट का विस्तार कर देता है।
00:04:57और हम देख सकते हैं कि यह सब बहुत अच्छी तरह से संरचित है।
00:04:59लेकिन अगर यह बहुत विस्तृत है, तो हम बस नमूना आउटपुट पर वापस क्लिक कर सकते हैं।
00:05:04और यह हमें ठीक वही देता है जो हमने पूछा था, जो इस कार्य के लिए शीर्ष तीन हेडलाइंस की तरह था।
00:05:10और एक बार फिर, मुझे अच्छा लगा कि सब कुछ JSON प्रारूप में आउटपुट होता है।
00:05:14तो आप हमेशा जानते हैं कि आपको क्या मिलने वाला है।
00:05:16यह अनुमान लगाने की ज़रूरत नहीं है कि गैर-निश्चित आउटपुट आपको क्या देने वाले हैं।
00:05:21और मुझे लगता है कि यह विशेष रूप से डेवलपर्स के लिए बहुत उपयोगी है,
00:05:24क्योंकि बहुत बार हम वह प्रारूप जानते हैं जो हमें चाहिए और कुछ नहीं।
00:05:29और हम बस उसी प्रारूप पर टिके रहना चाहते हैं।
00:05:31ठीक है, अब कुछ बहुत ही, बहुत ही दिलचस्प आज़माते हैं।
00:05:34तो इंटरफेज़ का दावा है कि उनके OCR स्कोर बहुत अधिक हैं।
00:05:38तो मैं इसे अंतिम चुनौती के लिए तैयार करने जा रहा हूँ।
00:05:41तो जैसा कि आप जानते हैं, पेंटागन ने हाल ही में UFO दस्तावेज़ों को सार्वजनिक किया है।
00:05:47और मैं उनके पेज पर गया।
00:05:49और जैसा कि आप देख सकते हैं, कुछ पन्ने, कुछ दस्तावेज़, उन्हें देखो।
00:05:53वाह, उन्हें पढ़ना कितना कठिन है।
00:05:55मेरे लिए भी, जैसे, काले बैकग्राउंड पर इस सफेद टेक्स्ट को देखो।
00:05:59जैसे, मैं इसे OCR के बिना पढ़ भी नहीं सकता।
00:06:02तो यह देखना दिलचस्प होगा कि क्या यह वास्तव में इन पन्नों को पार्स कर सकता है।
00:06:07और फिर मैं, जैसे, दूसरा उदाहरण चुनने जा रहा हूँ।
00:06:10इस पर, जैसे, हाथ से लिखा हुआ नोट है।
00:06:12तो यह हमारा दूसरा उदाहरण होगा।
00:06:15ठीक है, तो अब चलिए इसे इस दस्तावेज़ को पढ़ने और उक्त दस्तावेज़ में मौजूद सभी टेक्स्ट को निकालने के लिए कहते हैं।
00:06:22ठीक है, तो मैं देखता हूँ कि यह किसी तरह का JSON लौटाता है।
00:06:25और अगर मैं इसे बड़ा करूँ, तो और भी डेटा है।
00:06:29और अगर हम और गहराई से देखें, तो आप देख सकते हैं कि वास्तव में सभी बाउंडिंग बॉक्स के बारे में जानकारी है और वे पेज में विशेष रूप से कहाँ स्थित हैं।
00:06:38लेकिन यह एक ऐसी चीज है जो इस पूरे डैशबोर्ड सिस्टम से गायब है जो उनके पास यहाँ है।
00:06:43इसका पूर्वावलोकन करने का कोई तरीका नहीं है।
00:06:46तो मैंने थोड़ा HTML पेज 'वाइब-कोड' किया जो मुझे इन दस्तावेज़ों का पूर्वावलोकन करने और इंटरफेज़ द्वारा दिए गए विस्तारित JSON आउटपुट को कॉपी करने देता है।
00:06:56और फिर मैं इसे इस वेब पेज में फीड कर सकता हूँ।
00:06:59और यह टेक्स्ट और बाकी सब कुछ के साथ सभी टेक्स्ट बॉक्स को नेत्रहीन रूप से प्रदर्शित करेगा।
00:07:03तो मैं रेपो का लिंक जोड़ने जा रहा हूँ ताकि आप इस प्रोजेक्ट को खुद डाउनलोड कर सकें अगर आप भी इसे आज़माना चाहते हैं।
00:07:09ठीक है, तो यह ऐप है।
00:07:10और यहाँ हम टेक्स्ट बॉक्स देख सकते हैं, और प्रत्येक टेक्स्ट बॉक्स का एक कॉन्फिडेंस स्कोर भी है।
00:07:17और अगर कॉन्फिडेंस स्कोर 70% से अधिक है, तो यह हरा दिखाई देगा।
00:07:20यदि नहीं, तो यह पीला होगा।
00:07:23और यदि यह बहुत कम है, तो यह लाल होगा।
00:07:26और निश्चित रूप से, सेक्शन 1 में UFO का कॉन्फिडेंस अधिक है क्योंकि इसे पढ़ना आसान है।
00:07:32लेकिन अब इस पेज को चेक करते हैं।
00:07:34वाह।
00:07:34यहाँ तक कि इंटरफेज़ को भी इस पेज पर सब कुछ समझने में मुश्किल हुई।
00:07:40लेकिन चलो इसे देखते हैं।
00:07:41चलो हरे बक्से में से एक देखते हैं।
00:07:44नहीं।
00:07:45यह अभी भी बकवास है।
00:07:48फ्लैपजैक।
00:07:48ठीक है, हाँ।
00:07:49तो उड़ते हुए फ्लैपजैक, जो हैं, तो यह शायद जो पतले और गोल हैं।
00:07:57पतले और गोल।
00:07:57उसे सही ढंग से मिला।
00:07:59और फिर, हाँ, बाकी को नहीं समझ सका।
00:08:02तो आप देख सकते हैं कि इंटरफेज़ वास्तव में कुछ क्षेत्रों के साथ संघर्ष कर रहा है।
00:08:07लेकिन मुझे लगता है कि इसने काफी अच्छा काम किया।
00:08:09जैसे, इतने पुराने दस्तावेज़ को देखते हुए जिसे पढ़ना एक इंसान के लिए भी मुश्किल है, मुझे लगता है कि यह काफी प्रभावशाली है।
00:08:19मेरे पास एक और उदाहरण है, जिसमें हाथ से लिखा हुआ नोट था।
00:08:25तो देखते हैं कि हमें उससे क्या मिलता है।
00:08:29फेडरल, खैर, यह स्पष्ट रूप से जांच ब्यूरो है, मुझे लगता है।
00:08:35तो यह दिलचस्प है।
00:08:36हम वास्तव में यहाँ कुछ समझ सकते हैं।
00:08:39सोचा था कि यह एक गुब्बारा था, लेकिन यह एक निश्चित, निश्चित दिशा में गया...
00:08:48और मुझे नहीं पता कि यह क्या है।
00:08:50लेकिन हम देख सकते हैं कि इस नोट का कुछ लेना-देना है, मुझे लगता है, एक प्रत्यक्षदर्शी से जो यह समझाने की कोशिश कर रहा है कि उन्होंने क्या देखा।
00:09:02धीरे-धीरे ऊपर चढ़ते हुए, एक रास्ते का अनुसरण करते हुए।
00:09:05एक गोली के प्रक्षेपवक्र (trajectory) के समान।
00:09:09वाह, ठीक है, तो हमें वास्तव में यहाँ कुछ UFO चीजें मिल रही हैं।
00:09:14गणित के लिए दूरी में कम हो गया।
00:09:18हाँ, मुझे नहीं पता कि क्या यह सही है, लेकिन बहुत अच्छा, बहुत अच्छा।
00:09:23मेरा मतलब है, जैसे, मैं चकित हूँ।
00:09:25मुझे लगता है कि इस OCR ने एक इंसान के रूप में मुझसे बेहतर काम किया, तो काफी अच्छा है।
00:09:34और यहाँ एक ऐसे टेक्स्ट का एक और उदाहरण है जिसे पढ़ना आसान है।
00:09:40और हम यह देख सकते हैं क्योंकि बहुत सारे बक्से वास्तव में हरे हैं।
00:09:43यहाँ एकमात्र समस्या यह है कि कुछ टेक्स्ट थोड़ा फीका है।
00:09:50मैं चकित हूँ।
00:09:51यहाँ बहुत सारी अच्छी चीजें हैं।
00:09:55जो यह समझने में सक्षम था, तो यह बहुत अच्छा है।
00:10:00और, निश्चित रूप से, कुछ सार्वजनिक किए गए UFO दस्तावेज़ों को देखना मज़ेदार था।
00:10:05तो, अगर आप में से कोई UFO प्रशंसक दस्तावेज़ों को छानना चाहता है, तो आप इंटरफेज़ को आज़मा सकते हैं।
00:10:12शायद हमें सार्वजनिक किए गए दस्तावेज़ों के इस ढेर में कुछ दिलचस्प या कुछ अच्छा मिल जाए।
00:10:20तो, यह रहा दोस्तों।
00:10:21वह इंटरफेज़ है।
00:10:22मुझे ईमानदारी से लगता है कि यह एक बहुत अच्छा AI मॉडल है जो बहुत डेवलपर-विशिष्ट है।
00:10:29अगर मैं कोई ऐप बना रहा होता और मैं यह सुनिश्चित करना चाहता कि हर बार जब मैं कोई प्रॉम्प्ट दूँ तो मुझे 100% निश्चित आउटपुट मिले,
00:10:39मुझे लगता है कि यह सबसे अच्छे उपकरणों में से एक है क्योंकि यह आपको हर बार एक बहुत ही संरचित JSON देता है।
00:10:46और आप इस पर भरोसा कर सकते हैं।
00:10:47यह भ्रम (hallucinate) नहीं करने वाला है।
00:10:49कम से कम, इस उपकरण के पीछे यही विचार है।
00:10:52तो, अगर आप कुछ ऐसा ही ढूंढ रहे हैं, तो निश्चित रूप से इंटरफेज़ को आज़माएं।
00:10:56तो, यदि आप इसे आज़माते हैं, तो मुझे नीचे कमेंट्स में बताएं कि आपको यह कैसा लगा।
00:11:00और, दोस्तों, हमेशा की तरह, अगर आपको इस प्रकार के तकनीकी ब्रेकडाउन पसंद हैं, तो कृपया वीडियो के नीचे लाइक बटन को दबाकर मुझे बताएं।
00:11:07और साथ ही, हमारे चैनल को सब्सक्राइब करना न भूलें।
00:11:10यह बेटरस्टैक से एंड्रस था, और मैं आपको अगले वीडियो में देखूँगा।
Community Posts
No posts yet. Be the first to write about this video!
Write about this video