नया सबसे बेहतरीन मॉडल आ गया है (GPT-5.4)

BBetter Stack
Computing/SoftwareSmall Business/StartupsBusiness NewsInternet Technology

Transcript

00:00:00आप 'दिनों वाली गिनती' को फिर से शुरू कर सकते हैं क्योंकि एक नया बेहतरीन मॉडल आ गया है।
00:00:03इस बार यह GPT 5.4 है और मैं इसकी टेस्टिंग कर रहा हूँ, तो यहाँ वो सब कुछ है जो आपको जानना चाहिए,
00:00:07साथ ही इसके फायदे और नुकसान भी, सिर्फ 5 मिनट और 40 सेकंड में।
00:00:11तो यहाँ इसके मुख्य बिंदु दिए गए हैं।
00:00:17GPT 5.4 नॉलेज वर्क और वेब सर्च में बेहतर है, इसमें नेटिव कंप्यूटर उपयोग की क्षमताएं हैं,
00:00:22एक नया टूल सर्च फीचर है जिसे मैं थोड़ी देर में समझाऊँगा, इसे रिस्पॉन्स के बीच में ही बदला जा सकता है,
00:00:26इसमें एक नया फ़ास्ट मोड है और साथ ही 10 लाख टोकन की कॉन्टेक्स्ट विंडो भी है।
00:00:30जाहिर तौर पर 5.4 का लक्ष्य कोडेक्स 5.3 की कोडिंग क्षमताओं को GPT 5.2 के ज्ञान,
00:00:34वेब सर्च और प्रोफेशनल वर्क स्किल्स के साथ जोड़ना था ताकि 5.4 को एक ऑल-राउंडर, हर काम करने वाला
00:00:40मॉडल बनाया जा सके।
00:00:41और आर्टिफिशियल एनालिसिस के थर्ड पार्टी बेंचमार्क के अनुसार, उन्होंने वास्तव में
00:00:45वह लक्ष्य हासिल कर लिया है।
00:00:46इसे बेस्ट कोडिंग मॉडल, बेस्ट एजेंटिक मॉडल का दर्जा मिला है और इंटेलिजेंस के मामले में
00:00:49यह जेमिनी के साथ बराबरी पर है।
00:00:51अगर हम उस बिंदु पर ध्यान दें जो मुझे सबसे दिलचस्प लगा, तो वह था इसका
00:00:55नेटिव कंप्यूटर उपयोग।
00:00:56OpenAI ने स्पष्ट रूप से इसे अपने पहले जनरल पर्पस मॉडल के रूप में डिज़ाइन किया है जिसमें इन-बिल्ट कंप्यूटर
00:01:00उपयोग की क्षमताएं हैं, इसलिए इसे 'Playwright' जैसी लाइब्रेरी के माध्यम से कंप्यूटर चलाने के लिए कोड लिखने,
00:01:04और स्क्रीनशॉट के आधार पर माउस और कीबोर्ड कमांड देने में माहिर होना चाहिए।
00:01:08उन्होंने एक एक्सपेरिमेंटल Playwright स्किल रिलीज़ की है, तो मैंने इसे आज़माकर देखा।
00:01:12कोडेक्स में 5.4 और हायर रीजनिंग का उपयोग करते हुए, मैंने इसे लंदन के टावर ब्रिज का
00:01:16एक इंटरैक्टिव 3D अनुभव बनाने का प्रॉम्प्ट दिया।
00:01:18मैंने नई स्किल के साथ-साथ इमेज जनरेशन स्किल का भी उपयोग किया ताकि यह बनावट के लिए
00:01:22अपने खुद के एसेट्स तैयार कर सके।
00:01:24अब, अनुभव खुद कोडेक्स 5.3 के काफी समान था, जो अब तक
00:01:29मेरा पसंदीदा मॉडल था।
00:01:30काम शुरू करने के लगभग 20 मिनट बाद, इसने
00:01:33नई Playwright स्किल का उपयोग करना शुरू किया और वह अनुभव काफी अच्छा था।
00:01:37यह ब्राउज़र खोलता, इधर-उधर क्लिक करता, सीन को नेविगेट करता, और विज़ुअल समस्याओं को पहचानता
00:01:41जिन्हें ठीक करने की ज़रूरत थी, जैसे कि बैकग्राउंड का सीन के साथ न मिलना, और फिर यह वापस
00:01:45कोड पर जाकर उसे ठीक कर देता, और यह प्रक्रिया बहुत ही सहज और स्वाभाविक लगती थी।
00:01:50इस प्रोजेक्ट के पहले वर्जन को उस अकेले प्रॉम्प्ट से पूरा होने में करीब 30 मिनट लगे
00:01:54और उसके बाद मैंने कुछ फॉलो-अप्स भेजे, जिसमें कुछ और डिटेल्स और कुछ सुधार माँगे,
00:01:58जैसे नावों का तिरछा होना और सड़क का दूसरी बनावटों के साथ टकराना, और इसने
00:02:03फिर से उन कामों पर हर प्रॉम्प्ट के लिए करीब 30 मिनट तक काम किया, क्रोम को खोला,
00:02:07वेरिफाई किया और बदलाव किए, और मुझे करीब डेढ़ घंटे के काम और 3 प्रॉम्प्ट्स में यह फाइनल वर्जन दिया,
00:02:11और यह किसी भी तरह से परफेक्ट नहीं है, लेकिन पूरी तरह से
00:02:16हैंड्स-ऑफ डेवलपमेंट के लिए मुझे नहीं लगता कि यह बुरा है, और मेरे लिए यह मॉडल
00:02:20उन लोगों के लिए एक बेहतरीन अपग्रेड है जो पहले से ही 5.3 कोडेक्स पसंद करते हैं।
00:02:24हालांकि मुझे काफी हंसी आई जब इसे करीब 2 घंटे इस्तेमाल करने के बाद इसने मुझे सुझाव दिया
00:02:27कि अगर मैं उस नए 'फ़ास्ट मोड' पर स्विच कर लूँ तो मैं अपना एक घंटा बचा सकता था।
00:02:31यह वास्तव में बिल्कुल वही मॉडल है, वही इंटेलिजेंस और वही अनुभव, बस यह
00:02:351.5 गुना तेज़ टोकन स्पीड देता है क्योंकि इसका बिल आपके उपयोग से दोगुना होता है, तो यह मूल रूप से
00:02:41सिर्फ एक प्रायोरिटी टियर है और यह कोई अलग मॉडल नहीं है।
00:02:44अब, इस रिलीज़ में मुझे जो दूसरा बिंदु विशेष रूप से दिलचस्प लगा, वह था टूल सर्च।
00:02:48यह सिस्टम प्रॉम्प्ट में पहले से ही अपनी सभी टूल डेफिनिशन लोड करने की समस्या को हल करता है,
00:02:52क्योंकि अगर आपके पास बहुत सारे टूल और MCP सर्वर हैं, तो आप टोकन बर्बाद करते हैं
00:02:56जिससे कॉन्टेक्स्ट बहुत बढ़ जाता है और यह आपके आउटपुट की क्वालिटी को प्रभावित कर सकता है।
00:03:00अब GPT 5.4 के साथ, प्रॉम्प्ट में उपलब्ध टूल्स की एक हल्की-फुल्की लिस्ट होती है और मॉडल में वास्तव में
00:03:05टूल सर्च की क्षमता है, इसलिए जब मॉडल को किसी टूल की ज़रूरत होती है, तो वह बस
00:03:09उस टूल की डेफिनेशन देख सकता है और ज़रूरत पड़ने पर उसे बातचीत में जोड़ सकता है।
00:03:13OpenAI का कहना है कि इससे टोकन का उपयोग 47% तक कम हो जाता है और उन्होंने इसे
00:03:1836 MCP सर्वरों के साथ एक बेंचमार्क में दिखाया जहाँ इसने वही सटीकता बनाए रखी।
00:03:22इन नई सुविधाओं के अलावा जिन्हें हमने अभी देखा, यह मॉडल वास्तव में
00:03:26टूल्स को बेहतर बनाने पर केंद्रित है - मॉडल उन्हें कैसे उपयोग करता है और कब उन्हें चुनता है, दोनों में,
00:03:30और बेंचमार्क में इसका फायदा दिखा है, लेकिन सच कहूँ तो
00:03:34यहाँ बताने के लिए इसके अलावा और कुछ नहीं है कि हाँ, नया मॉडल पिछले मॉडल से बेहतर है।
00:03:38मुझे लगता है कि आप इस मॉडल के फायदों को ऐसे सारांशित कर सकते हैं कि यह स्मार्ट है, यह ज़्यादा देर तक चलता है और
00:03:42यह टूल्स का बेहतर उपयोग करता है, जिसका अर्थ है कि यह पिछले मॉडल की तुलना में कठिन कार्यों को पूरा कर सकता है।
00:03:47हाँ, यह कोई चौंकाने वाली खबर नहीं है कि यह मॉडल पिछले वर्जन से बेहतर है, लेकिन अब चलिए
00:03:51इसके कुछ नुकसानों के बारे में बात करते हैं।
00:03:52मेरे लिए सबसे ध्यान देने वाली चीज़ इसकी स्पीड थी।
00:03:54हालांकि मुझे पसंद है कि मेरे मॉडल थोड़ा ज़्यादा सोचें, लेकिन कभी-कभी ऐसा लगता है कि GPT 5.4
00:03:59यह कुछ ज़्यादा ही करता है, या शायद यह सोचने में ही धीमा है, और निश्चित रूप से
00:04:04मैं अकेला ऐसा महसूस करने वाला नहीं हूँ।
00:04:05आर्टिफिशियल एनालिसिस के परिणामों ने वास्तव में दिखाया कि GPT 5.4 एक टोकन
00:04:09वापस देने में काफी बड़े अंतर से सबसे ज़्यादा समय लेता है और यही बात पहले
00:04:14500 टोकन वापस करने पर भी लागू होती है।
00:04:15मुझे पक्का नहीं पता कि यह मॉडल की समस्या है या इस समय प्रोवाइडर की, इसलिए शायद यह
00:04:19समय के साथ सुधर जाए, लेकिन शायद एक अधिक निराशावादी नज़रिया यह है कि इसे धीमा रखा गया है ताकि आप
00:04:24नया फ़ास्ट मोड इस्तेमाल करें।
00:04:26एक और नुकसान उन लोगों के लिए कीमतों में बढ़ोतरी है जो API का उपयोग करते हैं।
00:04:29बेस मॉडल वास्तव में $2.50 प्रति दस लाख इनपुट टोकन और $15 प्रति दस लाख आउटपुट टोकन है,
00:04:34लेकिन प्रो मॉडल काफी महँगा है।
00:04:37इसकी कीमत $30 प्रति दस लाख इनपुट टोकन और $180 प्रति दस लाख आउटपुट टोकन है और
00:04:43इससे भी बुरा यह है कि यदि आप उस नई 10 लाख टोकन की कॉन्टेक्स्ट विंडो का लाभ उठाना चाहते हैं, तो
00:04:47272,000 टोकन से अधिक के किसी भी इनपुट का बिल सामान्य दर से दोगुना लिया जाएगा।
00:04:52तो मैं फिलहाल आपके कॉन्टेक्स्ट को छोटा रखने की सलाह दूँगा।
00:04:55आखिरी नुकसान हालांकि UI डिज़ाइन है, और हालाँकि यह थोड़ा व्यक्तिगत विषय है, मैंने
00:04:59Opus 4.6 और GPT 5.4 से एक कैफे वेबसाइट बनाने को कहा और मुझे यहाँ Opus ज़्यादा पसंद आया, हालांकि इनमें से
00:05:05किसी ने भी मुझे बहुत ज़्यादा प्रभावित नहीं किया।
00:05:07मुझे लगता है कि मुख्य चीज़ जिससे मैं GPT 5.4 और कुछ अन्य GPT मॉडलों के साथ जूझता हूँ
00:05:11वह यह है कि उन सभी का UI एक जैसा ही लगता है।
00:05:14ऐसा लगता है कि इसे इस तरह का फ्रॉस्टेड कार्ड जैसा UI और ग्रेडिएंट बहुत पसंद है।
00:05:19और जाहिर है कि यह मैंने सिर्फ एक टेस्ट किया था, लेकिन डिज़ाइन एरिना पर यह मॉडल
00:05:23बहुत ऊपर नहीं है, तो यह बस कुछ ऐसा है जिसमें OpenAI फिलहाल उतना मजबूत नहीं है।
00:05:27कुल मिलाकर, मैं कहूँगा कि मैं इसे रोज़ाना इस्तेमाल करूँगा क्योंकि मैं कोडेक्स का फैन हूँ, लेकिन मैं उत्सुक हूँ
00:05:32कि आपके क्या विचार हैं।
00:05:33आपकी पसंद का मॉडल कौन सा है?
00:05:34मुझे नीचे कमेंट्स में बताएं, और वहाँ हैं ही तो सब्सक्राइब भी कर लें और हमेशा की तरह
00:05:37अगले वीडियो में मिलते हैं।

Key Takeaway

GPT 5.4 एक शक्तिशाली और बहुमुखी AI मॉडल है जो नेटिव कंप्यूटर कंट्रोल और कुशल टूल सर्च के साथ आता है, लेकिन इसकी उच्च लागत और धीमी गति इसके व्यापक उपयोग में बाधा बन सकती है।

Highlights

GPT 5.4 एक नया ऑल-राउंडर मॉडल है जो कोडिंग (Codex 5.3) और ज्ञान (GPT 5.2) दोनों की क्षमताओं को जोड़ता है।

इसमें 'नेटिव कंप्यूटर उपयोग' की क्षमता है, जिससे यह स्क्रीनशॉट के आधार पर माउस और कीबोर्ड कमांड दे सकता है।

नया 'टूल सर्च' फीचर उपलब्ध टूल्स की केवल एक हल्की लिस्ट लोड करके टोकन उपयोग को 47% तक कम कर देता है।

मॉडल में 10 लाख टोकन की विशाल कॉन्टेक्स्ट विंडो और 1.5 गुना तेज़ 'फ़ास्ट मोड' शामिल है।

बेंचमार्क के अनुसार इसे सर्वश्रेष्ठ कोडिंग और एजेंटिक मॉडल का दर्जा दिया गया है, जो जेमिनी के बराबर है।

इसकी मुख्य कमियों में धीमी रिस्पॉन्स स्पीड और API उपयोगकर्ताओं के लिए बहुत अधिक कीमतें शामिल हैं।

UI डिज़ाइन के मामले में यह अभी भी 'फ्रॉस्टेड कार्ड' और ग्रेडिएंट तक सीमित है, जो कुछ उपयोगकर्ताओं को पसंद नहीं आ सकता।

Timeline

GPT 5.4 का परिचय और मुख्य विशेषताएं

वीडियो की शुरुआत एक नए और शक्तिशाली मॉडल GPT 5.4 के लॉन्च की घोषणा के साथ होती है। वक्ता बताते हैं कि इस मॉडल का मुख्य लक्ष्य कोडेक्स 5.3 की कोडिंग दक्षता और GPT 5.2 के व्यापक ज्ञान को एक साथ लाना है। इसमें 10 लाख टोकन की कॉन्टेक्स्ट विंडो और एक नया फ़ास्ट मोड जैसे महत्वपूर्ण फीचर्स जोड़े गए हैं। थर्ड-पार्टी बेंचमार्क के अनुसार, इसे कोडिंग और एजेंटिक कार्यों के लिए अब तक का सबसे बेहतरीन मॉडल माना जा रहा है। यह अनुभाग स्पष्ट करता है कि कैसे यह मॉडल इंटेलिजेंस के मामले में गूगल के जेमिनी मॉडल के साथ प्रतिस्पर्धा कर रहा है।

नेटिव कंप्यूटर उपयोग और व्यावहारिक परीक्षण

इस भाग में मॉडल की 'नेटिव कंप्यूटर उपयोग' क्षमता का गहराई से विश्लेषण किया गया है, जो इसे सीधे कंप्यूटर चलाने में सक्षम बनाती है। वक्ता ने लंदन के टावर ब्रिज का 3D अनुभव बनाने के लिए 'Playwright' लाइब्रेरी और इमेज जनरेशन स्किल्स का उपयोग करके इसका परीक्षण किया। मॉडल ने खुद ब्राउज़र खोला, विज़ुअल समस्याओं की पहचान की और उन्हें कोड में जाकर ठीक किया, जो एक सहज अनुभव था। हालांकि इस पूरी प्रक्रिया में करीब डेढ़ घंटे का समय लगा, लेकिन यह पूरी तरह से 'हैंड्स-ऑफ' डेवलपमेंट का एक प्रभावशाली उदाहरण है। यह अनुभाग दिखाता है कि कैसे GPT 5.4 जटिल विकास कार्यों को स्वायत्त रूप से संभालने की क्षमता रखता है।

फ़ास्ट मोड और टूल सर्च तकनीक

वक्ता यहाँ नए 'फ़ास्ट मोड' के बारे में बताते हैं जो 1.5 गुना तेज़ है लेकिन इसके लिए दोगुना शुल्क लिया जाता है। इसके बाद 'टूल सर्च' नामक एक क्रांतिकारी फीचर की चर्चा की गई है, जो सिस्टम प्रॉम्प्ट में अनावश्यक टूल डेफिनिशन को लोड होने से रोकता है। यह तकनीक टोकन की बर्बादी को 47% तक कम कर देती है और मॉडल को ज़रूरत पड़ने पर ही टूल चुनने की अनुमति देती है। OpenAI ने इसे 36 MCP सर्वरों के साथ सफलतापूर्वक टेस्ट किया है, जिससे इसकी सटीकता और दक्षता साबित होती है। कुल मिलाकर, यह खंड मॉडल की कार्यक्षमता और संसाधनों के बेहतर प्रबंधन पर केंद्रित है।

कमियां: गति, लागत और डिज़ाइन चुनौतियाँ

अंतिम भाग में GPT 5.4 की महत्वपूर्ण कमियों और चुनौतियों पर प्रकाश डाला गया है, जिसमें सबसे बड़ी समस्या इसकी धीमी गति है। आर्टिफिशियल एनालिसिस के आंकड़े बताते हैं कि यह मॉडल पहला टोकन वापस देने में अन्य मॉडलों की तुलना में काफी अधिक समय लेता है। API की कीमतों में भी भारी बढ़ोतरी हुई है, विशेष रूप से प्रो मॉडल के लिए जहाँ इनपुट और आउटपुट की दरें बहुत अधिक हैं। इसके अलावा, वक्ता ने इसके UI डिज़ाइन की आलोचना की है, जो क्लॉड के ओपस मॉडल की तुलना में कम आकर्षक लगता है। वीडियो का समापन दर्शकों से उनके पसंदीदा मॉडल के बारे में पूछकर और भविष्य के अपडेट के लिए सब्सक्राइब करने के सुझाव के साथ होता है।

Community Posts

View all posts