मैंने DeepSeek V4 बनाम Claude Code बनाम Codex का परीक्षण किया

CChase AI
Computing/SoftwareInternet Technology

Transcript

00:00:00पिछले 24 घंटों में, हमारे पास भारी अपडेट आए हैं
00:00:02ग्रह के दो सबसे बड़े AI मॉडलों के लिए।
00:00:04सबसे पहले, हमें GPT 5.5 का रिलीज़ मिला,
00:00:07जो कि कुछ बेंचमार्क स्कोर का दावा कर रहा है
00:00:10जो क्लाउड के मिथोस को मात देता है।
00:00:12दूसरे, हमें DeepSeek V4 का रिलीज़ मिला,
00:00:15जो कि एक ओपन सोर्स, ओपन वेट मॉडल है
00:00:18जिसके बेंचमार्क इन बड़े खिलाड़ियों को टक्कर देते हैं।
00:00:22तो चुनने के लिए इन सभी नए मॉडलों के साथ,
00:00:24आप, एक औसत उपयोगकर्ता को क्या करना चाहिए?
00:00:27खैर, आज मैं उस सवाल का जवाब देने में आपकी मदद करूँगा
00:00:29जैसे ही मैं Opus 4.7, GPT 5.5,
00:00:33और DeepSeek V4 को एक-दूसरे के खिलाफ खड़ा करता हूँ,
00:00:36ताकि आप देख सकें कि वास्तव में आपके लिए कौन सा सही है।
00:00:39अब, इस हेड-टू-हेड-टू-हेड टेस्ट को शुरू करने से पहले
00:00:41कोडेक्स के अंदर GPT 5.5,
00:00:45ओपन कोड के अंदर DeepSeek V4,
00:00:47और क्लाउड कोड के अंदर Opus 4.7 के बीच,
00:00:51आइए पहले बेंचमार्क पर एक त्वरित नज़र डालें,
00:00:53खासकर इन दो नवीनतम मॉडलों पर
00:00:54जो पिछले 24 घंटों में आए हैं।
00:00:56अब आइए पहले लागत के बारे में बात करते हैं।
00:00:58अब, DeepSeek V4, जैसा कि आप जानते हैं,
00:01:00एक ओपन सोर्स, ओपन वेट मॉडल है,
00:01:01लेकिन इसका मतलब यह नहीं है कि आप इसे अपने कंप्यूटर पर चला सकते हैं
00:01:04क्योंकि यह चीज़ बहुत बड़ी है।
00:01:05मैं 1.6 ट्रिलियन पैरामीटर की बात कर रहा हूँ।
00:01:08इसे चलाने के लिए आपको कुछ गंभीर हार्डवेयर की आवश्यकता है।
00:01:10इसलिए हमें अभी भी इसके लिए भुगतान करना होगा।
00:01:11हमें अभी भी API का उपयोग करना होगा,
00:01:13लेकिन यह प्रतिस्पर्धा से अनंत गुना सस्ता है,
00:01:15लगभग आठ गुना सस्ता।
00:01:18और तीनों मॉडलों में से,
00:01:19बिल्कुल नया GPT 5.5 वास्तव में सबसे महंगा है,
00:01:22जो थोड़ा आश्चर्यजनक है क्योंकि कुल मिलाकर,
00:01:24OpenAI अपने एंथ्रोपिक प्रतिद्वंद्वी से सस्ता रहा है।
00:01:28इस बात के संदर्भ में कि यह आपको क्या खर्च करेगा
00:01:30प्रति 1 मिलियन आउटपुट टोकन।
00:01:32GPT 5.5 के लिए, यह $30 होगा।
00:01:35एंथ्रोपिक के लिए, यह $25 होने वाला है।
00:01:38और DeepSeek के लिए, यह $3.48 होने वाला है।
00:01:41अब, अगर हम इनपुट टोकन की बात कर रहे हैं,
00:01:44जो पूरी चीज़ का एक छोटा हिस्सा है,
00:01:46GPT 5.5 और Opus 5.7 एक ही हैं।
00:01:49यह प्रति 1 मिलियन इनपुट के लिए $5 होने वाला है।
00:01:53और DeepSeek के लिए, यह लगभग $1.70 है।
00:01:57तो इनपुट पर बहुत सस्ता और आउटपुट पर बहुत सस्ता।
00:02:01कहा जा रहा है, जब बात 5.5 की आती है,
00:02:03यह 5.4 से दोगुना महंगा है।
00:02:06हालाँकि, OpenAI का दावा है कि यह वास्तव में कम टोकन का उपयोग करता है
00:02:10अपनी शक्ति के कारण।
00:02:11इसलिए भले ही यह 5.4 की कीमत से दोगुना है,
00:02:14वे कहते हैं कि वास्तविक टोकन खर्च और वास्तविक लागत के संदर्भ में,
00:02:17एक ही काम के लिए, यह अंत में सिर्फ 20% की तरह होता है
00:02:20जब सब कुछ कहा और किया जाता है तो अधिक महंगा।
00:02:21तो बस उस बात को अपने दिमाग में रखें।
00:02:24तो हमने लागत के बारे में बात की है।
00:02:25अब आइए बेंचमार्क के बारे में बात करते हैं।
00:02:26कागज पर ये मॉडल कितने अच्छे हैं?
00:02:27मैं जानता हूँ कि हम सभी बेंचमार्क को लेकर थोड़े सुन्न हो गए हैं।
00:02:31हमें उन्हें एक चुटकी नमक के साथ लेने की जरूरत है,
00:02:32लेकिन फिर भी एक नज़र डालना उचित है,
00:02:33विशेष रूप से जब हम संख्याओं को देख रहे हों
00:02:36जो प्रत्येक खिलाड़ी द्वारा उसी बेंचमार्क पर रिपोर्ट की जाती हैं।
00:02:39कोडिंग श्रेणी में तीन थे
00:02:42जिन्होंने तीनों ने नंबर रिपोर्ट किए।
00:02:43वह SWE बेंच वेरिफाइड, SWE बेंच प्रो था
00:02:46और टर्मिनल बेंच 2.0।
00:02:48अब SWE बेंच वेरिफाइड और SWE बेंच प्रो के लिए,
00:02:50Opus वहाँ विजेता था।
00:02:52टर्मिनल बेंच 2.0 पर, GPT 87.2 पर विजेता था,
00:02:56जो वैसे एक बड़ी संख्या है
00:02:59उससे जो एंथ्रोपिक ने मिथोस के लिए रिपोर्ट किया था।
00:03:02ओह, मिथोस, माफ़ करना।
00:03:03जो कि पागलपन है।
00:03:05आप जानते हैं, वह सुपर सीक्रेट मॉडल जिसे वे रिलीज़ नहीं कर सकते,
00:03:07जाहिर है कि GPT 5.5 से टर्मिनल बेंच 2 पर खराब प्रदर्शन करता है।
00:03:10अब टर्मिनल बेंच 2.0 यहाँ सबसे बड़ा आउटलेयर है।
00:03:13Opus 4.7 और V4 प्रो बहुत पीछे हैं,
00:03:16लेकिन Opus 4.7 बनाम V4 प्रो पर एक नज़र डालें।
00:03:20यह दो अंकों से भी कम है जबकि आठ गुना सस्ता है।
00:03:23और आप यहाँ भी उसी तरह की कहानी देखते हैं
00:03:24SWE बेंच वेरिफाइड और SWE बेंच प्रो के साथ।
00:03:26हाँ, Opus जीतता है।
00:03:28लेकिन जब हम दूसरे स्थान की तुलना तीसरे स्थान से करते हैं
00:03:31और V4 हमेशा तीसरे स्थान पर रहता है,
00:03:33तो वहाँ कोई बड़ा अंतर नहीं है जिसकी आप उम्मीद करेंगे।
00:03:36मेरा मतलब है, पाँच अंक कुछ नहीं हैं, आप जानते हैं,
00:03:38SWE बेंच वेरिफाइड पर, 85 से 86।
00:03:41लेकिन फिर से, आठ गुना सस्ता, ओपन सोर्स।
00:03:45आप जानते हैं, यहाँ कुछ वास्तविक ट्रेड-ऑफ हैं
00:03:46जो हम कर सकते हैं अगर हमें सबसे अधिक शक्ति की आवश्यकता नहीं है।
00:03:49एक और चीज़ जिसके बारे में बात करना दिलचस्प है
00:03:51लंबा संदर्भ है जहाँ अजीब तरह से Opus 4.7 वास्तव में खराब है
00:03:55संख्याओं के हिसाब से, 4.6 से काफी खराब,
00:03:58जो मेरा दिमाग उड़ा देता है।
00:04:00और जब हम लंबे संदर्भ के बारे में बात कर रहे होते हैं
00:04:01जहाँ हम चीजों को पुनः प्राप्त करने की कोशिश कर रहे होते हैं
00:04:03500,000 टोकन और 1 मिलियन टोकन के बीच,
00:04:064.7 वास्तव में भयानक है।
00:04:08और DeepSeek और GPT 5.5 से कहीं ज्यादा खराब करता है।
00:04:12अब आप पूरी चर्चा कर सकते हैं कि
00:04:14आप 500,000 से 1 मिलियन टोकन रेंज में क्यों हैं?
00:04:17शुरू करने के लिए, कितने लोग वास्तव में वहाँ काम कर रहे हैं
00:04:20क्योंकि हम संदर्भ में सड़न को मार रहे हैं चाहे जो भी हो
00:04:22उस जगह पर, चाहे आप कोई भी मॉडल इस्तेमाल कर रहे हों।
00:04:24लेकिन यह दिलचस्प है कि किसी भी कारण से,
00:04:26हमने कुछ रिग्रेशन देखा है
00:04:27जब बात एंथ्रोपिक मॉडल की आती है।
00:04:29लेकिन बड़ी तस्वीर, मुझे लगता है कि निष्कर्ष यह है
00:04:325.5 वास्तव में मजबूत है।
00:04:33यह कुछ मैट्रिक्स में Opus 4.7 को मात देता है,
00:04:36कुछ मैट्रिक्स में हार जाता है,
00:04:37लेकिन यह एक अत्यंत मजबूत मॉडल है।
00:04:39और इसके अलावा, खैर, V4 प्रो एक तरह से, आप जानते हैं,
00:04:42कुल मिलाकर पीछे चल रहा है।
00:04:45यह अनंत गुना सस्ता होते हुए भी स्ट्राइकिंग दूरी के भीतर है,
00:04:48जो कि फिर से आपके औसत ग्राहक के लिए एक बढ़िया विकल्प है।
00:04:52क्योंकि अभी ऐसा लगता है कि आपके पास बहुत सारे विकल्प नहीं हैं
00:04:54ओपन सोर्स पक्ष पर जो वास्तव में प्रतिस्पर्धा कर सकते हैं।
00:04:56अब आइए वास्तविक हेड टू हेड टू हेड टेस्ट में कूदते हैं
00:04:59इन तीनों मॉडलों के साथ।
00:05:00और हम इनमें से प्रत्येक मॉडल के लिए एक हार्नेस का उपयोग कर रहे हैं।
00:05:025.5 के साथ, यह कोडेक्स होगा।
00:05:04Opus 4.7 के साथ, यह क्लाउड कोड होगा।
00:05:07और DeepSeek V4 प्रो के साथ, मैं ओपन कोड का उपयोग कर रहा हूँ।
00:05:10और पहले टेस्ट के लिए, हम क्या करने जा रहे हैं
00:05:11हम उनसे एक फ्लाइट सिम्युलेटर बनाने के लिए कहेंगे
00:05:14हमारे लिए 3JS में जो ब्राउज़र में चलता है।
00:05:17आप यहाँ प्रॉम्ट देख सकते हैं।
00:05:18मैं कह रहा हूँ, मैं चाहता हूँ कि यह उड़ने में अच्छा महसूस हो।
00:05:20मैं चाहता हूँ कि इसमें थोड़ा वजन हो।
00:05:21मैं कुछ मजबूत दृश्य चाहता हूँ और मैं चाहता हूँ कि यह जो भी उपयोग करे
00:05:25संरचना और टूलिंग उसे सही लगता है।
00:05:27तो यह काफी सीधा है कि वे जानते हैं कि क्या करना है,
00:05:30फिर भी इतनी छूट है कि हम कुछ विचलन देख सकें
00:05:33मॉडल के बीच।
00:05:34और जबकि हम यह देखने जा रहे हैं कि वे क्या करने में सक्षम हैं
00:05:36एक शॉट लेने के लिए, हम इसके कई पुनरावृत्तियों से गुजरने जा रहे हैं
00:05:38और फॉलो ऑन प्रॉम्ट्स रखें।
00:05:40क्योंकि यह देखना कितना अच्छा है कि यह एक शॉट पर कितना अच्छा करता है,
00:05:44यह वैसा नहीं है जैसा हम वास्तविक जीवन में वास्तव में काम करते हैं, है ना?
00:05:46मैं देखना चाहता हूँ कि यह कैसा प्रदर्शन करता है जब मैं इसे फॉलो ऑन प्रॉम्ट्स देता हूँ
00:05:49और इसे मुझे पसंद आने वाली चीज़ तक ले जाने में कितना समय लगता है।
00:05:52और जब हम इन तीन मॉडलों की तुलना करते हैं,
00:05:54तो वास्तव में चार चीजें हैं जिन्हें मैं देखूँगा।
00:05:55यह समय होगा।
00:05:57इसे बनाने में कितना समय लगता है?
00:05:58लागत, हम कितने टोकन का उपयोग कर रहे हैं?
00:06:01गुणवत्ता, यह कितना अच्छा है?
00:06:02और फिर चार वाइब्स की तरह है।
00:06:04और यह गुणवत्ता से संबंधित है।
00:06:06यह बहुत व्यक्तिपरक है।
00:06:06मुझे वास्तव में कौन सा अधिक पसंद है?
00:06:09और ध्यान देने योग्य बात यह भी है, तीनों मॉडल, तीनों हार्नेस
00:06:11वही कौशल का उपयोग भी कर रहे हैं।
00:06:13तो आइए डीप सीकिंग से शुरू करते हैं कि यह हमसे क्या सवाल पूछ रहा है।
00:06:16यह पूछ रहा है कि हम किस तरह का फ्लाइट मॉडल चाहते हैं।
00:06:18आइए पूर्ण सिम के साथ चलते हैं।
00:06:20यह इलाके के लिए महासागरों और द्वीपों की सिफारिश कर रहा है।
00:06:22हम उसके साथ जाएंगे।
00:06:23आइए देखें कैसे, और फिर यह कैमरा वरीयता पूछ रहा है।
00:06:25आइए दोनों करें।
00:06:26आइए देखें कि क्या यह हमें एक टॉगल देने में सक्षम है
00:06:27प्रथम व्यक्ति और तृतीय व्यक्ति दोनों के लिए।
00:06:29हम इसकी अनुशंसित टूलिंग वरीयता के साथ जाएंगे।
00:06:32और हम बस एक लो पॉली मॉडल के साथ जाएंगे
00:06:33विमान और दृश्यों के लिए।
00:06:35अब कोडेक्स की ओर बढ़ते हुए, उसी तरह के सवाल।
00:06:38हालाँकि यह हमसे केवल तीन पूछ रहा है।
00:06:40कहना कि इस योजना को किस प्रकार की उड़ान के लिए अनुकूलित करना चाहिए?
00:06:42आइए एक कठिन सिमुलेशन के साथ चलते हैं।
00:06:44ब्राउज़र के लिए कौन सा खेलने योग्य अनुभव सबसे अधिक मायने रखता है?
00:06:48आइए द्वीप टेकऑफ़ लूप करते हैं।
00:06:50यह काफी दिलचस्प है कि उन सभी के पास एक ही है।
00:06:52और क्या कैमरा और विमान प्रस्तुति?
00:06:54मैं इसके लिए भी टॉगल करने जा रहा हूँ।
00:06:56और क्लाउड कोड के लिए, हम स्टडी सिम लर्निंग करेंगे
00:06:58महसूस महासागरों और द्वीपों इनपुट के लिए।
00:07:02हम कीबोर्ड और माउस करेंगे।
00:07:04यह इसे काम पर नहीं जाने देगा।
00:07:05तो योजना मोड काफी हद तक, तीनों में बहुत समान है।
00:07:09काफी हद तक एक ही सवाल जैसे,
00:07:11आप भौतिकी क्या चाहते हैं?
00:07:12आप इलाका क्या चाहते हैं?
00:07:13आप कैमरा कोण क्या चाहते हैं?
00:07:15तो वहाँ कोई बड़ा अंतर नहीं है।
00:07:17और देखते हैं कि वे योजना के संदर्भ में क्या लेकर आते हैं।
00:07:19ठीक है, तो तीनों योजनाएँ पूरी हो चुकी हैं।
00:07:20तो आइए उनमें से प्रत्येक को बहुत जल्दी देखें
00:07:22और कुछ अंतर देखें।
00:07:24पहला जिसे हम यहाँ देख रहे हैं वह DeepSeek है।
00:07:26और यह जिस योजना को बिछाता है, उसके मामले में यह काफी नग्न हड्डियों का है।
00:07:29तो यह हमें प्रोजेक्ट संरचना देता है
00:07:31और फिर फ्लाइट फिजिक्स के बारे में बहुत जल्दी बात करता है,
00:07:33पर्यावरण, कैमरा, और HUD ओवरले,
00:07:35और वास्तव में केवल कुछ बुलेट पॉइंट।
00:07:37दूसरी ओर, जब हम कोडेक्स के अंदर 5.5 को देख रहे होते हैं,
00:07:40'क्योंकि यह एक सारांश है, मुख्य परिवर्तन,
00:07:43कार्यान्वयन विवरण, परीक्षण योजना में जाता है,
00:07:46और साथ ही वे धारणाएं भी
00:07:47जो यह सब हमारे लिए स्पष्ट करती हैं।
00:07:49और फिर हमारे पास क्लाउड कोड की योजना है, जिसमें सबसे ज्यादा समय लगा।
00:07:50इसमें लगभग पांच मिनट लगे, लेकिन यह अब तक की सबसे विस्तृत योजना है
00:07:53क्योंकि यह संदर्भ और स्टैक है।
00:07:55लेआउट फ्लाइट मॉडल के बारे में बात करता है।
00:07:57यह वास्तव में अलग-अलग पलों में जा रहा है,
00:08:00स्टॉल के बारे में बात कर रहा है, जैसे स्टॉल बजर।
00:08:02जैसे यह बहुत, बहुत विस्तृत हो रहा है।
00:08:03नियंत्रणों, दुनिया, मोड में जा रहा है,
00:08:06वास्तविक विमान जिसका हम उपयोग करने जा रहे हैं, प्रदर्शन,
00:08:08और बस आगे बढ़ता जा रहा है।
00:08:10तो बहुत विस्तृत।
00:08:11तो अब हम तीनों को उनकी योजना लागू करने के लिए कहेंगे,
00:08:14और हम देखेंगे कि अंतिम परिणाम कैसा दिखता है।
00:08:15तो कोडेक्स के अंदर GPT 5.5 सबसे पहले पूरा हुआ।
00:08:19तो चलिए देखते हैं कि यह कैसा दिखता है।
00:08:20तो यहाँ वह फ्लाइट सिम्युलेटर है जो इसने हमें दिया।
00:08:22हमारे पास आकाश में कुछ बादल हैं।
00:08:26हमारे पास ऐसा कुछ है जो वहां AOA संकेतक जैसा दिखता है।
00:08:31हमारे पास नीचे हमारी गति है,
00:08:34और देखते हैं कि क्या हम वास्तव में इसे
00:08:35जमीन से ऊपर उठा सकते हैं।
00:08:36मैं ध्यान दिलाऊंगा कि कहीं भी रनवे जैसा कुछ नहीं है।
00:08:38यह बस सीधी घास है।
00:08:39और इसके बजाय यह एक द्वीप जैसी चीज होने वाली थी।
00:08:42हालाँकि जब कैमरा थोड़ा अजीब तरह से हिलता है,
00:08:45तो आप एक सेकंड के लिए नीचे रनवे देख सकते हैं।
00:08:48ठीक है, हम स्टॉल कर रहे हैं और हम बस,
00:08:50हम जमीन से ऊपर भी नहीं उठ पा रहे हैं, है ना?
00:08:51तो यह वास्तव में थोड़ा सा,
00:08:54यह वास्तव में थोड़ा मुश्किल है।
00:08:55तो मैं क्या करने जा रहा हूँ, मैं इसे
00:09:00एक दूसरा प्रॉम्प्ट देने जा रहा हूँ जिसमें इसे थोड़ा आसान बनाने के लिए कहूँगा
00:09:03उड़ाने के लिए, क्योंकि यहाँ बहुत कुछ हो रहा है,
00:09:05लेकिन यह कठिन है।
00:09:06तो मैंने लिखा, इसे उड़ाना बहुत कठिन है।
00:09:08क्या हम इसे इस्तेमाल करना आसान बना सकते हैं?
00:09:10यानी थोड़ा और आर्केड जैसा।
00:09:12और ग्राफिक्स पर भी कुछ काम करने की जरूरत है।
00:09:15तो देखते हैं यह कैसा काम करता है।
00:09:16अब ध्यान देने वाली बात यह है कि 5.5 को वह पहला पास बनाने में
00:09:21लगभग सात मिनट लगे।
00:09:23और इसमें 63,000 टोकन लगे।
00:09:26ठीक है, इसने कहा कि इसने इसे उड़ाना थोड़ा आसान
00:09:28बना दिया है और ग्राफिक्स को अपडेट कर दिया है।
00:09:29तो चलिए देखते हैं कि दूसरा पास कैसा दिखता है।
00:09:32तो यहाँ हमें क्या मिला।
00:09:32ग्राफिक्स निश्चित रूप से बेहतर दिख रहे हैं,
00:09:34लेकिन चलिए देखते हैं कि क्या हम वास्तव में इस बार
00:09:36रनवे से बाहर निकल सकते हैं।
00:09:37तो, ठीक है, थ्रॉटल सौ प्रतिशत पर है,
00:09:4150, 60, सात।
00:09:43सेसना पर रोटेशन की गति क्या है?
00:09:46ठीक है, 70, 80, 90।
00:09:49हमें अब जमीन से ऊपर उठने में सक्षम होना चाहिए।
00:09:51ठीक है, गलत रास्ता।
00:09:53चलो, जमीन से ऊपर उठो, जमीन से ऊपर उठो।
00:09:56नहीं, यह शायद मुझे स्टॉल कर देगा, है ना?
00:09:58हाँ, स्टॉल।
00:09:59ठीक है, इसमें अभी भी कुछ काम की जरूरत है।
00:10:02तो चलिए कोडेक्स को एक और मौका देते हैं।
00:10:05चलिए 5.5 को एक और मौका देते हैं
00:10:07इसे वास्तव में खेलने योग्य बनाने का।
00:10:08तो मैंने इसे बताया कि मैं विमान को भी
00:10:10जमीन से ऊपर नहीं उठा पा रहा हूँ और उड़ान नहीं भर पा रहा हूँ।
00:10:11हमें निश्चित रूप से इसे उड़ान भरना और
00:10:12वास्तव में इसे उड़ाना आसान बनाना होगा।
00:10:14ठीक है, तो यह कहता है कि इसने टेकऑफ़ की समस्या ठीक कर दी है।
00:10:16जाहिर है कि पहले ब्रेक लॉक थे।
00:10:19मुझे नहीं पता कि क्या इसी वजह से हम ऐसा नहीं कर पा रहे थे।
00:10:21ओह, इसने इसे स्वचालित रूप से टेकऑफ़ पर सेट नहीं किया।
00:10:24फ्लैप्स, हाँ, यह था,
00:10:25हमने इसे सुपर सिम्युलेटर मोड पर रखा था।
00:10:29लेकिन यहाँ हमारे फ्लाइट सिम्युलेटर का तीसरा प्रयास है।
00:10:32चलिए देखते हैं हम कैसा करते हैं।
00:10:34तो क्या हम जमीन से ऊपर उठ सकते हैं?
00:10:36ओह, हम इस बार रनवे पर उछल रहे हैं
00:10:37किसी चीज के साथ।
00:10:38ठीक है कूल, हम जमीन से ऊपर हैं।
00:10:41हम वास्तव में आगे बढ़ रहे हैं।
00:10:44चलिए देखते हैं कि क्या हम इन रिंग्स में से एक पर जा सकते हैं।
00:10:45मेरा मतलब है, ग्राफिक्स इतने बुरे नहीं हैं, आप जानते हैं,
00:10:49किसी ऐसी चीज के लिए जो 10 मिनट से कम समय में उत्पन्न हुई है।
00:10:52यह काफी सटीक लग रहा है,
00:10:56यह मुझे मेरी वर्टिकल, आप जानते हैं,
00:10:59नीचे फीट प्रति मिनट दे रहा है,
00:11:00मेरी वास्तविक ऊंचाई, नॉट्स, हेडिंग, AGL।
00:11:04तो यह काफी परिष्कृत है
00:11:06सब कुछ ट्रैक करने के मामले में।
00:11:08मेरा मतलब है, सामने यह छोटा संकेतक,
00:11:10मेरा मतलब है, यह एंगल ऑफ अटैक जैसा दिखता है, आप जानते हैं,
00:11:13संकेतक, जो काफी अच्छा है।
00:11:14तो इसमें कुछ अच्छी चीजें हो रही हैं।
00:11:18वास्तविक नियंत्रण थोड़े अजीब हैं।
00:11:21जैसा कि आप देख सकते हैं, मैं इसे बिल्कुल भी नियंत्रित नहीं कर सकता,
00:11:23लेकिन कुल मिलाकर, बुरा नहीं है।
00:11:25आप जानते हैं, हम इसे कामिकाज़े कर सकते हैं
00:11:27और देखें कि 18,000 फीट प्रति मिनट पर क्या होता है।
00:11:31लेकिन हाँ, आप जानते हैं, 66,000 टोकन के लिए,
00:11:36लगभग 10 मिनट, 15 मिनट या उससे अधिक, कम या ज्यादा,
00:11:40आप जानते हैं, आगे-पीछे के साथ,
00:11:41मुझे नहीं लगता कि यह बिल्कुल भी बुरा है।
00:11:42मुझे कोई अंदाज़ा नहीं है।
00:11:44कि मैं क्या देख रहा हूँ।
00:11:46यह थर्ड पर्सन में होना चाहिए था।
00:11:51यह कॉकपिट होना चाहिए था।
00:11:53और ज़ाहिर है, DeepSeek के साथ हमारा पहला प्रयास
00:11:56एक और तबाही थी।
00:12:00तो मैं DeepSeek को बता रहा हूँ कि सिम्युलेटर पूरी तरह से गड़बड़ है।
00:12:03ग्राफ़िक्स में बहुत सारे बग्स हैं
00:12:06और मैं कुछ भी उड़ा नहीं पा रहा हूँ।
00:12:07कृपया इसे ठीक करें।
00:12:11और हमारा दूसरा प्रयास कुछ ऐसा दिखता है।
00:12:13मुझे अभी भी कोई अंदाज़ा नहीं है।
00:12:16बिल्कुल कोई सुराग नहीं।
00:12:17DeepSeek आखिर है क्या।
00:12:20ओह, अरे, वहाँ एक विमान है।
00:12:21ओह, वहाँ कुछ है।
00:12:24मैं, हाँ, यह, यह बहुत बुरा है।
00:12:26और सच कहूँ तो, मुझे लगता है कि इसे एक और प्रॉम्प्ट देने के लिए भी
00:12:28मुझे बहुत, बहुत विशिष्ट होने की आवश्यकता होगी।
00:12:30ओह, अरे, वहाँ एक विमान है।
00:12:32ओह, वहाँ कुछ है।
00:12:33मैं, हाँ, यह, यह बहुत बुरा है।
00:12:38और सच कहूँ तो, मुझे लगता है कि इसे करने के लिए
00:12:42एक और प्रॉम्प्ट देने के लिए भी, मुझे बहुत, बहुत विशिष्ट होने की
00:12:44आवश्यकता होगी कि हम क्या करने की कोशिश कर रहे हैं, जो फिर से,
00:12:47कोडेक्स के साथ हमने जो किया उससे काफी कम है।
00:12:49जैसे यह बहुत, आप जानते हैं, सामान्य प्रॉम्प्ट थे।
00:12:51मैं पहले पास पर भी कुछ ऐसा पाने में सक्षम था
00:12:53जो कम से कम करीब हो।
00:12:54जैसे यह स्पष्ट रूप से ग्राफिक्स के साथ
00:12:57पूरी तरह से संघर्ष कर रहा है।
00:12:58हम बस, मुझे समझ नहीं आ रहा कि इसका वर्णन कैसे करूँ,
00:13:01लेकिन हे, यह बहुत सस्ता था।
00:13:03तो अब चलिए एक नज़र डालते हैं कि क्लाउड कोड
00:13:07हमारे संदर्भ के लिए हमें क्या देने में सक्षम था।
00:13:09योजना को लागू करने में इसे 13 मिनट लगे।
00:13:12स्वयं योजना में पांच मिनट लगे।
00:13:13तो चलिए पहला पास बनाने के लिए 20 मिनट मान लेते हैं।
00:13:17और फिर कुल टोकन के लिए,
00:13:19इस रन में लगभग 15% और योजना से पहले 5% लगे।
00:13:22तो हम देख रहे हैं, खैर, माफ़ करना,
00:13:24हम 11% संदर्भ और उससे पहले 5% देख रहे हैं।
00:13:28तो 20 मिनट, क्लाउड कोड के लिए 150,000 टोकन मान लें,
00:13:33जो निश्चित रूप से उन सभी में
00:13:34सबसे महंगा और धीमा है।
00:13:36और यहाँ क्लाउड कोड का इस पर प्रयास है।
00:13:39किसी भी कारण से, हम तुरंत हवा में हैं।
00:13:43हम स्टॉल कर रहे हैं।
00:13:44हम IFR में हैं।
00:13:45मुझे नहीं पता कि क्या हो रहा है।
00:13:48हम कुछ क्रैश करने वाले हैं।
00:13:50क्या हम इसे बचा सकते हैं?
00:13:51क्या हम इसे गोता (डाइव) से बाहर निकाल सकते हैं?
00:13:53नहीं, हम स्टॉल कर रहे हैं, नहीं, हम मर चुके हैं।
00:13:54ठीक है, यह दिलचस्प है।
00:13:56फिर से, यह हमें तुरंत हवा में फेंक देता है।
00:14:00हम बादलों में हैं।
00:14:02हम स्टॉल कर रहे हैं।
00:14:03मुझे नहीं पता कि क्या हो रहा है।
00:14:05हमें, हमें दूसरे पास की आवश्यकता है।
00:14:08तो मैंने लिखा लोड होने पर, मुझे तुरंत हवा में फेंक दिया जाता है।
00:14:11इसे नियंत्रित करना कठिन है।
00:14:12मैं रनवे पर शुरू करना चाहता हूँ और मैं चाहता हूँ कि इसे उड़ाना आसान हो।
00:14:15ओह, और वैसे, उन ग्राफिक्स में भी सुधार करें।
00:14:17तो इसमें लगभग चार मिनट लगे, लेकिन इसने कुछ बदलाव किए।
00:14:20हम रनवे पर स्पॉन होने वाले हैं।
00:14:22इसने गियर बदल दिया।
00:14:23तो अब यह ट्राइसाइकिल गियर और कुछ अन्य चीजें हैं।
00:14:24तो देखते हैं यह कैसा दिखता है।
00:14:26ठीक है, तो यह रहा।
00:14:27फिर से, हम तुरंत कोहरे के एक बैंक में फेंक दिए जाते हैं।
00:14:29मैं इस चीज को नियंत्रित करने की कोशिश कर रहा हूँ।
00:14:31और मैं बस, हाँ, इसे नियंत्रित करने का कोई तरीका नहीं है।
00:14:33ठीक है, हम देने जा रहे हैं,
00:14:34हम क्लाउड कोड को यहाँ एक और मौका देने जा रहे हैं।
00:14:37तो मैंने इसे बताया कि यह अभी भी मुझे तुरंत
00:14:39आकाश में फेंक रहा है।
00:14:40मैंने कहा, चलो नियंत्रण के साथ
00:14:42अधिक आर्केड प्रकार के अनुभव के साथ चलते हैं।
00:14:43मुझे लगता है कि हमें शायद ऐसा करना चाहिए था
00:14:44तीनों के लिए शुरुआती प्रॉम्प्ट्स के साथ।
00:14:46मुझे लगता है कि अधिक यथार्थवादी सिम प्रकार की चीज के लिए जाना,
00:14:50यह वास्तव में संघर्ष करता है,
00:14:53मुझे लगता है कि इसे ऐसे तरीके से करना जो उपयोगकर्ता के अनुकूल हो।
00:14:57मुझे लगता है कि यह हुड के नीचे अच्छा काम कर रहा है
00:14:59जैसे, ठीक है, जैसे एंगल ऑफ अटैक।
00:15:01ठीक है, आप स्टॉल कर रहे हैं इस पर, आप जानते हैं,
00:15:02गति बनाम कोण और वह सब।
00:15:04लेकिन वास्तव में कंप्यूटर से
00:15:07इसे हेरफेर करना मूल रूप से असंभव है।
00:15:09हालाँकि मुझे लगता है कि कोहरे वाली चीजें वास्तव में अजीब हैं।
00:15:12तो देखते हैं कि क्या प्रॉम्प्ट्स के दूसरे दौर के बाद
00:15:15यह थोड़ा बेहतर करने में सक्षम है
00:15:16क्योंकि अभी GPT 5.5 ने बहुत, बहुत बेहतर काम किया।
00:15:20तो क्लाउड कोड ने कुछ और बदलाव किए,
00:15:22इसे और अधिक उपयोगकर्ता के अनुकूल बनाया।
00:15:23और चलिए देखते हैं कि क्या मैं अभी भी जा रहा हूँ
00:15:24इस बार मैं अपने इंस्ट्रूमेंट रेटिंग के लिए जा रहा हूँ।
00:15:26हाँ, हम अभी भी जा रहे हैं।
00:15:28हम अभी भी इंस्ट्रूमेंट रेटिंग के लिए जा रहे हैं।
00:15:30हम यहाँ मेनस पर हैं, लेकिन आप जानते हैं, मैं इसे देख पा रहा हूँ।
00:15:33आप जानते हैं, मैं अपना इंस्ट्रूमेंट पैनल चेक कर सकता हूँ।
00:15:35ठीक है, हम रनवे से बाहर निकल रहे हैं।
00:15:37हाँ, ठीक है।
00:15:42क्या मैं... रनवे पर पेड़ क्यों है?
00:15:44मैं ऊपर जाने की कोशिश कर रहा हूँ।
00:15:46क्या मैं ऊपर जा सकता हूँ?
00:15:47क्या मैं पिच कर सकता हूँ?
00:15:49माउस को लॉक करने के लिए कैनवास पर क्लिक करें, क्या?
00:15:53ओह, हम हवा में हैं।
00:15:54नहीं, नहीं, हम मर गए।
00:15:57तो हाँ, मुझे लगता है कि यह काफी स्पष्ट है।
00:16:02GPT 5.5, मुझे लगता है कि यह आसानी से विजेता है।
00:16:06क्लाउड कोड दूसरे स्थान पर था।
00:16:08मैं इसे दूसरा स्थान दूंगा।
00:16:10आप जानते हैं, इसने निश्चित रूप से संघर्ष किया
00:16:13यहाँ तक कि उन प्रॉम्प्ट्स के साथ भी जो हमने इसे दिए थे।
00:16:14हमने इसे अच्छे प्रॉम्प्ट्स नहीं दिए, ईमानदारी से कहें तो।
00:16:16मुझे लगता है कि अगर अधिक समय और बेहतर प्रॉम्प्ट्स मिलते,
00:16:19थोड़ा और आगे-पीछे का संवाद होता,
00:16:20तो हम इसे वहाँ पहुँचा सकते थे जहाँ हम चाहते हैं।
00:16:21जैसे कि यह था, कम से कम इसके पास एक विमान था, एक रनवे था।
00:16:25इसके रनवे पर पेड़ थे,
00:16:26लेकिन इसमें वे वास्तविक चीजें थीं जिनकी हमें जरूरत थी
00:16:29बनाम डीपसीक (DeepSeek) ओपनकोड (OpenCODE) के साथ।
00:16:32मुझे कोई अंदाजा नहीं था कि वहाँ क्या हो रहा था।
00:16:34वह पूरी तरह से गड़बड़ था।
00:16:35मुझे ऐसा लगता है कि मुझे शुरू से शुरुआत करनी पड़ती,
00:16:36जैसे इसे बहुत विशिष्ट प्रॉम्प्ट देना।
00:16:38यह तो गड़बड़ किए जाने के करीब भी नहीं था,
00:16:39लेकिन GPT 5.5 ने सीधे शुरुआत से ही, आप जानते हैं,
00:16:42काफी अस्पष्ट प्रॉम्प्ट्स थे।
00:16:44मुझे लगा कि इसने बहुत अच्छा काम किया।
00:16:455.5 ने कुल 66 हजार टोकन का उपयोग भी किया।
00:16:48हम यहाँ ओपस (Opus) के साथ कुल मिलाकर देख रहे हैं,
00:16:52लगभग 2,00,000 टोकन।
00:16:53तो टोकन का एक चौथाई, अनिवार्य रूप से लागत का एक चौथाई।
00:16:56और यह थोड़ा तेज था।
00:16:58मेरा मतलब है, इस बिंदु पर, मुझे परवाह भी नहीं है
00:16:59Three.js का उपयोग करके।
00:17:03और यह बस खराब था, चलिए ईमानदारी से कहें, यह बस खराब था।
00:17:07अब दूसरे टेस्ट पर चलते हैं।
00:17:10इस बार हम उनसे पूछने वाले हैं
00:17:12एक लैंडिंग पेज बनाने के लिए जो WebGPU शेडर के काम को दिखाए
00:17:163JS का उपयोग करके।
00:17:18अब WebGPU शेडर का काम उस तरह की चीज है जिसे आप देखते हैं
00:17:21पुरस्कार जीतने वाली वेबसाइटों पर।
00:17:23मैं Igloo जैसी वेबसाइटों की बात कर रहा हूँ, इस तरह की चीजें,
00:17:26जैसे बहुत हाई-एंड ग्राफिक्स।
00:17:28यह एक वीडियो गेम जैसा दिखता है।
00:17:29यह अनिवार्य रूप से आपके कंप्यूटर के ग्राफिक्स कार्ड का उपयोग कर रहा है
00:17:32इन सभी चीजों को रेंडर करने के लिए।
00:17:34अब मुझे उम्मीद नहीं है कि इनमें से कोई भी कुछ भी करीब ला पाएगा
00:17:37जो हम यहाँ देखते हैं, लेकिन मैं देखना चाहता हूँ कि वे क्या कर सकते हैं
00:17:40अनिवार्य रूप से शेडर तकनीक का उपयोग करके।
00:17:42यह निश्चित रूप से आपके बुनियादी
00:17:45सास (SaaS) टेम्पलेटेड लैंडिंग पेज से एक कदम ऊपर है।
00:17:46मैं देखना चाहता हूँ कि वे क्या कर सकते हैं और उन्हें वेब डिज़ाइन की दुनिया में
00:17:48सीमाओं तक धकेलना चाहता हूँ।
00:17:50अब मैंने उन सभी को एक कौशल दिया है जो वास्तव में बताता है
00:17:53कि इस तरह की चीजें कैसे करनी हैं।
00:17:55तो ऐसा नहीं है कि वे पूरी तरह से अंधेरे में हैं
00:17:57और किसी एक को दूसरे पर कोई लाभ भी नहीं है।
00:18:00मैंने उन्हें केवल एक ही बात कही है कि मैं इसे आधुनिक महसूस कराना चाहता हूँ
00:18:02और दिखने में प्रभावशाली, जैसा आप पुरस्कारों पर देखते हैं
00:18:05और GPU कंप्यूट का स्मार्ट उपयोग करने के लिए।
00:18:08तो वे जो चाहे स्टैक और प्रोजेक्ट संरचना चुन सकते हैं
00:18:10जो उन्हें पसंद हो और हीरो कॉन्सेप्ट पर अच्छा निर्णय ले सकें,
00:18:13UI और इंटरैक्शन।
00:18:15और पहले टेस्ट की तरह, वे सभी प्लान मोड में हैं।
00:18:17तो चलिए शुरू करते हैं।
00:18:18ठीक है, तो उन सभी ने अपना प्लान पूरा कर लिया और मजेदार बात यह है,
00:18:21कि उनमें से किसी ने मुझसे कोई सवाल नहीं पूछा,
00:18:22भले ही हमने उन्हें प्लान मोड में रखा था।
00:18:24तो चलिए पहले GPT 5.5 पर एक नज़र डालते हैं।
00:18:28तो यह हमें बता रहा है कि यह फुल ब्लीड करेगा
00:18:30इंटरैक्टिव GPU संचालित हीरो।
00:18:32अवधारणा एक जीवित सिग्नल फील्ड होगी
00:18:34कुछ घने कणों (particles) के साथ जो यह करने वाला है।
00:18:36हम देखेंगे कि वह अंत में कैसा दिखता है।
00:18:38और कुल मिलाकर यह एक न्यूनतम अवार्ड स्टाइल लैंडिंग कॉपी है।
00:18:41पूरी तरह से इंटरैक्टिव वेब GPU दृश्य
00:18:43पॉइंटर रिएक्टिव कंप्यूट सिमुलेशन के साथ।
00:18:46मेरा अंदाज़ा है कि वे सब हीरो सेक्शन में किसी तरह की पार्टिकल थीम के साथ जाने वाले हैं।
00:18:50बिल्कुल वैसा ही जैसा हमने फ्लाइट सिम्युलेटर के साथ देखा था।
00:18:53उम्मीद है कि इस बार हमें बेहतर आउटपुट मिलेगा,
00:18:54लेकिन 75,000 GPU कंप्यूट कणों के साथ एक हीरो सेक्शन।
00:18:58मैं अंदाजा लगा रहा हूँ कि उन सभी को हीरो पर
00:19:01किसी प्रकार की पार्टिकल थीम के लिए जाना होगा।
00:19:04तो इसमें माउस इंटरैक्शन, एकीकरण होगा।
00:19:08इसमें वन-टाइम इनिशियलाइज़ेशन होगा।
00:19:10और फिर हमें ब्लूम, जैसी चीजें देखनी चाहिए,
00:19:13क्रोमैटिक एबरेशन, एक कस्टम विगनेट और कुछ फिल्म ग्रेन।
00:19:16तो हम देखेंगे कि यह वास्तव में कैसा दिखता है।
00:19:19और फिर हमारे पास ओपस 4.7 का प्लान फिर से है,
00:19:21ब्लूम के साथ इस पार्टिकल चीज़ के लिए जा रहे हैं
00:19:23और यह माउस के साथ इंटरैक्टिव होगा।
00:19:25तो हम देखेंगे कि क्या इनमें से कोई वास्तव में अलग दिखता है
00:19:27क्योंकि सतह पर, उनके सभी प्लान बहुत समान लगते हैं।
00:19:29तो पहला जो पूरा हुआ वह 5.5 था।
00:19:32इसमें लगभग छह मिनट लगे।
00:19:34और टोकन के संदर्भ में, हमने 107 हजार का उपयोग किया है।
00:19:37तो चलिए देखते हैं कि इसने हमारे लिए क्या बनाया है।
00:19:40और यहाँ वह है जो इसने हमारे लिए बनाया है।
00:19:42अब, यह बहुत उज्ज्वल है।
00:19:45तो वास्तविक कणों को देखना भी मुश्किल है,
00:19:47लेकिन आप जानते हैं, जैसे-जैसे हम ऊपर और नीचे स्क्रॉल करते हैं,
00:19:50बैकग्राउंड में एक एनीमेशन चल रहा है
00:19:52साथ ही, आप जानते हैं, कुछ सूक्ष्म रंग परिवर्तन भी हैं।
00:19:56ऐसा लग रहा है कि अभी हमारा माउस
00:20:00कणों को आकर्षित करने के लिए है।
00:20:01और हमारे पास, मैं इसे यहाँ ले जाऊँगा।
00:20:03इसने इसे पीछे हटाने बनाम बहाव के लिए कुछ विकल्प दिए।
00:20:08लेकिन फिर से, इसे देखना थोड़ा कठिन है
00:20:11क्योंकि यह कितना उज्ज्वल है।
00:20:12तो मैंने इसे कहा कि कणों को वास्तव में देखना मुश्किल है
00:20:14चमक के कारण।
00:20:14यह हीरो तकनीक का भी बहुत अधिक हिस्सा ले लेता है।
00:20:16तो क्या हम चमक को थोड़ा कम कर सकते हैं
00:20:18और इसे थोड़ा और दाईं ओर धकेल सकते हैं?
00:20:20क्योंकि अभी यह थोड़ा अधिक शक्तिशाली है।
00:20:23आप वास्तव में बाईं ओर के टेक्स्ट को पढ़ भी नहीं सकते
00:20:25सिर्फ इसलिए कि ये कण कितने चमकदार हैं।
00:20:27और यहाँ दूसरे रन के बाद अपडेट है।
00:20:30यह थोड़ा बेहतर है।
00:20:31यह उतना शक्तिशाली नहीं है और टेक्स्ट के लिए कुछ जगह छोड़ देता है।
00:20:35हालाँकि मैं कहूँगा कि यह लगभग धुंधला है,
00:20:39लेकिन आप जानते हैं, यह बुरा नहीं है।
00:20:41जैसे इसने वह करने के लिए सेट किया जो हमने इसे करने के लिए कहा था
00:20:44कुछ हद तक अस्पष्ट समस्या को देखते हुए।
00:20:46तो मैं इसके डिजाइन से बहुत प्रभावित नहीं हूँ,
00:20:49लेकिन मैं इसके बारे में नाराज भी नहीं हूँ।
00:20:51अब क्लाउड कोड पर एक नज़र डालते हैं
00:20:52क्योंकि जैसा कि हम यह सब कर रहे हैं,
00:20:55मुझे लगता है कि पूरी बैकग्राउंड को
00:20:57इसे समझने की कोशिश कर रहा हूँ।
00:20:58और यहाँ वह है जो क्लाउड कोड ने हमें दिया।
00:21:01तो एक तरह से कुछ भी नहीं।
00:21:06मुझे यकीन नहीं है कि यह बैकग्राउंड के बारे में कह रहा है,
00:21:10मुझे लगता है कि पूरा बैकग्राउंड माना जाता है
00:21:14WebGL, मैं मान रहा हूँ।
00:21:19यह बहुत ही सरल है,
00:21:21जो मुझे लगता है कि कुछ ऐसा है जिसे आप पूरी तरह से कर सकते हैं।
00:21:24मेरा मतलब है, स्क्रीन पर यह नहीं दिखता है,
00:21:25जैसे यह थोड़ा कूल दिखता है, लेकिन मैं ईमानदार रहूँगा,
00:21:28मैं कुछ और अधिक भड़कीला देख रहा था।
00:21:31तो दूसरे पास पर,
00:21:31जब मैंने इसे थोड़ा और भड़कीला बनाने के लिए कहा,
00:21:34तो कोई बड़ा अंतर नहीं था।
00:21:35हालाँकि यह वास्तव में सूक्ष्म है।
00:21:38वहाँ इस फिल्म ग्रेन जैसी कुछ चीज़ है,
00:21:40लगभग इस धुंधलापन की तरह जो नीचे से ऊपर तक जाता है।
00:21:43तो यह काफी सूक्ष्म चीज है।
00:21:45और आप यहाँ नीचे देख सकते हैं,
00:21:47यह प्रति सेकंड फ्रेम को ट्रैक करता है।
00:21:49यह 2,50,000 कणों का उपयोग कर रहा है।
00:21:51तो, मेरा मतलब है, ईमानदारी से यह कूल दिखता है।
00:21:54यह बस बहुत ज्यादा भड़कीला नहीं है।
00:21:56तो यह निश्चित रूप से स्वाद की बात है।
00:21:58तो क्लाउड कोड साइड पर कुल टोकन लगभग 1,75,000 थे,
00:22:01और इसने कोडेक्स (Codex) के अंदर 5.5 से थोड़ा अधिक समय लिया।
00:22:05तो यह एक तरह का पार्टिकल फील्ड जैसा है
00:22:07जिसने इस बिंदु पर 1,16,000 टोकन लिए हैं।
00:22:10इसने सबसे अधिक समय भी लिया,
00:22:12लेकिन कुल लागत हम फिर से बात कर रहे हैं, एक डॉलर से कम।
00:22:15और यहाँ वह है जो इसने हमें दिया।
00:22:17तो यह कणों के क्षेत्र जैसी चीज है
00:22:21जो कुछ हद तक मेरे माउस का अनुसरण करती है।
00:22:25दिलचस्प है।
00:22:27मुझे लगता है कि यह आपको मिर्गी का दौरा दे सकता है।
00:22:29ईमानदारी से, इसके अलावा, यह काफी फीका है।
00:22:35फ्लक्स (flux), आप जानते हैं, एक्स-रे यहाँ रंगों को बदलता है,
00:22:39लेकिन हाँ, काफी हद तक सिर्फ इस चीज को बनाया।
00:22:43जो आपके माउस पर प्रतिक्रिया करती है,
00:22:45लेकिन हां, यह कुछ तो है।
00:22:46और कुल मिलाकर, डीपसीक (DeepSeek) से टोकन काउंट 130K टोकन रहा
00:22:49जिसकी लागत $1.43 आई।
00:22:53तो उन सभी परीक्षणों के बाद, हम वास्तव में कहाँ पहुँचते हैं?
00:22:55तो अब अंतिम परिणामों के बारे में बात करते हैं।
00:22:58जब बात टेस्ट नंबर एक की आती है,
00:23:02जो कि फ्लाइट सिम्युलेटर था, स्पष्ट विजेता रहा।
00:23:05वह कोडेक्स (Codex) के अंदर GPT 5.5 था।
00:23:08यह क्लाउड कोड (Claude Code) के अंदर ओपस 4.7 से तेज़ था।
00:23:13यह अधिक तेज़ भी था और अंतिम परिणाम तो सबसे बेहतरीन था।
00:23:15डीपसीक (DeepSeek) ने फ्लाइट सिम्युलेटर में बहुत खराब प्रदर्शन किया।
00:23:16यह उसके आसपास भी नहीं था जो हम करने की कोशिश कर रहे थे।
00:23:18मुझे इसे लगातार प्रॉम्प्ट करना पड़ता,
00:23:21प्रॉम्प्ट पर प्रॉम्प्ट करना पड़ता ताकि यह 5.5 के पहले पास के
00:23:25करीब भी पहुँच सके और क्लाउड कोड में ओपस 4.7 का
00:23:29प्रदर्शन तो, ठीक था, बुरा नहीं था।
00:23:32यह उसके करीब भी नहीं था जिसे हम करने की कोशिश कर रहे थे।
00:23:34मुझे इसे प्रॉम्प्ट करना जारी रखना पड़ता,
00:23:35इसे प्रॉम्प्ट करना, प्रॉम्प्ट करना ताकि इसे करीब ला सकें
00:23:385.5 और ओपस 4.7 और क्लाउड कोड के पहले पास के,
00:23:43वह था, एह, यह भयानक नहीं था।
00:23:46जैसे यह वास्तव में शुरुआत में काम नहीं करता था,
00:23:48लेकिन कुछ प्रॉम्प्ट्स के बाद, आप बता सकते हैं,
00:23:50हम इसे उस स्तर तक ला सकते थे जो
00:23:52GPT 5.5 के बराबर था।
00:23:54इसमें और अधिक प्रॉम्प्ट्स लगते।
00:23:55इसमें अधिक समय लगता
00:23:57और अंततः यह और अधिक महंगा होता।
00:23:59तो 5.5 स्पष्ट विजेता है।
00:24:01वेब जीपीयू लैंडिंग पेज के मामले में,
00:24:03क्या हमें इसी तरह के परिणाम मिलने वाले हैं
00:24:04अगर मैं डीपसीक (DeepSeek) को सही से नहीं संभालता
00:24:06और उसे खुद कुछ करने के लिए मजबूर नहीं करता, तो मुझे लगता है हाँ।
00:24:08अब, जब हम ओपस (Opus) और 5.5 की तुलना करते हैं,
00:24:10तो मैं ओपस 4.7 और क्लॉड कोड (Claude Code) के साथ जाता
00:24:13कि उसने वेब जीपीयू (Web GPU) को कैसे संभाला।
00:24:16मुझे लगता है कि इसका संबंध एक तरह की पसंद से है।
00:24:19और इसे जबरदस्ती कुछ करने के लिए न कहूं, तो शायद हाँ।
00:24:22अब, जब हम ओपस और 5.5 की तुलना करते हैं,
00:24:24तो मैं ओपस 4.7 और क्लॉड कोड के साथ जाता
00:24:27कि उसने वेब जीपीयू वाली चीज़ को कैसे संभाला।
00:24:29मुझे लगता है कि यह पसंद-नापसंद की बात है।
00:24:31हाँ, आप कह सकते हैं कि 5.5 अधिक आकर्षक था,
00:24:35लेकिन मुझे लगा कि यह काफी भद्दा था।
00:24:37फिर से, इन सभी परीक्षणों में, हमने प्रॉम्प्ट्स को काफी अस्पष्ट रखा
00:24:41यह देखने के लिए कि यह किस रास्ते पर जाता है।
00:24:43तो मैं निश्चित रूप से यहाँ ओपस को प्राथमिकता दूंगा,
00:24:46हालाँकि यह अधिक महंगा था
00:24:48और इसमें थोड़ा अधिक समय भी लगा।
00:24:50इसलिए यदि उन्हें अधिक व्यावहारिक प्रॉम्प्ट दिया जाता
00:24:55जो बहुत विशिष्ट था कि आप क्या करना चाहते हैं,
00:24:57क्योंकि 5.5 ने वही किया जो हम चाहते थे।
00:24:59जैसे कि उसने एक वेब जीपीयू लैंडिंग पेज बनाया।
00:25:02मुझे बस लगा कि यह भद्दा था।
00:25:04तो इसने कार्य तो पूरा कर लिया।
00:25:06बस मुझे नहीं लगता कि इसने ओपस जितना अच्छा काम किया।
00:25:08अब, बड़ी तस्वीर में, इसका क्या मतलब है
00:25:09अगर हम इन सबको एक साथ देखें?
00:25:11खैर, मुझे लगता है कि यह बहुत अच्छी खबर है
00:25:13हर उस व्यक्ति के लिए जो एजेंट कोडर का उपयोग कर रहे हैं।
00:25:16हमारे पास विकल्प हैं, है ना?
00:25:18आप ओपस और क्लॉड कोड का उपयोग कर सकते हैं,
00:25:20या आप जीपीटी 5.5 और कोडेक्स का उपयोग कर सकते हैं।
00:25:23आप किसी के साथ भी गलत नहीं होंगे।
00:25:25मुझे लगता है कि इस बिंदु पर यह पूरी तरह से व्यक्तिगत पसंद है।
00:25:28और सबसे अच्छी बात यह है कि यदि आप क्लॉड कोड का रास्ता चुनते हैं,
00:25:31तो यह लगभग कोडेक्स पर भी लागू होता है।
00:25:33यदि आप कोडेक्स का रास्ता चुनते हैं,
00:25:34तो यह लगभग क्लॉड कोड पर भी लागू होता है।
00:25:37इसलिए मुझे नहीं लगता कि वेंडर लॉक जैसी कोई बात है,
00:25:40जैसे, ओ हो, मैंने तो बस क्लॉड कोड सीखा है।
00:25:42जैसे मैं कोडेक्स पर नहीं जा सकता या इसके विपरीत।
00:25:44ऐसा बिल्कुल भी नहीं है।
00:25:45यदि आप इसे सही तरीके से कर रहे हैं,
00:25:46तो आप वास्तव में एआई के मूल सिद्धांत सीख रहे हैं
00:25:48और यह कि चीजें कैसे बनाई जाती हैं।
00:25:49और यह इन दोनों पर लागू होता है।
00:25:51और जितनी अधिक प्रतिस्पर्धा होगी,
00:25:53उतना ही बेहतर यह हम उपभोक्ताओं के लिए होगा।
00:25:54या फिर हमें GPT 5.5 जैसी किसी चीज़ की शक्ति की आवश्यकता नहीं है।
00:25:59क्योंकि याद रखें, हम किसी ऐसी चीज़ के बारे में बात कर रहे हैं
00:26:00जो आठ गुना सस्ती है।
00:26:02बेशक, मुझे WebGPU लैंडिंग पेज वाली
00:26:04चीज़ पसंद नहीं आई, लेकिन क्या यह आठ गुना खराब थी?
00:26:06शायद, शायद नहीं।
00:26:10यह वास्तव में, आप जानते हैं,
00:26:11इसे स्पष्ट करना और मापना थोड़ा कठिन है।
00:26:13लेकिन जाहिर है कि यह कुछ ऐसा है जिसे हमें ध्यान में रखने की जरूरत है।
00:26:16तो, आप जानते हैं, मुझे नहीं लगता कि यह वास्तव में
00:26:194.7 या 5.5 के लिए कोई प्रतिस्पर्धा है।
00:26:21हालाँकि मुझे लगता है कि यदि आप सरल कार्य कर रहे हैं
00:26:23और आप टोकन को लेकर बहुत सचेत हैं, पैसों को लेकर बहुत सचेत हैं,
00:26:24तो अरे, शायद DeepSeek आपके लिए सही है।
00:26:27तो दोस्तों, आज के लिए मेरे पास इतना ही है।
00:26:30मुझे उम्मीद है कि इससे इन तीनों मॉडलों पर कुछ प्रकाश पड़ा होगा
00:26:33और वे एक-दूसरे के मुकाबले कैसे खड़े होते हैं।
00:26:35मुझे लगता है कि इस क्षेत्र में होने का यह एक शानदार समय है।
00:26:38अधिक प्रतिस्पर्धा सभी के लिए बेहतर है।
00:26:41तो आज के लिए मेरे पास बस इतना ही था।
00:26:42मुझे उम्मीद है कि इससे इन तीनों मॉडलों पर
00:26:45और वे एक-दूसरे के मुकाबले कैसे खड़े होते हैं, उस पर कुछ रोशनी पड़ी होगी।
00:26:47मुझे लगता है कि इस क्षेत्र में होने के लिए यह एक शानदार समय है।
00:26:49अधिक प्रतिस्पर्धा सभी के लिए बेहतर है।
00:26:51तो हमेशा की तरह, यदि आप
00:26:53क्लॉड कोड मास्टरक्लास पर हाथ आजमाना चाहते हैं,
00:26:55तो चेस एआई प्लस (Chase AI Plus) देखना सुनिश्चित करें।
00:26:56उसका लिंक विवरण में दिया गया है।
00:26:58और आपसे फिर मुलाकात होगी।

Key Takeaway

GPT 5.5 कोडिंग कार्यों के लिए सबसे तेज़ और प्रभावी विकल्प है, जबकि कम बजट वाले कार्यों के लिए DeepSeek V4 एक सस्ता विकल्प प्रदान करता है, लेकिन Opus 4.7 जटिल ग्राफिकल कार्यों में अधिक अनुकूलित परिणाम देता है।

Highlights

  • GPT 5.5 के लिए प्रति 1 मिलियन आउटपुट टोकन की लागत $30 है, जबकि Anthropic Opus 4.7 के लिए $25 और DeepSeek V4 के लिए $3.48 है।

  • टर्मिनल बेंच 2.0 पर, GPT 5.5 ने 87.2 का स्कोर प्राप्त किया, जो इसे इस बेंचमार्क में शीर्ष पर रखता है।

  • SWE बेंच वेरिफाइड और प्रो बेंचमार्क में Opus 4.7 ने सभी मॉडलों में सर्वश्रेष्ठ प्रदर्शन किया।

  • फ्लाइट सिम्युलेटर परीक्षण में GPT 5.5 ने सबसे कम पुनरावृत्तियों में एक खेलने योग्य परिणाम प्रदान किया, जबकि DeepSeek को बार-बार विशिष्ट निर्देश देने पर भी वांछित परिणाम नहीं मिले।

  • WebGPU लैंडिंग पेज निर्माण के लिए Opus 4.7 ने GPT 5.5 की तुलना में अधिक सूक्ष्म और भड़कीले ग्राफिक्स के साथ बेहतर परिणाम दिए।

Timeline

लागत और बेंचमार्क विश्लेषण

  • GPT 5.5 इनपुट के लिए $5 और आउटपुट के लिए $30 प्रति मिलियन टोकन पर सबसे महंगा मॉडल है।
  • DeepSeek V4 इनपुट के लिए $1.70 और आउटपुट के लिए $3.48 पर प्रतिस्पर्धा से आठ गुना सस्ता है।
  • टर्मिनल बेंच 2.0 में GPT 5.5 का स्कोर 87.2 है, जो Opus और DeepSeek के परिणामों को काफी पीछे छोड़ देता है।

यह खंड मॉडलों के आर्थिक पहलुओं और बेंचमार्क डेटा की तुलना करता है। हालाँकि GPT 5.5 महंगा है, OpenAI का दावा है कि इसकी उच्च शक्ति के कारण कुल टोकन खपत कम होती है, जिससे वास्तविक लागत का अंतर केवल 20% तक सीमित रहता है। बेंचमार्क डेटा इंगित करता है कि Opus कोडिंग बेंचमार्क पर मजबूत है, लेकिन GPT 5.5 टर्मिनल आधारित कार्यों में प्रमुखता दिखाता है।

फ्लाइट सिम्युलेटर निर्माण परीक्षण

  • कोडेक्स के साथ GPT 5.5 ने 66,000 टोकन का उपयोग करके सबसे सटीक फ्लाइट सिम्युलेटर बनाया।
  • Opus 4.7 ने 200,000 टोकन के साथ क्लाउड कोड के माध्यम से एक सिम्युलेटर दिया जो तुरंत हवा में स्टॉल कर रहा था।
  • DeepSeek V4 ने इस परीक्षण में सबसे खराब प्रदर्शन किया, जिसे बनाने में अत्यधिक विशिष्ट प्रॉम्प्ट की आवश्यकता थी।

तीन मॉडलों को 3JS का उपयोग करके ब्राउज़र-आधारित फ्लाइट सिम्युलेटर बनाने के लिए कहा गया। GPT 5.5 ने न्यूनतम फॉलो-ऑन प्रॉम्ट्स के साथ रनवे और विमान के साथ एक कार्यात्मक सिम्युलेटर प्रदान किया। अन्य मॉडलों को नियंत्रित करने में तकनीकी कठिनाइयां आईं, जहां सिम्युलेटर अक्सर यूजर को बिना टेकऑफ़ की स्थिति के हवा में छोड़ देते थे।

WebGPU लैंडिंग पेज निर्माण

  • GPT 5.5 ने तीव्र प्रकाश और कणों का उपयोग करके एक इंटरैक्टिव हीरो सेक्शन बनाया, लेकिन डिज़ाइन की दृष्टि से भद्दा था।
  • Opus 4.7 ने 250,000 कणों और फिल्म ग्रेन प्रभाव के साथ अधिक सूक्ष्म और कलात्मक वेबजीपीयू दृश्य तैयार किया।
  • DeepSeek V4 ने 130,000 टोकन की लागत से माउस-इंटरैक्टिव पार्टिकल फील्ड तैयार किया, जो औसत दर्जे का प्रदर्शन था।

इस चरण में हाई-एंड ग्राफिक्स वाले WebGPU लैंडिंग पेज को चुनौती दी गई। GPT 5.5 ने कार्य पूरा किया, लेकिन परिणाम बहुत अधिक उज्ज्वल थे। Opus 4.7 ने डिज़ाइन की बारीकियों पर बेहतर नियंत्रण दिखाया, जिसे ग्राफिक्स-गहन कार्यों के लिए एक बेहतर विकल्प माना गया।

निष्कर्ष और भविष्य का दृष्टिकोण

  • GPT 5.5 कोडिंग कार्यों के लिए सबसे तेज़ और परिणाम-उन्मुख विजेता घोषित किया गया।
  • उपयोगकर्ता अपनी पसंद के अनुसार कोड हार्नेस (कोडेक्स या क्लॉड कोड) चुन सकते हैं क्योंकि दोनों मॉडल समान सिद्धांतों पर आधारित हैं।
  • वेंडर लॉक-इन की चिंता के बिना कोडर इन मॉडलों के बीच स्विच कर सकते हैं।

समग्र निष्कर्ष यह है कि GPT 5.5 कोडिंग के लिए सबसे अच्छा प्रदर्शन करता है, जबकि Opus 4.7 डिज़ाइन संबंधी कार्यों में श्रेष्ठ है। डेवलपर्स के लिए सबसे बड़ी सकारात्मक बात यह है कि बाजार में प्रतिस्पर्धा बढ़ रही है, जिससे लागत कम हो रही है और दक्षता में सुधार हो रहा है, जो किसी भी एजेंट कोडर के लिए फायदेमंद है।

Community Posts

View all posts