Transcript
00:00:00Google ने अभी Gemini 3.5 flash रिलीज़ किया है और वे कुछ काफी बड़े दावे कर रहे हैं।
00:00:04चार गुना गति पर फ्रंटियर परफॉरमेंस, अक्सर आधी से भी कम लागत पर।
00:00:09जो सुनने में सब अविश्वसनीय लगता है, लेकिन हकीकत Google के विज्ञापन से काफी बदतर है।
00:00:12और यह उनके द्वारा रिलीज़ की गई चीजों का केवल आधा था। उन्होंने Anti-Gravity 2 भी रिलीज़ किया, जो
00:00:16उनका नया स्टैंडअलोन एजेंट ऐप है, मूल रूप से Codex का जवाब, साथ ही Anti-Gravity
00:00:20CLI, जो वास्तव में Gemini CLI को बदल देता है, तो 'Killed by Google' के लिए यह एक और है।
00:00:30चलिए हेडलाइन आँकड़ों से शुरू करते हैं। इसमें एक मिलियन टोकन की कॉन्टेक्स्ट विंडो है, 64,000
00:00:34आउटपुट टोकन हैं और यह इनपुट के रूप में टेक्स्ट, इमेज, वीडियो, ऑडियो और PDF लेता है। Google
00:00:39हमेशा इन मल्टीमॉडल मॉडल्स में काफी अच्छा रहा है।
00:00:42जहाँ तक वास्तविक प्रदर्शन की बात है, Google के अपने बेंचमार्क के अनुसार यह मॉडल GPT 5.5 के बराबर है
00:00:46कोडिंग की बात करें तो, SWBench Pro और Terminal Bench पर केवल कुछ प्रतिशत पीछे है
00:00:50और वास्तव में यह Terminal Bench पर Opus 4.7 को लगभग 10% से हरा रहा है, लेकिन Claude
00:00:56Opus, SWBench Pro पर Gemini को लगभग 10% से हराकर अपना बदला ले लेता है।
00:01:01एजेंटिक वर्कफ़्लो के लिए, यह मॉडल वास्तव में MCP और Toolathon बेंचमार्क दोनों पर जीत रहा है
00:01:06और कुल मिलाकर ये बेंचमार्क बुरे परिणाम नहीं हैं, लेकिन यह सब Google के अनुसार है।
00:01:11अगर इसके बजाय हम थर्ड-पार्टी बेंचमार्क पर नज़र डालें, जैसे artificial analysis, तो यह
00:01:15बहुत अच्छा नहीं कर रहा है। उस कोडिंग इंडेक्स में Gemini 3.5 flash का स्कोर 45 है, जो वास्तव में Kimi K2.6
00:01:21जैसे मॉडल्स से नीचे है और यह Gemini 3.1 Pro को भी नहीं हरा रहा है, भले ही उनके अपने सभी बेंचमार्क
00:01:27पर यह सबमें आगे था। यह वास्तव में Gemini 3 flash से भी केवल कुछ अंक ही आगे है।
00:01:31खैर।
00:01:32एजेंटिक प्रदर्शन को देखते हुए कहानी थोड़ी बेहतर हो जाती है। इसने
00:01:35Gemini 3.1 Pro के मुकाबले एक अच्छी बढ़त हासिल की है और हाँ, तकनीकी रूप से यह फ्रंटियर
00:01:41मॉडल्स के साथ प्रतिस्पर्धा कर रहा है।
00:01:42हमारे बेंचमार्क को देखते हुए, ऐसा लगता है कि आप में से 75% लोग जो इसे देख रहे हैं, सब्सक्राइब नहीं किए हैं
00:01:45इसलिए मैं आपसे विनम्रतापूर्वक ऐसा करने के लिए कहूँगा। कृपया सब्सक्राइब करें।
00:01:48इस मॉडल की एक मुख्य विशेषता निश्चित रूप से इसकी गति है। उन्हें वास्तव में इस मॉडल से 278 टोकन प्रति
00:01:53सेकंड मिले, जो Opus 4.7 और GPT 5.5 से कहीं बेहतर प्रदर्शन करता है और Haiku
00:01:59और ओपन-सोर्स OpenAI मॉडल्स जैसे मॉडल्स से भी। तो जब बात इंटेलिजेंस बनाम स्पीड की आती है,
00:02:04यह मॉडल निश्चित रूप से सबसे अच्छा है।
00:02:06कुल मिलाकर यह परिणामों का एक मिला-जुला बैग है। यह सबसे अच्छा मॉडल नहीं है और न ही सबसे खराब,
00:02:10लेकिन यह वास्तव में बहुत तेज है और मुझे ये परिणाम पसंद आते अगर यह वास्तव में अन्य मॉडल्स की
00:02:14आधी लागत का होता, लेकिन यहीं से चीजें बिगड़ने लगती हैं।
00:02:18इस मॉडल की कीमत 1 मिलियन इनपुट टोकन के लिए $1.50 और 1 मिलियन आउटपुट टोकन के लिए $9 है,
00:02:23जो वास्तव में Gemini 3 flash से 3 गुना अधिक है, लेकिन यह अभी भी Opus 4.7 और
00:02:27GPT 5.5 जैसी चीज़ों से काफी सस्ता है, कम से कम कागज़ पर तो ऐसा ही है।
00:02:32हालाँकि उनके बेंचमार्क को चलाते समय, artificial analysis ने पाया कि Gemini 3.5 flash
00:02:36इंटेलिजेंस इंडेक्स चलाने के लिए $1,552 का खर्च आता है, जो वास्तव में Gemini 3 flash से
00:02:425.5 गुना अधिक महंगा और Gemini 3.1 Pro से 75% अधिक महंगा है। और इससे भी बुरा यह है कि
00:02:48यह हाई रीज़निंग पर GPT 5.5 से अधिक महंगा है, जो कोडिंग परफॉरमेंस की बात करें तो flash को
00:02:54काफी पीछे छोड़ देता है, और वास्तव में मैं इस चार्ट पर हर उस मॉडल को हाइलाइट करूँगा जो
00:02:57कोडिंग की बात करें तो सस्ता है और flash से बेहतर प्रदर्शन करता है। यह बिल्कुल भी अच्छा
00:03:02नहीं दिख रहा है और यह निश्चित रूप से उनके मार्केटिंग के दावे की तरह आधी लागत पर तो नहीं है।
00:03:06इसकी गहराई में जाने पर ऐसा लगता है कि इस मॉडल की समस्या यह है कि हालांकि यह तेज़ है,
00:03:10यह टोकन का बहुत भूखा है। एजेंटिक मूल्यांकन पर इसने प्रति टास्क औसतन 49 टर्न लिए, जो कि
00:03:15उनके द्वारा परीक्षण किए गए मॉडल्स में सबसे अधिक है। यह वास्तव में आपके इनपुट टोकन को
00:03:19खत्म करना बहुत पसंद करता है। तो कुल मिलाकर मुझे यकीन नहीं है कि यह हमें वास्तव में कहाँ छोड़ता है। यह मॉडल
00:03:23बस 'meh' (औसत) सा महसूस होता है। गति बहुत बढ़िया है, इसलिए यदि आप किसी भी चीज़ से बढ़कर इसे महत्व देते हैं, तो शायद
00:03:28यह इस्तेमाल करने के लिए सही मॉडल हो सकता है। यदि आप बेहतरीन मल्टीमॉडल क्षमताएँ चाहते हैं तो भी ऐसा ही है, लेकिन
00:03:33कोडिंग परफॉरमेंस इतनी अच्छी नहीं है कि मैं इसे इस वीडियो से अधिक समय तक टेस्ट कर सकूँ।
00:03:37तो चलिए आगे बढ़ते हैं और दूसरी बड़ी घोषणा के बारे में बात करते हैं जो Anti-Gravity 2 और नई CLI थी।
00:03:41क्या यह Anti-Gravity 2 है? रुको नहीं माफ़ करना वह t3 code है। शायद यह वाला? रुको नहीं वह
00:03:44codecs है। इस वाले के बारे में क्या? नहीं वह cursor है। यह वास्तव में Anti-Gravity 2 है और मुझे लगता है
00:03:50आप मेरी बात समझ रहे होंगे। मूल रूप से ये सभी ऐप्स एक जैसे दिखने लगे हैं। हमारे किसी डेमो का एक मज़ेदार
00:03:55हिस्सा वह है जब डेवलपर एक नया प्रोजेक्ट बनाने की कोशिश करता है और आप बस वहीं codecs फोल्डर देख सकते हैं।
00:03:59तो सच कहूँ तो मैं इसे समझने में ज्यादा समय बर्बाद नहीं करूँगा। यह बिल्कुल
00:04:03बाकी सभी ऐप्स जैसा ही है। हमारे पास बाईं ओर हमारी बातचीत है, हमारे प्रोजेक्ट हैं, हमारे पास
00:04:07शेड्यूल किए गए टास्क हैं और यहाँ आप इनमें से किसी भी फाइल पर क्लिक कर सकते हैं यदि आप diff व्यू देखना चाहते हैं।
00:04:11केवल एक बात ध्यान देने वाली है कि यह अब Anti-Gravity IDE नहीं है। यह बस एक पूरी तरह से
00:04:15स्टैंडअलोन ऐप है। आप जो देख रहे हैं वही आपको मिलता है। मैंने इसमें वास्तव में कुछ टेस्ट
00:04:18प्रॉम्प्ट आज़माए थे। उनमें से एक फुल स्टैक पर्सनल फाइनेंस डैशबोर्ड बनाना था और दूसरा बहुत सरल
00:04:22सिर्फ यह टेस्ट करना था कि यह कैसे मुझे एक सिंगल index.html में कैफे वेबसाइट बना कर देगा।
00:04:26यह उस बहुत ही सरल कैफे प्रॉम्प्ट का परिणाम है और मुझे कहना होगा कि मुझे वास्तव में वह
00:04:30वेबसाइट पसंद है जो इसने यहाँ बनाई है, इसलिए ऐसा लगता है कि 3.5 flash UI डिज़ाइन में काफी अच्छा है।
00:04:35मैं कहूँगा कि यह कुल मिलाकर बहुत अच्छी साइट है। इसमें अभी भी थोड़ा AI वाला एहसास
00:04:39है। मुझे लगता है कि यह मुख्य रूप से वह कार्ड और ग्रेडिएंट स्टाइल है जिसे AI इस समय पसंद करता है लेकिन
00:04:44साइट काफी कार्यात्मक है और वैसी ही दिखती है जैसी मुझे उम्मीद थी। संदर्भ के लिए
00:04:48यह वह है जो Opus 4.7 ने मुझे दिया था जब मैंने उसे बिल्कुल वही प्रॉम्प्ट दिया था और मुझे लगता है कि Gemini 3.5
00:04:53flash इसमें जीत जाता है लेकिन जाहिर है यह सिर्फ एक बार का टेस्ट है। जहाँ तक अधिक जटिल
00:04:58फाइनेंस डैशबोर्ड प्रॉम्प्ट की बात है, जो एक फुल स्टैक एप्लीकेशन है, इसने एप्लीकेशन को काम करने
00:05:03लायक बनाने में अच्छा काम किया है लेकिन मुझे UI डिज़ाइन बिल्कुल पसंद नहीं आया। यह बुरा नहीं है लेकिन बस
00:05:07इसमें 'AI द्वारा डिज़ाइन किया गया' वाला लुक और एहसास है और इसे 'aura wealth' बुलाने के लिए माइनस पॉइंट्स।
00:05:11जब आप इसकी तुलना Opus 4.7 द्वारा दिए गए परिणाम से करते हैं तो यह जमीन-आसमान का अंतर है।
00:05:16Opus 4.7 यहाँ बहुत अच्छा दिखता है और सच कहूँ तो मेरे पास इस पर बहुत अधिक नोट्स नहीं हैं कि मैं
00:05:20इस UI को कैसे बदलूँगा। Opus ने वास्तव में उस प्रॉम्प्ट पर 20 मिनट खर्च किए जबकि Gemini ने
00:05:25पाँच मिनट लिए, तो हाँ यह निश्चित रूप से तेज़ है, लेकिन यह इसे बेहतर दिखाने के लिए अतिरिक्त 15 मिनट
00:05:29का उपयोग कर सकता था। आगे बढ़ते हुए, हमें Anti-Gravity CLI भी मिला और यह
00:05:33शायद कुछ लोगों को नाराज करेगा क्योंकि वे वास्तव में Gemini CLI को बंद कर रहे हैं, आप इसे
00:05:38इस साल 18 जून के बाद इस्तेमाल नहीं कर पाएंगे और नई CLI इस समय मूल रूप से समान ही है
00:05:42सिवाय इसके कि इसे Go में फिर से लिखा गया है और यह अब क्लोज-सोर्स है, जो कि वाकई बुरा है
00:05:46और मैंने वास्तव में इसे इंस्टॉल नहीं किया क्योंकि फिर से, यह Gemini के लिए Claude code ही है,
00:05:51आपको दिखाने के लिए कुछ भी नया नहीं है। तो इन सब पर अपने विचारों का सारांश दूँ तो, अभी 3.5
00:05:56flash एजेंटों के लिए अच्छा है, लेकिन यह महंगा है और कोडिंग पर बहुत कमजोर है कि पूरा पैकेज बन सके,
00:06:00इसलिए मुझे उम्मीद है कि हम Gemini 3.5 Pro से और अधिक देखेंगे जो कि अगले महीने आ रहा है
00:06:05लेकिन अभी के लिए ऐसा लगता है कि Google कोडिंग के लिए लीडर नहीं बनने वाला है और सच
00:06:10कहूँ तो, मुझे नहीं लगता कि उन्हें इसकी आवश्यकता है। ऐसा लगता है कि Google का बाज़ार अधिक
00:06:15हर दिन के व्यक्ति के लिए है जो इसे Gmail, सर्च, वर्कस्पेस, एंड्रॉइड और बाकी सब चीजों जैसे आपके
00:06:19सभी अनुभवों में बना रहा है, इसलिए शायद डेवलपर्स उनका ध्यान नहीं होंगे। मुझे
00:06:23कमेंट में बताएं कि आप क्या सोचते हैं, सब्सक्राइब करें और हमेशा की तरह,
00:06:28अगले वीडियो में मिलेंगे।
00:06:33नीचे कमेंट में मुझे बताएं कि आप क्या सोचते हैं, और जब आप वहां हों तो सब्सक्राइब करें और हमेशा की तरह,
00:06:36अगली वीडियो में मिलते हैं।
Community Posts
No posts yet. Be the first to write about this video!
Write about this video