Gemini 3.5 Flash बस... ठीक-ठाक है

BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00Google ने अभी Gemini 3.5 flash रिलीज़ किया है और वे कुछ काफी बड़े दावे कर रहे हैं।
00:00:04चार गुना गति पर फ्रंटियर परफॉरमेंस, अक्सर आधी से भी कम लागत पर।
00:00:09जो सुनने में सब अविश्वसनीय लगता है, लेकिन हकीकत Google के विज्ञापन से काफी बदतर है।
00:00:12और यह उनके द्वारा रिलीज़ की गई चीजों का केवल आधा था। उन्होंने Anti-Gravity 2 भी रिलीज़ किया, जो
00:00:16उनका नया स्टैंडअलोन एजेंट ऐप है, मूल रूप से Codex का जवाब, साथ ही Anti-Gravity
00:00:20CLI, जो वास्तव में Gemini CLI को बदल देता है, तो 'Killed by Google' के लिए यह एक और है।
00:00:30चलिए हेडलाइन आँकड़ों से शुरू करते हैं। इसमें एक मिलियन टोकन की कॉन्टेक्स्ट विंडो है, 64,000
00:00:34आउटपुट टोकन हैं और यह इनपुट के रूप में टेक्स्ट, इमेज, वीडियो, ऑडियो और PDF लेता है। Google
00:00:39हमेशा इन मल्टीमॉडल मॉडल्स में काफी अच्छा रहा है।
00:00:42जहाँ तक वास्तविक प्रदर्शन की बात है, Google के अपने बेंचमार्क के अनुसार यह मॉडल GPT 5.5 के बराबर है
00:00:46कोडिंग की बात करें तो, SWBench Pro और Terminal Bench पर केवल कुछ प्रतिशत पीछे है
00:00:50और वास्तव में यह Terminal Bench पर Opus 4.7 को लगभग 10% से हरा रहा है, लेकिन Claude
00:00:56Opus, SWBench Pro पर Gemini को लगभग 10% से हराकर अपना बदला ले लेता है।
00:01:01एजेंटिक वर्कफ़्लो के लिए, यह मॉडल वास्तव में MCP और Toolathon बेंचमार्क दोनों पर जीत रहा है
00:01:06और कुल मिलाकर ये बेंचमार्क बुरे परिणाम नहीं हैं, लेकिन यह सब Google के अनुसार है।
00:01:11अगर इसके बजाय हम थर्ड-पार्टी बेंचमार्क पर नज़र डालें, जैसे artificial analysis, तो यह
00:01:15बहुत अच्छा नहीं कर रहा है। उस कोडिंग इंडेक्स में Gemini 3.5 flash का स्कोर 45 है, जो वास्तव में Kimi K2.6
00:01:21जैसे मॉडल्स से नीचे है और यह Gemini 3.1 Pro को भी नहीं हरा रहा है, भले ही उनके अपने सभी बेंचमार्क
00:01:27पर यह सबमें आगे था। यह वास्तव में Gemini 3 flash से भी केवल कुछ अंक ही आगे है।
00:01:31खैर।
00:01:32एजेंटिक प्रदर्शन को देखते हुए कहानी थोड़ी बेहतर हो जाती है। इसने
00:01:35Gemini 3.1 Pro के मुकाबले एक अच्छी बढ़त हासिल की है और हाँ, तकनीकी रूप से यह फ्रंटियर
00:01:41मॉडल्स के साथ प्रतिस्पर्धा कर रहा है।
00:01:42हमारे बेंचमार्क को देखते हुए, ऐसा लगता है कि आप में से 75% लोग जो इसे देख रहे हैं, सब्सक्राइब नहीं किए हैं
00:01:45इसलिए मैं आपसे विनम्रतापूर्वक ऐसा करने के लिए कहूँगा। कृपया सब्सक्राइब करें।
00:01:48इस मॉडल की एक मुख्य विशेषता निश्चित रूप से इसकी गति है। उन्हें वास्तव में इस मॉडल से 278 टोकन प्रति
00:01:53सेकंड मिले, जो Opus 4.7 और GPT 5.5 से कहीं बेहतर प्रदर्शन करता है और Haiku
00:01:59और ओपन-सोर्स OpenAI मॉडल्स जैसे मॉडल्स से भी। तो जब बात इंटेलिजेंस बनाम स्पीड की आती है,
00:02:04यह मॉडल निश्चित रूप से सबसे अच्छा है।
00:02:06कुल मिलाकर यह परिणामों का एक मिला-जुला बैग है। यह सबसे अच्छा मॉडल नहीं है और न ही सबसे खराब,
00:02:10लेकिन यह वास्तव में बहुत तेज है और मुझे ये परिणाम पसंद आते अगर यह वास्तव में अन्य मॉडल्स की
00:02:14आधी लागत का होता, लेकिन यहीं से चीजें बिगड़ने लगती हैं।
00:02:18इस मॉडल की कीमत 1 मिलियन इनपुट टोकन के लिए $1.50 और 1 मिलियन आउटपुट टोकन के लिए $9 है,
00:02:23जो वास्तव में Gemini 3 flash से 3 गुना अधिक है, लेकिन यह अभी भी Opus 4.7 और
00:02:27GPT 5.5 जैसी चीज़ों से काफी सस्ता है, कम से कम कागज़ पर तो ऐसा ही है।
00:02:32हालाँकि उनके बेंचमार्क को चलाते समय, artificial analysis ने पाया कि Gemini 3.5 flash
00:02:36इंटेलिजेंस इंडेक्स चलाने के लिए $1,552 का खर्च आता है, जो वास्तव में Gemini 3 flash से
00:02:425.5 गुना अधिक महंगा और Gemini 3.1 Pro से 75% अधिक महंगा है। और इससे भी बुरा यह है कि
00:02:48यह हाई रीज़निंग पर GPT 5.5 से अधिक महंगा है, जो कोडिंग परफॉरमेंस की बात करें तो flash को
00:02:54काफी पीछे छोड़ देता है, और वास्तव में मैं इस चार्ट पर हर उस मॉडल को हाइलाइट करूँगा जो
00:02:57कोडिंग की बात करें तो सस्ता है और flash से बेहतर प्रदर्शन करता है। यह बिल्कुल भी अच्छा
00:03:02नहीं दिख रहा है और यह निश्चित रूप से उनके मार्केटिंग के दावे की तरह आधी लागत पर तो नहीं है।
00:03:06इसकी गहराई में जाने पर ऐसा लगता है कि इस मॉडल की समस्या यह है कि हालांकि यह तेज़ है,
00:03:10यह टोकन का बहुत भूखा है। एजेंटिक मूल्यांकन पर इसने प्रति टास्क औसतन 49 टर्न लिए, जो कि
00:03:15उनके द्वारा परीक्षण किए गए मॉडल्स में सबसे अधिक है। यह वास्तव में आपके इनपुट टोकन को
00:03:19खत्म करना बहुत पसंद करता है। तो कुल मिलाकर मुझे यकीन नहीं है कि यह हमें वास्तव में कहाँ छोड़ता है। यह मॉडल
00:03:23बस 'meh' (औसत) सा महसूस होता है। गति बहुत बढ़िया है, इसलिए यदि आप किसी भी चीज़ से बढ़कर इसे महत्व देते हैं, तो शायद
00:03:28यह इस्तेमाल करने के लिए सही मॉडल हो सकता है। यदि आप बेहतरीन मल्टीमॉडल क्षमताएँ चाहते हैं तो भी ऐसा ही है, लेकिन
00:03:33कोडिंग परफॉरमेंस इतनी अच्छी नहीं है कि मैं इसे इस वीडियो से अधिक समय तक टेस्ट कर सकूँ।
00:03:37तो चलिए आगे बढ़ते हैं और दूसरी बड़ी घोषणा के बारे में बात करते हैं जो Anti-Gravity 2 और नई CLI थी।
00:03:41क्या यह Anti-Gravity 2 है? रुको नहीं माफ़ करना वह t3 code है। शायद यह वाला? रुको नहीं वह
00:03:44codecs है। इस वाले के बारे में क्या? नहीं वह cursor है। यह वास्तव में Anti-Gravity 2 है और मुझे लगता है
00:03:50आप मेरी बात समझ रहे होंगे। मूल रूप से ये सभी ऐप्स एक जैसे दिखने लगे हैं। हमारे किसी डेमो का एक मज़ेदार
00:03:55हिस्सा वह है जब डेवलपर एक नया प्रोजेक्ट बनाने की कोशिश करता है और आप बस वहीं codecs फोल्डर देख सकते हैं।
00:03:59तो सच कहूँ तो मैं इसे समझने में ज्यादा समय बर्बाद नहीं करूँगा। यह बिल्कुल
00:04:03बाकी सभी ऐप्स जैसा ही है। हमारे पास बाईं ओर हमारी बातचीत है, हमारे प्रोजेक्ट हैं, हमारे पास
00:04:07शेड्यूल किए गए टास्क हैं और यहाँ आप इनमें से किसी भी फाइल पर क्लिक कर सकते हैं यदि आप diff व्यू देखना चाहते हैं।
00:04:11केवल एक बात ध्यान देने वाली है कि यह अब Anti-Gravity IDE नहीं है। यह बस एक पूरी तरह से
00:04:15स्टैंडअलोन ऐप है। आप जो देख रहे हैं वही आपको मिलता है। मैंने इसमें वास्तव में कुछ टेस्ट
00:04:18प्रॉम्प्ट आज़माए थे। उनमें से एक फुल स्टैक पर्सनल फाइनेंस डैशबोर्ड बनाना था और दूसरा बहुत सरल
00:04:22सिर्फ यह टेस्ट करना था कि यह कैसे मुझे एक सिंगल index.html में कैफे वेबसाइट बना कर देगा।
00:04:26यह उस बहुत ही सरल कैफे प्रॉम्प्ट का परिणाम है और मुझे कहना होगा कि मुझे वास्तव में वह
00:04:30वेबसाइट पसंद है जो इसने यहाँ बनाई है, इसलिए ऐसा लगता है कि 3.5 flash UI डिज़ाइन में काफी अच्छा है।
00:04:35मैं कहूँगा कि यह कुल मिलाकर बहुत अच्छी साइट है। इसमें अभी भी थोड़ा AI वाला एहसास
00:04:39है। मुझे लगता है कि यह मुख्य रूप से वह कार्ड और ग्रेडिएंट स्टाइल है जिसे AI इस समय पसंद करता है लेकिन
00:04:44साइट काफी कार्यात्मक है और वैसी ही दिखती है जैसी मुझे उम्मीद थी। संदर्भ के लिए
00:04:48यह वह है जो Opus 4.7 ने मुझे दिया था जब मैंने उसे बिल्कुल वही प्रॉम्प्ट दिया था और मुझे लगता है कि Gemini 3.5
00:04:53flash इसमें जीत जाता है लेकिन जाहिर है यह सिर्फ एक बार का टेस्ट है। जहाँ तक अधिक जटिल
00:04:58फाइनेंस डैशबोर्ड प्रॉम्प्ट की बात है, जो एक फुल स्टैक एप्लीकेशन है, इसने एप्लीकेशन को काम करने
00:05:03लायक बनाने में अच्छा काम किया है लेकिन मुझे UI डिज़ाइन बिल्कुल पसंद नहीं आया। यह बुरा नहीं है लेकिन बस
00:05:07इसमें 'AI द्वारा डिज़ाइन किया गया' वाला लुक और एहसास है और इसे 'aura wealth' बुलाने के लिए माइनस पॉइंट्स।
00:05:11जब आप इसकी तुलना Opus 4.7 द्वारा दिए गए परिणाम से करते हैं तो यह जमीन-आसमान का अंतर है।
00:05:16Opus 4.7 यहाँ बहुत अच्छा दिखता है और सच कहूँ तो मेरे पास इस पर बहुत अधिक नोट्स नहीं हैं कि मैं
00:05:20इस UI को कैसे बदलूँगा। Opus ने वास्तव में उस प्रॉम्प्ट पर 20 मिनट खर्च किए जबकि Gemini ने
00:05:25पाँच मिनट लिए, तो हाँ यह निश्चित रूप से तेज़ है, लेकिन यह इसे बेहतर दिखाने के लिए अतिरिक्त 15 मिनट
00:05:29का उपयोग कर सकता था। आगे बढ़ते हुए, हमें Anti-Gravity CLI भी मिला और यह
00:05:33शायद कुछ लोगों को नाराज करेगा क्योंकि वे वास्तव में Gemini CLI को बंद कर रहे हैं, आप इसे
00:05:38इस साल 18 जून के बाद इस्तेमाल नहीं कर पाएंगे और नई CLI इस समय मूल रूप से समान ही है
00:05:42सिवाय इसके कि इसे Go में फिर से लिखा गया है और यह अब क्लोज-सोर्स है, जो कि वाकई बुरा है
00:05:46और मैंने वास्तव में इसे इंस्टॉल नहीं किया क्योंकि फिर से, यह Gemini के लिए Claude code ही है,
00:05:51आपको दिखाने के लिए कुछ भी नया नहीं है। तो इन सब पर अपने विचारों का सारांश दूँ तो, अभी 3.5
00:05:56flash एजेंटों के लिए अच्छा है, लेकिन यह महंगा है और कोडिंग पर बहुत कमजोर है कि पूरा पैकेज बन सके,
00:06:00इसलिए मुझे उम्मीद है कि हम Gemini 3.5 Pro से और अधिक देखेंगे जो कि अगले महीने आ रहा है
00:06:05लेकिन अभी के लिए ऐसा लगता है कि Google कोडिंग के लिए लीडर नहीं बनने वाला है और सच
00:06:10कहूँ तो, मुझे नहीं लगता कि उन्हें इसकी आवश्यकता है। ऐसा लगता है कि Google का बाज़ार अधिक
00:06:15हर दिन के व्यक्ति के लिए है जो इसे Gmail, सर्च, वर्कस्पेस, एंड्रॉइड और बाकी सब चीजों जैसे आपके
00:06:19सभी अनुभवों में बना रहा है, इसलिए शायद डेवलपर्स उनका ध्यान नहीं होंगे। मुझे
00:06:23कमेंट में बताएं कि आप क्या सोचते हैं, सब्सक्राइब करें और हमेशा की तरह,
00:06:28अगले वीडियो में मिलेंगे।
00:06:33नीचे कमेंट में मुझे बताएं कि आप क्या सोचते हैं, और जब आप वहां हों तो सब्सक्राइब करें और हमेशा की तरह,
00:06:36अगली वीडियो में मिलते हैं।

Key Takeaway

Gemini 3.5 Flash अपनी उच्च गति और मल्टीमॉडल क्षमताओं में प्रभावशाली है, लेकिन कोडिंग परफॉरमेंस की कमी और अप्रत्याशित रूप से उच्च परिचालन लागत इसे एक औसत दर्जे का विकल्प बनाती है।

Highlights

  • Gemini 3.5 Flash प्रति सेकंड 278 टोकन की दर से प्रदर्शन करता है, जो Opus 4.7 और GPT 5.5 से तेज़ है।

  • Artificial Analysis के अनुसार, Gemini 3.5 Flash कोडिंग इंडेक्स पर 45 स्कोर के साथ Kimi K2.6 से नीचे है।

  • Gemini 3.5 Flash का उपयोग करने पर 1 मिलियन इंटेलिजेंस इंडेक्स टोकन का खर्च $1,552 आता है, जो Gemini 3 Flash से 5.5 गुना अधिक महंगा है।

  • Anti-Gravity 2 टूल में UI डिज़ाइन के लिए Gemini 3.5 Flash का उपयोग करने पर सरल वेबसाइटों के परिणाम संतोषजनक रहे, लेकिन जटिल फाइनेंस डैशबोर्ड के लिए परिणाम औसत रहे।

  • Google ने Gemini CLI को बंद करने की घोषणा की है और इसे 18 जून के बाद बंद कर दिया जाएगा, जिसे नई क्लोज-सोर्स CLI से बदल दिया गया है।

Timeline

Gemini 3.5 Flash का प्रदर्शन और डेटा

  • Gemini 3.5 Flash में एक मिलियन टोकन की कॉन्टेक्स्ट विंडो और 64,000 आउटपुट टोकन की क्षमता है।
  • यह मॉडल टेक्स्ट, इमेज, वीडियो, ऑडियो और PDF इनपुट को सपोर्ट करता है।
  • कोडिंग बेंचमार्क पर यह Opus 4.7 और SWBench Pro से पीछे रहता है।

Google ने तेज प्रदर्शन और कम लागत का दावा करते हुए Gemini 3.5 Flash रिलीज़ किया है। हालाँकि, थर्ड-पार्टी बेंचमार्क जैसे Artificial Analysis के अनुसार, कोडिंग प्रदर्शन में यह मॉडल Gemini 3.1 Pro या Kimi K2.6 जैसे प्रतिस्पर्धियों से बेहतर नहीं है। मॉडल की मुख्य ताकत इसकी गति है, जो अन्य फ्रंटियर मॉडल्स की तुलना में काफी अधिक है।

लागत और दक्षता का विश्लेषण

  • Gemini 3.5 Flash की वास्तविक परिचालन लागत कागजी दावों की तुलना में काफी अधिक है।
  • यह मॉडल प्रति टास्क औसतन 49 टर्न लेता है, जो अधिक टोकन खपत का कारण बनता है।
  • उच्च रीज़निंग कार्यों के लिए यह GPT 5.5 की तुलना में अधिक महंगा साबित होता है।

कागजों पर सस्ता दिखने के बावजूद, वास्तविक परीक्षणों में 1 मिलियन इंटेलिजेंस इंडेक्स टोकन का खर्च $1,552 तक पहुंच गया है। यह लागत Gemini 3 Flash से 5.5 गुना अधिक है। अत्यधिक टोकन खपत और कम कोडिंग दक्षता के कारण यह मॉडल आर्थिक रूप से बहुत प्रभावशाली नहीं है।

Anti-Gravity 2 और टूलिंग अपडेट

  • Anti-Gravity 2 एक स्टैंडअलोन IDE के रूप में जारी किया गया है।
  • UI डिज़ाइन कार्यों में Gemini 3.5 Flash सरल प्रोजेक्ट्स के लिए अच्छे परिणाम देता है।
  • Gemini CLI को 18 जून के बाद बंद किया जा रहा है और इसे Go में लिखित नई क्लोज-सोर्स CLI से प्रतिस्थापित किया गया है।

Anti-Gravity 2 टूल ने UI डिज़ाइन में क्षमता दिखाई है, विशेष रूप से सरल वेब पेजों के लिए। हालाँकि, जटिल फाइनेंस डैशबोर्ड में इसका डिज़ाइन Opus 4.7 की तुलना में कमजोर रहा। साथ ही, पुराने Gemini CLI का समर्थन बंद करके उसे एक नई क्लोज-सोर्स CLI में बदलना डेवलपर्स के लिए एक महत्वपूर्ण बदलाव है।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video