Transcript
00:00:00क्लाउड माइथोस आखिरकार आ गया है।
00:00:01एंथ्रोपिक ने अभी 'फेबल 5' नाम का एक नया मॉडल लॉन्च किया है,
00:00:03जो कि एक माइथोस-क्लास मॉडल है,
00:00:05जिसमें बहुत सारे सुरक्षा उपाय पहले से मौजूद हैं,
00:00:07लेकिन यह उनके द्वारा जारी किए गए किसी भी मॉडल से बेहतर है,
00:00:09और शायद किसी भी अन्य मॉडल से भी।
00:00:11यह लगभग हर बेंचमार्क पर अत्याधुनिक प्रदर्शन करता है।
00:00:13जाहिर है, यह आपकी जेब पर भारी पड़ने वाला है,
00:00:16और उन्होंने इसकी कीमत के साथ
00:00:17कुछ दिलचस्प किया है,
00:00:18जिससे मुझे नहीं लगता कि बहुत से लोग खुश होंगे।
00:00:25वैसे, आमतौर पर मैं बेंचमार्क पर
00:00:27ज्यादा समय नहीं लगाता, लेकिन यह टेबल काफी हैरान करने वाली है।
00:00:30यह मॉडल जो छलांग लगा रहा है,
00:00:31इनमें से कुछ बेंचमार्क पर,
00:00:32और यह तथ्य कि यह लगभग हर एक में आगे है।
00:00:35आप देख सकते हैं कि इसमें 'अर्जेंटिक कोडिंग' में 10% की बढ़त है
00:00:37SWE बेंच प्रो पर,
00:00:39और यह GPT 5.5 से लगभग 20% आगे है,
00:00:42और इसने 'फ्रंटियर कोड' बेंचमार्क पर भी ऐसी ही छलांग लगाई है।
00:00:44फ्रंटियर कोड वास्तव में कॉग्निशन की ओर से एक नया बेंचमार्क है,
00:00:47जो डेविन के पीछे की टीम है,
00:00:48जो अनिवार्य रूप से यह परीक्षण करता है कि क्या आप
00:00:49मॉडल द्वारा तैयार किए गए कोड को वास्तव में मर्ज कर सकते हैं।
00:00:52इस चार्ट पर, आप देख सकते हैं कि फेबल 5
00:00:54अन्य सभी मॉडलों से आगे है,
00:00:55मध्यम तर्क क्षमता (reasoning effort) पर भी,
00:00:57लेकिन मुझे यह भी लगता है कि आप देख सकते हैं कि यह मॉडल
00:00:58बहुत महंगा होने वाला है।
00:01:00यह कंप्यूटर उपयोग (computer use) में भी थोड़ा बेहतर है,
00:01:02कोई बहुत बड़ी छलांग नहीं,
00:01:03और यही बात नीचे दिए गए टर्मिनल बेंच पर भी लागू होती है,
00:01:05लेकिन फिर से, जैसा कि आप देख सकते हैं,
00:01:06यह लगभग हर श्रेणी में सबसे आगे है।
00:01:09हालाँकि, सबसे बड़ी चीजों में से एक,
00:01:10जो अधिक से अधिक प्रासंगिक होती जा रही है,
00:01:11वह है लंबे समय तक चलने वाले कार्य (long-running tasks)।
00:01:12फेबल 5 स्पष्ट रूप से किसी भी अन्य मॉडल की तुलना में
00:01:14लंबे समय तक काम कर सकता है,
00:01:15और उन्होंने स्ट्राइप से इसका परीक्षण कराया,
00:01:17और जाहिर है इसने एक दिन में 50 मिलियन लाइनों के
00:01:18रूबी कोडबेस का पूरा माइग्रेशन कर दिया।
00:01:21शायद इस बात से मदद मिली कि यह मेमोरी
00:01:22और लंबे कॉन्टेक्स्ट में भी काफी बेहतर हो गया है।
00:01:24यह स्पष्ट रूप से लंबे समय तक चलने वाले कार्यों में
00:01:26लाखों टोकन पर अपना ध्यान केंद्रित रख सकता है,
00:01:28और यह अपने नोट्स का उपयोग करके
00:01:29अपने आउटपुट में सुधार करता है।
00:01:31अब, केवल कोडिंग के अलावा,
00:01:32इसकी विजन क्षमताएं भी काफी कमाल की हैं।
00:01:33जाहिर तौर पर, यह अब एक कम से कम विजन-ओनली हार्नेस के साथ
00:01:36पोकेमॉन फायर रेड को हरा सकता है,
00:01:37जबकि पहले उन्हें इसे अतिरिक्त टूल देने पड़ते थे,
00:01:39और तब भी यह मुश्किल से ही जीत पाता था,
00:01:42लेकिन अब इसे कोई समस्या नहीं है।
00:01:43यह वेबसाइट का स्क्रीनशॉट लेते ही
00:01:45उसे तैयार भी कर सकता है।
00:01:47मैंने वास्तव में लीनियर वेबसाइट का उपयोग करके इसे आजमाया,
00:01:48और सच में मुझे यह समझने में थोड़ी उलझन हुई कि
00:01:50कौन सी असली है और कौन सी नकली,
00:01:52लेकिन दाईं ओर वाली वह है
00:01:53जिसे फेबल 5 ने
00:01:55केवल लीनियर वेबसाइट के एक स्क्रीनशॉट से जनरेट किया है।
00:01:56इसने वेब सर्च या ऐसी किसी चीज़ का उपयोग नहीं किया,
00:01:58मैंने बस इसे इस वेब पेज का पूरा स्क्रीनशॉट दिया,
00:02:00और मैं कहूँगा कि इसने बहुत ही शानदार काम किया है।
00:02:02सभी स्क्रीनशॉट, सब कुछ,
00:02:05कोड के साथ जनरेट किए गए हैं,
00:02:06और आप देख सकते हैं कि इसने बहुत, बहुत अच्छा काम किया है।
00:02:08SVG एनिमेशन जैसी चीजें हैं जो
00:02:10शायद एकदम परफेक्ट न हों,
00:02:12लेकिन कुल मिलाकर, मैं कहूँगा कि मैं काफी खुश हूँ
00:02:14जिस तरह से इसने इस वेबसाइट को फिर से बनाया है,
00:02:15और इसने लगभग हर सेक्शन को बखूबी निभाया है,
00:02:18या कम से कम मुझे उस बिंदु तक पहुँचा दिया
00:02:20जहाँ मैं फिर इसे ठीक कर सकूँ
00:02:21ताकि यह बिल्कुल वैसा हो जाए जैसा मैं चाहता हूँ।
00:02:22जब हम यहाँ हैं ही,
00:02:24तो मैंने इन मॉडलों को
00:02:24एक फाइनेंस डैशबोर्ड ऐप के लिए
00:02:25फ्रंट-एंड और बैक-एंड बनाने पर
00:02:27एकदम खाली फोल्डर से एक बार में टेस्ट करने का फैसला किया,
00:02:28और यह वही है जो फेबल 5 ने मुझे दिया है।
00:02:31मैंने सब कुछ टेस्ट किया है,
00:02:33सब कुछ काम कर रहा है,
00:02:34यह API से बात करता है,
00:02:35और कुल मिलाकर, डिजाइन वास्तव में बहुत अच्छा लग रहा है।
00:02:37यह वास्तव में प्रयोग करने योग्य है,
00:02:39लेकिन यह वह सौंदर्य है
00:02:40जो क्लाउड मॉडल हाल ही में दे रहे हैं।
00:02:41हम इसे उस परिणाम में देख सकते हैं
00:02:43जो ओपस 4.8 ने मुझे दिया था।
00:02:44फिर से, मुझे लगता है कि यह साइट बहुत अच्छी लग रही है,
00:02:45और सच कहूँ तो,
00:02:47मैं तर्क करूँगा कि यह फेबल 5 वाले से बेहतर दिखती है,
00:02:48लेकिन फिर से, इसमें वह सौंदर्य है
00:02:50जिस पर क्लाउड को प्रशिक्षित किया गया है,
00:02:51लेकिन यह मेरी गलती भी है।
00:02:53मैंने इसे किसी विशेष डिजाइन में जाने के लिए प्रॉम्प्ट नहीं किया था।
00:02:54मुझे यकीन है कि अगर मैंने ऐसा किया होता,
00:02:56तो यह बहुत अच्छा काम करता।
00:02:57यदि हम इसकी तुलना GPT 5.5 द्वारा दिए गए परिणामों से करें,
00:02:58तो आप देख सकते हैं कि यह बिल्कुल भी करीब नहीं है।
00:03:00यह एक सिंगल प्रॉम्प्ट से था,
00:03:01बिल्कुल वही प्रॉम्प्ट,
00:03:03और वे मेरे विचार से UI डिजाइन में
00:03:04कोसों दूर हैं।
00:03:05मैं वास्तव में उम्मीद करता हूँ कि अगला GPT मॉडल
00:03:07इस बारे में कुछ करे।
00:03:08फेबल 5 ने उस परीक्षण में मुझे आश्चर्यचकित किया
00:03:10सबसे तेज़ होकर।
00:03:11उस फाइनेंस डैशबोर्ड को पूरा करने में
00:03:13इसे लगभग आठ मिनट लगे,
00:03:14जबकि ओपस को 12 मिनट लगे,
00:03:15और GPT 5.5 को उस
00:03:17बकवास (abomination) को बनाने में 15 मिनट लगे।
00:03:18मेरे डेमो के अलावा,
00:03:20मेरी पसंदीदा चीजों में से एक थी एंथ्रोपिक,
00:03:22जो फेबल 5 को ब्राउज़र-आधारित
00:03:23CAD एडिटर में 3D प्रिंटेबल CAD मॉडल बनाते हुए दिखा रहे थे,
00:03:24जिसे खुद फेबल 5 ने ही बनाया था।
00:03:27मतलब, अपना खुद का मिनी-सॉफ्टवेयर बनाना
00:03:28अब कितना हासिल करना आसान है,
00:03:31और यही बात दवाओं (drugs) के लिए भी लागू होती है।
00:03:32जाहिर है यह मॉडल ड्रग डिजाइन में बहुत अच्छा है,
00:03:34लेकिन शायद आपको उस बारे में जानने की जरूरत नहीं है,
00:03:36और हाँ, यह निश्चित रूप से सुरक्षित है,
00:03:38जैसा कि मूल रूप से कुछ भी है
00:03:40जो साइबर सुरक्षा के करीब जाता है,
00:03:43जब तक कि आप उन उद्यमों में से न हों
00:03:44जो उस विशेष कार्यक्रम में हैं।
00:03:45फेबल 5 स्पष्ट रूप से बहुत सतर्क रहने वाला है,
00:03:46जिसका मतलब है कि इसमें
00:03:48काफी सारे गलत संकेत (false positives) होंगे,
00:03:51जाहिर तौर पर 5% से कम संदेशों में,
00:03:51लेकिन वह अभी भी मुझे काफी अधिक लगता है,
00:03:53और मैं पहले भी ओपस की सुरक्षा बाधाओं का सामना कर चुका हूँ,
00:03:55तो यह वाला शायद और भी बुरा होने वाला है।
00:03:57हालाँकि स्पष्ट रूप से,
00:03:59सीधे मना करने के बजाय,
00:04:01यह आपके अनुरोध को
00:04:02पहले ओपस 4.8 के पास भेजने की कोशिश करेगा
00:04:04यह देखने के लिए कि क्या उस मॉडल के लिए काम करना सुरक्षित है,
00:04:05लेकिन फिर से, मैं पहले भी इन सुरक्षा उपायों का सामना कर चुका हूँ,
00:04:06तो मुझे पक्का नहीं पता कि यह कितना अच्छा काम करेगा।
00:04:09यह बेंचमार्क वास्तव में दिखाता है
00:04:11कि वे सुरक्षा उपाय कितने पागलपन भरे हो सकते हैं।
00:04:13साइबर मूल्यांकन पर इसका परीक्षण करते हुए,
00:04:14फेबल 5 अपने सुरक्षा उपायों के साथ
00:04:17इनमें से शून्य टेस्ट पास करता है।
00:04:19यह बस कुछ भी करने से पूरी तरह मना कर देता है,
00:04:20और जैसा कि मैंने पहले कहा,
00:04:22अगर ओपस मुझे कभी-कभी
00:04:24इस टेस्ट पर 88% पास दर के साथ अस्वीकार कर देता है,
00:04:25तो मैं बहुत से लोगों को
00:04:27माइथोस के साथ सुरक्षा बाधाओं का सामना करते देखता हूँ।
00:04:29अंतिम चर्चा का विषय
00:04:30कीमत है,
00:04:32और यहीं चीजें थोड़ी दिलचस्प हो जाती हैं।
00:04:33यह 1 मिलियन इनपुट टोकन के लिए 10 डॉलर है,
00:04:34और 1 मिलियन आउटपुट टोकन के लिए 50 डॉलर है,
00:04:37जो मुझे वास्तव में बहुत बुरा नहीं लगता,
00:04:39यह सबसे बुरा नहीं है जो हमने कभी देखा है,
00:04:41लेकिन जो मुझे विशेष रूप से पसंद नहीं है
00:04:42वह यह अगला ब्लॉक है।
00:04:44फेबल 5 आज से प्रो मैक्स टीम
00:04:45और एंटरप्राइज प्लान में उपलब्ध है,
00:04:47लेकिन फिर कुछ हफ़्तों में
00:04:4823 जून को,
00:04:50वे अनिवार्य रूप से 'प्लस' को धोखा देने वाले हैं
00:04:52और उन मॉडलों को हटा देंगे,
00:04:53और उसके बाद,
00:04:54इसके लिए उपयोग क्रेडिट की आवश्यकता होगी।
00:04:56फिर इसके बाद,
00:04:56वे कहते हैं कि वे इन मॉडलों को
00:04:58उन योजनाओं में वापस जोड़ देंगे
00:04:59किसी अनिश्चित तिथि पर।
00:05:01यह चीजें करने का एक अजीब तरीका लगता है,
00:05:02और मुझे लगता है कि उनका लक्ष्य
00:05:04आपको इन मॉडलों का आदी बनाना है,
00:05:05और फिर उन्हें आपसे छीन लेना है,
00:05:06और आपसे उन पर अधिक पैसा खर्च करवाना है,
00:05:08और मुझे लगता है कि यह संकेत देता है
00:05:09कि ये मॉडल चलाने के लिए कितने महंगे हैं।
00:05:11ओह, और यह आपकी सीमा का उपयोग भी
00:05:12ओपस से दोगुनी तेजी से करता है,
00:05:13इसलिए मैं शायद इसे
00:05:14अपना प्राथमिक मॉडल के रूप में सेट नहीं करूँगा
00:05:16जब तक कि आप कोई अरबपति न हों।
00:05:17अंतिम फुटनोट
00:05:18जो मुझे लगता है कि दिलचस्प है
00:05:19वह उनकी नई डेटा प्रतिधारण नीति है।
00:05:21इन मॉडलों का उपयोग करने के लिए,
00:05:21वे वास्तव में 30-दिन का प्रतिधारण चाहते हैं
00:05:23सभी ट्रैफिक का
00:05:25प्रथम और तृतीय-पक्ष दोनों टूल पर,
00:05:25और कथित तौर पर कोई प्रशिक्षण
00:05:27इस डेटा पर नहीं किया जाएगा,
00:05:28यह बस फिर से सुरक्षा खतरों को
00:05:30रोकने की कोशिश करने के लिए है।
00:05:31तो ये रहा,
00:05:33माइथोस आखिरकार यहाँ है।
00:05:34आप इस मॉडल रिलीज़
00:05:35और सॉफ्टवेयर के भविष्य के बारे में क्या सोचते हैं?
00:05:36मुझे नीचे कमेंट्स में बताएं।
00:05:37जब आप वहां हों, तो सब्सक्राइब करें,
00:05:39और हमेशा की तरह,
00:05:40अगले वीडियो में मिलते हैं।
00:05:41अलविदा।
00:05:42अलविदा।
00:05:43अलविदा।
00:05:44अलविदा।
Community Posts
No posts yet. Be the first to write about this video!
Write about this video