Claude Mythos आखिरकार आ गया है (Fable 5)

BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00क्लाउड माइथोस आखिरकार आ गया है।
00:00:01एंथ्रोपिक ने अभी 'फेबल 5' नाम का एक नया मॉडल लॉन्च किया है,
00:00:03जो कि एक माइथोस-क्लास मॉडल है,
00:00:05जिसमें बहुत सारे सुरक्षा उपाय पहले से मौजूद हैं,
00:00:07लेकिन यह उनके द्वारा जारी किए गए किसी भी मॉडल से बेहतर है,
00:00:09और शायद किसी भी अन्य मॉडल से भी।
00:00:11यह लगभग हर बेंचमार्क पर अत्याधुनिक प्रदर्शन करता है।
00:00:13जाहिर है, यह आपकी जेब पर भारी पड़ने वाला है,
00:00:16और उन्होंने इसकी कीमत के साथ
00:00:17कुछ दिलचस्प किया है,
00:00:18जिससे मुझे नहीं लगता कि बहुत से लोग खुश होंगे।
00:00:25वैसे, आमतौर पर मैं बेंचमार्क पर
00:00:27ज्यादा समय नहीं लगाता, लेकिन यह टेबल काफी हैरान करने वाली है।
00:00:30यह मॉडल जो छलांग लगा रहा है,
00:00:31इनमें से कुछ बेंचमार्क पर,
00:00:32और यह तथ्य कि यह लगभग हर एक में आगे है।
00:00:35आप देख सकते हैं कि इसमें 'अर्जेंटिक कोडिंग' में 10% की बढ़त है
00:00:37SWE बेंच प्रो पर,
00:00:39और यह GPT 5.5 से लगभग 20% आगे है,
00:00:42और इसने 'फ्रंटियर कोड' बेंचमार्क पर भी ऐसी ही छलांग लगाई है।
00:00:44फ्रंटियर कोड वास्तव में कॉग्निशन की ओर से एक नया बेंचमार्क है,
00:00:47जो डेविन के पीछे की टीम है,
00:00:48जो अनिवार्य रूप से यह परीक्षण करता है कि क्या आप
00:00:49मॉडल द्वारा तैयार किए गए कोड को वास्तव में मर्ज कर सकते हैं।
00:00:52इस चार्ट पर, आप देख सकते हैं कि फेबल 5
00:00:54अन्य सभी मॉडलों से आगे है,
00:00:55मध्यम तर्क क्षमता (reasoning effort) पर भी,
00:00:57लेकिन मुझे यह भी लगता है कि आप देख सकते हैं कि यह मॉडल
00:00:58बहुत महंगा होने वाला है।
00:01:00यह कंप्यूटर उपयोग (computer use) में भी थोड़ा बेहतर है,
00:01:02कोई बहुत बड़ी छलांग नहीं,
00:01:03और यही बात नीचे दिए गए टर्मिनल बेंच पर भी लागू होती है,
00:01:05लेकिन फिर से, जैसा कि आप देख सकते हैं,
00:01:06यह लगभग हर श्रेणी में सबसे आगे है।
00:01:09हालाँकि, सबसे बड़ी चीजों में से एक,
00:01:10जो अधिक से अधिक प्रासंगिक होती जा रही है,
00:01:11वह है लंबे समय तक चलने वाले कार्य (long-running tasks)।
00:01:12फेबल 5 स्पष्ट रूप से किसी भी अन्य मॉडल की तुलना में
00:01:14लंबे समय तक काम कर सकता है,
00:01:15और उन्होंने स्ट्राइप से इसका परीक्षण कराया,
00:01:17और जाहिर है इसने एक दिन में 50 मिलियन लाइनों के
00:01:18रूबी कोडबेस का पूरा माइग्रेशन कर दिया।
00:01:21शायद इस बात से मदद मिली कि यह मेमोरी
00:01:22और लंबे कॉन्टेक्स्ट में भी काफी बेहतर हो गया है।
00:01:24यह स्पष्ट रूप से लंबे समय तक चलने वाले कार्यों में
00:01:26लाखों टोकन पर अपना ध्यान केंद्रित रख सकता है,
00:01:28और यह अपने नोट्स का उपयोग करके
00:01:29अपने आउटपुट में सुधार करता है।
00:01:31अब, केवल कोडिंग के अलावा,
00:01:32इसकी विजन क्षमताएं भी काफी कमाल की हैं।
00:01:33जाहिर तौर पर, यह अब एक कम से कम विजन-ओनली हार्नेस के साथ
00:01:36पोकेमॉन फायर रेड को हरा सकता है,
00:01:37जबकि पहले उन्हें इसे अतिरिक्त टूल देने पड़ते थे,
00:01:39और तब भी यह मुश्किल से ही जीत पाता था,
00:01:42लेकिन अब इसे कोई समस्या नहीं है।
00:01:43यह वेबसाइट का स्क्रीनशॉट लेते ही
00:01:45उसे तैयार भी कर सकता है।
00:01:47मैंने वास्तव में लीनियर वेबसाइट का उपयोग करके इसे आजमाया,
00:01:48और सच में मुझे यह समझने में थोड़ी उलझन हुई कि
00:01:50कौन सी असली है और कौन सी नकली,
00:01:52लेकिन दाईं ओर वाली वह है
00:01:53जिसे फेबल 5 ने
00:01:55केवल लीनियर वेबसाइट के एक स्क्रीनशॉट से जनरेट किया है।
00:01:56इसने वेब सर्च या ऐसी किसी चीज़ का उपयोग नहीं किया,
00:01:58मैंने बस इसे इस वेब पेज का पूरा स्क्रीनशॉट दिया,
00:02:00और मैं कहूँगा कि इसने बहुत ही शानदार काम किया है।
00:02:02सभी स्क्रीनशॉट, सब कुछ,
00:02:05कोड के साथ जनरेट किए गए हैं,
00:02:06और आप देख सकते हैं कि इसने बहुत, बहुत अच्छा काम किया है।
00:02:08SVG एनिमेशन जैसी चीजें हैं जो
00:02:10शायद एकदम परफेक्ट न हों,
00:02:12लेकिन कुल मिलाकर, मैं कहूँगा कि मैं काफी खुश हूँ
00:02:14जिस तरह से इसने इस वेबसाइट को फिर से बनाया है,
00:02:15और इसने लगभग हर सेक्शन को बखूबी निभाया है,
00:02:18या कम से कम मुझे उस बिंदु तक पहुँचा दिया
00:02:20जहाँ मैं फिर इसे ठीक कर सकूँ
00:02:21ताकि यह बिल्कुल वैसा हो जाए जैसा मैं चाहता हूँ।
00:02:22जब हम यहाँ हैं ही,
00:02:24तो मैंने इन मॉडलों को
00:02:24एक फाइनेंस डैशबोर्ड ऐप के लिए
00:02:25फ्रंट-एंड और बैक-एंड बनाने पर
00:02:27एकदम खाली फोल्डर से एक बार में टेस्ट करने का फैसला किया,
00:02:28और यह वही है जो फेबल 5 ने मुझे दिया है।
00:02:31मैंने सब कुछ टेस्ट किया है,
00:02:33सब कुछ काम कर रहा है,
00:02:34यह API से बात करता है,
00:02:35और कुल मिलाकर, डिजाइन वास्तव में बहुत अच्छा लग रहा है।
00:02:37यह वास्तव में प्रयोग करने योग्य है,
00:02:39लेकिन यह वह सौंदर्य है
00:02:40जो क्लाउड मॉडल हाल ही में दे रहे हैं।
00:02:41हम इसे उस परिणाम में देख सकते हैं
00:02:43जो ओपस 4.8 ने मुझे दिया था।
00:02:44फिर से, मुझे लगता है कि यह साइट बहुत अच्छी लग रही है,
00:02:45और सच कहूँ तो,
00:02:47मैं तर्क करूँगा कि यह फेबल 5 वाले से बेहतर दिखती है,
00:02:48लेकिन फिर से, इसमें वह सौंदर्य है
00:02:50जिस पर क्लाउड को प्रशिक्षित किया गया है,
00:02:51लेकिन यह मेरी गलती भी है।
00:02:53मैंने इसे किसी विशेष डिजाइन में जाने के लिए प्रॉम्प्ट नहीं किया था।
00:02:54मुझे यकीन है कि अगर मैंने ऐसा किया होता,
00:02:56तो यह बहुत अच्छा काम करता।
00:02:57यदि हम इसकी तुलना GPT 5.5 द्वारा दिए गए परिणामों से करें,
00:02:58तो आप देख सकते हैं कि यह बिल्कुल भी करीब नहीं है।
00:03:00यह एक सिंगल प्रॉम्प्ट से था,
00:03:01बिल्कुल वही प्रॉम्प्ट,
00:03:03और वे मेरे विचार से UI डिजाइन में
00:03:04कोसों दूर हैं।
00:03:05मैं वास्तव में उम्मीद करता हूँ कि अगला GPT मॉडल
00:03:07इस बारे में कुछ करे।
00:03:08फेबल 5 ने उस परीक्षण में मुझे आश्चर्यचकित किया
00:03:10सबसे तेज़ होकर।
00:03:11उस फाइनेंस डैशबोर्ड को पूरा करने में
00:03:13इसे लगभग आठ मिनट लगे,
00:03:14जबकि ओपस को 12 मिनट लगे,
00:03:15और GPT 5.5 को उस
00:03:17बकवास (abomination) को बनाने में 15 मिनट लगे।
00:03:18मेरे डेमो के अलावा,
00:03:20मेरी पसंदीदा चीजों में से एक थी एंथ्रोपिक,
00:03:22जो फेबल 5 को ब्राउज़र-आधारित
00:03:23CAD एडिटर में 3D प्रिंटेबल CAD मॉडल बनाते हुए दिखा रहे थे,
00:03:24जिसे खुद फेबल 5 ने ही बनाया था।
00:03:27मतलब, अपना खुद का मिनी-सॉफ्टवेयर बनाना
00:03:28अब कितना हासिल करना आसान है,
00:03:31और यही बात दवाओं (drugs) के लिए भी लागू होती है।
00:03:32जाहिर है यह मॉडल ड्रग डिजाइन में बहुत अच्छा है,
00:03:34लेकिन शायद आपको उस बारे में जानने की जरूरत नहीं है,
00:03:36और हाँ, यह निश्चित रूप से सुरक्षित है,
00:03:38जैसा कि मूल रूप से कुछ भी है
00:03:40जो साइबर सुरक्षा के करीब जाता है,
00:03:43जब तक कि आप उन उद्यमों में से न हों
00:03:44जो उस विशेष कार्यक्रम में हैं।
00:03:45फेबल 5 स्पष्ट रूप से बहुत सतर्क रहने वाला है,
00:03:46जिसका मतलब है कि इसमें
00:03:48काफी सारे गलत संकेत (false positives) होंगे,
00:03:51जाहिर तौर पर 5% से कम संदेशों में,
00:03:51लेकिन वह अभी भी मुझे काफी अधिक लगता है,
00:03:53और मैं पहले भी ओपस की सुरक्षा बाधाओं का सामना कर चुका हूँ,
00:03:55तो यह वाला शायद और भी बुरा होने वाला है।
00:03:57हालाँकि स्पष्ट रूप से,
00:03:59सीधे मना करने के बजाय,
00:04:01यह आपके अनुरोध को
00:04:02पहले ओपस 4.8 के पास भेजने की कोशिश करेगा
00:04:04यह देखने के लिए कि क्या उस मॉडल के लिए काम करना सुरक्षित है,
00:04:05लेकिन फिर से, मैं पहले भी इन सुरक्षा उपायों का सामना कर चुका हूँ,
00:04:06तो मुझे पक्का नहीं पता कि यह कितना अच्छा काम करेगा।
00:04:09यह बेंचमार्क वास्तव में दिखाता है
00:04:11कि वे सुरक्षा उपाय कितने पागलपन भरे हो सकते हैं।
00:04:13साइबर मूल्यांकन पर इसका परीक्षण करते हुए,
00:04:14फेबल 5 अपने सुरक्षा उपायों के साथ
00:04:17इनमें से शून्य टेस्ट पास करता है।
00:04:19यह बस कुछ भी करने से पूरी तरह मना कर देता है,
00:04:20और जैसा कि मैंने पहले कहा,
00:04:22अगर ओपस मुझे कभी-कभी
00:04:24इस टेस्ट पर 88% पास दर के साथ अस्वीकार कर देता है,
00:04:25तो मैं बहुत से लोगों को
00:04:27माइथोस के साथ सुरक्षा बाधाओं का सामना करते देखता हूँ।
00:04:29अंतिम चर्चा का विषय
00:04:30कीमत है,
00:04:32और यहीं चीजें थोड़ी दिलचस्प हो जाती हैं।
00:04:33यह 1 मिलियन इनपुट टोकन के लिए 10 डॉलर है,
00:04:34और 1 मिलियन आउटपुट टोकन के लिए 50 डॉलर है,
00:04:37जो मुझे वास्तव में बहुत बुरा नहीं लगता,
00:04:39यह सबसे बुरा नहीं है जो हमने कभी देखा है,
00:04:41लेकिन जो मुझे विशेष रूप से पसंद नहीं है
00:04:42वह यह अगला ब्लॉक है।
00:04:44फेबल 5 आज से प्रो मैक्स टीम
00:04:45और एंटरप्राइज प्लान में उपलब्ध है,
00:04:47लेकिन फिर कुछ हफ़्तों में
00:04:4823 जून को,
00:04:50वे अनिवार्य रूप से 'प्लस' को धोखा देने वाले हैं
00:04:52और उन मॉडलों को हटा देंगे,
00:04:53और उसके बाद,
00:04:54इसके लिए उपयोग क्रेडिट की आवश्यकता होगी।
00:04:56फिर इसके बाद,
00:04:56वे कहते हैं कि वे इन मॉडलों को
00:04:58उन योजनाओं में वापस जोड़ देंगे
00:04:59किसी अनिश्चित तिथि पर।
00:05:01यह चीजें करने का एक अजीब तरीका लगता है,
00:05:02और मुझे लगता है कि उनका लक्ष्य
00:05:04आपको इन मॉडलों का आदी बनाना है,
00:05:05और फिर उन्हें आपसे छीन लेना है,
00:05:06और आपसे उन पर अधिक पैसा खर्च करवाना है,
00:05:08और मुझे लगता है कि यह संकेत देता है
00:05:09कि ये मॉडल चलाने के लिए कितने महंगे हैं।
00:05:11ओह, और यह आपकी सीमा का उपयोग भी
00:05:12ओपस से दोगुनी तेजी से करता है,
00:05:13इसलिए मैं शायद इसे
00:05:14अपना प्राथमिक मॉडल के रूप में सेट नहीं करूँगा
00:05:16जब तक कि आप कोई अरबपति न हों।
00:05:17अंतिम फुटनोट
00:05:18जो मुझे लगता है कि दिलचस्प है
00:05:19वह उनकी नई डेटा प्रतिधारण नीति है।
00:05:21इन मॉडलों का उपयोग करने के लिए,
00:05:21वे वास्तव में 30-दिन का प्रतिधारण चाहते हैं
00:05:23सभी ट्रैफिक का
00:05:25प्रथम और तृतीय-पक्ष दोनों टूल पर,
00:05:25और कथित तौर पर कोई प्रशिक्षण
00:05:27इस डेटा पर नहीं किया जाएगा,
00:05:28यह बस फिर से सुरक्षा खतरों को
00:05:30रोकने की कोशिश करने के लिए है।
00:05:31तो ये रहा,
00:05:33माइथोस आखिरकार यहाँ है।
00:05:34आप इस मॉडल रिलीज़
00:05:35और सॉफ्टवेयर के भविष्य के बारे में क्या सोचते हैं?
00:05:36मुझे नीचे कमेंट्स में बताएं।
00:05:37जब आप वहां हों, तो सब्सक्राइब करें,
00:05:39और हमेशा की तरह,
00:05:40अगले वीडियो में मिलते हैं।
00:05:41अलविदा।
00:05:42अलविदा।
00:05:43अलविदा।
00:05:44अलविदा।

Key Takeaway

फेबल 5 कोडिंग, विजन और लंबे कार्यों में अत्याधुनिक प्रदर्शन करता है, लेकिन इसकी उच्च लागत, सख्त सुरक्षा सीमाएं और उपयोग क्रेडिट पर निर्भरता इसे आम उपयोगकर्ताओं के बजाय विशेष उद्यम उपयोग के लिए अधिक उपयुक्त बनाती है।

Highlights

  • एंथ्रोपिक का नया फेबल 5 मॉडल SWE बेंच प्रो पर अर्जेंटिक कोडिंग में 10% की बढ़त के साथ लगभग हर बेंचमार्क पर अग्रणी प्रदर्शन करता है।

  • फेबल 5 एक दिन में 50 मिलियन लाइनों के रूबी कोडबेस को माइग्रेट करने में सक्षम है, जो इसे लंबे समय तक चलने वाले कार्यों के लिए अत्यधिक प्रभावी बनाता है।

  • यह मॉडल केवल वेबसाइट के स्क्रीनशॉट से सटीक वेब पेज कोड जनरेट कर सकता है और इसे बिना किसी बाहरी टूल के पोकेमॉन फायर रेड जैसे गेम खेलने के लिए प्रशिक्षित किया गया है।

  • इसकी कीमत 1 मिलियन इनपुट टोकन के लिए 10 डॉलर और 1 मिलियन आउटपुट टोकन के लिए 50 डॉलर निर्धारित है।

  • सुरक्षा प्रोटोकॉल के कारण, फेबल 5 साइबर मूल्यांकन परीक्षणों में शून्य पास दर प्रदर्शित करता है, जो इसे कई मामलों में सीधे मना करने वाला (refusal) बनाता है।

  • 23 जून से प्लस सब्सक्राइबर्स के लिए मॉडल की उपलब्धता कम कर दी जाएगी और इसे उपयोग क्रेडिट (usage credits) आधारित प्रणाली में स्थानांतरित किया जाएगा।

Timeline

फेबल 5 का बेंचमार्क प्रदर्शन

  • फेबल 5 बेंचमार्क प्रदर्शन में अन्य सभी मॉडलों से आगे है।
  • यह SWE बेंच प्रो पर अर्जेंटिक कोडिंग में 10% और फ्रंटियर कोड बेंचमार्क पर काफी बढ़त बनाए रखता है।

एंथ्रोपिक द्वारा जारी माइथोस-क्लास मॉडल फेबल 5 लगभग सभी परीक्षण श्रेणियों में शीर्ष पर है। यह मॉडल कंप्यूटर उपयोग और टर्मिनल बेंचमार्क में भी मामूली सुधार दिखाता है, हालांकि यह अत्यधिक महंगा होने वाला है।

कोडिंग और विजन क्षमताएं

  • यह मॉडल लाखों टोकन की मेमोरी बनाए रखकर लंबे समय तक चलने वाले कार्यों में सक्षम है।
  • वेबसाइट स्क्रीनशॉट से सीधे कोड जनरेट करना और फाइनेंस डैशबोर्ड बनाना इसकी कोडिंग दक्षता को दर्शाता है।
  • फेबल 5 ने आठ मिनट में फाइनेंस डैशबोर्ड पूरा किया, जबकि अन्य मॉडलों को अधिक समय लगा।

स्ट्राइप के साथ परीक्षण में, इस मॉडल ने 50 मिलियन लाइनों के रूबी कोडबेस का माइग्रेशन सफलतापूर्वक किया। विजन क्षमता में वृद्धि के साथ, यह बिना अतिरिक्त टूल के गेम खेलने और वेब पेज पुनर्निर्माण जैसे जटिल कार्य कर सकता है।

सुरक्षा सीमाएं और लागत संरचना

  • अत्यधिक सुरक्षा उपायों के कारण मॉडल साइबर सुरक्षा कार्यों को करने से पूरी तरह मना कर देता है।
  • मॉडल की कीमत 1 मिलियन इनपुट टोकन के लिए 10 डॉलर और 50 डॉलर प्रति 1 मिलियन आउटपुट टोकन है।
  • 23 जून से प्लस योजना के उपयोगकर्ताओं के लिए एक्सेस को क्रेडिट-आधारित प्रणाली में बदला जाएगा।

मॉडल में सुरक्षा बाधाएं इतनी सख्त हैं कि यह साइबर मूल्यांकन परीक्षणों में कोई भी टेस्ट पास नहीं करता। इसके अलावा, इसकी 30-दिन की डेटा प्रतिधारण नीति और ओपस की तुलना में दोगुनी तेजी से सीमा समाप्त होने की दर इसे भारी उपयोग के लिए चुनौतीपूर्ण बनाती है।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video