Claude का नया Advisor Mode: बेहतर परिणाम + सस्ता

CChase AI
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00Anthropic ने अभी एडवाइजर स्ट्रैटेजी जारी की है,
00:00:02जो हमें न केवल बेहतर प्रदर्शन प्राप्त करने की अनुमति देती है
00:00:05हमारे Anthropic मॉडल से, बल्कि इसे कम लागत पर करने की भी।
00:00:09और इसके काम करने का तरीका काफी सरल है।
00:00:10यह Opus को एक सलाहकार (advisor) के रूप में जोड़ता है
00:00:12Sonnet या Haiku जैसे निष्पादक (executor) के साथ।
00:00:15तो Opus एक योजना बनाता है
00:00:17और सस्ता मॉडल सारा काम करता है।
00:00:19तो यह बिल्कुल वैसा ही है जब हम क्लाउड कोड का उपयोग कर रहे होते हैं
00:00:22और Opus को प्लान मोड में चलाते हैं,
00:00:24लेकिन वास्तविक निष्पादन Sonnet को सौंप देते हैं।
00:00:27अंतर यह है कि एडवाइजर स्ट्रैटेजी के साथ,
00:00:30यह सब एक API के माध्यम से स्वचालित रूप से किया जाता है।
00:00:32तो यह एकदम सही है यदि आप उन चीजों पर काम कर रहे हैं
00:00:34जो क्लाउड कोड के बाहर हैं।
00:00:35तो यदि आपके पास किसी भी प्रकार का वेब एप्लिकेशन है
00:00:38जो बैकएंड में Anthropic API का उपयोग करता है,
00:00:41तो यह एक बेहतरीन विकल्प है।
00:00:42आपको कम कीमत में अधिक प्रभावी आउटपुट मिलने वाले हैं।
00:00:46और यह वास्तव में थोड़ा अधिक परिष्कृत है
00:00:48उसकी तुलना में जो हम क्लाउड कोड में Opus प्लानिंग
00:00:50और फिर Sonnet के निष्पादन के साथ करते हैं।
00:00:52क्योंकि यह एडवाइजर-एग्जीक्यूटर संबंध
00:00:55लगातार बदलता रहता है और यह कोई एक बार की चीज़ नहीं है
00:00:58जहाँ Opus एक बार सलाह देता है और फिर Sonnet निष्पादित करता है।
00:01:01यह वास्तव में आगे-पीछे होता रहता है।
00:01:02जैसा कि यहाँ बताया गया है, जब निष्पादक,
00:01:04यानी Sonnet या Haiku, किसी ऐसे निर्णय पर पहुँचता है
00:01:06जिसे वह उचित रूप से हल नहीं कर सकता,
00:01:08तो वह सलाहकार के रूप में Opus से मार्गदर्शन लेता है।
00:01:11Opus के पास पूरा संदर्भ होता है कि Sonnet क्या कर रहा है।
00:01:15और इसलिए यह सिर्फ प्लान मोड की तरह नहीं है
00:01:16जहाँ यह इसे एक रणनीति देता है और फिर वह शुरू हो जाता है।
00:01:19यह ऐसा है जैसे आपने वह किया और Sonnet जाकर निष्पादित करने की कोशिश करता है।
00:01:22उसे कोई अड़चन आती है, तो वह वापस Opus के पास जाएगा।
00:01:24तो यहाँ लगातार संवाद होता रहता है।
00:01:26इसके अलावा, लागत कम रखने के लिए,
00:01:28Opus किसी भी समय कोई टूल कॉल नहीं कर रहा है।
00:01:30सभी टूल कॉल उस छोटे LLM द्वारा किए जा रहे हैं,
00:01:34इस मामले में, Sonnet या Haiku द्वारा।
00:01:35लेकिन Opus उस पूरे साझा संदर्भ को बनाए रखता है।
00:01:39और जैसा कि मैंने परिचय में बताया था,
00:01:40यह हमें कम में बेहतर परिणाम देता है।
00:01:43तो यहाँ, यह Sonnet 4.6 high
00:01:46Opus एडवाइजर के साथ बनाम अकेले Sonnet 4.6 high की तुलना कर रहा है।
00:01:50Sonnet ने SWE बेंच पर 74.8 बनाम 72.1 के साथ उच्च स्कोर किया,
00:01:55और यह सस्ता भी रहा।
00:01:56तो यह प्रति एजेंटिक कार्य केवल 96 सेंट से कुछ अधिक था
00:02:00बनाम लगभग 1 डॉलर 9 सेंट, जो कि महत्वपूर्ण है।
00:02:03और आप यही चीज़ अन्य बेंचमार्क में भी देखते हैं
00:02:06जैसे Browse Comp और Terminal Bench में।
00:02:08तो 60.4 बनाम 58.1, और यह सस्ता है।
00:02:12सस्ता होना बहुत अच्छी बात है क्योंकि जैसा कि हम सभी जानते हैं,
00:02:14Anthropic API बहुत शानदार हैं,
00:02:16लेकिन वे बहुत महंगे हैं।
00:02:19और अक्सर आपको लगता है कि आपको कुछ ऐसा चाहिए
00:02:21जो Sonnet और Opus के बीच का हो, लेकिन वैसा कुछ मौजूद नहीं है।
00:02:24तो यह हमें एक बीच का रास्ता देता है
00:02:26Sonnet और Opus के प्रदर्शन के मामले में,
00:02:28लेकिन ऐसी लागत के साथ जो सामान्य Sonnet से भी सस्ती है।
00:02:31तो इसमें पसंद न आने वाली क्या बात है?
00:02:32जैसा कि मैंने पहले कहा, यह एक API वाली चीज़ है,
00:02:33जरूरी नहीं कि यह Claude code वाली चीज़ हो।
00:02:35तो इसका उपयोग करने के लिए, आपको बस अपने कोड को समायोजित करना होगा
00:02:38कि वह वास्तव में उन API कॉल को कैसे कर रहा है।
00:02:41विशेष रूप से, आपको टाइप को "advisor" बताना होगा,
00:02:45साथ ही "max uses" को भी।
00:02:47अब "max uses" वह संख्या है जितनी बार
00:02:48यह वापस Opus के पास जाएगा
00:02:50किसी विशेष मुद्दे पर सलाह लेने के लिए।
00:02:52तो संक्षेप में कहें तो, यह एक अद्भुत अपग्रेड है।
00:02:54यदि आप ऐसे व्यक्ति हैं जो Anthropic API का उपयोग करते हैं
00:02:56Claude code इकोसिस्टम के बाहर वास्तविक प्रोजेक्ट्स में,
00:03:00तो हमें सस्ते में बेहतर परिणाम मिल रहे हैं।
00:03:03क्योंकि जैसा कि आप जानते हैं, अक्सर Opus ज़्यादातर चीजों के लिए
00:03:06ज़रूरत से ज़्यादा (overkill) होता है,
00:03:08फिर भी कभी-कभी आप Sonnet के साथ कुछ थोड़ा बेहतर चाहते हैं।
00:03:10और यहाँ हमारे पास यह एकदम सही बीच का रास्ता है।

Key Takeaway

Anthropic की नई एडवाइजर रणनीति Opus की बुद्धिमत्ता को Sonnet की गति के साथ जोड़कर SWE बेंच पर 74.8 स्कोर के साथ बेहतर परिणाम और 1.09 डॉलर से 96 सेंट तक की कम लागत प्रदान करती है।

Highlights

Anthropic की नई एडवाइजर रणनीति Opus को सलाहकार और Sonnet या Haiku को निष्पादक के रूप में जोड़ती है।

एडवाइजर मोड के साथ Sonnet 4.6 high ने SWE बेंचमार्क पर 74.8 स्कोर किया, जो अकेले Sonnet के 72.1 स्कोर से बेहतर है।

एजेंटिक कार्यों की लागत अकेले Sonnet के 1.09 डॉलर के मुकाबले एडवाइजर मोड में घटकर 96 सेंट रह जाती है।

Opus किसी भी टूल कॉल को सीधे निष्पादित नहीं करता है, जिससे परिचालन लागत कम रहती है।

सिस्टम API के माध्यम से स्वचालित रूप से काम करता है, जहाँ 'max uses' पैरामीटर तय करता है कि कितनी बार सलाह ली जा सकती है।

Timeline

एडवाइजर और निष्पादक मॉडल का एकीकरण

  • उच्च स्तरीय Opus मॉडल योजना बनाने वाले सलाहकार की भूमिका निभाता है।
  • सस्ता Sonnet या Haiku मॉडल वास्तविक कार्य निष्पादन को संभालता है।
  • API के माध्यम से यह पूरी प्रक्रिया स्वायत्त रूप से संचालित होती है।

यह संरचना Claude Code की कार्यप्रणाली के समान है लेकिन अब वेब एप्लिकेशन बैकएंड के लिए API के माध्यम से उपलब्ध है। Opus केवल रणनीति तैयार करता है जबकि सारा भारी काम कम लागत वाला मॉडल करता है। इससे डेवलपर्स को उच्च प्रदर्शन और किफायती बजट के बीच संतुलन मिलता है।

निरंतर संवाद और साझा संदर्भ

  • सलाहकार और निष्पादक के बीच संवाद एक बार की सलाह के बजाय निरंतर चलता रहता है।
  • निष्पादक मॉडल बाधा आने पर Opus से मार्गदर्शन प्राप्त करने के लिए वापस जाता है।
  • Opus कार्य के पूरे संदर्भ को बनाए रखता है लेकिन स्वयं कोई टूल कॉल नहीं करता है।

यह संबंध एक गतिशील लूप है जहाँ Sonnet या Haiku किसी जटिल निर्णय पर पहुँचने पर Opus से मदद मांगते हैं। Opus के पास पूरी स्थिति की जानकारी होती है जिससे वह सटीक निर्देश दे सकता है। लागत बचाने के लिए टूल कॉल का अधिकार केवल छोटे मॉडल के पास ही रहता है।

बेंचमार्क प्रदर्शन और लागत लाभ

  • SWE बेंचमार्क में एडवाइजर मोड अकेले मॉडल की तुलना में अधिक सटीक परिणाम देता है।
  • Browse Comp और Terminal Bench जैसे अन्य परीक्षणों में भी 60.4 बनाम 58.1 का सुधार देखा गया है।
  • यह सेटअप मानक Sonnet के उपयोग से भी सस्ता पड़ता है।

तुलनात्मक डेटा दिखाता है कि एजेंटिक कार्यों के लिए प्रति कार्य लागत 96 सेंट है, जो कि 1.09 डॉलर की सामान्य लागत से कम है। Anthropic के महंगे API की समस्या का यह एक प्रभावी समाधान है। यह Opus की क्षमता और Sonnet की बचत के बीच एक नया 'मिडल ग्राउंड' तैयार करता है।

कार्यान्वयन और तकनीकी विनिर्देश

  • उपयोग के लिए API कॉल में टाइप को 'advisor' के रूप में परिभाषित करना आवश्यक है।
  • 'max uses' पैरामीटर सलाहकार से संपर्क की अधिकतम सीमा निर्धारित करता है।
  • यह उन परियोजनाओं के लिए सबसे उपयुक्त है जो Claude Code इकोसिस्टम के बाहर काम करती हैं।

डेवलपर्स को अपने कोड में केवल कुछ समायोजन करने की आवश्यकता होती है ताकि API इन मॉडलों के बीच समन्वय कर सके। 'max uses' यह सुनिश्चित करता है कि खर्च नियंत्रण में रहे और सिस्टम अनंत लूप में न फँसे। यह उन कार्यों के लिए आदर्श है जहाँ Opus बहुत अधिक भारी (overkill) है लेकिन Sonnet पर्याप्त नहीं है।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video