Claude 3.5 Sonnet API लागत को 40% तक कम करने के लिए प्रॉम्प्ट इंजीनियरिंग के तरीके

विनम्रता छोड़ें और कमांड का उपयोग करें: भाषा का हल्कापन

AI से विनम्रतापूर्वक अनुरोध करने की आदत आपके बटुए को ढीला कर सकती है। 'कृपया' या 'करने की कृपा करें' जैसे भाव मॉडल के लिए केवल निरर्थक शोर (noise) हैं, जो सीधे तौर पर गणना लागत (computation cost) में बदल जाते हैं। KERNEL फ्रेमवर्क के शोध के अनुसार, जब इन विशेषणों को हटा दिया गया और एक सख्त आदेशात्मक संरचना का उपयोग किया गया, तो पहली बार में सफलता की दर 72% से बढ़कर 94% हो गई। इनपुट टोकन में लगभग 70% की कमी आती है। मॉडल के साथ भावनात्मक जुड़ाव बनाने की कोई आवश्यकता नहीं है। 500 शब्दों के बैकग्राउंड स्पष्टीकरण की तुलना में स्पष्ट निर्देश की एक पंक्ति प्रतिक्रिया की गति को 3 गुना तेज कर देती है।

निर्देश संक्षिप्तीकरण विधि

क्रिया विशेषण हटाएं: प्रॉम्प्ट के आगे और पीछे लगे सभी अभिवादन हटा दें।
क्रिया-केंद्रित रूपांतरण: "कृपया निम्नलिखित वाक्य का सारांश लिखें" के बजाय "वाक्य सारांश:" का उपयोग करें। "परिणाम JSON प्रारूप में आउटपुट करें" के बजाय "Format: JSON" पर्याप्त है।
चिन्हों का उपयोग: आइटम को डैश (-) या कोलन (:) से अलग करें, और महत्वपूर्ण बाधाओं को बड़े ब्रैकेट ([ ]) में रखें ताकि मॉडल उन्हें तुरंत पहचान सके।

इस तरह से बदलाव करने पर, 1,000 कॉल के आधार पर लागत 0.267 डॉलर से गिरकर 0.081 डॉलर हो जाती है। आप पैसे भी बचाते हैं और मॉडल द्वारा गलत जानकारी देने की संभावना भी कम हो जाती है, तो इसे न करने का कोई कारण नहीं है।

आउटपुट टोकन को नियंत्रित करने वाले कीवर्ड मैपिंग

असंरचित टेक्स्ट (unstructured text) से डेटा निकालते समय मॉडल को पूरी आजादी नहीं देनी चाहिए। जैसे ही मॉडल स्पष्टीकरण जोड़ना शुरू करता है, आउटपुट टोकन की लागत बढ़ जाती है। याद रखें कि आउटपुट टोकन इनपुट की तुलना में 5 गुना अधिक महंगे होते हैं। ProjectDiscovery ने वर्गीकरण प्रणाली को सरल बनाकर आउटपुट की मात्रा को 80% से अधिक कम कर दिया है। 'सकारात्मक' (Positive) शब्द को पूरा सुनने के बजाय 'P' अक्षर ही पर्याप्त है।

डेटा निष्कर्षण अनुकूलन

कोड मैपिंग: प्रॉम्प्ट के शीर्ष पर "C1: भुगतान, C2: बग, C3: पूछताछ" के रूप में परिभाषित करें और केवल कोड मान आउटपुट करने का आदेश दें।
JSON की (Key) को छोटा करना: "sentiment_analysis_result" जैसे लंबे नामों के बजाय "s" का उपयोग करें। "Just output the JSON, no preamble" वाक्यांश जोड़कर प्रस्तावना को पूरी तरह से रोक दें।
रिवर्स मैपिंग कार्यान्वयन: मॉडल द्वारा दिए गए 'C1' को उपयोगकर्ता को 'भुगतान' के रूप में दिखाने का कार्य अपने सर्वर के Python या Node.js कोड पर छोड़ दें।

इस पद्धति का उपयोग करने पर प्रति कॉल आउटपुट टोकन 1~2 पर स्थिर हो जाते हैं। पार्सिंग त्रुटियां गायब हो जाती हैं और लागत आसानी से 40% से अधिक कम हो जाती绕।

कैश हिट रेट बढ़ाने के लिए स्थिर डेटा को प्राथमिकता देना

Claude API की प्रॉम्प्ट कैशिंग (Prompt Caching) का यदि सही ढंग से उपयोग किया जाए, तो यह इनपुट लागत को 90% तक कम कर सकती है। हालांकि, कैशिंग शुरुआत से मिलान करने के सिद्धांत पर काम करती है, इसलिए यदि शुरुआत में 1 बाइट भी बदलता है, तो कैश टूट जाता है। केवल गतिशील डेटा (dynamic data) को प्रॉम्प्ट के अंत में ले जाने से कैश हिट रेट 7% से बढ़कर 84% होने के मामले सामने आए हैं। सिर्फ स्थान बदलने से बिल की राशि बदल जाती है।

प्लेसमेंट के सिद्धांत

स्थिर मानों को शीर्ष पर रखें: सिस्टम पर्सोना और टूल डेफिनिशन जैसी चीजें जो नहीं बदलती हैं, उन्हें सबसे ऊपर रखें। उसके नीचे बड़े संदर्भ दस्तावेज (reference documents) रखें।
कैश मार्कर सेट करें: अपरिवर्तनीय अनुभाग के तुरंत बाद cache_control: {"type": "ephemeral"} मार्कर लगाकर कैशिंग बिंदु घोषित करें।
गतिशील डेटा को नीचे रखें: प्रश्न की सामग्री, यूजर आईडी, वर्तमान समय जैसे चर जो हर बार बदलते हैं, उन्हें हमेशा कैश मार्कर के बाद, यानी प्रॉम्प्ट के सबसे नीचे रखें।

20k टोकन के लिए 0.06 डॉलर की लागत कैश का उपयोग करने पर 0.006 डॉलर हो जाती है, जो कि 1/10 हिस्सा है। बड़े दस्तावेजों को संभालने वाली सेवाओं के लिए, यह वह बिंदु है जहां लाभ संरचना ही बदल जाती है।

लंबे तर्क को रोकने के लिए Chain of Draft (CoD)

जटिल समस्याओं को हल करते समय यदि आप "कदम दर कदम सोचें (CoT)" कहते हैं, तो मॉडल एक डायरी की तरह लंबी प्रक्रिया लिखने लगता है। वह सब लागत है। इसका विकल्प CoD (Chain of Draft) है। मॉडल को निर्देश दें कि वह केवल मुख्य शब्दों का उपयोग करके नोट्स की तरह 5 शब्दों के भीतर संक्षिप्त तर्क दे। अंकगणितीय तर्क परीक्षणों में, जहां CoT ने 172.5 टोकन का उपयोग किया, वहीं CoD ने केवल 31.3 टोकन में समान सही उत्तर दिया।

CoD कैसे लागू करें

ड्राफ्ट मोड सक्रिय करें: सिस्टम प्रॉम्प्ट में स्पष्ट करें कि "प्रत्येक चरण के विचार को 5 शब्दों से कम के ड्राफ्ट रूप में रिकॉर्ड करें"।
स्रोत निर्दिष्ट करें: यदि मतिभ्रम (hallucination) की चिंता है, तो कम से कम सत्यापन शर्त के रूप में "आधार वाक्यांशों को <source> टैग के साथ निर्दिष्ट करें" जोड़ें।
अपवाद खंड: केवल वास्तव में जटिल मामलों में ही विस्तृत विवरण की अनुमति देने वाला एक निकास द्वार खुला रखें ताकि गुणवत्ता में गिरावट न हो।

सटीकता बनाए रखते हुए आप आउटपुट टोकन को 92% तक कम कर सकते हैं। प्रतिक्रिया में होने वाली देरी (latency) भी आधी से कम हो जाती है।

वास्तविक समय लागत निगरानी और लाभ विश्लेषण

यह सारा अनुकूलन तभी सार्थक है जब यह दिखाई दे। एक शॉपिंग मॉल सेवा जो प्रति माह 300,000 कॉल करती है, यदि प्रॉम्प्ट कैशिंग और CoD को जोड़ती है, तो लागत 4,500 डॉलर से घटकर 660 डॉलर रह जाती है। प्रॉम्प्ट सुधार की कुछ पंक्तियों से प्रति माह लगभग 5 मिलियन वॉन (कोरियाई मुद्रा के अनुसार) का परिचालन लाभ उत्पन्न होता है।

रखरखाव (Post-management)

टूल एकीकरण: Helicone या Langfuse को जोड़ें और अपनी आंखों से देखें कि आपका कैश वास्तव में कितना काम कर रहा है और लागत कहां खर्च हो रही है।
स्वचालित अवरोधन: विकास परिवेश में, एक .claudeignore फ़ाइल बनाएं ताकि अनावश्यक फ़ाइलें संदर्भ (context) में शामिल न हों।
लाभ रूपांतरण: शीट पर $Cost = N \times (T_{in} \times P_{in} + T_{out} \times P_{out})$ फॉर्मूला लगाएं और साप्ताहिक प्रदर्शन की जांच करें।

आज ही अपने सिस्टम प्रॉम्प्ट से 'धन्यवाद' हटाएं और डेटा का क्रम बदलें। वह छोटी सी परेशानी आपके मासिक बिल को मुनाफे में बदल देगी।

Claude 3.5 Sonnet API लागत को 40% तक कम करने के लिए प्रॉम्प्ट इंजीनियरिंग के तरीके

विनम्रता छोड़ें और कमांड का उपयोग करें: भाषा का हल्कापन

निर्देश संक्षिप्तीकरण विधि

क्रिया विशेषण हटाएं: प्रॉम्प्ट के आगे और पीछे लगे सभी अभिवादन हटा दें।
क्रिया-केंद्रित रूपांतरण: "कृपया निम्नलिखित वाक्य का सारांश लिखें" के बजाय "वाक्य सारांश:" का उपयोग करें। "परिणाम JSON प्रारूप में आउटपुट करें" के बजाय "Format: JSON" पर्याप्त है।
चिन्हों का उपयोग: आइटम को डैश (-) या कोलन (:) से अलग करें, और महत्वपूर्ण बाधाओं को बड़े ब्रैकेट ([ ]) में रखें ताकि मॉडल उन्हें तुरंत पहचान सके।

आउटपुट टोकन को नियंत्रित करने वाले कीवर्ड मैपिंग

डेटा निष्कर्षण अनुकूलन

कोड मैपिंग: प्रॉम्प्ट के शीर्ष पर "C1: भुगतान, C2: बग, C3: पूछताछ" के रूप में परिभाषित करें और केवल कोड मान आउटपुट करने का आदेश दें।
JSON की (Key) को छोटा करना: "sentiment_analysis_result" जैसे लंबे नामों के बजाय "s" का उपयोग करें। "Just output the JSON, no preamble" वाक्यांश जोड़कर प्रस्तावना को पूरी तरह से रोक दें।
रिवर्स मैपिंग कार्यान्वयन: मॉडल द्वारा दिए गए 'C1' को उपयोगकर्ता को 'भुगतान' के रूप में दिखाने का कार्य अपने सर्वर के Python या Node.js कोड पर छोड़ दें।

कैश हिट रेट बढ़ाने के लिए स्थिर डेटा को प्राथमिकता देना

प्लेसमेंट के सिद्धांत

स्थिर मानों को शीर्ष पर रखें: सिस्टम पर्सोना और टूल डेफिनिशन जैसी चीजें जो नहीं बदलती हैं, उन्हें सबसे ऊपर रखें। उसके नीचे बड़े संदर्भ दस्तावेज (reference documents) रखें।
कैश मार्कर सेट करें: अपरिवर्तनीय अनुभाग के तुरंत बाद cache_control: {"type": "ephemeral"} मार्कर लगाकर कैशिंग बिंदु घोषित करें।
गतिशील डेटा को नीचे रखें: प्रश्न की सामग्री, यूजर आईडी, वर्तमान समय जैसे चर जो हर बार बदलते हैं, उन्हें हमेशा कैश मार्कर के बाद, यानी प्रॉम्प्ट के सबसे नीचे रखें।

लंबे तर्क को रोकने के लिए Chain of Draft (CoD)

CoD कैसे लागू करें

ड्राफ्ट मोड सक्रिय करें: सिस्टम प्रॉम्प्ट में स्पष्ट करें कि "प्रत्येक चरण के विचार को 5 शब्दों से कम के ड्राफ्ट रूप में रिकॉर्ड करें"।
स्रोत निर्दिष्ट करें: यदि मतिभ्रम (hallucination) की चिंता है, तो कम से कम सत्यापन शर्त के रूप में "आधार वाक्यांशों को <source> टैग के साथ निर्दिष्ट करें" जोड़ें।
अपवाद खंड: केवल वास्तव में जटिल मामलों में ही विस्तृत विवरण की अनुमति देने वाला एक निकास द्वार खुला रखें ताकि गुणवत्ता में गिरावट न हो।

वास्तविक समय लागत निगरानी और लाभ विश्लेषण

रखरखाव (Post-management)

टूल एकीकरण: Helicone या Langfuse को जोड़ें और अपनी आंखों से देखें कि आपका कैश वास्तव में कितना काम कर रहा है और लागत कहां खर्च हो रही है।
स्वचालित अवरोधन: विकास परिवेश में, एक .claudeignore फ़ाइल बनाएं ताकि अनावश्यक फ़ाइलें संदर्भ (context) में शामिल न हों।
लाभ रूपांतरण: शीट पर $Cost = N \times (T_{in} \times P_{in} + T_{out} \times P_{out})$ फॉर्मूला लगाएं और साप्ताहिक प्रदर्शन की जांच करें।

Claude 3.5 Sonnet API लागत को 40% तक कम करने के लिए प्रॉम्प्ट इंजीनियरिंग के तरीके

Related Video

Claude की यह स्किल आपकी टोकन लागत को आधा कर देती है

Claude 3.5 Sonnet API लागत को 40% तक कम करने के लिए प्रॉम्प्ट इंजीनियरिंग के तरीके

विनम्रता छोड़ें और कमांड का उपयोग करें: भाषा का हल्कापन

निर्देश संक्षिप्तीकरण विधि

आउटपुट टोकन को नियंत्रित करने वाले कीवर्ड मैपिंग

डेटा निष्कर्षण अनुकूलन

कैश हिट रेट बढ़ाने के लिए स्थिर डेटा को प्राथमिकता देना

प्लेसमेंट के सिद्धांत

लंबे तर्क को रोकने के लिए Chain of Draft (CoD)

CoD कैसे लागू करें

वास्तविक समय लागत निगरानी और लाभ विश्लेषण

रखरखाव (Post-management)

Comments (0)

Claude 3.5 Sonnet API लागत को 40% तक कम करने के लिए प्रॉम्प्ट इंजीनियरिंग के तरीके

विनम्रता छोड़ें और कमांड का उपयोग करें: भाषा का हल्कापन

निर्देश संक्षिप्तीकरण विधि

आउटपुट टोकन को नियंत्रित करने वाले कीवर्ड मैपिंग

डेटा निष्कर्षण अनुकूलन

कैश हिट रेट बढ़ाने के लिए स्थिर डेटा को प्राथमिकता देना

प्लेसमेंट के सिद्धांत

लंबे तर्क को रोकने के लिए Chain of Draft (CoD)

CoD कैसे लागू करें

वास्तविक समय लागत निगरानी और लाभ विश्लेषण

रखरखाव (Post-management)