GLM 5.2 को कम लागत में सर्व करने के लिए इंफ्रास्ट्रक्चर कैसे बनाएं

जब बड़े भाषा मॉडल (LLM) को प्रोडक्शन में उतारने की बात आती है, तो बजट हमेशा एक बाधा बनता है। Zhipu AI द्वारा जारी GLM 5.2 में 744B पैरामीटर हैं। केवल FP8 प्रिसिजन का उपयोग करने पर भी कम से कम 744GB VRAM की आवश्यकता होती है। 8x H200 नोड्स को $14.56 प्रति घंटे की दर से किराए पर लेकर हर समय चलाना संभव नहीं है। एकल डेवलपर्स या स्टार्टअप्स को संसाधनों को विभाजित करना होगा और API कॉल संरचना को फिर से तैयार करना होगा।

vLLM का उपयोग करके कुशल परिनियोजन (Deployment) वातावरण

हार्डवेयर की सीमाएं जितनी अधिक होंगी, प्रिसिजन का चुनाव और मेमोरी प्रबंधन उतना ही महत्वपूर्ण होगा। 1M टोकन कॉन्टेक्स्ट को प्रोसेस करते समय, यदि आप FP8 KV कैश का उपयोग नहीं करते हैं, तो 160GB VRAM बर्बाद हो जाती है। --kv-cache-dtype fp8 विकल्प का उपयोग करके इसे घटाकर 80GB किया जा सकता है।

Docker के साथ vLLM को तैनात करते समय, निम्नलिखित कॉन्फ़िगरेशन लागू करें:

docker-compose.yml में ipc: host को सक्षम करें ताकि कंटेनर सीधे साझा मेमोरी (shared memory) का उपयोग कर सकें।
/mnt/models/cache वॉल्यूम को मैप करें ताकि हर बार वेट्स (weights) डाउनलोड करने में लगने वाला समय बच सके।
हेल्थ चेक start_period को 300 सेकंड पर सेट करें ताकि वार्मअप के दौरान कंटेनर बंद न हो।

इस सेटअप के साथ, आप परिनियोजन वातावरण बनाने में लगने वाले 10 घंटे से अधिक के समय को काफी कम कर सकते हैं और सर्वर डाउनटाइम के कारण होने वाली लागत को कम कर सकते हैं।

टोकन लागत कम करने के लिए डायनेमिक वर्कफ़्लो

बिना सोचे-समझे सभी अनुरोधों को विशाल मॉडल पर न भेजें। GPU कंप्यूट लागत बचाने के लिए रेगुलर एक्सप्रेशन राउटर (regex router) को आगे रखें ताकि साधारण पिंग या सुरक्षा हमलों को पहले ही फ़िल्टर किया जा सके। vLLM के --enable-prefix-caching फ़ंक्शन को चालू करने से बार-बार आने वाले सिस्टम प्रॉम्प्ट को फिर से कैलकुलेट करने की आवश्यकता नहीं होगी। संवादात्मक सेवाओं (conversational services) में, 5-टर्न वार्तालाप के लिए इनपुट टोकन लागत को 44.4% तक कम किया जा सकता है।

यदि इनपुट डेटा 16,384 टोकन से अधिक हो जाता है, तो उसे स्वचालित रूप से चंकिंग (chunking) करें।

ट्रांसफार्मर टोकनाइज़र के साथ इनपुट टेक्स्ट की कुल मात्रा को पहले मापें।
यदि कुल मान सीमा से अधिक है, तो फ़ंक्शन बाउंड्री के आधार पर टेक्स्ट को विभाजित करें।
OOM (Out of Memory) से बचने के लिए विभाजित चंक्स को अलग-अलग अनुरोधों के रूप में भेजें।

यह तरीका API कॉल लागत को औसतन 40% से अधिक कुशल बनाता है।

अनुमान परिणामों की स्वचालित निगरानी पाइपलाइन

प्रदर्शन में गिरावट (Performance drift) धीरे-धीरे सेवा की गुणवत्ता को खराब कर देती है। Uvicorn एक्सेस लॉग के आधार पर त्रुटियों को पकड़ने के लिए बैकग्राउंड में एक पायथन स्क्रिप्ट चलाएं।

दैनिक स्वचालित रिपोर्ट प्राप्त करने के लिए, निम्नलिखित संरचना का पालन करें:

request_id के आधार पर लॉग फ़ाइल और उपयोगकर्ता फ़ीडबैक डेटा को जॉइन (Join) करें।
all-MiniLM-L6-v2 एम्बेडिंग मॉडल के साथ वर्तमान रिस्पॉन्स और गोल्डन डेटासेट के बीच कोसाइन सिमिलैरिटी (cosine similarity) की गणना करें।
यदि समानता 0.6 से कम हो जाती है, तो तुरंत संबंधित व्यक्ति को अलर्ट भेजें।

परीक्षण स्वचालन के साथ परिनियोजन गेट स्थापित करना

मॉडल की निरंतरता बनाए रखने के लिए, CI/CD में CLI-आधारित मूल्यांकन टूल promptfoo को शामिल करना चाहिए। GLM 5.2 का उपयोग करते समय, reasoning_effort को 'high' पर सेट करने से प्रदर्शन बना रहता है और टोकन की बर्बादी 2.5 गुना कम हो जाती है।

GitHub Actions में निम्नलिखित परिनियोजन गेट स्थापित करें:

JSON आउटपुट अखंडता को सत्यापित करने के लिए promptfoo के साथ एक YAML परीक्षण फ़ाइल बनाएं।
यह सुनिश्चित करें कि सभी प्रॉम्प्ट परिवर्तन रिग्रेशन परीक्षण पास करें।
यदि पास दर 90% से कम है, तो परिनियोजन को रोकने के लिए गेट के रूप में एक पायथन स्क्रिप्ट डालें।

इस स्वचालित सत्यापन के माध्यम से, आप व्यावसायिक नियमों का उल्लंघन करने वाले आउटपुट को पहले ही फ़िल्टर कर सकते हैं और परिचालन वातावरण में त्रुटियों को न्यूनतम कर सकते हैं।

GLM 5.2 को कम लागत में सर्व करने के लिए इंफ्रास्ट्रक्चर कैसे बनाएं

vLLM का उपयोग करके कुशल परिनियोजन (Deployment) वातावरण

Docker के साथ vLLM को तैनात करते समय, निम्नलिखित कॉन्फ़िगरेशन लागू करें:

docker-compose.yml में ipc: host को सक्षम करें ताकि कंटेनर सीधे साझा मेमोरी (shared memory) का उपयोग कर सकें।
/mnt/models/cache वॉल्यूम को मैप करें ताकि हर बार वेट्स (weights) डाउनलोड करने में लगने वाला समय बच सके।
हेल्थ चेक start_period को 300 सेकंड पर सेट करें ताकि वार्मअप के दौरान कंटेनर बंद न हो।

टोकन लागत कम करने के लिए डायनेमिक वर्कफ़्लो

ट्रांसफार्मर टोकनाइज़र के साथ इनपुट टेक्स्ट की कुल मात्रा को पहले मापें।
यदि कुल मान सीमा से अधिक है, तो फ़ंक्शन बाउंड्री के आधार पर टेक्स्ट को विभाजित करें।
OOM (Out of Memory) से बचने के लिए विभाजित चंक्स को अलग-अलग अनुरोधों के रूप में भेजें।

यह तरीका API कॉल लागत को औसतन 40% से अधिक कुशल बनाता है।

अनुमान परिणामों की स्वचालित निगरानी पाइपलाइन

दैनिक स्वचालित रिपोर्ट प्राप्त करने के लिए, निम्नलिखित संरचना का पालन करें:

request_id के आधार पर लॉग फ़ाइल और उपयोगकर्ता फ़ीडबैक डेटा को जॉइन (Join) करें।
all-MiniLM-L6-v2 एम्बेडिंग मॉडल के साथ वर्तमान रिस्पॉन्स और गोल्डन डेटासेट के बीच कोसाइन सिमिलैरिटी (cosine similarity) की गणना करें।
यदि समानता 0.6 से कम हो जाती है, तो तुरंत संबंधित व्यक्ति को अलर्ट भेजें।

परीक्षण स्वचालन के साथ परिनियोजन गेट स्थापित करना

GitHub Actions में निम्नलिखित परिनियोजन गेट स्थापित करें:

JSON आउटपुट अखंडता को सत्यापित करने के लिए promptfoo के साथ एक YAML परीक्षण फ़ाइल बनाएं।
यह सुनिश्चित करें कि सभी प्रॉम्प्ट परिवर्तन रिग्रेशन परीक्षण पास करें।
यदि पास दर 90% से कम है, तो परिनियोजन को रोकने के लिए गेट के रूप में एक पायथन स्क्रिप्ट डालें।

GLM 5.2 को कम लागत में सर्व करने के लिए इंफ्रास्ट्रक्चर कैसे बनाएं

Related Video

GLM 5.2 मेरा नया पसंदीदा मॉडल है...

GLM 5.2 को कम लागत में सर्व करने के लिए इंफ्रास्ट्रक्चर कैसे बनाएं

vLLM का उपयोग करके कुशल परिनियोजन (Deployment) वातावरण

टोकन लागत कम करने के लिए डायनेमिक वर्कफ़्लो

अनुमान परिणामों की स्वचालित निगरानी पाइपलाइन

परीक्षण स्वचालन के साथ परिनियोजन गेट स्थापित करना

Comments (0)

GLM 5.2 को कम लागत में सर्व करने के लिए इंफ्रास्ट्रक्चर कैसे बनाएं

vLLM का उपयोग करके कुशल परिनियोजन (Deployment) वातावरण

टोकन लागत कम करने के लिए डायनेमिक वर्कफ़्लो

अनुमान परिणामों की स्वचालित निगरानी पाइपलाइन

परीक्षण स्वचालन के साथ परिनियोजन गेट स्थापित करना