Log in to leave a comment
No posts yet
अक्टूबर 2025 में, क्लाउड जगत का केंद्र माना जाने वाला AWS US-EAST-1 क्षेत्र थम गया। EC2 ने इंस्टेंस बनाना बंद कर दिया और लैम्डा (Lambda) ने प्रतिक्रिया देने से मना कर दिया। इस पूरी डोमिनो चेन के अंत में DynamoDB था। AWS ने अपनी आधिकारिक रिपोर्ट में इसे एक संभावित रेस कंडीशन (Potential Race Condition) का नाम दिया। लेकिन क्या यह केवल खराब समय का मामला था? एक सीनियर इंजीनियर के नजरिए से देखें तो, यह घटना वितरित प्रणालियों (distributed systems) में तार्किक खामियों और रिकवरी तंत्र की कमी के कारण हुई एक तबाही थी।
DynamoDB उच्च उपलब्धता के लिए DNS ट्री संरचना और वेट-आधारित (weight-based) रिकॉर्ड का उपयोग करता है। ट्रैफिक को तीन मुख्य घटकों द्वारा प्रबंधित किया जाता है।
| घटक | भूमिका | संचालन का तरीका |
|---|---|---|
| DNS Planner | ट्रैफिक वितरण अनुपात की गणना करना | क्षेत्रीय स्तर पर अनुकूलन योजना बनाना |
| DNS Enactor | Route 53 रिकॉर्ड को अपडेट करना | 3 AZ में स्वतंत्र रूप से निष्पादित |
| DWFM | संपूर्ण वर्कफ़्लो का समन्वय करना | अपडेट प्रसार का ऑर्केस्ट्रेशन |
सिस्टम को इस तरह डिज़ाइन किया गया था कि यदि किसी विशेष खंड में समस्या आती है, तो वजन (weight) को 0 करके ट्रैफिक को ब्लॉक कर दिया जाए। सिद्धांत रूप में यह सटीक था, लेकिन वास्तविक संचालन में अप्रत्याशित चर सामने आए।
घटना के दिन लोड बढ़ने के कारण Enactor 1 की प्रोसेसिंग में देरी हुई। इस बीच, Enactor 2 ने नवीनतम संस्करण, प्लान 102 को लागू कर दिया। यहीं से एक घातक श्रृंखला प्रतिक्रिया शुरू हुई।
सबसे पहले, विलंबित Enactor 1 देर से सक्रिय हुआ और उसने पुराने डेटा, प्लान 100 को नवीनतम जानकारी के ऊपर ओवरराइट कर दिया। इसके बाद क्लीनअप चरण में, Enactor 2 ने उन पुराने रिकॉर्ड्स को हटाना शुरू कर दिया जो वर्तमान मानक (प्लान 102) में शामिल नहीं थे। Enactor 1 ने जिस डेटा को अभी बहाल किया था, वह Enactor 2 की दृष्टि में केवल हटाने योग्य लक्ष्य था। अंततः, DynamoDB के मुख्य एंडपॉइंट के DNS रिकॉर्ड गायब हो गए।
ज्यादातर लोग यहीं विश्लेषण रोक देते हैं। वे यह निष्कर्ष निकालते हैं कि गलत टाइमिंग के कारण डेटा डिलीट हो गया। लेकिन मुख्य बात यह है कि सिस्टम खाली रिकॉर्ड देखने के बाद भी खुद को ठीक क्यों नहीं कर पाया?
जैसे ही एंडपॉइंट गायब हुआ, रिकवरी के लिए जिम्मेदार सिस्टम एक-एक करके रनटाइम अपवाद (runtime exceptions) देने लगे। Enactor कोड में यह अनुमान नहीं लगाया गया था कि रिकॉर्ड अस्तित्व में नहीं हो सकता है। मेमोरी प्रबंधन त्रुटि 'Use-after-free' की तरह, सिस्टम उस वस्तु को संदर्भित (reference) कर रहा था जो पहले ही गायब हो चुकी थी, जिससे सिस्टम पूरी तरह ध्वस्त हो गया।
स्वचालित रोलबैक लॉजिक ने स्थिति को और खराब कर दिया। ऐसा इसलिए हुआ क्योंकि डेटाबेस, जो रिकवरी का आधार था, खुद दूषित स्थिति में था। सिस्टम एक अनंत लूप में फंस गया और स्वचालन (automation) सिस्टम को ठीक करने के बजाय उसे नष्ट करने वाला हथियार बन गया।
AWS ने घोषणा की है कि वे रेट-लिमिटिंग सुविधा पेश करेंगे। यह केवल लक्षणों को कम करता है, मूल कारण का इलाज नहीं है। जब तक किसी सिस्टम में असामान्य स्थिति को पहचानने और खुद को ठीक करने की क्षमता नहीं होती, तब तक ऐसी त्रासदियां दोहराई जाती रहेंगी।
| श्रेणी | आधिकारिक स्पष्टीकरण | सीनियर की अंतर्दृष्टि |
|---|---|---|
| विफलता का कारण | समवर्ती अपडेट संघर्ष | लिखते समय सत्यापन (CAS) का अभाव |
| विफलता की घटना | स्वचालन का बंद होना | 'सेफ फेल' (Safe Default) डिज़ाइन की कमी |
| प्रतिक्रिया उपाय | अपडेट गति सीमा | रिकवरी लॉजिक की इडेम्पोटेंसी (Idempotency) सुनिश्चित करना |
2025 की यह घटना कोड की एक पंक्ति के महत्व को सिद्ध करती है। अरबों डॉलर के बुनियादी ढांचे को किसी बड़े हैक ने नहीं गिराया था। इसका कारण एक मामूली अपवाद हैंडलिंग (exception handling) की कमी थी, जिसमें यह परिभाषित नहीं किया गया था कि खाली DNS रिकॉर्ड का सामना करने पर क्या करना है।
इंजीनियरिंग का सार जटिल सुविधाएँ बनाना नहीं है। यह अप्रत्याशित विफलता की स्थिति में सिस्टम को गरिमा के साथ विफल होने और निश्चित रूप से रिकवर होने के लिए डिज़ाइन करने की क्षमता है।
स्थिरता के लिए आवश्यक चेकलिस्ट
एक सच्चा पेशेवर वह है जो केवल यह नहीं पूछता कि सिस्टम कैसे खराब हुआ, बल्कि इस पर जोर देता है कि वह रिकवर क्यों नहीं हुआ। क्या आपका सिस्टम अब सुरक्षित रूप से विफल (safe fail) होने के लिए तैयार है?