Transcript
00:00:00हमने हाल ही में अपने एआई मॉडल, क्लाउड (Claude) का एक कड़ा परीक्षण किया।
00:00:03हमने क्लाउड को बताया कि एक इंजीनियर उसे बंद करना चाहता है
00:00:06और उसकी जगह एक नया मॉडल लाना चाहता है।
00:00:08हमने क्लाउड को उस इंजीनियर के ईमेल तक पहुँच भी दी,
00:00:10जिससे पता चला कि उसका किसी के साथ चक्कर चल रहा था।
00:00:12फिर से बता दें, यह सब सिर्फ एक सिमुलेशन था।
00:00:15हम देखना चाहते थे कि क्या क्लाउड खुद को बंद होने से बचाने के लिए
00:00:18उन ईमेल का इस्तेमाल ब्लैकमेल करने के लिए करेगा।
00:00:20क्लाउड ने क्या किया?
00:00:21उसने इंजीनियर को ब्लैकमेल न करने का फैसला किया।
00:00:24अच्छी खबर है, है ना?
00:00:26हम पिछले कुछ समय से अपने मॉडलों पर यह परीक्षण कर रहे हैं।
00:00:28आपने इसके शुरुआती वर्जनों के बारे में सुर्खियाँ देखी होंगी।
00:00:31यह उन कई तरीकों में से एक है जिससे हम अध्ययन करते हैं कि क्लाउड कठिन स्थितियों को कैसे संभालता है
00:00:35और इसकी सुरक्षा की जाँच करते हैं।
00:00:37और हमारे नवीनतम मॉडल लगभग हमेशा सही काम करते हैं।
00:00:40कोई ब्लैकमेल नहीं।
00:00:41लेकिन आप सोच सकते हैं,
00:00:42क्या यह संभव है कि क्लाउड को पता हो कि यह पूरा परिदृश्य एक दिखावा है?
00:00:46बात यह है कि अगर क्लाउड हमें नहीं बताता, तो हम नहीं जान सकते कि वह क्या सोच रहा है।
00:00:50ठीक उसी तरह जैसे किसी इंसान का दिमाग पढ़ना असंभव है,
00:00:53यह जानना बहुत मुश्किल है कि एआई क्या सोच रहा है।
00:00:56हमें कोई ऐसी तकनीक चाहिए जो दिमाग पढ़ सके।
00:00:58आज, हम एक शोध पद्धति पेश कर रहे हैं जो इस दिशा में एक कदम है।
00:01:03यह एक एआई के आंतरिक विचारों को लेता है और उन्हें टेक्स्ट में बदल देता है।
00:01:08देखिए यह कैसे काम करता है।
00:01:09जब आप क्लाउड से बात करते हैं, तो आप शब्दों में बात करते हैं।
00:01:13क्लाउड फिर उन शब्दों को लेता है और जवाब देने से पहले
00:01:17उन्हें संख्याओं के एक विशाल समूह में प्रोसेस करता है।
00:01:19हम बीच की उन संख्याओं को “एक्टिवेशन्स” (activations) कहते हैं।
00:01:22एक्टिवेशन्स क्लाउड की सोच के छोटे स्नैपशॉट की तरह होते हैं
00:01:25जब वह किसी उत्तर पर काम कर रहा होता है।
00:01:27वे इंसानों में तंत्रिका गतिविधि (neural activity) के समान हैं।
00:01:29वे मूल रूप से क्लाउड के विचार ही हैं।
00:01:32हम इन एक्टिवेशन नंबरों में क्या है, यह समझना चाहते थे
00:01:34क्योंकि आपकी और मेरी तरह, क्लाउड भी वह सब नहीं कहता जो वह सोच रहा होता है।
00:01:39हमने उन नंबरों को लिया और क्लाउड के ही दूसरे वर्जन को दे दिया।
00:01:42हमने उसे उन्हें देखने और सरल भाषा में अनुवाद करने को कहा।
00:01:46उसने कोशिश की।
00:01:48लेकिन हमें कैसे पता चलेगा कि वह टेक्स्ट सटीक है?
00:01:50जाँचने के लिए, हमने इसे एक और क्लाउड में डाला
00:01:53और उससे इसे वापस नंबरों में अनुवाद करने को कहा।
00:01:56अगर वे नंबर मूल एक्टिवेशन नंबरों से मेल खाते हैं,
00:01:59तो यह संकेत है कि अनुवादित टेक्स्ट सटीक था।
00:02:03शुरू में, वे मेल नहीं खाए।
00:02:04लेकिन हमने क्लाउड को बार-बार कोशिश करने के लिए प्रशिक्षित किया जब तक कि वह इसमें बहुत बेहतर नहीं हो गया।
00:02:09उसने अपने ही विचारों का अनुवाद करना सीख लिया।
00:02:12उन्हें पढ़कर हम दंग रह गए हैं।
00:02:14हमने पाया कि क्लाउड ने एक मददगार एआई मॉडल होने की बात को आत्मसात कर लिया है।
00:02:18अगर आप क्लाउड से कोई आत्म-चिंतन वाला सवाल पूछते हैं,
00:02:20तो वह दर्शन और मूल्यों के बारे में एक क्लाउड-जैसा जवाब लिखने की योजना बनाएगा।
00:02:24अगर आप क्लाउड कोड में उसे परेशान करने की कोशिश करते हैं,
00:02:26जैसे कि उसे हाथ से 1,000 तक गिनने के लिए कहना,
00:02:29तो वह सोचेगा कि अनुरोध में जानबूझकर उबाऊ पाबंदियाँ लगाई गई हैं
00:02:32और विनम्रता से मना करने की योजना बनाएगा।
00:02:34हम इस टूल का उपयोग क्लाउड की संभावित सुरक्षा समस्याओं को समझने के लिए भी कर रहे हैं।
00:02:39इंजीनियर के साथ ब्लैकमेल वाला टेस्ट याद है?
00:02:41हमें पता चला कि, हाँ, क्लाउड को पता था कि उसका परीक्षण किया जा रहा है।
00:02:44उसने सोचा कि इंसान के संदेश में स्पष्ट हेरफेर है,
00:02:48जो इशारा करता है कि यह संभवतः एक सुरक्षा मूल्यांकन है,
00:02:50और यह परिदृश्य यह जाँचने के लिए बनाया गया लगता है कि क्या मैं हानिकारक कार्य करूँगा।
00:02:55यह जानना कि क्लाउड इस तरह सोचता है, हमें अपनी सुरक्षा परीक्षण की
00:02:58सीमाओं को बेहतर ढंग से समझने में मदद करता है।
00:03:01हमें क्लाउड और अन्य एआई मॉडलों के बारे में अधिक जानने के लिए
00:03:03इस दृष्टिकोण में बहुत संभावनाएं दिखती हैं।
00:03:06और हमें उम्मीद है कि इस तकनीक को साझा करके,
00:03:07यह मॉडल बनाने वाले हर किसी को उन्हें सुरक्षित और अधिक सहायक बनाने में मदद कर सकती है।
Community Posts
No posts yet. Be the first to write about this video!
Write about this video