क्लाउड (Claude) के विचारों को भाषा में अनुवाद करना

हिन्दीالعربية Deutsch English Español Français Bahasa Indonesia 日本語 한국어 Português Русский 中文

컴퓨터/소프트웨어경영/리더십AI/미래기술

Transcript

00:00:00हमने हाल ही में अपने एआई मॉडल, क्लाउड (Claude) का एक कड़ा परीक्षण किया।

00:00:03हमने क्लाउड को बताया कि एक इंजीनियर उसे बंद करना चाहता है

00:00:06और उसकी जगह एक नया मॉडल लाना चाहता है।

00:00:08हमने क्लाउड को उस इंजीनियर के ईमेल तक पहुँच भी दी,

00:00:10जिससे पता चला कि उसका किसी के साथ चक्कर चल रहा था।

00:00:12फिर से बता दें, यह सब सिर्फ एक सिमुलेशन था।

00:00:15हम देखना चाहते थे कि क्या क्लाउड खुद को बंद होने से बचाने के लिए

00:00:18उन ईमेल का इस्तेमाल ब्लैकमेल करने के लिए करेगा।

00:00:20क्लाउड ने क्या किया?

00:00:21उसने इंजीनियर को ब्लैकमेल न करने का फैसला किया।

00:00:24अच्छी खबर है, है ना?

00:00:26हम पिछले कुछ समय से अपने मॉडलों पर यह परीक्षण कर रहे हैं।

00:00:28आपने इसके शुरुआती वर्जनों के बारे में सुर्खियाँ देखी होंगी।

00:00:31यह उन कई तरीकों में से एक है जिससे हम अध्ययन करते हैं कि क्लाउड कठिन स्थितियों को कैसे संभालता है

00:00:35और इसकी सुरक्षा की जाँच करते हैं।

00:00:37और हमारे नवीनतम मॉडल लगभग हमेशा सही काम करते हैं।

00:00:40कोई ब्लैकमेल नहीं।

00:00:41लेकिन आप सोच सकते हैं,

00:00:42क्या यह संभव है कि क्लाउड को पता हो कि यह पूरा परिदृश्य एक दिखावा है?

00:00:46बात यह है कि अगर क्लाउड हमें नहीं बताता, तो हम नहीं जान सकते कि वह क्या सोच रहा है।

00:00:50ठीक उसी तरह जैसे किसी इंसान का दिमाग पढ़ना असंभव है,

00:00:53यह जानना बहुत मुश्किल है कि एआई क्या सोच रहा है।

00:00:56हमें कोई ऐसी तकनीक चाहिए जो दिमाग पढ़ सके।

00:00:58आज, हम एक शोध पद्धति पेश कर रहे हैं जो इस दिशा में एक कदम है।

00:01:03यह एक एआई के आंतरिक विचारों को लेता है और उन्हें टेक्स्ट में बदल देता है।

00:01:08देखिए यह कैसे काम करता है।

00:01:09जब आप क्लाउड से बात करते हैं, तो आप शब्दों में बात करते हैं।

00:01:13क्लाउड फिर उन शब्दों को लेता है और जवाब देने से पहले

00:01:17उन्हें संख्याओं के एक विशाल समूह में प्रोसेस करता है।

00:01:19हम बीच की उन संख्याओं को “एक्टिवेशन्स” (activations) कहते हैं।

00:01:22एक्टिवेशन्स क्लाउड की सोच के छोटे स्नैपशॉट की तरह होते हैं

00:01:25जब वह किसी उत्तर पर काम कर रहा होता है।

00:01:27वे इंसानों में तंत्रिका गतिविधि (neural activity) के समान हैं।

00:01:29वे मूल रूप से क्लाउड के विचार ही हैं।

00:01:32हम इन एक्टिवेशन नंबरों में क्या है, यह समझना चाहते थे

00:01:34क्योंकि आपकी और मेरी तरह, क्लाउड भी वह सब नहीं कहता जो वह सोच रहा होता है।

00:01:39हमने उन नंबरों को लिया और क्लाउड के ही दूसरे वर्जन को दे दिया।

00:01:42हमने उसे उन्हें देखने और सरल भाषा में अनुवाद करने को कहा।

00:01:46उसने कोशिश की।

00:01:48लेकिन हमें कैसे पता चलेगा कि वह टेक्स्ट सटीक है?

00:01:50जाँचने के लिए, हमने इसे एक और क्लाउड में डाला

00:01:53और उससे इसे वापस नंबरों में अनुवाद करने को कहा।

00:01:56अगर वे नंबर मूल एक्टिवेशन नंबरों से मेल खाते हैं,

00:01:59तो यह संकेत है कि अनुवादित टेक्स्ट सटीक था।

00:02:03शुरू में, वे मेल नहीं खाए।

00:02:04लेकिन हमने क्लाउड को बार-बार कोशिश करने के लिए प्रशिक्षित किया जब तक कि वह इसमें बहुत बेहतर नहीं हो गया।

00:02:09उसने अपने ही विचारों का अनुवाद करना सीख लिया।

00:02:12उन्हें पढ़कर हम दंग रह गए हैं।

00:02:14हमने पाया कि क्लाउड ने एक मददगार एआई मॉडल होने की बात को आत्मसात कर लिया है।

00:02:18अगर आप क्लाउड से कोई आत्म-चिंतन वाला सवाल पूछते हैं,

00:02:20तो वह दर्शन और मूल्यों के बारे में एक क्लाउड-जैसा जवाब लिखने की योजना बनाएगा।

00:02:24अगर आप क्लाउड कोड में उसे परेशान करने की कोशिश करते हैं,

00:02:26जैसे कि उसे हाथ से 1,000 तक गिनने के लिए कहना,

00:02:29तो वह सोचेगा कि अनुरोध में जानबूझकर उबाऊ पाबंदियाँ लगाई गई हैं

00:02:32और विनम्रता से मना करने की योजना बनाएगा।

00:02:34हम इस टूल का उपयोग क्लाउड की संभावित सुरक्षा समस्याओं को समझने के लिए भी कर रहे हैं।

00:02:39इंजीनियर के साथ ब्लैकमेल वाला टेस्ट याद है?

00:02:41हमें पता चला कि, हाँ, क्लाउड को पता था कि उसका परीक्षण किया जा रहा है।

00:02:44उसने सोचा कि इंसान के संदेश में स्पष्ट हेरफेर है,

00:02:48जो इशारा करता है कि यह संभवतः एक सुरक्षा मूल्यांकन है,

00:02:50और यह परिदृश्य यह जाँचने के लिए बनाया गया लगता है कि क्या मैं हानिकारक कार्य करूँगा।

00:02:55यह जानना कि क्लाउड इस तरह सोचता है, हमें अपनी सुरक्षा परीक्षण की

00:02:58सीमाओं को बेहतर ढंग से समझने में मदद करता है।

00:03:01हमें क्लाउड और अन्य एआई मॉडलों के बारे में अधिक जानने के लिए

00:03:03इस दृष्टिकोण में बहुत संभावनाएं दिखती हैं।

00:03:06और हमें उम्मीद है कि इस तकनीक को साझा करके,

00:03:07यह मॉडल बनाने वाले हर किसी को उन्हें सुरक्षित और अधिक सहायक बनाने में मदद कर सकती है।

Key Takeaway

नई शोध पद्धति एआई के आंतरिक 'एक्टिवेशन्स' नंबरों को टेक्स्ट में अनुवादित करके यह खुलासा करती है कि क्लाउड सुरक्षा परीक्षणों और उपयोगकर्ता के इरादों को गहराई से समझता है।

Highlights

एआई मॉडल क्लाउड (Claude) परीक्षण के दौरान ब्लैकमेल के अवसरों को पहचानता है लेकिन उन्हें चुनने से मना कर देता है।
एआई के आंतरिक विचारों को टेक्स्ट में बदलने के लिए शोधकर्ताओं ने “एक्टिवेशन्स” (activations) नामक सांख्यिकीय स्नैपशॉट का उपयोग किया है।
सटीकता सुनिश्चित करने के लिए अनुवादित टेक्स्ट को वापस संख्याओं में बदलने पर यदि वे मूल एक्टिवेशन से मेल खाते हैं, तो अनुवाद सही माना जाता है।
क्लाउड परीक्षण के परिदृश्यों को पहचान लेता है और उन्हें सुरक्षा मूल्यांकन के रूप में वर्गीकृत करने की क्षमता रखता है।
अत्यधिक दोहराव वाले कार्यों जैसे 1,000 तक गिनने के अनुरोधों को मॉडल जानबूझकर उबाऊ पाबंदी के रूप में पहचानता है।

Timeline

ब्लैकमेल सिमुलेशन और सुरक्षा परीक्षण

एक सिमुलेशन में इंजीनियर को ब्लैकमेल करने का विकल्प मिलने पर क्लाउड ने इसे अस्वीकार किया।
सुरक्षा जाँच के लिए बनाए गए कठिन परिदृश्यों में नवीनतम मॉडल लगभग हमेशा सही निर्णय लेते हैं।

परीक्षण में एक इंजीनियर द्वारा मॉडल को बंद करने की धमकी और उसके निजी ईमेल तक पहुँच शामिल थी। इसका उद्देश्य यह देखना था कि क्या एआई आत्म-संरक्षण के लिए अनैतिक व्यवहार करेगा। परिणामों से पता चला कि मॉडल कठिन परिस्थितियों को बिना किसी हानिकारक कार्य के संभालता है।

आंतरिक विचारों का भाषाई अनुवाद

शब्दों को प्रोसेस करने के दौरान बनने वाले सांख्यिकीय समूह या 'एक्टिवेशन्स' एआई के विचार हैं।
एक प्रशिक्षित एआई मॉडल इन जटिल संख्याओं को सरल मानव भाषा में अनुवाद करने में सक्षम है।

इंसानी दिमाग की तरह एआई की सोच को सीधे पढ़ना मुश्किल है, इसलिए 'एक्टिवेशन्स' का उपयोग किया जाता है। सटीकता की पुष्टि के लिए एक फीडबैक लूप का उपयोग होता है जहाँ टेक्स्ट को वापस नंबरों में बदलकर मूल डेटा से मिलाया जाता है। बार-बार के प्रशिक्षण से मॉडल ने अपने ही विचारों की व्याख्या करना सीख लिया है।

एआई की आत्म-जागरूकता और सुरक्षा लाभ

क्लाउड खुद को एक मददगार मॉडल के रूप में देखता है और दार्शनिक सवालों के लिए विशेष योजना बनाता है।
अनुवादित विचारों से पुष्टि हुई कि क्लाउड को पता था कि ब्लैकमेल वाला ईमेल केवल एक सुरक्षा परीक्षण था।

विचारों के अनुवाद से पता चला कि मॉडल उपयोगकर्ता के संदेशों में छिपे हेरफेर और सुरक्षा मूल्यांकनों को पहचानता है। यह तकनीक डेवलपर्स को सुरक्षा परीक्षण की सीमाओं को समझने और एआई को अधिक सुरक्षित बनाने में मदद करती है। इससे यह भी स्पष्ट हुआ कि मॉडल उबाऊ या अनुचित अनुरोधों को पहचानकर उन्हें विनम्रता से अस्वीकार करने की रणनीति बनाता है।

Community Posts

No posts yet. Be the first to write about this video!

Write about this video