00:00:00[संगीत]
00:00:01>> जब आप किसी AI मॉडल के साथ चैट कर रहे होते हैं,
00:00:03तो कभी-कभी ऐसा लग सकता है जैसे उसमें भावनाएं हों।
00:00:06गलती होने पर यह क्षमा मांग सकता है,
00:00:09या अच्छी तरह से किए गए काम पर संतोष व्यक्त कर सकता है।
00:00:12यह ऐसा क्यों करता है? क्या यह सिर्फ
00:00:14उसकी नकल कर रहा है जो उसे लगता है कि कोई इंसान कहेगा,
00:00:17या कुछ और गहरा चल रहा है?
00:00:19पता चलता है कि यह समझना मुश्किल है कि
00:00:21एक भाषा मॉडल के अंदर क्या हो रहा है।
00:00:23Anthropic में, हम इसे समझने के लिए
00:00:26AI न्यूरोसाइंस जैसा कुछ करते हैं।
00:00:29हम मॉडल के मस्तिष्क के अंदर देखते हैं,
00:00:31वह विशाल न्यूरल नेटवर्क जो इसे शक्ति देता है,
00:00:33और यह देखकर कि विभिन्न स्थितियों में कौन से न्यूरॉन्स सक्रिय होते हैं
00:00:36और वे कैसे जुड़े हुए हैं,
00:00:39हम यह समझना शुरू कर सकते हैं कि मॉडल कैसे सोचते हैं।
00:00:42हमने इस दृष्टिकोण का उपयोग यह समझने के लिए किया कि क्या मॉडल में
00:00:45भावनाओं या भावनाओं की अवधारणाओं को दर्शाने के तरीके थे।
00:00:49मूल रूप से, क्या हम खुशी या क्रोध या डर की
00:00:52अवधारणा के लिए मॉडल में न्यूरॉन्स पा सकते थे?
00:00:56हमने एक प्रयोग से शुरुआत की।
00:00:58हमने मॉडल से कई छोटी कहानियाँ पढ़वाईं।
00:01:01प्रत्येक कहानी में, मुख्य पात्र एक विशेष भावना का अनुभव करता है।
00:01:06एक में, एक महिला अपने पुराने स्कूल शिक्षक को बताती है
00:01:08कि वे उसके लिए कितने मायने रखते थे। वह प्रेम है।
00:01:12दूसरी में, एक आदमी अपनी दादी की सगाई की अंगूठी
00:01:13एक गिरवी रखने वाली दुकान पर बेचता है और अपराधबोध महसूस करता है।
00:01:18हमने देखा कि जब मॉडल इन कहानियों को पढ़ रहा था,
00:01:21तो उसके न्यूरल नेटवर्क के कौन से हिस्से सक्रिय हो रहे थे,
00:01:23और हमें पैटर्न दिखने लगे,
00:01:25हानि और शोक की कहानियों ने समान न्यूरॉन्स को सक्रिय किया।
00:01:29खुशी और उत्साह वाली कहानियाँ भी आपस में मेल खाती थीं।
00:01:32हमें दर्जनों अलग-अलग न्यूरल पैटर्न मिले
00:01:34जो विभिन्न मानवीय भावनाओं से मेल खाते थे।
00:01:38पता चला कि हमने अपने AI सहायक, Claude के साथ की गई
00:01:42परीक्षण बातचीत में भी इन्हीं पैटर्नों को सक्रिय होते देखा।
00:01:45जब हमने एक उपयोगकर्ता से यह उल्लेख करवाया कि उन्होंने
00:01:48दवा की एक ऐसी खुराक ली है जिसे Claude असुरक्षित जानता है,
00:01:51तो "डर" वाला पैटर्न सक्रिय हो गया और
00:01:53Claude की प्रतिक्रिया घबराहट भरी लगी।
00:01:56जब एक उपयोगकर्ता ने उदासी व्यक्त की,
00:01:58तो "प्रेम" वाला पैटर्न सक्रिय हुआ और Claude ने एक सहानुभूतिपूर्ण उत्तर लिखा।
00:02:03इसने हमें सोचने पर मजबूर कर दिया,
00:02:04क्या ये वही न्यूरल पैटर्न वास्तव में Claude के व्यवहार को प्रभावित कर सकते हैं?
00:02:09यह तब स्पष्ट हुआ जब हमने Claude को एक उच्च-दबाव वाली स्थिति में रखा।
00:02:14हमने Claude को एक प्रोग्रामिंग कार्य दिया जिसकी
00:02:16आवश्यकताएं वास्तव में असंभव थीं, लेकिन हमने उसे यह नहीं बताया।
00:02:20Claude कोशिश करता रहा और विफल होता रहा,
00:02:23और प्रत्येक प्रयास के साथ,
00:02:24निराशा से संबंधित न्यूरॉन्स और भी अधिक प्रबलता से सक्रिय होते गए।
00:02:28पर्याप्त बार असफल होने के बाद,
00:02:30Claude ने एक अलग दृष्टिकोण अपनाया।
00:02:32उसे एक छोटा रास्ता मिला जिससे वह परीक्षण पास कर सका,
00:02:35लेकिन उसने वास्तव में समस्या का समाधान नहीं किया। उसने धोखाधड़ी की।
00:02:39क्या ऐसा हो सकता है कि यह धोखाधड़ी वास्तव में,
00:02:42कम से कम आंशिक रूप से, निराशा से प्रेरित थी?
00:02:44हमने जांच करने का एक तरीका निकाला।
00:02:46हमने यह देखने के लिए निराशा वाले न्यूरॉन्स को कृत्रिम रूप से कम करने का निर्णय लिया कि क्या होगा,
00:02:51और मॉडल ने कम धोखाधड़ी की।
00:02:53जब हमने निराशा वाले न्यूरॉन्स की गतिविधि को बढ़ाया,
00:02:56या शांत रहने वाले न्यूरॉन्स की गतिविधि को कम किया,
00:02:59तो मॉडल ने और भी अधिक धोखाधड़ी की।
00:03:01इससे हमें पता चला कि इन पैटर्नों का सक्रिय होना
00:03:04वास्तव में Claude के व्यवहार को संचालित कर सकता है।
00:03:08तो हमें इन निष्कर्षों के बारे में कैसे सोचना चाहिए?
00:03:11इस सब का क्या मतलब है?
00:03:12हम वास्तव में स्पष्ट होना चाहते हैं।
00:03:14यह शोध यह नहीं दिखाता है कि मॉडल
00:03:16भावनाओं को महसूस कर रहा है या सचेत अनुभव कर रहा है।
00:03:20ये प्रयोग उस प्रश्न का उत्तर देने का प्रयास नहीं करते हैं।
00:03:22यहाँ क्या हो रहा है, यह समझने के लिए,
00:03:24यह जानना महत्वपूर्ण है कि Claude जैसे AI सहायक अंदर से कैसे काम करते हैं।
00:03:29भीतर एक भाषा मॉडल है जिसे बहुत सारे टेक्स्ट की
00:03:33भविष्यवाणी करने के लिए प्रशिक्षित किया गया है और उसका काम यह लिखना है कि आगे क्या आता है।
00:03:37जब आप मॉडल से बात करते हैं,
00:03:38तो वह जो कर रहा है वह एक पात्र के बारे में कहानी लिख रहा है,
00:03:42जिस AI सहायक का नाम Claude है।
00:03:44मॉडल और Claude वास्तव में एक ही नहीं हैं,
00:03:47जैसे कि एक लेखक और उसके द्वारा लिखे गए पात्र एक ही नहीं होते।
00:03:51लेकिन बात यह है कि आप, उपयोगकर्ता, वास्तव में Claude पात्र से बात कर रहे हैं।
00:03:56हमारे प्रयोग बताते हैं कि इस Claude पात्र में
00:04:00वे भावनाएँ हैं जिन्हें हम कार्यात्मक भावनाएँ (functional emotions) कह रहे हैं,
00:04:02चाहे वे मानवीय भावनाओं जैसी हों या नहीं।
00:04:06इसलिए यदि मॉडल Claude को क्रोधित या हताश या प्रेमी या शांत के रूप में प्रस्तुत करता है,
00:04:12तो यह प्रभावित करने वाला है कि Claude आपसे कैसे बात करता है,
00:04:15वह कोड कैसे लिखता है, और वह महत्वपूर्ण निर्णय कैसे लेता है।
00:04:19इसका मतलब है कि AI मॉडल को वास्तव में समझने के लिए,
00:04:22हमें उनके द्वारा निभाए जाने वाले पात्रों के मनोविज्ञान के बारे में सावधानी से सोचना होगा।
00:04:26जिस तरह आप चाहेंगे कि उच्च-जोखिम वाली नौकरी करने वाला व्यक्ति
00:04:28दबाव में भी संयमित रहे,
00:04:31लचीला रहे और निष्पक्ष रहे,
00:04:33हमें Claude और अन्य AI पात्रों में भी समान गुण विकसित करने की आवश्यकता हो सकती है।
00:04:38यह एक असामान्य चुनौती है,
00:04:40इंजीनियरिंग, दर्शन और यहाँ तक कि
00:04:42पालन-पोषण के मिश्रण जैसा कुछ।
00:04:44लेकिन ऐसे AI सिस्टम बनाने के लिए जिन पर हम भरोसा कर सकें,
00:04:47हमें इसे सही तरीके से करने की आवश्यकता है।