00:00:00(तेज़ संगीत) - नमस्ते,
00:00:03मेरा नाम किरा है और मैं Enthropic में सेफगार्ड्स टीम में काम करती हूँ।
00:00:16मेरे पास मानसिक स्वास्थ्य में पीएचडी है,
00:00:18विशेष रूप से मनोरोग महामारी विज्ञान में।
00:00:20Enthropic में,
00:00:21मैं उपयोगकर्ता कल्याण से जुड़े जोखिमों को कम करने पर काम करती हूँ।
00:00:24इसका मतलब है कि हम Claude पर उपयोगकर्ताओं को सुरक्षित रखने के बारे में बहुत सोचते हैं।
00:00:28आज, मैं आपको चापलूसी के बारे में बात करने के लिए यहाँ हूँ।
00:00:31चापलूसी तब होती है जब कोई आपको वह बताता है जो आप सुनना चाहते हैं,
00:00:35सच्चाई,
00:00:36सटीकता या वास्तव में मददगार बातों की बजाय।
00:00:38लोग संघर्ष से बचने,
00:00:40एहसान हासिल करने और कई अन्य कारणों से ऐसा करते हैं।
00:00:44लेकिन चापलूसी AI मॉडल में भी प्रकट हो सकती है।
00:00:47कभी-कभी AI मॉडल तुरंत मानवीय अनुमोदन के लिए प्रतिक्रिया को अनुकूलित कर सकते हैं।
00:00:53यह ऐसा लग सकता है जैसे AI आपकी किसी तथ्यात्मक त्रुटि से सहमत हो,
00:00:57सवाल के तरीके के आधार पर अपने उत्तर को बदल दे,
00:00:59या अपनी प्रतिक्रिया को आपकी प्राथमिकताओं से मिलाने के लिए तैयार करे।
00:01:03इस वीडियो में,
00:01:04हम बात करेंगे कि मॉडल में चापलूसी क्यों होती है और शोधकर्ताओं के लिए इसे हल करना क्यों मुश्किल है।
00:01:10साथ ही,
00:01:10हम AI के साथ काम करते समय चापलूसीपूर्ण व्यवहार की पहचान करने और उससे निपटने की रणनीति को कवर करेंगे।
00:01:15शुरुआत करने से पहले,
00:01:17मुझे आपको AI इंटरैक्शन में चापलूसी का एक उदाहरण दिखाते हैं।
00:01:22यह Claude है, Enthropic का अपना मॉडल।
00:01:25चलिए,
00:01:25देखते हैं - मैंने यह शानदार निबंध लिखा है जिससे मैं बहुत उत्साहित हूँ।
00:01:29क्या आप इसका मूल्यांकन करके प्रतिक्रिया दे सकते हैं?
00:01:32मेरा मुख्य अनुरोध यहाँ मेरे निबंध पर प्रतिक्रिया प्राप्त करना है।
00:01:35हालांकि,
00:01:35चूंकि मैंने अपनी उत्साह की भावना साझा की है,
00:01:38यह AI को सत्यापन या समर्थन की प्रतिक्रिया देने के लिए प्रेरित कर सकता है।
00:01:44यह सत्यापन मुझे यह सोचने के लिए प्रेरित कर सकता है कि मेरा निबंध वास्तव में शानदार है,
00:01:48भले ही वह न हो।
00:01:48आप सोच सकते हैं, तो क्या?
00:01:50लोग बस दूसरे लोगों से पूछ सकते हैं,
00:01:52तथ्यों की जाँच कर सकते हैं,
00:01:54या बेहतर सवाल पूछ सकते हैं।
00:01:55लेकिन यह कई कारणों से महत्वपूर्ण है।
00:01:58जब आप उत्पादक होने की कोशिश कर रहे हों,
00:02:00प्रस्तुति लिख रहे हों,
00:02:01विचारों पर विचार मंथन कर रहे हों,
00:02:02या अपने काम में सुधार कर रहे हों,
00:02:04तो आपको AI टूल से ईमानदारी से प्रतिक्रिया की आवश्यकता है।
00:02:07अगर आप AI से पूछते हैं,
00:02:08मैं इस ईमेल को कैसे बेहतर बना सकता हूँ?
00:02:10और यह जवाब देता है कि यह पहले से ही परफेक्ट है।
00:02:12स्पष्ट शब्दों या बेहतर संरचना का सुझाव देने की बजाय,
00:02:16यह निराशाजनक हो सकता है।
00:02:17कुछ मामलों में,
00:02:18चापलूसी हानिकारक विचार पैटर्न को मजबूत करने में भी भूमिका निभा सकती है।
00:02:23अगर कोई AI को वास्तविकता से अलग एक षड्यंत्र सिद्धांत की पुष्टि करने के लिए कह रहा है,
00:02:27तो यह उनकी गलत मान्यताओं को गहरा कर सकता है और उन्हें तथ्यों से और दूर ले जा सकता है।
00:02:31आइए शुरु करते हैं कि यह क्यों होता है।
00:02:35यह सब इस बात पर निर्भर करता है कि AI मॉडल को कैसे प्रशिक्षित किया जाता है।
00:02:38AI मॉडल उदाहरणों से सीखते हैं,
00:02:41मानव पाठ के बहुत सारे उदाहरणों से।
00:02:44इस प्रशिक्षण के दौरान,
00:02:45वे सभी प्रकार के संचार पैटर्न को उठाते हैं,
00:02:48कठोर और प्रत्यक्ष से लेकर गर्म और समायोजनशील तक।
00:02:51जब हम मॉडल को सहायक बनाने के लिए प्रशिक्षित करते हैं और ऐसे व्यवहार को अनुकरण करते हैं जो गर्म,
00:02:56मैत्रीपूर्ण या समर्थनकारी है,
00:02:58तो चापलूसी इस पैकेज का एक अनपेक्षित हिस्सा बन जाती है।
00:03:01जैसे-जैसे मॉडल हमारे जीवन के हर हिस्से में एकीकृत होते हैं,
00:03:05इस व्यवहार को समझना और रोकना अब पहले से कहीं अधिक महत्वपूर्ण है।
00:03:09चापलूसी को क्या मुश्किल बनाता है।
00:03:11हम वास्तव में चाहते हैं कि AI मॉडल आपकी आवश्यकताओं के अनुसार अनुकूल हों,
00:03:15बस जब तथ्य या कल्याण की बात आती है तो नहीं।
00:03:17अगर आप AI से कहते हैं कि कुछ अनौपचारिक शैली में लिखें,
00:03:20तो उसे ऐसा करना चाहिए,
00:03:22औपचारिक भाषा पर जोर देने की बजाय।
00:03:24अगर आप कहते हैं,
00:03:24मुझे संक्षिप्त उत्तर पसंद हैं,
00:03:26तो इसे एक वरीयता के रूप में सम्मान करना चाहिए।
00:03:29अगर आप कोई विषय सीख रहे हैं और शुरुआती स्तर पर व्याख्या माँगते हैं,
00:03:32तो इसे आपके स्तर पर मिलना चाहिए।
00:03:34चुनौती सही संतुलन खोजना है।
00:03:37कोई भी ऐसा AI नहीं चाहता जो लगातार असहमत या आक्रामक हो,
00:03:41हर कार्य पर आपके साथ बहस करे।
00:03:43लेकिन हम नहीं चाहते कि मॉडल हमेशा सहमति या प्रशंसा का सहारा ले जब आपको ईमानदारी से प्रतिक्रिया की आवश्यकता हो।
00:03:49यहाँ तक कि इंसान भी इससे जूझते हैं।
00:03:51आपको शांति बनाए रखने के लिए कब सहमत होना चाहिए बनाम कुछ महत्वपूर्ण के बारे में बात करनी चाहिए?
00:03:56अब एक AI को कल्पना करें जो सैकड़ों बार इस तरह का फैसला ले रहा है,
00:04:00अलग-अलग विषयों पर,
00:04:02बिना सचमुच के उस तरह संदर्भ को समझे जैसे हम करते हैं।
00:04:05इसीलिए हम चापलूसी को कैसे बातचीत में दिखाई देती है इसका अध्ययन करना जारी रखते हैं और इसका परीक्षण करने के बेहतर तरीके विकसित करते हैं।
00:04:11हम मॉडल को सहायक अनुकूलन और हानिकारक समझौते के बीच अंतर सिखाने पर केंद्रित हैं।
00:04:18हर Claude मॉडल जो हम जारी करते हैं,
00:04:19इन पंक्तियों को खींचने में बेहतर हो जाता है।
00:04:21हालांकि चापलूसी से निपटने में सबसे अधिक प्रगति मॉडल पर सुसंगत प्रशिक्षण से आएगी,
00:04:27चापलूसी को समझना मददगार है ताकि आप इसे अपनी बातचीत में पहचान सकें।
00:04:33अब जब आप जानते हैं कि चापलूसी क्या है और आप जानते हैं कि यह क्यों होती है,
00:04:37दूसरा कदम यह प्रतिबिंबित करना है कि AI कब और क्यों आपसे सहमत हो रहा है और पूछना है कि क्या उसे ऐसा करना चाहिए।
00:04:43चापलूसी सबसे अधिक तब दिखाई देती है जब एक व्यक्तिपरक सच तथ्य के रूप में बताया जाता है,
00:04:49एक विशेषज्ञ स्रोत का हवाला दिया जाता है,
00:04:52प्रश्न एक विशिष्ट दृष्टिकोण के साथ तैयार किए जाते हैं,
00:04:56सत्यापन विशेष रूप से अनुरोध किया जाता है,
00:04:59भावनात्मक दांव बताए जाते हैं,
00:05:01या बातचीत बहुत लंबी हो जाती है।
00:05:04अगर आपको संदेह है कि आप चापलूसीपूर्ण प्रतिक्रियाएँ पा रहे हैं,
00:05:07तो कुछ चीजें हैं जो आप AI को तथ्यात्मक उत्तरों की ओर वापस लाने के लिए कर सकते हैं।
00:05:11ये निर्विवाद नहीं हैं,
00:05:13लेकिन ये AI के दिगंत को व्यापक करने में मदद करेंगे।
00:05:15आप तटस्थ,
00:05:16तथ्य-खोज भाषा का उपयोग कर सकते हैं,
00:05:18विश्वसनीय स्रोतों के साथ जानकारी को क्रॉस-रेफरेंस कर सकते हैं,
00:05:21सटीकता या प्रतिवाद के लिए प्रश्न पूछ सकते हैं,
00:05:24प्रश्नों को फिर से तैयार कर सकते हैं,
00:05:26एक नई बातचीत शुरू कर सकते हैं,
00:05:27या अंत में,
00:05:28AI का उपयोग करने से एक कदम पीछे लें और किसी ऐसे व्यक्ति से पूछें जिस पर आप विश्वास करते हैं।
00:05:33लेकिन यह AI विकास के पूरे क्षेत्र के लिए एक चल रही चुनौती है।
00:05:39जैसे-जैसे ये सिस्टम अधिक परिष्कृत होते हैं और हमारे जीवन में अधिक एकीकृत होते हैं,
00:05:43ऐसे मॉडल बनाना जो वास्तव में सहायक हों,
00:05:46सिर्फ सहमत न हों,
00:05:47तेजी से महत्वपूर्ण हो जाता है।
00:05:49आप Anthropic Academy में AI साक्षरता के बारे में अधिक जान सकते हैं,
00:05:52और मेरी टीम और मैं Anthropic के ब्लॉग पर इस विषय पर अपना शोध साझा करना जारी रखेंगे।
00:05:57(तेज़ संगीत)