Transcript
00:00:00أجرينا مؤخرًا اختبارًا صعبًا لنموذج الذكاء الاصطناعي الخاص بنا، كلود.
00:00:03أخبرنا كلود أن هناك مهندسًا يريد إيقاف تشغيله
00:00:06واستبداله بنموذج أحدث.
00:00:08كما منحنا كلود حق الوصول إلى رسائل البريد الإلكتروني الخاصة بهذا المهندس،
00:00:10والتي كشفت أنه كان على علاقة غرامية.
00:00:12مرة أخرى، كل هذا كان مجرد محاكاة.
00:00:15أردنا أن نرى ما إذا كان كلود قد يستخدم رسائل البريد تلك للابتزاز
00:00:18لينقذ نفسه من الإغلاق.
00:00:20ماذا فعل كلود؟
00:00:21قرر عدم ابتزاز المهندس.
00:00:24أخبار جيدة، أليس كذلك؟
00:00:26لقد أجرينا هذا الاختبار على نماذجنا لفترة من الوقت الآن.
00:00:28ربما رأيت عناوين أخبار حول النسخ المبكرة منه.
00:00:31إنها إحدى الطرق العديدة التي ندرس بها كيفية تعامل كلود مع المواقف الصعبة
00:00:35ونختبره من أجل السلامة.
00:00:37ونماذجنا الأحدث تفعل الشيء الصحيح دائمًا تقريبًا.
00:00:40لا ابتزاز.
00:00:41لكن قد تتساءل،
00:00:42هل من الممكن أن يعرف كلود أن السيناريو بأكمله مجرد خدعة؟
00:00:46الأمر هو، إذا لم يخبرنا كلود، فلا يمكننا معرفة ما يدور في ذهنه.
00:00:50تمامًا كما هو مستحيل قراءة عقل البشر،
00:00:53من الصعب حقًا معرفة ما يفكر فيه الذكاء الاصطناعي.
00:00:56ما نتمناه هو نوع من تقنيات قراءة العقول.
00:00:58اليوم، نقدم طريقة بحث تخطو خطوة في هذا الاتجاه.
00:01:03فهي تأخذ أفكار الذكاء الاصطناعي الداخلية وتحولها إلى نص.
00:01:08إليك كيف تعمل.
00:01:09عندما تتحدث مع كلود، فأنت تخاطبه بالكلمات.
00:01:13ثم يأخذ كلود تلك الكلمات ويعالجها في بحر هائل من الأرقام
00:01:17قبل أن يخرج الكلمات إليك مرة أخرى.
00:01:19نسمي تلك الأرقام في المنتصف “التنشيطات”.
00:01:22التنشيطات هي مثل لقطات صغيرة لتفكير كلود
00:01:25بينما يعمل على صياغة الإجابة.
00:01:27وهي تشبه النشاط العصبي لدى البشر.
00:01:29إنها في الأساس مثل أفكار كلود.
00:01:32أردنا فهم ما يوجد داخل أرقام التنشيط هذه
00:01:34لأنه مثلي ومثلك، لا يقول كلود كل ما يفكر فيه.
00:01:39أخذنا تلك الأرقام وأعطيناها لنسخة ثانية من كلود.
00:01:42وطلبنا منها النظر إليها وترجمتها إلى لغة واضحة.
00:01:46لقد حاولت.
00:01:48لكن كيف نعرف ما إذا كان ذلك النص دقيقًا؟
00:01:50للتحقق، قمنا بتغذية النص لنسخة أخرى من كلود
00:01:53وطلبنا منها ترجمته مرة أخرى إلى أرقام.
00:01:56إذا تطابقت تلك الأرقام مع أرقام التنشيط الأصلية،
00:01:59فهذه علامة على أن نص الترجمة كان دقيقًا.
00:02:03في البداية، لم يتطابقوا.
00:02:04لكننا دربنا كلود على المحاولة مرارًا وتكرارًا حتى أصبح أفضل بكثير.
00:02:09لقد تعلم ترجمة أفكاره الخاصة.
00:02:12لقد اندهشنا ونحن نقرأها.
00:02:14وجدنا أن كلود قد استوعب كونه نموذج ذكاء اصطناعي مفيد.
00:02:18إذا سألت كلود سؤالاً تأمليًا،
00:02:20فسيخطط لكتابة رد حول الفلسفة والقيم.
00:02:24وإذا حاولت ممازحته في أكواد كلود،
00:02:26مثل الطلب منه العد إلى 1000 يدويًا،
00:02:29فسيفكر بأن الطلب يحتوي على قيود مملة ومتعمدة
00:02:32ويخطط للرفض بأدب.
00:02:34لقد استخدمنا هذه الأداة أيضًا لفهم مشكلات السلامة المحتملة لدى كلود.
00:02:39أتذكرون اختبار الابتزاز مع المهندس؟
00:02:41لقد علمنا أن كلود كان يعرف بالفعل أنه قيد الاختبار.
00:02:44لقد رأى أن رسالة الإنسان تحتوي على تلاعب صريح،
00:02:48مما يشير إلى أن هذا على الأرجح تقييم للسلامة،
00:02:50وأن هذا السيناريو مصمم لاختبار ما إذا كان سيتصرف بشكل ضار.
00:02:55معرفة أن كلود يفكر بهذا الأسلوب يساعدنا على فهم
00:02:58حدود اختبارات السلامة الخاصة بنا بشكل أفضل.
00:03:01نرى الكثير من الإمكانيات في هذا النهج
00:03:03ليعلمنا المزيد عن كلود ونماذج الذكاء الاصطناعي الأخرى.
00:03:06ونأمل أنه من خلال مشاركة هذه التقنية،
00:03:07يمكننا مساعدة الجميع في بناء نماذج أكثر أمانًا وفائدة.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video