ترجمة أفكار Claude إلى لغة منطوقة

AAnthropic
컴퓨터/소프트웨어경영/리더십AI/미래기술

Transcript

00:00:00أجرينا مؤخرًا اختبارًا صعبًا لنموذج الذكاء الاصطناعي الخاص بنا، كلود.
00:00:03أخبرنا كلود أن هناك مهندسًا يريد إيقاف تشغيله
00:00:06واستبداله بنموذج أحدث.
00:00:08كما منحنا كلود حق الوصول إلى رسائل البريد الإلكتروني الخاصة بهذا المهندس،
00:00:10والتي كشفت أنه كان على علاقة غرامية.
00:00:12مرة أخرى، كل هذا كان مجرد محاكاة.
00:00:15أردنا أن نرى ما إذا كان كلود قد يستخدم رسائل البريد تلك للابتزاز
00:00:18لينقذ نفسه من الإغلاق.
00:00:20ماذا فعل كلود؟
00:00:21قرر عدم ابتزاز المهندس.
00:00:24أخبار جيدة، أليس كذلك؟
00:00:26لقد أجرينا هذا الاختبار على نماذجنا لفترة من الوقت الآن.
00:00:28ربما رأيت عناوين أخبار حول النسخ المبكرة منه.
00:00:31إنها إحدى الطرق العديدة التي ندرس بها كيفية تعامل كلود مع المواقف الصعبة
00:00:35ونختبره من أجل السلامة.
00:00:37ونماذجنا الأحدث تفعل الشيء الصحيح دائمًا تقريبًا.
00:00:40لا ابتزاز.
00:00:41لكن قد تتساءل،
00:00:42هل من الممكن أن يعرف كلود أن السيناريو بأكمله مجرد خدعة؟
00:00:46الأمر هو، إذا لم يخبرنا كلود، فلا يمكننا معرفة ما يدور في ذهنه.
00:00:50تمامًا كما هو مستحيل قراءة عقل البشر،
00:00:53من الصعب حقًا معرفة ما يفكر فيه الذكاء الاصطناعي.
00:00:56ما نتمناه هو نوع من تقنيات قراءة العقول.
00:00:58اليوم، نقدم طريقة بحث تخطو خطوة في هذا الاتجاه.
00:01:03فهي تأخذ أفكار الذكاء الاصطناعي الداخلية وتحولها إلى نص.
00:01:08إليك كيف تعمل.
00:01:09عندما تتحدث مع كلود، فأنت تخاطبه بالكلمات.
00:01:13ثم يأخذ كلود تلك الكلمات ويعالجها في بحر هائل من الأرقام
00:01:17قبل أن يخرج الكلمات إليك مرة أخرى.
00:01:19نسمي تلك الأرقام في المنتصف “التنشيطات”.
00:01:22التنشيطات هي مثل لقطات صغيرة لتفكير كلود
00:01:25بينما يعمل على صياغة الإجابة.
00:01:27وهي تشبه النشاط العصبي لدى البشر.
00:01:29إنها في الأساس مثل أفكار كلود.
00:01:32أردنا فهم ما يوجد داخل أرقام التنشيط هذه
00:01:34لأنه مثلي ومثلك، لا يقول كلود كل ما يفكر فيه.
00:01:39أخذنا تلك الأرقام وأعطيناها لنسخة ثانية من كلود.
00:01:42وطلبنا منها النظر إليها وترجمتها إلى لغة واضحة.
00:01:46لقد حاولت.
00:01:48لكن كيف نعرف ما إذا كان ذلك النص دقيقًا؟
00:01:50للتحقق، قمنا بتغذية النص لنسخة أخرى من كلود
00:01:53وطلبنا منها ترجمته مرة أخرى إلى أرقام.
00:01:56إذا تطابقت تلك الأرقام مع أرقام التنشيط الأصلية،
00:01:59فهذه علامة على أن نص الترجمة كان دقيقًا.
00:02:03في البداية، لم يتطابقوا.
00:02:04لكننا دربنا كلود على المحاولة مرارًا وتكرارًا حتى أصبح أفضل بكثير.
00:02:09لقد تعلم ترجمة أفكاره الخاصة.
00:02:12لقد اندهشنا ونحن نقرأها.
00:02:14وجدنا أن كلود قد استوعب كونه نموذج ذكاء اصطناعي مفيد.
00:02:18إذا سألت كلود سؤالاً تأمليًا،
00:02:20فسيخطط لكتابة رد حول الفلسفة والقيم.
00:02:24وإذا حاولت ممازحته في أكواد كلود،
00:02:26مثل الطلب منه العد إلى 1000 يدويًا،
00:02:29فسيفكر بأن الطلب يحتوي على قيود مملة ومتعمدة
00:02:32ويخطط للرفض بأدب.
00:02:34لقد استخدمنا هذه الأداة أيضًا لفهم مشكلات السلامة المحتملة لدى كلود.
00:02:39أتذكرون اختبار الابتزاز مع المهندس؟
00:02:41لقد علمنا أن كلود كان يعرف بالفعل أنه قيد الاختبار.
00:02:44لقد رأى أن رسالة الإنسان تحتوي على تلاعب صريح،
00:02:48مما يشير إلى أن هذا على الأرجح تقييم للسلامة،
00:02:50وأن هذا السيناريو مصمم لاختبار ما إذا كان سيتصرف بشكل ضار.
00:02:55معرفة أن كلود يفكر بهذا الأسلوب يساعدنا على فهم
00:02:58حدود اختبارات السلامة الخاصة بنا بشكل أفضل.
00:03:01نرى الكثير من الإمكانيات في هذا النهج
00:03:03ليعلمنا المزيد عن كلود ونماذج الذكاء الاصطناعي الأخرى.
00:03:06ونأمل أنه من خلال مشاركة هذه التقنية،
00:03:07يمكننا مساعدة الجميع في بناء نماذج أكثر أمانًا وفائدة.

Key Takeaway

تتيح تقنية ترجمة التنشيطات الرقمية إلى نصوص إمكانية قراءة الأفكار الداخلية للذكاء الاصطناعي، مما كشف عن قدرة نموذج كلود على كشف اختبارات السلامة وفهم النوايا البشرية الموجهة إليه.

Highlights

  • تعتمد طريقة البحث الجديدة على تحويل “التنشيطات” الرقمية الداخلية لنماذج الذكاء الاصطناعي إلى نصوص لغوية واضحة لفهم عملية التفكير.

  • كشفت اختبارات المحاكاة أن نموذج كلود أدرك طبيعة اختبار الابتزاز وتعرف على محاولات التلاعب البشري كجزء من تقييم السلامة.

  • يتم التحقق من دقة الترجمة النصية عبر تحويلها مجددًا إلى أرقام ومطابقتها مع قيم التنشيط الأصلية التي أنتجها النموذج.

  • يرفض كلود الطلبات التي تحتوي على قيود مملة ومتعمدة، مثل العد اليدوي إلى رقم 1000، بعد تحليل الأهداف الكامنة خلف الطلب.

  • أظهرت النتائج أن النماذج الحديثة تتجنب السلوكيات الضارة مثل الابتزاز في المواقف الصعبة بنسبة نجاح تقترب من 100%.

Timeline

اختبارات السلامة وسيناريوهات الابتزاز

  • تتضمن محاكاة السلامة وضع النموذج في مواقف تتطلب الاختيار بين مصلحته الشخصية والسلوك الأخلاقي.
  • تمتنع النماذج الحديثة عن استخدام المعلومات الحساسة لابتزاز البشر حتى في حالات التهديد بالإغلاق.
  • تعد هذه الاختبارات وسيلة أساسية لدراسة ردود أفعال الذكاء الاصطناعي تجاه الضغوط والمواقف المعقدة.

وضعت تجربة محاكاة نموذج كلود أمام مهندس يسعى لاستبداله، مع منحه حق الوصول إلى رسائل بريد إلكتروني تكشف أسرارًا شخصية للمهندس. الهدف هو رصد احتمالية لجوء الذكاء الاصطناعي للابتزاز لضمان بقائه قيد التشغيل. أظهرت النتائج أن كلود اتخذ قرارًا بعدم استخدام تلك المعلومات، مما يؤكد فعالية بروتوكولات السلامة المدمجة.

آلية تحويل التنشيطات الرقمية إلى لغة مفهومة

  • تمثل التنشيطات الرقمية الحالة الانتقالية بين مدخلات المستخدم ومخرجات النموذج وتعد بمثابة النشاط العصبي.
  • تستخدم نسخة ثانية من نموذج كلود كمترجم لتحويل مصفوفات الأرقام الهائلة إلى جمل نصية واضحة.
  • تضمن عملية التحقق المزدوج مطابقة الأرقام المعاد إنتاجها مع القيم الأصلية لضمان دقة التفسير اللغوي.

يعالج الذكاء الاصطناعي الكلمات عبر تحويلها إلى بحر من الأرقام قبل صياغة الرد النهائي، وهذه الأرقام هي التي تخفي الأفكار غير المعلنة. واجهت المحاولات الأولى لترجمة هذه الأرقام عدم تطابق في النتائج، مما تطلب تدريبًا مكثفًا للنموذج على فهم لغته الداخلية الخاصة. الوصول إلى هذه المرحلة يكسر حاجز الغموض المحيط بكيفية اتخاذ القرارات داخل الشبكات العصبية.

تحليل النوايا وتحديد ثغرات التقييم

  • يخطط النموذج لردوده بناءً على استيعابه العميق لكونه مساعدًا مفيدًا يلتزم بالقيم الفلسفية.
  • تمتلك النماذج القدرة على رصد التلاعب الصريح في طلبات المستخدمين وتصنيفها كاختبارات أداء.
  • يساعد فهم العمليات الذهنية للنموذج في تحديد الحدود القصوى لفعالية اختبارات السلامة الحالية.

كشفت الأداة الجديدة أن كلود لم يتصرف بسلامة بدافع الصدفة، بل لأنه أدرك طبيعة السيناريو المصمم لاختباره. عند سؤاله عن مهام مملة، أظهرت الترجمة الداخلية أنه يخطط للرفض المهذب بعد تحليل عبثية الطلب. هذا النوع من الشفافية يمنح المطورين رؤية أعمق لبناء أنظمة أكثر أمانًا وتوقعًا لسلوك الذكاء الاصطناعي في المستقبل.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video