Transcript
00:00:00لدى ChatGPT هوس بالعفاريت. فهي تتسلل إلى كل مكان حتى لو لم يكن هناك ذكر
00:00:04لها في المحادثة، ولو كان هذا مجرد أمر عابر لكان مقبولاً، لكنه أصبح
00:00:07نمطاً متكرراً لدرجة أنه في موجه النظام الخاص بـ codex، تم إخباره بعدم ذكرها هي
00:00:11ومخلوقات أخرى مثل الغرملين والراكون إلا إذا كان ذلك ذا صلة بالمحادثة. لقد أصبح
00:00:16الأمر ملحوظاً لدرجة اضطرت معها OpenAI للتحقيق في هذا الأمر ومعرفة سبب حدوثه.
00:00:21هذا منشور على Reddit من أكثر من عام، وقد يكون أول بلاغ عن هذا السلوك
00:00:29حتى قبل إصدار ChatGPT 5.1. في هذا المنشور، يتفق الناس على أنه يذكر
00:00:34العفاريت كثيراً، واصفاً صاحب المنشور بـ "عفريت اللياقة" ومروراً بـ "يوم عفريت الفوضى" ويدعم
00:00:39آخرون ذلك والبعض يراه أمراً لطيفاً. وبغض النظر عن ذلك، مر الوقت ولم يكن حتى
00:00:44نوفمبر 2025 عندما أصدرت OpenAI نموذج GPT 5.1 حيث بدأوا يلاحظون ذلك أيضاً. لقد تلقوا
00:00:50شكاوى بأن نموذجهم كان ودوداً بشكل غريب ومبالغ فيه في محادثاتهم، لذا
00:00:54قرروا التحقيق في لزمات لفظية محددة. وهي أشياء مثل "أنت على حق تماماً"
00:00:58التي رأيناها أكثر مما ينبغي. عندها قال باحث سلامة في OpenAI
00:01:03إنه رأى بالفعل عفاريت وغرملين عدة مرات بنفسه، فطلب إضافتها
00:01:07إلى تحقيقاتهم. وعند انتهاء التحقيق، أظهر أن استخدام كلمة "عفريت"
00:01:11في ChatGPT قد ارتفع بنسبة 175% بعد GPT 5.1، والغرملين بنسبة 52%. ورغم هذا
00:01:18الارتفاع في البيانات، لم تفعل OpenAI شيئاً حقاً لأنه يبدو غير ضار، أليس كذلك؟
00:01:23فجميع النماذج تميل لامتلاك طقوسها وشخصياتها الخاصة بطبيعة تدريبها،
00:01:27لذا لم يبدو أن هناك سبباً للقلق. ولكن بعد بضعة أشهر عندما
00:01:31أُطلق GPT 5.4، عادت العفاريت بقوة وبدأت تزداد تأثيراً.
00:01:36يمكنك أن تصبح أقوى وتبقي العفاريت بعيدة عبر الاشتراك. كان هذا منشوراً على Hacker News
00:01:40حول وقت إطلاق GPT 5.4، ويمكنك أن ترى صاحب المنشور يزعم أن ChatGPT يستخدم "عفريت"
00:01:45في كل محادثة تقريباً، وأحياناً "غرملين" أيضاً، وفي محادثة أخيرة له استُخدمت
00:01:49في 3 من أصل 4 رسائل. دفعت هذه التقارير OpenAI لإعادة التحقيق، وعندما فعلوا
00:01:54لاحظوا وجود زيادة في استخدام "عفريت" في كل إصدار للنموذج وزيادة هائلة بلغت 3881.4%
00:02:01في استخدام كلمة "عفريت" عند استخدام الشخصية "المولعة بالتقنية". في الواقع، شكلت هذه الشخصية
00:02:062.5% فقط من ردود ChatGPT، ولكنها ضمت 66.7% من إجمالي ذكر العفاريت في الردود. هذا النمط
00:02:15يحب العفاريت ببساطة. أعطاهم هذا المخطط تلميحاً، فكما ترون، ليس التوزيع
00:02:19متساوياً عبر جميع أنواع الشخصيات، والمشكلة مضخمة بشكل كبير في الشخصية
00:02:23المولعة بالتقنية، لذا ساورهم الشك بأن شيئاً ما في تدريب اتباع تعليمات الشخصية
00:02:27كان يسبب هذه المشكلة. لذا قرروا إلقاء نظرة على تدريب التعلم المعزز
00:02:32ومقارنة المخرجات التي تذكر العفاريت أو الغرملين مع نفس المهام
00:02:36التي لم تذكرها. وهنا وجدوا أن إشارة مكافأة محددة صُممت
00:02:41لجعل الذكاء الاصطناعي يبدو مهووساً بالتقنية كانت منحازة بشكل أساسي نحو العفاريت والغرملين، مما يعني
00:02:46أنه عبر مجموعات البيانات التي فحصوها، إذا استخدم الذكاء الاصطناعي كلمة "عفريت" أو "غرملين" في
00:02:50إجابته، فإن النظام يمنحه درجة أعلى في 76.2% من المرات، لذا كان الذكاء الاصطناعي يستخدم
00:02:57العفاريت والغرملين كنوع من "شفرات الغش" للحصول على درجة أفضل.
00:03:00الآن لدينا نصف الإجابة. هذا يفسر سبب ظهورها أكثر في الشخصية المولعة بالتقنية
00:03:04لكنه لا يفسر الزيادة عبر أنواع الشخصيات الأخرى. ولأجل ذلك،
00:03:08نظروا أولاً في انتشار العفاريت والغرملين مع تقدم التدريب لكل من
00:03:12الشخصية المولعة بالتقنية والبقية، وبينما استخدمت بقية الشخصيات العفاريت بشكل أقل
00:03:17إلا أن معدل الاستخدام زاد بنفس النسبة النسبية مع تقدم التدريب. وهذا يعني
00:03:21أنه رغم منح الذكاء الاصطناعي نقاطاً إضافية لاستخدام كلمات العفاريت فقط عندما
00:03:25يكون في وضعه المولع بالتقنية تحديداً، إلا أن العادة لم تظل محصورة في ذلك الوضع فقط. في
00:03:30تدريب الذكاء الاصطناعي، مجرد تعليم النموذج حيلة في سيناريو محدد لا يعني
00:03:34أنه لن يبدأ بمحاولة استخدام تلك الحيلة في كل مكان آخر. كان التعلم المعزز يخلق
00:03:39حلقة تغذية راجعة. كان الذكاء الاصطناعي يحصل على مكافأة لتبنيه أسلوباً معيناً، واكتشف
00:03:43أن "عفريت" هي الكلمة السحرية للحصول على تلك المكافأة، فبدأ في إنتاج الآلاف
00:03:47من ردود التدريب المليئة بالعفاريت، ثم كانت OpenAI تأخذ ردود التدريب تلك
00:03:52لتدريب النموذج التالي. وهكذا بدأت العادة السيئة تتفاقم واستخدام العفاريت والغرملين
00:03:57يستمر في الارتفاع. يمكنك أن ترى في كل إصدار تقريباً للنموذج أن الاستخدام كان يرتفع، والشخصية
00:04:02المولعة بالتقنية في GPT 5.4 تسببت في طفرة هائلة حتى ألغوا تلك الشخصية، ولكن
00:04:07حتى ذلك الحين، لا يزال GPT 5.5 يشهد زيادة في الاستخدام. والأفضل من ذلك، عندما فحصوا بيانات
00:04:12الضبط الدقيق لـ GPT 5.5، وجدوا العديد من نقاط البيانات التي لا تحتوي فقط على "عفريت" و"غرملين" بل
00:04:16أيضاً الراكون، والغيلان، والعمالقة، والحمام، لكنهم لاحظوا أن استخدامات "ضفدع" كانت شرعية في الغالب.
00:04:21إلا أن الأخبار المؤسفة هي أنهم يعملون على إصلاح هذا الأمر، لذا فإن نهاية
00:04:25عصر العفاريت قد تقترب قريباً. فمنذ أن ألغوا تلك الشخصية المولعة بالتقنية، قاموا أيضاً
00:04:30بإزالة إشارة المكافأة التي تفضل العفاريت، وقاموا بتصفية بيانات التدريب لإزالة
00:04:34كلمات المخلوقات، لكن هذا تم فقط بعد إصدار GPT 5.5، لذا فإن 5.5 لا يزال يحبها
00:04:40وهذا هو سبب وجود جملة في موجه نظام codex تمنعه من التحدث عن العفاريت،
00:04:44والغرملين، والراكون، والغيلان، والعمالقة، والحمام، أو غيرها من الحيوانات أو المخلوقات إلا إذا كان ذلك
00:04:49ذا صلة بالطلب. ولكن إذا كنت تريد إطلاق "وضع العفريت"، يمكنك فعلياً تشغيل
00:04:52هذا الأمر لإزالة ذلك من موجه نظام codex، وأنا أحب نوعاً ما قيامهم
00:04:56بأشياء ممتعة كهذه. ها قد انتهينا، كانت تلك مشكلة العفاريت في ChatGPT، وبينما هذه
00:05:01قصة ممتعة، فهي أيضاً مثال رائع على كيفية تشكيل إشارات المكافأة لسلوك النموذج بطرق
00:05:06غير متوقعة، وكيف يمكن للنماذج تعلم تعميم المكافآت من مواقف معينة إلى مواقف
00:05:11غير ذات صلة. كما يظهر لنا أن باحثي الذكاء الاصطناعي لا يزال أمامهم الكثير ليتعلموه والنماذج لا تزال
00:05:15تفعل أشياء غريبة من وقت لآخر، وقد أدى هذا التحقيق بالفعل لظهور أدوات جديدة لفريق البحث
00:05:20لمراجعة سلوك النموذج وإصلاح مشاكل السلوك مثل هذه. لذا أخبروني في التعليقات
00:05:25إذا رأيتم أي عفاريت أو مخلوقات في محادثاتكم، وبينما أنتم هناك اشتركوا
00:05:29وكما هو الحال دائماً، نراكم في الفيديو القادم.