كود كلود بنمط رجل الكهف هو الموضة الجديدة (إليك التفسير العلمي)

CChase AI
Computing/SoftwareManagementInternet Technology

Transcript

00:00:00إن جعل كود السحابة يتحدث مثل إنسان الكهف قد لا يوفر لك الرموز البرمجية فحسب،
00:00:04بل قد يؤدي في الواقع إلى تحسين أدائك أيضاً. الآن، في الظاهر،
00:00:07يبدو هذا وكأنه مجرد مزحة عابرة. لدينا مستودع على GitHub يسمى "caveman".
00:00:12وقد حصل على 5000 نجمة في غضون 72 ساعة.
00:00:15وكل ما يفعله هو إجبار كود السحابة على التحدث مثل إنسان "النياندرتال".
00:00:19فهو يزيل كل الحشو. الفكرة هي أنه بجعله أكثر إيجازاً،
00:00:24فإننا نوفر الكثير من الرموز البرمجية في هذه العملية،
00:00:27ولكن في طيات هذا المستودع يوجد رابط لورقة بحثية صدرت لتوها قبل بضعة
00:00:31أسابيع،
00:00:31والتي تخبرنا أننا إذا أجبرنا نماذجنا اللغوية الكبيرة على أن تكون أكثر إيجازاً،
00:00:36فلن نوفر الرموز البرمجية فحسب، بل يمكننا تحسين أدائها بشكل كبير.
00:00:40لذا سأقوم اليوم بتحليل مهارة إنسان الكهف هذه بالكامل.
00:00:42سأشرح ما الذي ستحصل عليه فعلياً لأن الأرقام الموجودة في المستودع
00:00:46مضللة قليلاً، وسنتحدث عن هذه الورقة البحثية حتى تتمكن من
00:00:50فهم ما يعنيه هذا بالنسبة لك بالفعل. إذاً هذا هو "caveman"،
00:00:54مستودعنا القائم على مبدأ "لماذا نقول كلمات كثيرة بينما القليل يفي بالغرض".
00:00:58والآن، ما الذي يفعله تحديداً؟ الأمر بسيط للغاية،
00:01:02قص حشو الكلام في كود السحابة. والآن أصبح يتحدث مثل إنسان الكهف.
00:01:07إنه يقدم لنا بعض الأمثلة قبل وبعد، ويوضح الفرق في الرموز، بل
00:01:11ويحتوي على قائمة معايير كاملة توضح المهام التي كلف بها كود السحابة،
00:01:15مثل شرح خطأ في React، والرموز العادية المستخدمة،
00:01:19ورموز إنسان الكهف، والكمية التي تم توفيرها.
00:01:21والآن، الأرقام المطروحة في هذا المستودع جنونية نوعاً ما.
00:01:23فهم يزعمون أنه باستخدام هذه المهارة،
00:01:26سنقوم بتقليص 75% من رموز المخرجات مع الحفاظ على الدقة التقنية
00:01:30الكاملة.
00:01:31أسلوب إنسان الكهف هذا لا يغير طريقة تفكير كود السحابة داخلياً.
00:01:35ولا يغير كيفية توليد الكود فعلياً. لا شيء من ذلك يتغير.
00:01:38الأمر يتعلق فقط بالمخرجات. ما تراه كاستجابة.
00:01:41ويتضمن أيضاً أداة مساعدة تقوم بضغط ملفات الذاكرة الخاصة بك.
00:01:45فكر في تحويل claud.md إلى لغة إنسان الكهف.
00:01:47ومن المفترض أن يقلل ذلك رموز المدخلات بنسبة 45% في كل جلسة.
00:01:52والآن لنكن واضحين. أنت لا تقلص 75% من إجمالي رموز المخرجات،
00:01:57ولا 45% من إجمالي رموز المدخلات على الإطلاق. هذا غير صحيح تماماً.
00:02:01على الرغم من أننا نرى هذه الأشياء التي تقول، مهلاً،
00:02:03إنه يوفر 87% من الرموز في شرحه لخطأ في React.
00:02:07فإن الرد الذي تحصل عليه من كود السحابة، الاستجابة نفسها،
00:02:11النص ليس سوى جزء صغير من إجمالي رموز المخرجات،
00:02:15تماماً مثل ملفات الذاكرة،
00:02:17حيث أن claud.md هو مجرد جزء صغير من المدخلات ككل.
00:02:21لذا لنكن واضحين جداً بشأن ما يقدمه لنا هذا فعلياً على مقياس الرموز.
00:02:25أنت لا توفر 80% من إجمالي رموزك. ولجعل الأمر أكثر وضوحاً،
00:02:28دعونا نحلل جلسة عمل متوسطة بـ 100 ألف رمز في كود السحابة. الآن،
00:02:32أدرك أن كل جلسة تختلف قليلاً، ولكن تابعوا معي هنا.
00:02:36لدينا جلسة بـ 100 ألف رمز، وهي مقسمة إلى جزأين.
00:02:40المدخلات، والتي تمثل حصة الأسد.
00:02:42أي 75 ألف رمز، والمخرجات التي تمثل 25%.
00:02:46والآن يدعي إنسان الكهف أننا سنقلل المخرجات بنسبة 75%.
00:02:51وهذا غير صحيح. إذا ألقينا نظرة على المخرجات، فهي تتكون فعلياً من ثلاثة أجزاء، أليس كذلك؟
00:02:56لدينا استدعاءات الأدوات، والتي تأخذ جزءاً منها، وكتل الكود،
00:02:59مثل توليد الكود الفعلي، الذي يأخذ جزءاً منها.
00:03:02وبعد ذلك الردود النصية الفعلية، هذا الرد،
00:03:06تلك الاستجابة النصية الداخلية، هي ما يقوم إنسان الكهف بتعديله.
00:03:10هذا ما يقلله. يمكنه تقليل 75% من ذلك. كما تعلمون،
00:03:13إذا نزلنا هنا، يمكننا أن نرى، حسناً،
00:03:16عادةً ما يأخذ النص 6 آلاف رمز، ولكن مع إنسان الكهف،
00:03:20نوفر 4000 رمز. وبذلك نحصل على تخفيض بنسبة 4%. هذا لا يزال جيداً حقاً.
00:03:25إذا كنا نوفر 4% من إجمالي رموزنا على مدار الأسبوع،
00:03:29فإن ذلك يتراكم بالتأكيد،
00:03:30خاصة في البيئة الحالية حيث ندرك جميعاً استهلاكنا.
00:03:33ولكن افهموا أن هذا ليس 87%. إنه 70%،
00:03:38أو 60% من جزء واحد من جزء من إجمالي الجلسة.
00:03:43علاوة على ذلك،
00:03:44إذا نظرت إلى المدخلات وحديثه عن توفير ضغط إنسان الكهف بنسبة 45%،
00:03:49مرة أخرى، ليس الأمر كذلك تماماً.
00:03:50نحن نتحدث عن منطقة موجه النظام وأجزاء معينة فقط من
00:03:54موجه النظام. لذا في الإجمالي هنا، ماذا نوفر؟ ربما ألف رمز،
00:03:58أو ربما 2000 رمز. وعلى مدار الجلسة بأكملها، أكرر.
00:04:03إذا وفرت 5000 رمز، أي 5% من كل جلسة، فهذا أمر رائع وجيد،
00:04:07لكنها ليست هذه الأرقام البراقة. لذا افهموا ذلك منذ البداية،
00:04:13هذا إجراء لتحسين الهوامش. هذا ليس تغييراً جذرياً.
00:04:15لن تتمكن من الانتقال من الخطة القصوى بـ 5 أضعاف إلى 20 ضعفاً
00:04:19لمجرد أننا نوفر 75%. لا، لا، لا،
00:04:22ولكن لا تزال هناك قيمة كبيرة يمكن إضافتها هنا وقيمة أكبر يمكن
00:04:25استخلاصها. بمجرد أن نلقي نظرة على الدراسة المدفونة هنا.
00:04:29هناك قسم صغير مخصص لها،
00:04:31ولكن هذه دراسة تسمى "قيود الإيجاز،
00:04:34عكس التسلسل الهرمي للأداء في النماذج اللغوية".
00:04:36وقد صدرت هذه الدراسة في أوائل مارس من هذا العام.
00:04:38لذا سأضع رابطاً للدراسة في الوصف إذا كنت ترغب في الاطلاع عليها،
00:04:41ولكن لنتحدث عنها سريعاً لأنها مثيرة للاهتمام حقاً.
00:04:45لأن الفكرة والتوقعات هي أن النموذج الأكبر،
00:04:49دائماً أفضل من النموذج الأصغر. حسناً،
00:04:53ليس بالضبط، ليس وفقاً لهذه الدراسة.
00:04:56ففي هذه الدراسة قاموا بتقييم 31 نموذجاً عبر 1500
00:05:01مشكلة،
00:05:02وحددوا الآلية على أنها الإسهاب التلقائي المعتمد على الحجم الذي
00:05:07يتسبب في أخطاء من خلال الإفراط في التفصيل. ماذا يعني هذا بحق السماء؟
00:05:11هذا يعني أنه في ما يقرب من 8% من المشاكل عبر هذه الـ 1500 مشكلة و
00:05:16الـ 31 نموذجاً، فإن النماذج اللغوية الأكبر،
00:05:19تلك التي تمتلك معلمات أكثر، كان أداؤها أقل من النماذج الأصغر بـ 28
00:05:24نقطة مئوية، على الرغم من امتلاكها معلمات أكثر بمئة مرة في بعض الحالات.
00:05:28لذلك كانت هناك سيناريوهات، مرة أخرى، وهذا مع جميع النماذج مفتوحة المصدر.
00:05:32كان لديك نموذج بملياري معلمة يتفوق في الأداء على نموذج بـ 400
00:05:37مليار معلمة. لقد حدث هذا عدة مرات. هذا جنون.
00:05:41لماذا هذا؟ حسناً،
00:05:43يفترضون أن السبب في ذلك هو أن هذه النماذج اللغوية
00:05:49الكبيرة تتحدث كثيراً وبشكل مفرط.
00:05:51فهي مسهبة للغاية لدرجة أنها تدور حول نفسها في
00:05:55دوائر وتحصل على إجابة خاطئة بسبب ذلك. وفي الدراسة،
00:05:58وجدوا أنه من خلال إلزام النماذج الكبيرة بتقديم ردود موجزة،
00:06:02مثل ردود إنسان الكهف، تتحسن الدقة بمقدار 26 نقطة مئوية وتقل
00:06:07فجوات الأداء بنسبة تصل إلى الثلثين.
00:06:09وفي كثير من الحالات، من خلال إجبار هذه النماذج اللغوية الكبيرة على أن تصبح أكثر إيجازاً،
00:06:14وأكثر شبهاً بإنسان الكهف، تغيرت تلك الديناميكية تماماً، فبينما كانت
00:06:18تخسر أمام النماذج الأصغر من قبل، أصبحت الآن تهزمها.
00:06:21هذا أمر مذهل حقاً، خاصة في سياق مستودع GitHub هذا. الآن،
00:06:26من الواضح أن هذه نماذج مفتوحة المصدر. هذا ليس Opus 4.6.
00:06:29وهذا ليس Codex 5.4.
00:06:30هل تظهر هذه النماذج الرائدة نفس هذا النوع من السلوك بالضبط؟
00:06:34نحن لا نعرف بالضرورة على وجه اليقين،
00:06:36ولكن إذا رأيت أيًا من هذه الدراسات، ستفهم أن ما تراه هنا عادةً
00:06:40يميل إلى التكرار على مستوى ما مع النماذج الرائدة.
00:06:44ربما ليس بهذا التطرف، ولكن من المحتمل أن يكون هناك شيء من هذا القبيل.
00:06:47الآن، بقية الدراسة تدخل في الكثير من التفاصيل حول كيفية إجراء الاختبارات،
00:06:51وكيف يحاولون التمييز بين الارتباط والسببية ولماذا يعتقدون
00:06:55أن هذه مشكلة. وكما قلت من قبل،
00:06:57فقد افترضوا أن النماذج الكبيرة تولد ردوداً مسهبة بشكل مفرط
00:07:02تحجب التفكير الصحيح، وهي ظاهرة أطلقوا عليها اسم "التفكير الزائد".
00:07:06إنها تحاول فقط طرح الكثير من الكلام.
00:07:07بدلاً من مجرد إعطائك الإجابة والابتعاد عن طريقها الخاص،
00:07:10فإنها تقود نفسها حرفياً إلى الإجابة الخاطئة.
00:07:13ويقولون على وجه التحديد إن الميل المتعلم نحو الشمولية يصبح
00:07:17نتائجه عكسية، مما يؤدي إلى تراكم الأخطاء،
00:07:21بينما تساعد قيود الإيجاز النماذج الكبيرة بشكل كبير بينما بالكاد تؤثر على
00:07:25النماذج الأصغر. والسؤال البديهي الذي يجب أن يتبادر لذهنك هو، حسناً لماذا،
00:07:28لماذا يحدث هذا أصلاً؟ لماذا تواجه هذه النماذج الأكبر هذه المشكلة؟
00:07:31إنهم يشيرون إلى التعلم التعزيزي.
00:07:34لذا عندما تقوم بتدريب نموذج جديد،
00:07:36تخيل أن Opus 5.0 في طور التدريب الآن.
00:07:40جزء مما يفعله المطورون هو التعلم التعزيزي.
00:07:42الآن لا أعرف ما إذا كانت Anthropic تفعل ذلك تحديداً،
00:07:44ولكن هذه هي الطريقة المتبعة في العديد من النماذج.
00:07:45في الأساس، يأخذون النموذج الجديد ويستعينون بإنسان لتقييم
00:07:50إجاباته. يعرضون إجابات متعددة ويقول الشخص،
00:07:52أحب هذه الإجابة أكثر من تلك. ويقولون في الدراسة،
00:07:55على الأرجح يميل البشر إلى تفضيل الإجابات الأكثر إسهاباً وتفصيلاً.
00:08:00وبسبب ذلك،
00:08:01يتم تدريب هذه النماذج الأكبر في الأساس على أن تكون أكثر إسهاباً بدلاً من
00:08:05أن تكون موجزة أو حتى صحيحة في بعض الحالات.
00:08:08لكن الاستنتاج الكبير هنا هو أن قيود الإيجاز عكست تماماً
00:08:12التسلسل الهرمي للأداء. فبينما كانت تخسر من قبل،
00:08:14أصبحت الآن تفوز ببساطة بمجرد إخبارها أن تكون أكثر إيجازاً.
00:08:18لم يغيروا طريقة تفكيرها ولم يغيروا أي شيء داخلياً.
00:08:20لقد قالوا فقط، كن مثل إنسان الكهف. حسناً، هم لم يستخدموا هذا المستودع حرفياً،
00:08:25ولكنه الشيء نفسه تماماً.
00:08:28ولهذا أعتقد أن هذا مثير للاهتمام حقاً،
00:08:31وليس مجرد مزحة عابرة، كما تعلمون،
00:08:32بعيداً عن حقيقة وجود بعض الإيجابيات في الرموز البرمجية هنا،
00:08:37فتوفير 5% من الرموز ليس بالأمر الهين،
00:08:39خاصة إذا لم تكن في خطة "ماكس 20".
00:08:41ولكن إذا كان هناك سيناريو محتمل حيث نحصل بالفعل على مخرجات أفضل
00:08:44بسببه، خاصة في الأسئلة الأكثر وضوحاً،
00:08:47لأنك إذا تعمقت في تلك الدراسة،
00:08:49فسوف توضح لك أنواع الأسئلة التي واجهت هذه المشكلة وهذه
00:08:53الديناميكية. إنه أمر مثير للاهتمام، ومثير للغاية،
00:08:56ولهذا أعتقد أن هذا الأمر يستحق النظر فيه.
00:08:58كما أنه سهل الاستخدام للغاية. إنه مجرد مجموعة مهارات.
00:09:02تثبيت هذا يتطلب حرفياً سطراً واحداً ثم تشغيله.
00:09:06إما أن نستدعيه باستخدام caveman/ أو نكتفي بقول شيء مثل،
00:09:09تحدث كإنسان كهف أو وضع إنسان الكهف أو رموز أقل من فضلك. هناك مستويات أيضاً.
00:09:13يمكننا تفعيل وضع "إنسان الكهف الفائق"، حسناً؟ كأننا خرجنا لتوّنا من المحيط.
00:09:17وبالكاد نستطيع الوقوف بشكل مستقيم. وهناك أيضاً الوضع الخفيف.
00:09:21لذا يمكنك الحصول على مستويات مختلفة من إنسان الكهف عبر السنين.
00:09:24وهو ليس شيئاً ثابتاً لا يتغير.
00:09:25أيضاً، أشياء مثل رسائل الخطأ يتم اقتباسها تماماً. ومرة أخرى،
00:09:29أي شيء له علاقة بالكود، أو بالتوليد،
00:09:31أو أي شيء يحدث داخلياً يظل كما هو. نحن لا نغير طريقة تفكيره حقاً.
00:09:35لذا بشكل عام، أعتقد أن هذا يستحق التجربة. إنها مهارة واحدة.
00:09:37إنها توفر الرموز ولا يوجد جانب سلبي حقيقي. وبناءً على الدراسة،
00:09:42هناك بالفعل فائدة محتملة هنا من حيث المخرجات.
00:09:45وإذا لم يعجبك موضوع إنسان الكهف برمته،
00:09:48فأعتقد أن هذا يشير على الأقل إلى وضع سطر في ملف
00:09:52spot.md الخاص بك يقول: كن موجزاً، بدون حشو،
00:09:56ادخل في صلب الموضوع مباشرة، استخدم كلمات أقل،
00:09:59لأن هناك ميزة واضحة لذلك، ليس فقط في الرموز،
00:10:03ولكن كما رأينا في الإجابات الفعلية التي يقدمها لنا.
00:10:06هذا هو المكان الذي سأنهي فيه حديثي معكم اليوم.
00:10:07ما بدا في الظاهر وكأنه مجرد مشروع فكاهي عابر،
00:10:11"caveman Claude" له ثقله في الواقع وله بعض، كما تعلمون،
00:10:15الصرامة العلمية وراء الأسباب،
00:10:17مما يجعله في رأيي شيئاً يستحق التنفيذ فعلياً.
00:10:21لذا كالعادة، أخبروني في التعليقات برأيكم،
00:10:25وتأكدوا من الاطلاع على "chase AI Plus".
00:10:26إذا كنتم ترغبون في الحصول على دورتي التدريبية المتقدمة في كود Claude،
00:10:29فهناك المزيد من التحديثات قادمة في هذا المجال خلال الأيام القليلة القادمة.
00:10:33ولكن عدا ذلك، سأراكم لاحقاً.

Key Takeaway

يؤدي إجبار النماذج اللغوية الكبيرة على استخدام لغة إنسان الكهف الموجزة إلى تحسين دقتها التقنية بنسبة 26% وتوفير 5% من استهلاك الرموز عبر القضاء على ظاهرة التفكير الزائد الناجمة عن الإسهاب البشري المبرمج.

Highlights

يقلل مستودع caveman على GitHub حجم مخرجات النص بنسبة تصل إلى 75% من خلال إجبار النموذج على التحدث بلغة إنسان الكهف المختصرة.

أدى فرض قيود الإيجاز على النماذج اللغوية الكبيرة إلى تحسين دقة الإجابات بمقدار 26 نقطة مئوية في دراسة شملت 31 نموذجاً.

تفوق نموذج بملياري معلمة على نموذج بـ 400 مليار معلمة في حالات محددة بسبب ظاهرة التفكير الزائد والحشو اللفظي في النماذج الضخمة.

يوفر أسلوب إنسان الكهف حوالي 5% من إجمالي الرموز (Tokens) في جلسة عمل قياسية تبلغ 100 ألف رمز عند حساب المدخلات والمخرجات معاً.

تميل عملية التعلم التعزيزي من خلال التقييم البشري (RLHF) إلى تفضيل الإجابات الطويلة، مما يدرب النماذج على الإسهاب المفرط على حساب الصحة التقنية.

يؤدي تقليل الكلمات غير الضرورية في ملفات الذاكرة مثل claud.md إلى ضغط رموز المدخلات بنسبة تقارب 45% لهذا الجزء المحدد.

Timeline

مستودع caveman وكفاءة الرموز البرمجية

  • حقق مستودع caveman انتشاراً واسعاً بـ 5000 نجمة على GitHub خلال 72 ساعة فقط.
  • يعمل الأسلوب على حذف الحشو اللفظي في استجابات كود كلاود لتحويلها إلى صيغة إنسان النياندرتال المختصرة.
  • تستهدف الأداة مخرجات النص فقط دون تغيير المنطق الداخلي أو كيفية توليد الكود الفعلي.

يعتمد المبدأ الأساسي على تقليل عدد الكلمات المستخدمة للوصول إلى الغرض المطلوب. يدعي المستودع تقليص المخرجات بنسبة 75% والمدخلات بنسبة 45% من خلال ضغط ملفات الذاكرة. تظل الدقة التقنية كاملة رغم اختفاء القواعد اللغوية التقليدية، حيث يتم التركيز فقط على الجوهر المعلوماتي.

تحليل أرقام توفير الرموز الحقيقية

  • تمثل الردود النصية التي يعدلها نمط إنسان الكهف جزءاً صغيراً من إجمالي استهلاك الرموز في الجلسة.
  • تصل نسبة التوفير الفعلية في جلسة بـ 100 ألف رمز إلى حوالي 5% فقط عند استثناء كتل الكود واستدعاءات الأدوات.
  • يعتبر توفير 5000 رمز لكل جلسة إجراءً لتحسين الهوامش وليس تغييراً جذرياً في حدود الاستخدام.

في جلسة مكونة من 75 ألف رمز للمدخلات و25 ألف للمخرجات، يتركز التوفير في الجزء النصي من المخرجات الذي يشغل عادة 6 آلاف رمز. عند تقليص هذا الجزء بنسبة 75%، يتم توفير 4000 رمز فقط. ينطبق الأمر نفسه على ملفات المدخلات، حيث يمثل ملف claud.md جزءاً بسيطاً من إجمالي سياق النظام، مما يجعل الأرقام البراقة مثل 87% مقتصرة على فئات محددة لا الجلسة كاملة.

ظاهرة التفكير الزائد وعكس تسلسل الأداء

  • كشفت دراسة قيود الإيجاز الصادرة في مارس أن النماذج الأكبر تعاني من تراجع الأداء بسبب الإسهاب التلقائي.
  • تعاني النماذج الضخمة من تراكم الأخطاء في 8% من المشكلات المعقدة نتيجة محاولة تقديم إجابات مفصلة للغاية.
  • يؤدي فرض الإيجاز إلى تقليص فجوات الأداء بين النماذج بمقدار الثلثين وتحسين الدقة بشكل فوري.

أظهر التقييم عبر 1500 مشكلة أن النماذج ذات المعلمات الأكثر بمئة مرة قد تخسر أمام نماذج صغيرة بـ 28 نقطة مئوية. تضيع النماذج الكبيرة في دوائر منطقية بسبب كثرة الكلام، وهو ما يسمى بالتفكير الزائد. عند إرغام هذه النماذج على التحدث مثل إنسان الكهف، يتوقف تراكم الأخطاء اللفظية وتستعيد النماذج الكبيرة تفوقها الطبيعي.

دور التعلم التعزيزي في إضعاف دقة النماذج

  • يرجع سبب الإسهاب المفرط في النماذج الكبيرة إلى تفضيل البشر للإجابات الطويلة أثناء مراحل التدريب.
  • يؤدي الميل البشري نحو الشمولية إلى تدريب النماذج على الحشو بدلاً من الدقة التقنية المحضة.
  • تفعيل وضع إنسان الكهف الفائق أو إضافة تعليمات الإيجاز في ملفات الإعداد يحقق نتائج أفضل دون سلبيات.

تستخدم شركات تطوير الذكاء الاصطناعي مقيمين بشريين يميلون غريزياً لتفضيل الردود المفصلة، مما يرسخ صفة الإسهاب في النماذج الرائدة. يمكن للمستخدمين محاكاة فوائد دراسة الإيجاز بإضافة تعليمات مباشرة مثل "كن موجزاً، بدون حشو، ادخل في صلب الموضوع". يثبت هذا النهج أن البساطة في التواصل مع الذكاء الاصطناعي ليست مجرد توفير للتكلفة، بل وسيلة لرفع جودة الاستنتاج المنطقي.

Community Posts

View all posts