00:00:00إن جعل كود السحابة يتحدث مثل إنسان الكهف قد لا يوفر لك الرموز البرمجية فحسب،
00:00:04بل قد يؤدي في الواقع إلى تحسين أدائك أيضاً. الآن، في الظاهر،
00:00:07يبدو هذا وكأنه مجرد مزحة عابرة. لدينا مستودع على GitHub يسمى "caveman".
00:00:12وقد حصل على 5000 نجمة في غضون 72 ساعة.
00:00:15وكل ما يفعله هو إجبار كود السحابة على التحدث مثل إنسان "النياندرتال".
00:00:19فهو يزيل كل الحشو. الفكرة هي أنه بجعله أكثر إيجازاً،
00:00:24فإننا نوفر الكثير من الرموز البرمجية في هذه العملية،
00:00:27ولكن في طيات هذا المستودع يوجد رابط لورقة بحثية صدرت لتوها قبل بضعة
00:00:31أسابيع،
00:00:31والتي تخبرنا أننا إذا أجبرنا نماذجنا اللغوية الكبيرة على أن تكون أكثر إيجازاً،
00:00:36فلن نوفر الرموز البرمجية فحسب، بل يمكننا تحسين أدائها بشكل كبير.
00:00:40لذا سأقوم اليوم بتحليل مهارة إنسان الكهف هذه بالكامل.
00:00:42سأشرح ما الذي ستحصل عليه فعلياً لأن الأرقام الموجودة في المستودع
00:00:46مضللة قليلاً، وسنتحدث عن هذه الورقة البحثية حتى تتمكن من
00:00:50فهم ما يعنيه هذا بالنسبة لك بالفعل. إذاً هذا هو "caveman"،
00:00:54مستودعنا القائم على مبدأ "لماذا نقول كلمات كثيرة بينما القليل يفي بالغرض".
00:00:58والآن، ما الذي يفعله تحديداً؟ الأمر بسيط للغاية،
00:01:02قص حشو الكلام في كود السحابة. والآن أصبح يتحدث مثل إنسان الكهف.
00:01:07إنه يقدم لنا بعض الأمثلة قبل وبعد، ويوضح الفرق في الرموز، بل
00:01:11ويحتوي على قائمة معايير كاملة توضح المهام التي كلف بها كود السحابة،
00:01:15مثل شرح خطأ في React، والرموز العادية المستخدمة،
00:01:19ورموز إنسان الكهف، والكمية التي تم توفيرها.
00:01:21والآن، الأرقام المطروحة في هذا المستودع جنونية نوعاً ما.
00:01:23فهم يزعمون أنه باستخدام هذه المهارة،
00:01:26سنقوم بتقليص 75% من رموز المخرجات مع الحفاظ على الدقة التقنية
00:01:30الكاملة.
00:01:31أسلوب إنسان الكهف هذا لا يغير طريقة تفكير كود السحابة داخلياً.
00:01:35ولا يغير كيفية توليد الكود فعلياً. لا شيء من ذلك يتغير.
00:01:38الأمر يتعلق فقط بالمخرجات. ما تراه كاستجابة.
00:01:41ويتضمن أيضاً أداة مساعدة تقوم بضغط ملفات الذاكرة الخاصة بك.
00:01:45فكر في تحويل claud.md إلى لغة إنسان الكهف.
00:01:47ومن المفترض أن يقلل ذلك رموز المدخلات بنسبة 45% في كل جلسة.
00:01:52والآن لنكن واضحين. أنت لا تقلص 75% من إجمالي رموز المخرجات،
00:01:57ولا 45% من إجمالي رموز المدخلات على الإطلاق. هذا غير صحيح تماماً.
00:02:01على الرغم من أننا نرى هذه الأشياء التي تقول، مهلاً،
00:02:03إنه يوفر 87% من الرموز في شرحه لخطأ في React.
00:02:07فإن الرد الذي تحصل عليه من كود السحابة، الاستجابة نفسها،
00:02:11النص ليس سوى جزء صغير من إجمالي رموز المخرجات،
00:02:15تماماً مثل ملفات الذاكرة،
00:02:17حيث أن claud.md هو مجرد جزء صغير من المدخلات ككل.
00:02:21لذا لنكن واضحين جداً بشأن ما يقدمه لنا هذا فعلياً على مقياس الرموز.
00:02:25أنت لا توفر 80% من إجمالي رموزك. ولجعل الأمر أكثر وضوحاً،
00:02:28دعونا نحلل جلسة عمل متوسطة بـ 100 ألف رمز في كود السحابة. الآن،
00:02:32أدرك أن كل جلسة تختلف قليلاً، ولكن تابعوا معي هنا.
00:02:36لدينا جلسة بـ 100 ألف رمز، وهي مقسمة إلى جزأين.
00:02:40المدخلات، والتي تمثل حصة الأسد.
00:02:42أي 75 ألف رمز، والمخرجات التي تمثل 25%.
00:02:46والآن يدعي إنسان الكهف أننا سنقلل المخرجات بنسبة 75%.
00:02:51وهذا غير صحيح. إذا ألقينا نظرة على المخرجات، فهي تتكون فعلياً من ثلاثة أجزاء، أليس كذلك؟
00:02:56لدينا استدعاءات الأدوات، والتي تأخذ جزءاً منها، وكتل الكود،
00:02:59مثل توليد الكود الفعلي، الذي يأخذ جزءاً منها.
00:03:02وبعد ذلك الردود النصية الفعلية، هذا الرد،
00:03:06تلك الاستجابة النصية الداخلية، هي ما يقوم إنسان الكهف بتعديله.
00:03:10هذا ما يقلله. يمكنه تقليل 75% من ذلك. كما تعلمون،
00:03:13إذا نزلنا هنا، يمكننا أن نرى، حسناً،
00:03:16عادةً ما يأخذ النص 6 آلاف رمز، ولكن مع إنسان الكهف،
00:03:20نوفر 4000 رمز. وبذلك نحصل على تخفيض بنسبة 4%. هذا لا يزال جيداً حقاً.
00:03:25إذا كنا نوفر 4% من إجمالي رموزنا على مدار الأسبوع،
00:03:29فإن ذلك يتراكم بالتأكيد،
00:03:30خاصة في البيئة الحالية حيث ندرك جميعاً استهلاكنا.
00:03:33ولكن افهموا أن هذا ليس 87%. إنه 70%،
00:03:38أو 60% من جزء واحد من جزء من إجمالي الجلسة.
00:03:43علاوة على ذلك،
00:03:44إذا نظرت إلى المدخلات وحديثه عن توفير ضغط إنسان الكهف بنسبة 45%،
00:03:49مرة أخرى، ليس الأمر كذلك تماماً.
00:03:50نحن نتحدث عن منطقة موجه النظام وأجزاء معينة فقط من
00:03:54موجه النظام. لذا في الإجمالي هنا، ماذا نوفر؟ ربما ألف رمز،
00:03:58أو ربما 2000 رمز. وعلى مدار الجلسة بأكملها، أكرر.
00:04:03إذا وفرت 5000 رمز، أي 5% من كل جلسة، فهذا أمر رائع وجيد،
00:04:07لكنها ليست هذه الأرقام البراقة. لذا افهموا ذلك منذ البداية،
00:04:13هذا إجراء لتحسين الهوامش. هذا ليس تغييراً جذرياً.
00:04:15لن تتمكن من الانتقال من الخطة القصوى بـ 5 أضعاف إلى 20 ضعفاً
00:04:19لمجرد أننا نوفر 75%. لا، لا، لا،
00:04:22ولكن لا تزال هناك قيمة كبيرة يمكن إضافتها هنا وقيمة أكبر يمكن
00:04:25استخلاصها. بمجرد أن نلقي نظرة على الدراسة المدفونة هنا.
00:04:29هناك قسم صغير مخصص لها،
00:04:31ولكن هذه دراسة تسمى "قيود الإيجاز،
00:04:34عكس التسلسل الهرمي للأداء في النماذج اللغوية".
00:04:36وقد صدرت هذه الدراسة في أوائل مارس من هذا العام.
00:04:38لذا سأضع رابطاً للدراسة في الوصف إذا كنت ترغب في الاطلاع عليها،
00:04:41ولكن لنتحدث عنها سريعاً لأنها مثيرة للاهتمام حقاً.
00:04:45لأن الفكرة والتوقعات هي أن النموذج الأكبر،
00:04:49دائماً أفضل من النموذج الأصغر. حسناً،
00:04:53ليس بالضبط، ليس وفقاً لهذه الدراسة.
00:04:56ففي هذه الدراسة قاموا بتقييم 31 نموذجاً عبر 1500
00:05:01مشكلة،
00:05:02وحددوا الآلية على أنها الإسهاب التلقائي المعتمد على الحجم الذي
00:05:07يتسبب في أخطاء من خلال الإفراط في التفصيل. ماذا يعني هذا بحق السماء؟
00:05:11هذا يعني أنه في ما يقرب من 8% من المشاكل عبر هذه الـ 1500 مشكلة و
00:05:16الـ 31 نموذجاً، فإن النماذج اللغوية الأكبر،
00:05:19تلك التي تمتلك معلمات أكثر، كان أداؤها أقل من النماذج الأصغر بـ 28
00:05:24نقطة مئوية، على الرغم من امتلاكها معلمات أكثر بمئة مرة في بعض الحالات.
00:05:28لذلك كانت هناك سيناريوهات، مرة أخرى، وهذا مع جميع النماذج مفتوحة المصدر.
00:05:32كان لديك نموذج بملياري معلمة يتفوق في الأداء على نموذج بـ 400
00:05:37مليار معلمة. لقد حدث هذا عدة مرات. هذا جنون.
00:05:41لماذا هذا؟ حسناً،
00:05:43يفترضون أن السبب في ذلك هو أن هذه النماذج اللغوية
00:05:49الكبيرة تتحدث كثيراً وبشكل مفرط.
00:05:51فهي مسهبة للغاية لدرجة أنها تدور حول نفسها في
00:05:55دوائر وتحصل على إجابة خاطئة بسبب ذلك. وفي الدراسة،
00:05:58وجدوا أنه من خلال إلزام النماذج الكبيرة بتقديم ردود موجزة،
00:06:02مثل ردود إنسان الكهف، تتحسن الدقة بمقدار 26 نقطة مئوية وتقل
00:06:07فجوات الأداء بنسبة تصل إلى الثلثين.
00:06:09وفي كثير من الحالات، من خلال إجبار هذه النماذج اللغوية الكبيرة على أن تصبح أكثر إيجازاً،
00:06:14وأكثر شبهاً بإنسان الكهف، تغيرت تلك الديناميكية تماماً، فبينما كانت
00:06:18تخسر أمام النماذج الأصغر من قبل، أصبحت الآن تهزمها.
00:06:21هذا أمر مذهل حقاً، خاصة في سياق مستودع GitHub هذا. الآن،
00:06:26من الواضح أن هذه نماذج مفتوحة المصدر. هذا ليس Opus 4.6.
00:06:29وهذا ليس Codex 5.4.
00:06:30هل تظهر هذه النماذج الرائدة نفس هذا النوع من السلوك بالضبط؟
00:06:34نحن لا نعرف بالضرورة على وجه اليقين،
00:06:36ولكن إذا رأيت أيًا من هذه الدراسات، ستفهم أن ما تراه هنا عادةً
00:06:40يميل إلى التكرار على مستوى ما مع النماذج الرائدة.
00:06:44ربما ليس بهذا التطرف، ولكن من المحتمل أن يكون هناك شيء من هذا القبيل.
00:06:47الآن، بقية الدراسة تدخل في الكثير من التفاصيل حول كيفية إجراء الاختبارات،
00:06:51وكيف يحاولون التمييز بين الارتباط والسببية ولماذا يعتقدون
00:06:55أن هذه مشكلة. وكما قلت من قبل،
00:06:57فقد افترضوا أن النماذج الكبيرة تولد ردوداً مسهبة بشكل مفرط
00:07:02تحجب التفكير الصحيح، وهي ظاهرة أطلقوا عليها اسم "التفكير الزائد".
00:07:06إنها تحاول فقط طرح الكثير من الكلام.
00:07:07بدلاً من مجرد إعطائك الإجابة والابتعاد عن طريقها الخاص،
00:07:10فإنها تقود نفسها حرفياً إلى الإجابة الخاطئة.
00:07:13ويقولون على وجه التحديد إن الميل المتعلم نحو الشمولية يصبح
00:07:17نتائجه عكسية، مما يؤدي إلى تراكم الأخطاء،
00:07:21بينما تساعد قيود الإيجاز النماذج الكبيرة بشكل كبير بينما بالكاد تؤثر على
00:07:25النماذج الأصغر. والسؤال البديهي الذي يجب أن يتبادر لذهنك هو، حسناً لماذا،
00:07:28لماذا يحدث هذا أصلاً؟ لماذا تواجه هذه النماذج الأكبر هذه المشكلة؟
00:07:31إنهم يشيرون إلى التعلم التعزيزي.
00:07:34لذا عندما تقوم بتدريب نموذج جديد،
00:07:36تخيل أن Opus 5.0 في طور التدريب الآن.
00:07:40جزء مما يفعله المطورون هو التعلم التعزيزي.
00:07:42الآن لا أعرف ما إذا كانت Anthropic تفعل ذلك تحديداً،
00:07:44ولكن هذه هي الطريقة المتبعة في العديد من النماذج.
00:07:45في الأساس، يأخذون النموذج الجديد ويستعينون بإنسان لتقييم
00:07:50إجاباته. يعرضون إجابات متعددة ويقول الشخص،
00:07:52أحب هذه الإجابة أكثر من تلك. ويقولون في الدراسة،
00:07:55على الأرجح يميل البشر إلى تفضيل الإجابات الأكثر إسهاباً وتفصيلاً.
00:08:00وبسبب ذلك،
00:08:01يتم تدريب هذه النماذج الأكبر في الأساس على أن تكون أكثر إسهاباً بدلاً من
00:08:05أن تكون موجزة أو حتى صحيحة في بعض الحالات.
00:08:08لكن الاستنتاج الكبير هنا هو أن قيود الإيجاز عكست تماماً
00:08:12التسلسل الهرمي للأداء. فبينما كانت تخسر من قبل،
00:08:14أصبحت الآن تفوز ببساطة بمجرد إخبارها أن تكون أكثر إيجازاً.
00:08:18لم يغيروا طريقة تفكيرها ولم يغيروا أي شيء داخلياً.
00:08:20لقد قالوا فقط، كن مثل إنسان الكهف. حسناً، هم لم يستخدموا هذا المستودع حرفياً،
00:08:25ولكنه الشيء نفسه تماماً.
00:08:28ولهذا أعتقد أن هذا مثير للاهتمام حقاً،
00:08:31وليس مجرد مزحة عابرة، كما تعلمون،
00:08:32بعيداً عن حقيقة وجود بعض الإيجابيات في الرموز البرمجية هنا،
00:08:37فتوفير 5% من الرموز ليس بالأمر الهين،
00:08:39خاصة إذا لم تكن في خطة "ماكس 20".
00:08:41ولكن إذا كان هناك سيناريو محتمل حيث نحصل بالفعل على مخرجات أفضل
00:08:44بسببه، خاصة في الأسئلة الأكثر وضوحاً،
00:08:47لأنك إذا تعمقت في تلك الدراسة،
00:08:49فسوف توضح لك أنواع الأسئلة التي واجهت هذه المشكلة وهذه
00:08:53الديناميكية. إنه أمر مثير للاهتمام، ومثير للغاية،
00:08:56ولهذا أعتقد أن هذا الأمر يستحق النظر فيه.
00:08:58كما أنه سهل الاستخدام للغاية. إنه مجرد مجموعة مهارات.
00:09:02تثبيت هذا يتطلب حرفياً سطراً واحداً ثم تشغيله.
00:09:06إما أن نستدعيه باستخدام caveman/ أو نكتفي بقول شيء مثل،
00:09:09تحدث كإنسان كهف أو وضع إنسان الكهف أو رموز أقل من فضلك. هناك مستويات أيضاً.
00:09:13يمكننا تفعيل وضع "إنسان الكهف الفائق"، حسناً؟ كأننا خرجنا لتوّنا من المحيط.
00:09:17وبالكاد نستطيع الوقوف بشكل مستقيم. وهناك أيضاً الوضع الخفيف.
00:09:21لذا يمكنك الحصول على مستويات مختلفة من إنسان الكهف عبر السنين.
00:09:24وهو ليس شيئاً ثابتاً لا يتغير.
00:09:25أيضاً، أشياء مثل رسائل الخطأ يتم اقتباسها تماماً. ومرة أخرى،
00:09:29أي شيء له علاقة بالكود، أو بالتوليد،
00:09:31أو أي شيء يحدث داخلياً يظل كما هو. نحن لا نغير طريقة تفكيره حقاً.
00:09:35لذا بشكل عام، أعتقد أن هذا يستحق التجربة. إنها مهارة واحدة.
00:09:37إنها توفر الرموز ولا يوجد جانب سلبي حقيقي. وبناءً على الدراسة،
00:09:42هناك بالفعل فائدة محتملة هنا من حيث المخرجات.
00:09:45وإذا لم يعجبك موضوع إنسان الكهف برمته،
00:09:48فأعتقد أن هذا يشير على الأقل إلى وضع سطر في ملف
00:09:52spot.md الخاص بك يقول: كن موجزاً، بدون حشو،
00:09:56ادخل في صلب الموضوع مباشرة، استخدم كلمات أقل،
00:09:59لأن هناك ميزة واضحة لذلك، ليس فقط في الرموز،
00:10:03ولكن كما رأينا في الإجابات الفعلية التي يقدمها لنا.
00:10:06هذا هو المكان الذي سأنهي فيه حديثي معكم اليوم.
00:10:07ما بدا في الظاهر وكأنه مجرد مشروع فكاهي عابر،
00:10:11"caveman Claude" له ثقله في الواقع وله بعض، كما تعلمون،
00:10:15الصرامة العلمية وراء الأسباب،
00:10:17مما يجعله في رأيي شيئاً يستحق التنفيذ فعلياً.
00:10:21لذا كالعادة، أخبروني في التعليقات برأيكم،
00:10:25وتأكدوا من الاطلاع على "chase AI Plus".
00:10:26إذا كنتم ترغبون في الحصول على دورتي التدريبية المتقدمة في كود Claude،
00:10:29فهناك المزيد من التحديثات قادمة في هذا المجال خلال الأيام القليلة القادمة.
00:10:33ولكن عدا ذلك، سأراكم لاحقاً.