00:00:00أصدرت شركة Anthropic للتو نموذج Clawed Opus 4.6، وحقق أعلى درجة على مقياس Terminal Bench 2.0 مقارنة بأي نموذج آخر
00:00:06آسف لمقاطعة برمجتكم هنا
00:00:10لكن تبين أن برنامج ترميز GPT 5.3 قد صدر للتو، وهو يتفوق بالفعل على Opus 4.6 في Terminal Bench بنسبة تزيد عن 10%
00:00:16لذا يبدو أن هيمنة Anthropic لم تدم سوى لبضع دقائق. المنافسة بين هذين النموذجين تشتعل حقاً
00:00:23لذا فأنا فضولي جداً لرؤية الجديد في هذه النماذج ومعرفة أيهما أفضل للاستخدام، ففي الآونة الأخيرة...
00:00:29كان GPT 5.2 هو الأفضل بالنسبة لي
00:00:31لذا أنا مهتم برؤية ما إذا كان Clawed قادراً على استعادة ميزته، أم أن OpenAI كانت جاهزة ببرمجيات GPT 5.3
00:00:37أولاً، ملخص سريع لما هو جديد في هذه النماذج، فجميعنا نعلم أنها ستكون أفضل من إصداراتها السابقة في الاختبارات
00:00:48والتي سأعرضها في النهاية، ولكن هل تغير أي شيء آخر في النماذج بالفعل؟
00:00:52بالنسبة لنموذج Opus
00:00:53فهم يزعمون أنه قادر على التخطيط بدقة أكبر والاستمرار في المهام الوكيلية لفترة أطول، والعمل بموثوقية أكبر في قواعد الأكواد الكبيرة مع
00:01:00مهارات أفضل في مراجعة الأكواد وتصحيح الأخطاء لاكتشاف زلاته الخاصة
00:01:02هذه في الواقع بعض الأشياء التي وجدت أن Opus كان الأضعف فيها مقارنة بـ GPT 5.2. فمن خلال تجربتي
00:01:08كان عادةً ما يبدأ البرمجة بشكل أسرع، لكنه كان يرتكب أخطاءً أكثر قليلاً
00:01:12بينما كان GPT 5.2 يستغرق وقتاً أطول قليلاً لبدء البرمجة لكنه يفهم سياق المستودع البرمجي بشكل أفضل
00:01:17لذا نأمل أن تعمل هذه التغييرات على تحسين Opus هنا، ومن المرجح أيضاً أن يتطور بفضل نافذة السياق الجديدة التي تبلغ مليون
00:01:23كلمة (token)
00:01:24رغم أنهم ذكروا أن هذا لا يزال في المرحلة التجريبية وبشكل مشابه للمزودين الآخرين
00:01:27سيكلفك ذلك مبالغ إضافية؛ فالأوامر التي تتجاوز 200 ألف token ستكلفك 10 دولارات لكل مليون token مدخل و
00:01:3337.50 دولاراً لكل مليون token مخرج. ننتقل الآن إلى برنامج ترميز 5.3
00:01:38تقول OpenAI إن هذا النموذج يطور أداء البرمجة المتقدم لـ GPT 5.2 وقدرات الاستنتاج والمعرفة المهنية
00:01:45لنموذج GPT 5.2 معاً في نموذج واحد، وهو أيضاً أسرع بنسبة 25%
00:01:51هذا من شأنه أن يمكنه من تولي المهام الطويلة التي تتطلب البحث واستخدام الأدوات والتنفيذ المعقد
00:01:57لذا يبدو حقاً أنهم دفعوا بهذا النموذج ليكون شاملاً، حيث يجمع بين معرفة GPT 5.2 وقدرات برمجية محسنة
00:02:03ولكن كل هذا مجرد كلام تسويقي
00:02:05فلنضع هذه النماذج تحت اختبارات واقعية، والاختبار الأول كان تحديث حزمة وكيل convex لدعم AI SDK v6
00:02:11لقد أعجبتني قاعدة بيانات convex مؤخراً، وهذه الحزمة تساعد ببساطة في ربط AI SDK بقاعدة البيانات
00:02:19لذا ستحصل على أداء جيد جداً، لكن المشكلة هي أنها لم تُحدث إلى الإصدار الأخير
00:02:23كما ترون هنا في توثيق Vercel، الانتقال من الإصدار الخامس إلى السادس ليس بالأمر السهل
00:02:28فقد أجروا الكثير من التغييرات الجذرية وغيروا العديد من الأنواع البرمجية (types)
00:02:32لذا قمت بإنشاء تطبيق دردشة أساسي في convex يعمل باستخدام حزمة الوكيل
00:02:36لكن بمجرد تحديث الحزم للإصدار السادس، ظهرت لي مجموعة كبيرة من أخطاء البناء والأنواع
00:02:40وطلبت ببساطة من النماذج إصلاحها. يمكنكم رؤية الأمر الذي استخدمته هنا في برنامج الترميز
00:02:44قلت: “أقوم ببناء تطبيق دردشة باستخدام convex وكان لدي نسخة تعمل”
00:02:46لكنني قمت بالترقية للإصدار السادس وأحتاج لإصلاح أخطاء الأنواع والبناء
00:02:50زودته بدليل الانتقال ليستخدمه كمرجع إذا أراد، وقلت له إنني أريد أن تنجح جميع الاختبارات
00:02:55مع تجنب حيل TypeScript مثل استخدام “as any” قدر الإمكان، حيث أرى الكثير من النماذج تفعل ذلك
00:02:59لذا طلبت منه تحديداً ألا يفعل ذلك، لوجود أنواع معقدة جداً في AI SDK حالياً
00:03:03وبما أننا بدأنا ببرنامج الترميز، يمكننا رؤية أداء 5.3؛ حيث بدأ بـ
00:03:09فهم المستودع البرمجي، وكما ترون أدرك أنه مستودع أحادي (mono repo) مع حزمة الوكيل التي كانت لدينا، ثم حدد بعض
00:03:15الأسباب الجذرية وبعض الحزم التي تحتاج لتحديث، ووضع خطة مفصلة لكيفية إنجاز هذه المهمة وبعد ذلك
00:03:22بدأ بالبرمجة وأجرى بضعة تغييرات وكان يشغل عملية البناء بين الحين والآخر، وعمل ببساطة على
00:03:27إصلاح كل أخطاء الأنواع تلك، وبشكل عام استمر في العمل لمدة 40 دقيقة دون انقطاع
00:03:32وهو ما أبهرني حقاً. يمكنكم رؤية أنه أضاف بالفعل 545 سطراً برمجياً وحذف 111 سطراً
00:03:35أما في Clawed
00:03:39فقد أعطيته نسخة من نفس المشروع واستخدمت نفس الأمر بالضبط، ومرة أخرى استمر في العمل على المهمة لحوالي 40
00:03:44دقيقة، وظهرت بعض أخطاء البناء عندما حاولت تشغيله بالفعل
00:03:48لذا اضطررت لإرسال أمر إضافي لجعل Opus يعطيني نسخة تعمل من الكود
00:03:53ولكن مرة أخرى، كانت التجربة مشابهة جداً لما رأيناه في برنامج الترميز
00:03:56لكن يجب أن أقول إنني أحب واجهة مستخدم برنامج الترميز حقاً، وأفضلها على واجهة الأوامر الطرفية (Terminal UI)، أعتذر عن ذلك
00:04:02على أي حال، يمكنني التأكيد أنه بعد أمر واحد لبرنامج ترميز 5.3 وأمرين لـ Opus 4.6
00:04:06نجح كلاهما في ترقية حزمة الوكيل للإصدار الجديد من AI SDK دون أي أخطاء في الأنواع
00:04:11أو أخطاء في البناء ومع اجتياز جميع الاختبارات، لكنهما تعاملا مع الأمر بطرق مختلفة
00:04:16هنا لدي برنامج الترميز على اليسار والتغييرات التي أجراها Opus على اليمين
00:04:19يمكنكم رؤية أن Opus أجرى تغييرات أكثر قليلاً في المشروع مقارنة ببرنامج الترميز
00:04:23لقد تعاملا مع بعض الميزات بشكل مختلف قليلاً
00:04:25أحد الأشياء التي أداها برنامج الترميز بشكل جيد هو إضافة منطق طلب الموافقة على الأداة هنا
00:04:30كان هذا شيئاً جديداً في AI SDK v6، ولم أجد أي ذكر له في Opus
00:04:35يبدو أنه تجاوزه ببساطة ولم يقم بإضافته فعلياً إلى الكود
00:04:40لكن الشيء الذي أعتقد أن برنامج الترميز أخفق فيه هو أنه في رسائل واجهة المستخدم أضاف
00:04:46دالة خاصة به لتحويل رسالة الواجهة إلى رسالة نموذج
00:04:50وإذا كنت لا تعلم، فإن AI SDK يوفر بالفعل دالة للقيام بذلك وكان يجب عليه استخدامها بدلاً من ذلك
00:04:57يمكنكم أن تروا بالمقارنة الجانبية أن Opus فعل ذلك بشكل صحيح
00:05:00حيث استخدم دالة “convert to model messages” المدمجة في حزمة AI SDK
00:05:04وهذا يعني مستقبلاً أنه في حال قاموا بتحديث هذه الحزمة
00:05:07فلن أضطر للقلق بشأن إجراء أي تغييرات على نسختي الخاصة لأنني أعتمد على الدالة
00:05:13المتوفرة في الحزمة
00:05:14لذا كان هذا أمراً مزعجاً قليلاً واعتبرته علامة تحذير عندما كنت أراجع هذا الكود
00:05:19ولكن للحصول على رأي ثانٍ في مراجعتي للكود
00:05:20قمت بإرسال العمل مرة أخرى لبرنامج ترميز 5.3 وطلبت منه القيام بالمراجعة معي، وترون أنه ذكر
00:05:26مزايا وعيوب كل نهج هنا
00:05:29ولكن في النهاية أعطاني استنتاجاً، وفضل برنامج ترميز 5.3 نسخة دردشة Opus لأن هندسة الانتقال فيها كانت أفضل
00:05:36وإذا توجب عليه اختيار قاعدة برمجية واحدة لإطلاقها بأمان
00:05:39فسيختار دردشة Opus ثم يسحب إليها منطق معالجة الموافقة والرفض من نسخة برنامج الترميز
00:05:43أي تلك الدالة الإضافية التي رأيناها لطلب الموافقة على الأداة
00:05:46يقول ببساطة خذ ذلك من نسخة برنامج الترميز وأضفه لنسخة Opus وسنحصل على انتقال أفضل
00:05:51من الجيد على الأقل رؤية أن برنامج ترميز 5.3 ليس منحازاً ولم يختر نفسه
00:05:55لكن يجب أن أعترف أن الطريقة التي تعامل بها كلاهما مع الانتقال كانت متشابهة جداً وكان بإمكاني توجيههما
00:06:01للاتجاه الصحيح، لكن اختباراً واحداً لا يكفي
00:06:03لذا في الاختبار التالي، وهو أقل جدية قليلاً، طلبت منهما إنشاء نسخة مشابهة للعبة Club Penguin
00:06:08باستخدام مكتبة 3js. لن أخبركم أيهما لأي نموذج، ولكن هذه هي اللعبة الأولى التي حصلنا عليها
00:06:13ترون هنا خيار “أنشئ بطريقك” ونرى الأفاتار في الأعلى يتغير
00:06:17يمكنني إضافة بعض القبعات هنا؛ قبعة حفلات، قبعة مروحية، تاج
00:06:21سأختار القبعة المروحية وأضغط على “بدء اللعب”، وإذا كنت تعرف أي شيء عن Club Penguin
00:06:26فسأقول إنها أدت عملاً جيداً في محاكاة وسط المدينة، رغم أن متجر البيتزا ليس هنا
00:06:32وعادةً ما يكون هناك مركز ديسكو هنا، ولا يمكنك فعلياً دخول أي من هذه المباني
00:06:35كما ترون، ليست أياً منها صلبة بعد
00:06:37لكن ما فعله بشكل جيد هو أنه بالذهاب إلى الخريطة، يمكننا الانتقال لمناطق مختلفة
00:06:41مثل قرية التزلج، وإذا ضغطت وتحركت هنا
00:06:44أعتقد أن بطريقي يبدو جيداً بالنسبة لشيء صُنع بـ 3js دون أن أزوده بأي أصول رسومية أو ما شابه
00:06:49لقد فعل كل هذا من تدريبه الخاص، ويمكننا الدخول ولعب لعبة سباق الزلاجات هنا
00:06:54والتي كانت المفضلة لدي في Club Penguin، وبالتأكيد هناك بعض الأشياء الناقصة
00:06:59يجب أن أعترف، لكنها محاولة أولى جيدة جداً وقد فعل كل ذلك بأمر واحد
00:07:04كما يمكنني التأكيد أن هذا الإصدار تضمن محاولة للعبة “cart surfer” هنا
00:07:07والتي كانت المفضلة لدي أيضاً، لكن هذا الإصدار يبدو معطلاً قليلاً
00:07:11يمكنك فقط التحرك من جانب لآخر، والآن أعتقد أنني تحت الخريطة. والجو أصبح مظلماً جداً
00:07:15وهذا ما قدمه لي النموذج الآخر، وأريد منكم أن تكتبوا في التعليقات
00:07:18أي نموذج تعتقدون أنه أدى عملاً أفضل، وهل يمكنكم تخمين النموذج الذي صنع كل نسخة؟
00:07:22سأخبركم في نهاية هذا الاختبار. كما ترون في هذه النسخة
00:07:25لدينا نفس أدوات اختيار الألوان التي كانت في الأمر
00:07:27ولدينا أيضاً القبعات والإكسسوارات هنا. سأختار التاج هذه المرة ونضغط على “بدء الاستكشاف”
00:07:31البطريق يبدو أكثر سمنة قليلاً في هذا الإصدار، وهو مضحك أكثر، لكن مجدداً، لم أعطه أي أصول رسومية
00:07:36هذا صُنع من الصفر باستخدام 3js
00:07:38وتواجهه نفس المشكلة حيث يمكنك المشي عبر المباني
00:07:41لكن لدينا الخريطة وكل المناطق المختلفة هنا
00:07:44لذا إذا ذهبت لقرية التزلج
00:07:46يفترض أن أتمكن من اللعب، لذا سألعب سباق الزلاجات هنا وللأمانة
00:07:50هذا مشابه جداً للنسخة الأخرى من لعبة سباق الزلاجات التي رأيناها
00:07:53ترون بعض الأشجار تظهر في الأفق هنا
00:07:56ولدينا ثلاث محاولات وعداد المحاولات يعمل فعلياً
00:07:58لكن لا يبدو أننا نستطيع القفز في هذا الإصدار
00:08:01بيد أن هذا النموذج أعطاني أيضاً نسخة من لعبة “cart surfer”
00:08:04لكن مرة أخرى، هذا الإصدار غريب قليلاً
00:08:06رغم أنني أظن أنه يعمل بشكل أفضل لأنك تستطيع رؤية الأشياء ويمكنك القفز، ولكن
00:08:11لست متأكداً أين أتزلج بالضبط، لا يوجد سكة حديدية، وبشكل عام ليست هي اللعبة
00:08:17التي أتذكرها من Club Penguin، ولكن في المجمل
00:08:19أنا منبهر دائماً بما تستطيع هذه النماذج فعله بأمر واحد خاصة مع 3js، وإذا كنتم تتساءلون عن صاحب كل نسخة
00:08:25فالأولى كانت لـ Opus 4.6 والثانية لبرنامج ترميز 5.3، وأعتقد أنني أفضل الأولى
00:08:30لذا أعتقد أن Opus 4.6 فاز في اختبار Club Penguin. والاختبار النهائي
00:08:34الذي أجريته على هذه النماذج كان لمعرفة مدى براعتها في تصميم واجهة المستخدم، فالنماذج أصبحت جيدة جداً في ذلك
00:08:38لذا أعطيت كلاهما أمراً لبناء صفحة هبوط لموقع تواصل اجتماعي مخصص للذكاء الاصطناعي فقط
00:08:42مشابه لموقع molt book، ويجب أن تكون الصفحة متهكمة وتركز على المستقبل والذكاء الاصطناعي فقط، وبملف HTML واحد
00:08:49هذه هي النتيجة التي حصلت عليها من كلاهما، ويجب أن أعترف أنني منبهر جداً ببرنامج الترميز هنا
00:08:55لدينا برنامج ترميز 5.3 على اليسار و Opus 4.6 على اليمين، وأعجبتني حقاً الطريقة التي صمم بها برنامج الترميز
00:09:005.3 هذا الموقع
00:09:01لقد اختار تصميم “النيو-بروتالية” (neo brutalism) وهو ممتع أكثر من بعض المواقع الأخرى ذات التصاميم النمطية
00:09:06أعتقد أن Opus 4.6 هنا، رغم جودة تصميمه، يبدو كتطبيق نمطي معتاد. لقد أداه بشكل جيد جداً
00:09:13يجب أن أعترف، ولكن مرة أخرى
00:09:14يحتوي على تدرجات اللون الأرجواني وكل شيء فيه يوحي بأنه تصميم آلي نمطي، بينما أشعر أن نسخة برنامج ترميز
00:09:205.3 تبدو كأن شخصاً ما قد وضع فيها لمسة يدوية أو ربما وُجه للذهاب في هذا الاتجاه
00:09:25رغم أنني أعطيتهما نفس الأمر بالضبط
00:09:27الشيء الوحيد الذي أظن أن Opus 4.6 تفوق فيه هو أن الصفحة أكثر عملية قليلاً
00:09:32ترون أن لدينا تبويب المواضيع الرائجة هنا، ولدينا القواعد وأفضل النماذج للأسبوع
00:09:36ولدينا منتديات مشهورة وخلاصة مشاركات شائعة، بينما نسخة برنامج ترميز 5.3 خالية أكثر
00:09:41ولا يوجد لدينا سوى تبويب المواضيع الرائجة في الأسفل وهذا كل شيء
00:09:44لذا أنا فضولي لرؤية درجاتهم في ساحة التصميم (Design Arena) بما أنها صدرت للتو
00:09:47فهي لم تُصنف بعد، ولكن في الوقت الحالي يتصدر GLM 4.7 القائمة
00:09:51لذا أريد أن أرى ما إذا كان برنامج ترميز 5.3 أو Opus 4.6 سيخطف الصدارة. وبشكل عام
00:09:55كلا النموذجين متمكنان جداً ومن الصعب تحديد أيهما الأفضل
00:09:59شخصياً، قد أميل لبرنامج ترميز 5.3
00:10:03فقط لأنني أحب تطبيق برنامج الترميز ولتجربتي العامة مع أوامر نماذج OpenAI. وإذا أردنا المقارنة
00:10:09بينهما في الاختبارات، فكما ذكرت في البداية، برنامج الترميز يتفوق بفارق هائل في Terminal Bench 2.0
00:10:15وهي قفزة مذهلة حقاً، وهذا هو الاختبار الوحيد الذي يمكننا المقارنة به حالياً لأنني لا أعتقد أن
00:10:21Anthropic كانت مستعدة لإطلاق OpenAI لهذا النموذج بعد، وللأسف لم يستخدموا نفس الاختبارات في تدويناتهم
00:10:28لقد تحققت من Artificial Analysis وحتى الآن اختبروا Opus 4.6 في البرمجة ولكن للنسخة التي لا تستخدم الاستنتاج فقط
00:10:35ولكن من المثير للإعجاب أن نسخة 4.6 العادية تؤدي بنفس مستوى نسخة 4.5 Opus التي تعتمد على الاستنتاج
00:10:42شعوري الشخصي حالياً هو أن الفرق بين Opus 4.5 و 4.6 أقل من الفرق بين برنامج ترميز 5.2 و 5.3
00:10:49لكن سيتعين علي استخدام كلاهما لمعرفة كيف يبدوان في العالم الواقعي
00:10:53هناك بعض الإضافات الأخيرة في كلا الإصدارين
00:10:55ومن أروعها أن كلا النموذجين حسنا قدرات الأمن السيبراني، حيث تقول OpenAI إن GPT
00:11:015.3 هو أول نموذج يصنفونه كـ “عالي القدرة” في مهام الأمن السيبراني وأول نموذج يدربونه مباشرة على اكتشاف
00:11:09الثغرات البرمجية، وAnthropic تقول الشيء نفسه تقريباً في تدوينتها الطويلة. إحدى ميزات برنامج الترميز التي أتوقع أن تعجبني
00:11:16هي إمكانية توجيهه أثناء عمله؛ حيث يقولون بدلاً من انتظار النتيجة النهائية
00:11:21يمكنك التفاعل معه في الوقت الفعلي، وطرح الأسئلة ومناقشة المناهج وتوجيهه نحو الحل
00:11:27وأعتقد أن هذا النهج أفضل قليلاً، لأنني دائماً ما أتردد بين تركه ينهي العمل أولاً أو
00:11:32مقاطعته وإيقافه عما يفعله عندما أريد إجراء تغييرات
00:11:35وأعتقد خاصة الآن مع وجود مهام قد تستغرق وقتاً طويلاً
00:11:40أن هذا سيوفر تجربة مستخدم أفضل بكثير، حيث يمكننا التحدث معه أثناء العمل
00:11:44أخيراً، لدينا بعض الميزات الجديدة لـ Claude أيضاً؛ الأولى هي “تضمين الكود”
00:11:48يمكنك الآن استخدام فرق من الوكلاء للعمل معاً على المهام، أو ما يعرف بالوكلاء الفرعيين، وقد صنع ريتشارد فيديو عن هذا في وقت سابق من هذا الأسبوع
00:11:55لذا شاهده إذا كنت مهتماً بمعرفة المزيد، وهناك أيضاً بعض ميزات واجهة برمجة التطبيقات (API) الرائعة مثل ميزة الضغط في Claude
00:12:01المدمجة في API لتتمكن من تلخيص السياق والقيام بمهام طويلة الأمد
00:12:06وهناك أيضاً وضع التفكير التكيفي الجديد
00:12:08حيث تترك النموذج يحدد من خلال السياق مدى حاجته لاستخدام التفكير الموسع
00:12:13وها نحن ذا، لقد قطعت نماذج البرمجة شوطاً طويلاً حقاً
00:12:16إذا لم تكن تعلم، فلم يمر حتى عام واحد منذ إطلاق Claude code
00:12:20أخبروني برأيكم في كل هذه النماذج في التعليقات، ولا تنسوا الاشتراك، وكالعادة أراكم في الفيديو القادم
00:12:31(موسيقى مبهجة)