OpenAI تتصدر المشهد... (Opus 4.6 + Codex 5.3)

BBetter Stack
컴퓨터/소프트웨어경제 뉴스게임/e스포츠AI/미래기술

Transcript

00:00:00أصدرت شركة Anthropic للتو نموذج Clawed Opus 4.6، وحقق أعلى درجة على مقياس Terminal Bench 2.0 مقارنة بأي نموذج آخر
00:00:06آسف لمقاطعة برمجتكم هنا
00:00:10لكن تبين أن برنامج ترميز GPT 5.3 قد صدر للتو، وهو يتفوق بالفعل على Opus 4.6 في Terminal Bench بنسبة تزيد عن 10%
00:00:16لذا يبدو أن هيمنة Anthropic لم تدم سوى لبضع دقائق. المنافسة بين هذين النموذجين تشتعل حقاً
00:00:23لذا فأنا فضولي جداً لرؤية الجديد في هذه النماذج ومعرفة أيهما أفضل للاستخدام، ففي الآونة الأخيرة...
00:00:29كان GPT 5.2 هو الأفضل بالنسبة لي
00:00:31لذا أنا مهتم برؤية ما إذا كان Clawed قادراً على استعادة ميزته، أم أن OpenAI كانت جاهزة ببرمجيات GPT 5.3
00:00:37أولاً، ملخص سريع لما هو جديد في هذه النماذج، فجميعنا نعلم أنها ستكون أفضل من إصداراتها السابقة في الاختبارات
00:00:48والتي سأعرضها في النهاية، ولكن هل تغير أي شيء آخر في النماذج بالفعل؟
00:00:52بالنسبة لنموذج Opus
00:00:53فهم يزعمون أنه قادر على التخطيط بدقة أكبر والاستمرار في المهام الوكيلية لفترة أطول، والعمل بموثوقية أكبر في قواعد الأكواد الكبيرة مع
00:01:00مهارات أفضل في مراجعة الأكواد وتصحيح الأخطاء لاكتشاف زلاته الخاصة
00:01:02هذه في الواقع بعض الأشياء التي وجدت أن Opus كان الأضعف فيها مقارنة بـ GPT 5.2. فمن خلال تجربتي
00:01:08كان عادةً ما يبدأ البرمجة بشكل أسرع، لكنه كان يرتكب أخطاءً أكثر قليلاً
00:01:12بينما كان GPT 5.2 يستغرق وقتاً أطول قليلاً لبدء البرمجة لكنه يفهم سياق المستودع البرمجي بشكل أفضل
00:01:17لذا نأمل أن تعمل هذه التغييرات على تحسين Opus هنا، ومن المرجح أيضاً أن يتطور بفضل نافذة السياق الجديدة التي تبلغ مليون
00:01:23كلمة (token)
00:01:24رغم أنهم ذكروا أن هذا لا يزال في المرحلة التجريبية وبشكل مشابه للمزودين الآخرين
00:01:27سيكلفك ذلك مبالغ إضافية؛ فالأوامر التي تتجاوز 200 ألف token ستكلفك 10 دولارات لكل مليون token مدخل و
00:01:3337.50 دولاراً لكل مليون token مخرج. ننتقل الآن إلى برنامج ترميز 5.3
00:01:38تقول OpenAI إن هذا النموذج يطور أداء البرمجة المتقدم لـ GPT 5.2 وقدرات الاستنتاج والمعرفة المهنية
00:01:45لنموذج GPT 5.2 معاً في نموذج واحد، وهو أيضاً أسرع بنسبة 25%
00:01:51هذا من شأنه أن يمكنه من تولي المهام الطويلة التي تتطلب البحث واستخدام الأدوات والتنفيذ المعقد
00:01:57لذا يبدو حقاً أنهم دفعوا بهذا النموذج ليكون شاملاً، حيث يجمع بين معرفة GPT 5.2 وقدرات برمجية محسنة
00:02:03ولكن كل هذا مجرد كلام تسويقي
00:02:05فلنضع هذه النماذج تحت اختبارات واقعية، والاختبار الأول كان تحديث حزمة وكيل convex لدعم AI SDK v6
00:02:11لقد أعجبتني قاعدة بيانات convex مؤخراً، وهذه الحزمة تساعد ببساطة في ربط AI SDK بقاعدة البيانات
00:02:19لذا ستحصل على أداء جيد جداً، لكن المشكلة هي أنها لم تُحدث إلى الإصدار الأخير
00:02:23كما ترون هنا في توثيق Vercel، الانتقال من الإصدار الخامس إلى السادس ليس بالأمر السهل
00:02:28فقد أجروا الكثير من التغييرات الجذرية وغيروا العديد من الأنواع البرمجية (types)
00:02:32لذا قمت بإنشاء تطبيق دردشة أساسي في convex يعمل باستخدام حزمة الوكيل
00:02:36لكن بمجرد تحديث الحزم للإصدار السادس، ظهرت لي مجموعة كبيرة من أخطاء البناء والأنواع
00:02:40وطلبت ببساطة من النماذج إصلاحها. يمكنكم رؤية الأمر الذي استخدمته هنا في برنامج الترميز
00:02:44قلت: “أقوم ببناء تطبيق دردشة باستخدام convex وكان لدي نسخة تعمل”
00:02:46لكنني قمت بالترقية للإصدار السادس وأحتاج لإصلاح أخطاء الأنواع والبناء
00:02:50زودته بدليل الانتقال ليستخدمه كمرجع إذا أراد، وقلت له إنني أريد أن تنجح جميع الاختبارات
00:02:55مع تجنب حيل TypeScript مثل استخدام “as any” قدر الإمكان، حيث أرى الكثير من النماذج تفعل ذلك
00:02:59لذا طلبت منه تحديداً ألا يفعل ذلك، لوجود أنواع معقدة جداً في AI SDK حالياً
00:03:03وبما أننا بدأنا ببرنامج الترميز، يمكننا رؤية أداء 5.3؛ حيث بدأ بـ
00:03:09فهم المستودع البرمجي، وكما ترون أدرك أنه مستودع أحادي (mono repo) مع حزمة الوكيل التي كانت لدينا، ثم حدد بعض
00:03:15الأسباب الجذرية وبعض الحزم التي تحتاج لتحديث، ووضع خطة مفصلة لكيفية إنجاز هذه المهمة وبعد ذلك
00:03:22بدأ بالبرمجة وأجرى بضعة تغييرات وكان يشغل عملية البناء بين الحين والآخر، وعمل ببساطة على
00:03:27إصلاح كل أخطاء الأنواع تلك، وبشكل عام استمر في العمل لمدة 40 دقيقة دون انقطاع
00:03:32وهو ما أبهرني حقاً. يمكنكم رؤية أنه أضاف بالفعل 545 سطراً برمجياً وحذف 111 سطراً
00:03:35أما في Clawed
00:03:39فقد أعطيته نسخة من نفس المشروع واستخدمت نفس الأمر بالضبط، ومرة أخرى استمر في العمل على المهمة لحوالي 40
00:03:44دقيقة، وظهرت بعض أخطاء البناء عندما حاولت تشغيله بالفعل
00:03:48لذا اضطررت لإرسال أمر إضافي لجعل Opus يعطيني نسخة تعمل من الكود
00:03:53ولكن مرة أخرى، كانت التجربة مشابهة جداً لما رأيناه في برنامج الترميز
00:03:56لكن يجب أن أقول إنني أحب واجهة مستخدم برنامج الترميز حقاً، وأفضلها على واجهة الأوامر الطرفية (Terminal UI)، أعتذر عن ذلك
00:04:02على أي حال، يمكنني التأكيد أنه بعد أمر واحد لبرنامج ترميز 5.3 وأمرين لـ Opus 4.6
00:04:06نجح كلاهما في ترقية حزمة الوكيل للإصدار الجديد من AI SDK دون أي أخطاء في الأنواع
00:04:11أو أخطاء في البناء ومع اجتياز جميع الاختبارات، لكنهما تعاملا مع الأمر بطرق مختلفة
00:04:16هنا لدي برنامج الترميز على اليسار والتغييرات التي أجراها Opus على اليمين
00:04:19يمكنكم رؤية أن Opus أجرى تغييرات أكثر قليلاً في المشروع مقارنة ببرنامج الترميز
00:04:23لقد تعاملا مع بعض الميزات بشكل مختلف قليلاً
00:04:25أحد الأشياء التي أداها برنامج الترميز بشكل جيد هو إضافة منطق طلب الموافقة على الأداة هنا
00:04:30كان هذا شيئاً جديداً في AI SDK v6، ولم أجد أي ذكر له في Opus
00:04:35يبدو أنه تجاوزه ببساطة ولم يقم بإضافته فعلياً إلى الكود
00:04:40لكن الشيء الذي أعتقد أن برنامج الترميز أخفق فيه هو أنه في رسائل واجهة المستخدم أضاف
00:04:46دالة خاصة به لتحويل رسالة الواجهة إلى رسالة نموذج
00:04:50وإذا كنت لا تعلم، فإن AI SDK يوفر بالفعل دالة للقيام بذلك وكان يجب عليه استخدامها بدلاً من ذلك
00:04:57يمكنكم أن تروا بالمقارنة الجانبية أن Opus فعل ذلك بشكل صحيح
00:05:00حيث استخدم دالة “convert to model messages” المدمجة في حزمة AI SDK
00:05:04وهذا يعني مستقبلاً أنه في حال قاموا بتحديث هذه الحزمة
00:05:07فلن أضطر للقلق بشأن إجراء أي تغييرات على نسختي الخاصة لأنني أعتمد على الدالة
00:05:13المتوفرة في الحزمة
00:05:14لذا كان هذا أمراً مزعجاً قليلاً واعتبرته علامة تحذير عندما كنت أراجع هذا الكود
00:05:19ولكن للحصول على رأي ثانٍ في مراجعتي للكود
00:05:20قمت بإرسال العمل مرة أخرى لبرنامج ترميز 5.3 وطلبت منه القيام بالمراجعة معي، وترون أنه ذكر
00:05:26مزايا وعيوب كل نهج هنا
00:05:29ولكن في النهاية أعطاني استنتاجاً، وفضل برنامج ترميز 5.3 نسخة دردشة Opus لأن هندسة الانتقال فيها كانت أفضل
00:05:36وإذا توجب عليه اختيار قاعدة برمجية واحدة لإطلاقها بأمان
00:05:39فسيختار دردشة Opus ثم يسحب إليها منطق معالجة الموافقة والرفض من نسخة برنامج الترميز
00:05:43أي تلك الدالة الإضافية التي رأيناها لطلب الموافقة على الأداة
00:05:46يقول ببساطة خذ ذلك من نسخة برنامج الترميز وأضفه لنسخة Opus وسنحصل على انتقال أفضل
00:05:51من الجيد على الأقل رؤية أن برنامج ترميز 5.3 ليس منحازاً ولم يختر نفسه
00:05:55لكن يجب أن أعترف أن الطريقة التي تعامل بها كلاهما مع الانتقال كانت متشابهة جداً وكان بإمكاني توجيههما
00:06:01للاتجاه الصحيح، لكن اختباراً واحداً لا يكفي
00:06:03لذا في الاختبار التالي، وهو أقل جدية قليلاً، طلبت منهما إنشاء نسخة مشابهة للعبة Club Penguin
00:06:08باستخدام مكتبة 3js. لن أخبركم أيهما لأي نموذج، ولكن هذه هي اللعبة الأولى التي حصلنا عليها
00:06:13ترون هنا خيار “أنشئ بطريقك” ونرى الأفاتار في الأعلى يتغير
00:06:17يمكنني إضافة بعض القبعات هنا؛ قبعة حفلات، قبعة مروحية، تاج
00:06:21سأختار القبعة المروحية وأضغط على “بدء اللعب”، وإذا كنت تعرف أي شيء عن Club Penguin
00:06:26فسأقول إنها أدت عملاً جيداً في محاكاة وسط المدينة، رغم أن متجر البيتزا ليس هنا
00:06:32وعادةً ما يكون هناك مركز ديسكو هنا، ولا يمكنك فعلياً دخول أي من هذه المباني
00:06:35كما ترون، ليست أياً منها صلبة بعد
00:06:37لكن ما فعله بشكل جيد هو أنه بالذهاب إلى الخريطة، يمكننا الانتقال لمناطق مختلفة
00:06:41مثل قرية التزلج، وإذا ضغطت وتحركت هنا
00:06:44أعتقد أن بطريقي يبدو جيداً بالنسبة لشيء صُنع بـ 3js دون أن أزوده بأي أصول رسومية أو ما شابه
00:06:49لقد فعل كل هذا من تدريبه الخاص، ويمكننا الدخول ولعب لعبة سباق الزلاجات هنا
00:06:54والتي كانت المفضلة لدي في Club Penguin، وبالتأكيد هناك بعض الأشياء الناقصة
00:06:59يجب أن أعترف، لكنها محاولة أولى جيدة جداً وقد فعل كل ذلك بأمر واحد
00:07:04كما يمكنني التأكيد أن هذا الإصدار تضمن محاولة للعبة “cart surfer” هنا
00:07:07والتي كانت المفضلة لدي أيضاً، لكن هذا الإصدار يبدو معطلاً قليلاً
00:07:11يمكنك فقط التحرك من جانب لآخر، والآن أعتقد أنني تحت الخريطة. والجو أصبح مظلماً جداً
00:07:15وهذا ما قدمه لي النموذج الآخر، وأريد منكم أن تكتبوا في التعليقات
00:07:18أي نموذج تعتقدون أنه أدى عملاً أفضل، وهل يمكنكم تخمين النموذج الذي صنع كل نسخة؟
00:07:22سأخبركم في نهاية هذا الاختبار. كما ترون في هذه النسخة
00:07:25لدينا نفس أدوات اختيار الألوان التي كانت في الأمر
00:07:27ولدينا أيضاً القبعات والإكسسوارات هنا. سأختار التاج هذه المرة ونضغط على “بدء الاستكشاف”
00:07:31البطريق يبدو أكثر سمنة قليلاً في هذا الإصدار، وهو مضحك أكثر، لكن مجدداً، لم أعطه أي أصول رسومية
00:07:36هذا صُنع من الصفر باستخدام 3js
00:07:38وتواجهه نفس المشكلة حيث يمكنك المشي عبر المباني
00:07:41لكن لدينا الخريطة وكل المناطق المختلفة هنا
00:07:44لذا إذا ذهبت لقرية التزلج
00:07:46يفترض أن أتمكن من اللعب، لذا سألعب سباق الزلاجات هنا وللأمانة
00:07:50هذا مشابه جداً للنسخة الأخرى من لعبة سباق الزلاجات التي رأيناها
00:07:53ترون بعض الأشجار تظهر في الأفق هنا
00:07:56ولدينا ثلاث محاولات وعداد المحاولات يعمل فعلياً
00:07:58لكن لا يبدو أننا نستطيع القفز في هذا الإصدار
00:08:01بيد أن هذا النموذج أعطاني أيضاً نسخة من لعبة “cart surfer”
00:08:04لكن مرة أخرى، هذا الإصدار غريب قليلاً
00:08:06رغم أنني أظن أنه يعمل بشكل أفضل لأنك تستطيع رؤية الأشياء ويمكنك القفز، ولكن
00:08:11لست متأكداً أين أتزلج بالضبط، لا يوجد سكة حديدية، وبشكل عام ليست هي اللعبة
00:08:17التي أتذكرها من Club Penguin، ولكن في المجمل
00:08:19أنا منبهر دائماً بما تستطيع هذه النماذج فعله بأمر واحد خاصة مع 3js، وإذا كنتم تتساءلون عن صاحب كل نسخة
00:08:25فالأولى كانت لـ Opus 4.6 والثانية لبرنامج ترميز 5.3، وأعتقد أنني أفضل الأولى
00:08:30لذا أعتقد أن Opus 4.6 فاز في اختبار Club Penguin. والاختبار النهائي
00:08:34الذي أجريته على هذه النماذج كان لمعرفة مدى براعتها في تصميم واجهة المستخدم، فالنماذج أصبحت جيدة جداً في ذلك
00:08:38لذا أعطيت كلاهما أمراً لبناء صفحة هبوط لموقع تواصل اجتماعي مخصص للذكاء الاصطناعي فقط
00:08:42مشابه لموقع molt book، ويجب أن تكون الصفحة متهكمة وتركز على المستقبل والذكاء الاصطناعي فقط، وبملف HTML واحد
00:08:49هذه هي النتيجة التي حصلت عليها من كلاهما، ويجب أن أعترف أنني منبهر جداً ببرنامج الترميز هنا
00:08:55لدينا برنامج ترميز 5.3 على اليسار و Opus 4.6 على اليمين، وأعجبتني حقاً الطريقة التي صمم بها برنامج الترميز
00:09:005.3 هذا الموقع
00:09:01لقد اختار تصميم “النيو-بروتالية” (neo brutalism) وهو ممتع أكثر من بعض المواقع الأخرى ذات التصاميم النمطية
00:09:06أعتقد أن Opus 4.6 هنا، رغم جودة تصميمه، يبدو كتطبيق نمطي معتاد. لقد أداه بشكل جيد جداً
00:09:13يجب أن أعترف، ولكن مرة أخرى
00:09:14يحتوي على تدرجات اللون الأرجواني وكل شيء فيه يوحي بأنه تصميم آلي نمطي، بينما أشعر أن نسخة برنامج ترميز
00:09:205.3 تبدو كأن شخصاً ما قد وضع فيها لمسة يدوية أو ربما وُجه للذهاب في هذا الاتجاه
00:09:25رغم أنني أعطيتهما نفس الأمر بالضبط
00:09:27الشيء الوحيد الذي أظن أن Opus 4.6 تفوق فيه هو أن الصفحة أكثر عملية قليلاً
00:09:32ترون أن لدينا تبويب المواضيع الرائجة هنا، ولدينا القواعد وأفضل النماذج للأسبوع
00:09:36ولدينا منتديات مشهورة وخلاصة مشاركات شائعة، بينما نسخة برنامج ترميز 5.3 خالية أكثر
00:09:41ولا يوجد لدينا سوى تبويب المواضيع الرائجة في الأسفل وهذا كل شيء
00:09:44لذا أنا فضولي لرؤية درجاتهم في ساحة التصميم (Design Arena) بما أنها صدرت للتو
00:09:47فهي لم تُصنف بعد، ولكن في الوقت الحالي يتصدر GLM 4.7 القائمة
00:09:51لذا أريد أن أرى ما إذا كان برنامج ترميز 5.3 أو Opus 4.6 سيخطف الصدارة. وبشكل عام
00:09:55كلا النموذجين متمكنان جداً ومن الصعب تحديد أيهما الأفضل
00:09:59شخصياً، قد أميل لبرنامج ترميز 5.3
00:10:03فقط لأنني أحب تطبيق برنامج الترميز ولتجربتي العامة مع أوامر نماذج OpenAI. وإذا أردنا المقارنة
00:10:09بينهما في الاختبارات، فكما ذكرت في البداية، برنامج الترميز يتفوق بفارق هائل في Terminal Bench 2.0
00:10:15وهي قفزة مذهلة حقاً، وهذا هو الاختبار الوحيد الذي يمكننا المقارنة به حالياً لأنني لا أعتقد أن
00:10:21Anthropic كانت مستعدة لإطلاق OpenAI لهذا النموذج بعد، وللأسف لم يستخدموا نفس الاختبارات في تدويناتهم
00:10:28لقد تحققت من Artificial Analysis وحتى الآن اختبروا Opus 4.6 في البرمجة ولكن للنسخة التي لا تستخدم الاستنتاج فقط
00:10:35ولكن من المثير للإعجاب أن نسخة 4.6 العادية تؤدي بنفس مستوى نسخة 4.5 Opus التي تعتمد على الاستنتاج
00:10:42شعوري الشخصي حالياً هو أن الفرق بين Opus 4.5 و 4.6 أقل من الفرق بين برنامج ترميز 5.2 و 5.3
00:10:49لكن سيتعين علي استخدام كلاهما لمعرفة كيف يبدوان في العالم الواقعي
00:10:53هناك بعض الإضافات الأخيرة في كلا الإصدارين
00:10:55ومن أروعها أن كلا النموذجين حسنا قدرات الأمن السيبراني، حيث تقول OpenAI إن GPT
00:11:015.3 هو أول نموذج يصنفونه كـ “عالي القدرة” في مهام الأمن السيبراني وأول نموذج يدربونه مباشرة على اكتشاف
00:11:09الثغرات البرمجية، وAnthropic تقول الشيء نفسه تقريباً في تدوينتها الطويلة. إحدى ميزات برنامج الترميز التي أتوقع أن تعجبني
00:11:16هي إمكانية توجيهه أثناء عمله؛ حيث يقولون بدلاً من انتظار النتيجة النهائية
00:11:21يمكنك التفاعل معه في الوقت الفعلي، وطرح الأسئلة ومناقشة المناهج وتوجيهه نحو الحل
00:11:27وأعتقد أن هذا النهج أفضل قليلاً، لأنني دائماً ما أتردد بين تركه ينهي العمل أولاً أو
00:11:32مقاطعته وإيقافه عما يفعله عندما أريد إجراء تغييرات
00:11:35وأعتقد خاصة الآن مع وجود مهام قد تستغرق وقتاً طويلاً
00:11:40أن هذا سيوفر تجربة مستخدم أفضل بكثير، حيث يمكننا التحدث معه أثناء العمل
00:11:44أخيراً، لدينا بعض الميزات الجديدة لـ Claude أيضاً؛ الأولى هي “تضمين الكود”
00:11:48يمكنك الآن استخدام فرق من الوكلاء للعمل معاً على المهام، أو ما يعرف بالوكلاء الفرعيين، وقد صنع ريتشارد فيديو عن هذا في وقت سابق من هذا الأسبوع
00:11:55لذا شاهده إذا كنت مهتماً بمعرفة المزيد، وهناك أيضاً بعض ميزات واجهة برمجة التطبيقات (API) الرائعة مثل ميزة الضغط في Claude
00:12:01المدمجة في API لتتمكن من تلخيص السياق والقيام بمهام طويلة الأمد
00:12:06وهناك أيضاً وضع التفكير التكيفي الجديد
00:12:08حيث تترك النموذج يحدد من خلال السياق مدى حاجته لاستخدام التفكير الموسع
00:12:13وها نحن ذا، لقد قطعت نماذج البرمجة شوطاً طويلاً حقاً
00:12:16إذا لم تكن تعلم، فلم يمر حتى عام واحد منذ إطلاق Claude code
00:12:20أخبروني برأيكم في كل هذه النماذج في التعليقات، ولا تنسوا الاشتراك، وكالعادة أراكم في الفيديو القادم
00:12:31(موسيقى مبهجة)

Key Takeaway

يمثل إطلاق Opus 4.6 وCodex 5.3 قفزة نوعية في تقنيات البرمجة والذكاء الاصطناعي، حيث تتنافس OpenAI وAnthropic على تقديم نماذج لا تكتفي بكتابة الكود بل تتقن التفكير المنطقي، التصميم الإبداعي، والأمن السيبراني المتقدم.

Highlights

إطلاق نموذجي Opus 4.6 من Anthropic وCodex 5.3 من OpenAI في منافسة شرسة على صدارة معايير البرمجة.

تفوق GPT 5.3 بشكل ملحوظ في اختبار Terminal Bench 2.0 بنسبة تزيد عن 10% مقارنة بمنافسه.

تحسينات كبيرة في قدرات التخطيط، والموثوقية في الأكواد الضخمة، واكتشاف الأخطاء البرمجية في كلا النموذجين.

توسع نافذة السياق لنموذج Opus لتصل إلى مليون رمز (token) مع تسعير تجريبي خاص.

كلا النموذجين حققا نجاحاً في اختبارات واقعية لتحديث حزم TypeScript المعقدة وتصميم ألعاب تفاعلية.

تصنيف GPT 5.3 كأول نموذج "عالي القدرة" في مهام الأمن السيبراني واكتشاف الثغرات البرمجية مباشرة.

إدخال ميزات تفاعلية جديدة تتيح للمستخدم توجيه النموذج ومناقشته في الوقت الفعلي أثناء تنفيذ المهام.

Timeline

إطلاق العمالقة والمنافسة الأولية

يبدأ الفيديو بالإعلان عن الإصدار المفاجئ لنموذج Clawed Opus 4.6 الذي حقق نتائج مبهرة في مقياس Terminal Bench 2.0. ومع ذلك، يوضح المتحدث أن هيمنة Anthropic لم تدم طويلاً بسبب صدور GPT 5.3 الذي تفوق فوراً بنسبة 10%. تشعل هذه المنافسة النقاش حول أيهما سيكون الخيار الأفضل للمبرمجين في الفترة القادمة. يشير المحلل إلى أن GPT 5.2 كان المفضل لديه سابقاً، مما يجعله مترقباً لمعرفة ما إذا كان Opus سيستعيد الصدارة. يركز هذا القسم على سرعة وتيرة التطور في مجال نماذج اللغة الكبيرة وكيف تستجيب الشركات لبعضها البعض بسرعة قياسية.

الميزات الجديدة والتحسينات التقنية

يستعرض المحلل التحسينات التقنية في كلا النموذجين، حيث يدعي Opus 4.6 قدرة أكبر على التخطيط الدقيق والتعامل مع المهام الوكيلية الطويلة. يركز Opus على تحسين مهارات مراجعة الأكواد وتصحيح الأخطاء الذاتي، وهي نقاط ضعف كانت موجودة في الإصدارات السابقة. في المقابل، يجمع GPT 5.3 بين الأداء البرمجي المتقدم والاستنتاج المنطقي في نموذج واحد مع زيادة في السرعة بنسبة 25%. يتطرق الفيديو أيضاً إلى نافذة السياق الجديدة في Opus التي تصل لمليون token وتفاصيل تكلفتها المادية للمدخلات والمخرجات. تهدف هذه التحديثات لجعل النماذج أكثر شمولية وقدرة على تولي مهام البحث والتنفيذ المعقدة.

اختبار واقعي: تحديث حزمة Convex و AI SDK

ينتقل الفيديو إلى اختبار عملي يتضمن تحديث مشروع برمج من الإصدار الخامس إلى السادس من AI SDK، وهو تحدٍ صعب بسبب التغييرات الجذرية في أنواع TypeScript. يوضح المتحدث كيف تعامل GPT 5.3 مع المستودع البرمجي ووضع خطة مفصلة استمرت 40 دقيقة من العمل المتواصل لإصلاح الأخطاء. قام Opus 4.6 بمهمة مشابهة واستغرق وقتاً مماثلاً، لكنه احتاج إلى أمر إضافي لتصحيح أخطاء البناء النهائية. يكشف التحليل أن Opus كان أدق في استخدام الدوال المدمجة للمكتبة، بينما كان GPT أفضل في إضافة ميزات الأمان وطلب الموافقة. يخلص الاختبار إلى أن دمج أفضل ما في الكودين يعطي النتيجة المثالية، مع إشادة بـ "نزاهة" GPT 5.3 في تقييم كود منافسه.

الإبداع والتصميم: لعبة Club Penguin وصفحات الهبوط

يختبر المحلل القدرات الإبداعية للنماذج عبر طلب إنشاء نسخة من لعبة Club Penguin باستخدام مكتبة 3js دون تزويدها بأي ملفات رسومية. نجح كلا النموذجين في بناء عالم ثلاثي الأبعاد مع ميزات تخصيص الأفاتار والخرائط التفاعلية والألعاب المصغرة مثل سباق الزلاجات. يميل رأي المحلل إلى أن نسخة Opus 4.6 كانت أكثر حيوية وتفوقاً في هذا التحدي الإبداعي المحدد. وفي اختبار تصميم واجهة المستخدم لموقع تواصل اجتماعي، تفوق GPT 5.3 بتبنيه لأسلوب "النيو-بروتالية" المبتكر بعيداً عن التصاميم النمطية. تظهر هذه النتائج أن النماذج لم تعد مجرد أدوات منطقية، بل بدأت تكتسب "لمسة يدوية" في التصميم الفني.

الأمن السيبراني والآفاق المستقبلية

في الختام، يناقش الفيديو القفزة النوعية في قدرات الأمن السيبراني، حيث يُصنف GPT 5.3 كأول نموذج عالي القدرة في اكتشاف الثغرات البرمجية. يسلط الضوء على ميزة التفاعل في الوقت الفعلي مع برنامج الترميز، مما يسمح للمستخدم بتوجيه الذكاء الاصطناعي أثناء العمل بدلاً من انتظار النتيجة النهائية. كما يتم ذكر ميزات Claude الجديدة مثل "تضمين الكود" والوكلاء الفرعيين، بالإضافة إلى وضع التفكير التكيفي الذي يحدد استهلاك الموارد بناءً على تعقيد المهمة. ينتهي الفيديو بالتأكيد على أن هذه النماذج قطعت شوطاً هائلاً في أقل من عام، مع دعوة الجمهور للمشاركة برأيهم حول الأداء. يترك المتحدث الباب مفتوحاً لمزيد من التجارب في العالم الواقعي لتحديد الفائز النهائي في هذا السباق التقني.

Community Posts

View all posts