لقد اختبرت GLM 5.2 مقابل Opus 4.8 مقابل GPT 5.5

CChase AI
컴퓨터/소프트웨어게임/e스포츠AI/미래기술

Transcript

00:00:00صدر نموذج GLM 5.2 هذا الأسبوع، وهو أقوى نموذج مفتوح المصدر رأيناه
00:00:04على الإطلاق. وفي بعض الاختبارات المعيارية، كما ترون هنا، يتفوق هذا النموذج حتى على العمالقة
00:00:10مثل Opus 4.8 من Anthropics و 5.5 من OpenAI. ولكن هل هذه الاختبارات المعيارية موثوقة؟ كيف يقارن هذا النموذج
00:00:18مباشرة بـ Opus 4.8 و GPT 5.5؟ حسناً، هذا بالضبط ما سنجيب عليه
00:00:25في فيديو اليوم، حيث سأقوم بإجراء اختبارات متعددة على هذه النماذج الثلاثة الكبيرة لنرى
00:00:31كيف يكون أداؤها فعلياً في العالم الحقيقي. علاوة على ذلك، سنقوم بتحليل عميق
00:00:35لاختبار معياري واحد على وجه الخصوص أعتقد أنه مهم جداً، بالإضافة إلى توضيح ما
00:00:40نعنيه حقاً بأن GLM 5.2 أفضل في بعض الحالات من Opus و GPT 5.5. هل نتحدث عن
00:00:47كونه أكثر كفاءة، أو أقل تكلفة، أم أنه يتفوق فعلاً في كل تلك الجوانب في نفس
00:00:51الوقت؟ لذا دون مزيد من التأخير، دعونا نبدأ مباشرة. والآن، قبل أن ندخل في اختبار
00:00:56المقارنة المباشرة، دعونا نلقي نظرة أولاً على بعض الاختبارات المعيارية الموجودة بالفعل لمقارنة هذه
00:00:59النماذج الثلاثة. الاختبار الذي أريد التركيز عليه حقاً هو DeepSuite. إن DeepSuite
00:01:04اختبار معياري جديد نسبياً، ويهدف إلى أن يكون تحسيناً على أشياء مثل Terminal
00:01:08Bench و Terminal Bench Pro. الآن، لن أتعمق كثيراً في هذا الاختبار المعياري، يمكنك
00:01:12الاطلاع على موقعهم الإلكتروني أو مستودع GitHub الخاص بهم، والذي يشرح الأمر بمزيد من التفصيل. ولكنه يركز
00:01:17على المهام الوكيلة طويلة الأمد، وتحديداً 113 مهمة عبر لغات TypeScript و Go و Python و JavaScript
00:01:23و Rust مع بيئات معزولة ومتحقق برمجيات. وهنا على هذا الرسم البياني، يمكننا رؤية
00:01:29النتيجة، أي النسبة المئوية للإجابات الصحيحة على الجانب الأيسر، بالإضافة إلى متوسط التكلفة
00:01:34لكل مهمة. الآن، نريد أن نكون في أعلى اليمين. المنطقة الأكثر كفاءة هي هنا في أعلى
00:01:39اليمين. حيث نحصل على أعلى درجة بأقل تكلفة. ويمكننا أن نرى هنا أن GLM 5.2
00:01:44بإعداد “ماكس” يعطينا 44% بتكلفة 3.92 دولار للمهمة. وإذا قارنا ذلك بـ Opus 4.8 و GPT 5.5، يمكننا أن نرى
00:01:55أن أداءهما أفضل بكثير. عند إعداد “ماكس”، يحقق Opus 4.8 نسبة 59%، و 5.5 يحقق 67% عند إعداد “فائق” (Extra High). من الواضح،
00:02:04عند الإعدادات القصوى، لدينا تكلفة باهظة جداً. بالنسبة لـ GPT 5.5، التكلفة 7.23 دولار، و13 دولار لـ Opus،
00:02:12وعند GLM، التكلفة هي 3.92 دولار. إذن هو أرخص بكثير. ومع ذلك، عندما ننظر إلى مستويات جهد مختلفة
00:02:19في 5.5 وفي Opus، إذا كنا عند مستوى “متوسط”، على سبيل المثال، مع Opus 4.8، سنحقق نتيجة
00:02:25أعلى من GLM 5.2، وسنكون أقل تكلفة. أي 49% بـ 3.44 مقابل 44% بـ 3.92. وهذا فرق
00:02:36كبير، فنموذج 5.5 يحقق 54% بـ 2.75 دولار مقابل 44% بـ 3.92 دولار. إذن من البداية، في هذا الاختبار المعياري،
00:02:47إذا أخذنا الأمور بقيمتها الظاهرية، فإن 4.8 و 5.5 متفوقان على GLM 5.2. وهذا ليس مفاجئاً. فهذه
00:02:55هي أفضل نماذج الحدود (Frontier Models). وهي ليست مفتوحة المصدر. وإذا ضغطنا بكل قوتنا،
00:03:01سوف يسحقون GLM 5.2 في هذه المهام طويلة الأمد، وهو أمر متوقع نوعاً ما.
00:03:07ما قد لا تتوقعه هو حقيقة أنه يمكن أن يكون أفضل وبسعر أرخص،
00:03:11وهو نوع من المشكلة. وأريد فقط توضيح ذلك لأنني أعلم أن هناك الكثير من
00:03:16الحديث والكثير من الضجيج حالياً حول GLM 5.2 وحقيقة أنه مفتوح المصدر. و، كما تعلمون،
00:03:21هذا يعني فوراً، “أوه، إنه رخيص جداً جداً. ويمكننا القيام بأشياء جيدة حقاً.”
00:03:25حسناً، أعني، من خلال الأرقام، إنه جيد، لكنه ليس بمستوى 4.8 أو 5.5 بناءً على هذا الاختبار المعياري. وتذكروا،
00:03:33أرقام 4.8 و 5.5 هذه تعتمد على تكاليف واجهة برمجة التطبيقات (API). إذا كنت على خطة “ماكس”، فهي أرخص بـ 10 أضعاف من
00:03:40هذا. نفس الشيء إذا كنت فقط على خطة OpenAI، كما تعلمون، خطة 100 دولار في الشهر أو 200 دولار في الشهر. لذا
00:03:46هذا شيء آخر يجب أخذه في الاعتبار. لذا أردت فقط أن أضغط على الفرامل أمام أي كلام
00:03:50يقول إن GLM أرخص بكثير، لأنه ليس كذلك حقاً. وعلى الرغم من أنه مفتوح المصدر،
00:03:56GLM 5.2، النموذج مفتوح المصدر الذي يحصل على هذه الأرقام، هذا ليس مفتوح المصدر بمعنى
00:04:01أنه يمكنك فقط تنزيله على جهاز الكمبيوتر الخاص بك. إنه مفتوح المصدر بمعنى أنه يمكنك رؤية الكود،
00:04:05يمكنك رؤية الأوزان. إنه ليس مفتوح المصدر بمعنى، “أوه لا، إنه فقط، يمكنني الذهاب والحصول
00:04:09عليه من OLAMA. يمكنني تشغيله على جهاز الكمبيوتر الشخصي الخاص بي.” لا، لا يمكنك ذلك. لا يمكنك ذلك. هذا النموذج يحتوي على ما يقرب من
00:04:14تريليون بارامتر. هذا يتطلب طناً من العتاد لتشغيله. لذا لا تخلطوا بين الأمور لأنني أعلم
00:04:20أن هناك شريحة من الناس تخلط، لكن هذا فقط لتمهيد الطريق. ومرة أخرى،
00:04:24هذا يعتمد على بيانات DeepSuite. هذه مهام مكثفة جداً يتم تكليفها بها. و
00:04:30اليوم سنجري بضعة اختبارات مختلفة بمستوى أقل قليلاً، والتي هي
00:04:35ربما أكثر انعكاساً لما يقوم به المستخدم العادي. لذا شيء يجب وضعه
00:04:39في الاعتبار. وفقط لنكون جميعاً على نفس الصفحة، هذا ما ننظر إليه من حيث التكاليف
00:04:44لكل رمز (Token). تذكروا أن السبب في كونه أرخص لـ Opus 4.8 و 5.5 هو أنه يستخدم رموزاً أقل بكثير
00:04:50للقيام بما يحتاجه. كان في النهاية أكثر كفاءة، ولكن على أساس كل رمز.
00:04:55وتذكروا بالنسبة للإدخال والإخراج، هذا لكل مليون رمز، GLM 5.2، يكلف 1.40 دولار للإدخال،
00:05:01و 4.40 دولار للإخراج. و Opus 4.8 أغلى بـ 5.7 مرة. و 5.5 من GPT أغلى بـ 6.8 مرة
00:05:10أكثر تكلفة. إذن على أساس كل رمز، هو أرخص بكثير. ولكن تذكروا، نحن نهتم بالنتائج لمهمة ما،
00:05:16وليس بالضرورة مقارنة الرموز واحداً لواحد. والآن قبل أن نقفز إلى الاختبارات الفعلية،
00:05:21كلمة سريعة من راعي فيديو اليوم، أنا. فقد أطلقت للتو دورة “Cloud Code Masterclass” داخل
00:05:26منصة “Chase AI Plus” وهي الطريقة الأولى للانتقال من الصفر إلى مطور ذكاء اصطناعي، خاصة إذا لم تكن
00:05:30تأتي من خلفية تقنية. أقوم بتحديث هذه الدورة كل أسبوع، وتتضمن أيضاً دورات متقدمة للترميز
00:05:35ولإنشاء نظام التشغيل الوكيل الخاص بك. لذا إذا كان هذا شيئاً تريد معرفة المزيد عنه ولست
00:05:40متأكداً من أين تبدأ، فإن Chase AI Plus هو المكان المناسب لك. يوجد رابط له في التعليقات المثبتة.
00:05:46إذن هكذا سنجري هذا الاختبار. سنعطي كل نموذج نفس
00:05:49المطالبة ووضع التخطيط. سيعطينا الخطة. قد نقوم أو لا نقوم ببعض الأخذ والرد،
00:05:53اعتماداً على ما نعتقده في الخطة التي توصل إليها. وبعد ذلك، سندعه ينفذ.
00:05:58بعد التنفيذ، سأقوم بتطبيق معايير التقييم الذاتية للغاية الخاصة بي على النتيجة النهائية وأخبرك
00:06:03أيهم أعجبني أكثر. إذا لم تعجبك معايير التقييم الخاصة بي أو ما قررته كأفضل نموذج، تأكد من
00:06:08ترك تعليق. وسأحرص أيضاً على حذف تعليقك. الآن، هنا على اليسار، لدينا
00:06:14GPT 5.5 داخل Codex على إعداد “فائق”. ولدينا OpenCode في المنتصف يشغل GLM 5.2 على إعداد “فائق”
00:06:21وعلى اليمين هنا، لدينا Cloud Code يعمل بنموذج Opus 4.8 بإعدادات عالية.
00:06:26على إعداد “عالٍ”. الآن، لماذا اخترت إعدادات الجهد هذه بالتحديد؟ لأن هذه هي الطريقة التي يستخدم بها معظم الناس
00:06:32هذه النماذج في الحياة الواقعية. ومن المحتمل أنك إما على خطة “ماكس” أو أنك على نوع ما من
00:06:37خطط OpenAI ومن المحتمل أنك لا تشغلها على “متوسط”. لنكن صادقين. لذا أعتقد أن هذا
00:06:42انعكاس أفضل لكيفية استخدام المستخدم العادي لهذه النماذج يوماً بعد يوم.
00:06:47لذا بالنسبة لمطالبتنا الأولى، سنجعله يبني لعبة سباق ثلاثية الأبعاد قابلة للعب تعمل في
00:06:51المتصفح. ومن المهم أننا نحافظ على هذه المطالبة غامضة نوعاً ما. أنا أقول إن لديك الحرية الكاملة
00:06:56للذهاب إلى الويب واختيار أي حزمة ومكتبة تعتقد أنها الأفضل لتنفيذ ذلك. لذا
00:07:02دعونا نمضي قدماً ونشغلها ونرى ماذا سيحدث. لذا لدينا جميع النماذج الثلاثة تعمل في وضع التخطيط.
00:07:08ومرة أخرى، الفكرة وراء جعل المطالبة غامضة نوعاً ما هي أننا نريد رؤية أكبر قدر
00:07:12ممكن من الاختلاف بين هذه النماذج. إذا أعطيتها خارطة الطريق الدقيقة، وكيفية القيام بكل شيء،
00:07:18حسناً، عندها لا نرى حقاً كيف تفكر هذه النماذج وكيف تتعامل مع أنواع أكثر
00:07:23فوضوية من المشكلات. لذا بعد 13 دقيقة، كان Opus 4.8 هو أول من أنهى إنشاء لعبة السباق.
00:07:29لذا دعونا نلقي نظرة على ما صنعه. حسناً، هنا نحن في مستوى منخفض من المضلعات (Low Poly). لديه
00:07:37بعض الأصوات. يتحرك بسلاسة كبيرة. يبدو أن لدينا القدرة على الانجراف (Drift) هنا أيضاً.
00:07:44حسناً، العشب يؤثر بالفعل على كيفية عمل الفيزياء. بشكل عام، سلس جداً، ولكن،
00:07:54كما تعلم، ممل نسبياً، أليس كذلك؟ أعني أن هذا مضمار سباق أساسي جداً. لا شيء مجنون، لم يضف
00:07:59أي نوع من الذكاء الاصطناعي أو أي شيء من هذا القبيل. لذا أنا مهتم برؤية كيف تؤدي النماذج الأخرى من حيث
00:08:04التعقيد وما سأفعله غالباً بعد هذا الاختبار الأول إذا كانت جميعها متشابهة
00:08:09في هذه الرؤية الباهتة. سنقوم ربما بإعطائها مطالبة أخرى ترفع مستوى التحدي. التالي
00:08:13هو GLM 5.2. لقد استغرق وقتاً أطول بخمس دقائق من Claude Code. للمرجعية، GPT 5.5 لا يزال
00:08:20يعمل، وهو أمر لا يفاجئني كثيراً. فهو يميل إلى أن يكون أبطأ قليلاً. من حيث مقارنة الرموز،
00:08:26استخدم Claude Code حوالي 100,000 رمز لإنشاء ذلك. و GLM 5.2 استغرق أكثر من مليون. ويمكننا إلقاء نظرة
00:08:33داخل Open Router لهذا التشغيل، حيث كان إجمالي الإنفاق 1.21 دولار. وإجمالي حجم الرموز كان 1.35
00:08:41مليون لإنشاء هذه اللعبة. لذا مباشرة، مسار مثير للاهتمام لدينا هنا.
00:08:48عناصر التحكم سريعة جداً، مقارنة بما كان لدينا مع Claude Code. أنا أتحرك
00:08:53بسرعة كبيرة جداً بالنسبة للمسار نفسه. سريع جداً. وكأنني أصرخ أثناء المرور عبر هذا. ونحن أيضاً كأننا
00:09:00فقط، لا يوجد فرق حقيقي بين المسار والمجال نفسه. وفي
00:09:09بعض الحالات، كنت قادراً تقريباً، كما رأيت هناك، على المرور عبر المسار، ولكن ليس حقاً.
00:09:15أيضاً، السيارة نفسها أقل تفصيلاً مما رأيناه داخل Claude Code. أعني،
00:09:23هناك مسار، ولديه مؤقت. من حيث اللعب الفعلي، القليل من الخلل (Janky) بالنسبة لما هو عليه،
00:09:30ليس بسلاسة ما رأيناه مع Opus. وأيضاً مرة أخرى، مع وضع المضلعات المنخفض كما رأينا مع
00:09:36Opus. لذا أود أن أرى ما سيفعله إذا أخبرناه أن ينشئ شيئاً يبدو
00:09:40أفضل. وأيضاً هذا المسار نفسه لا معنى له كثيراً. والآن ننظر إلى
00:09:44ما أنشأه GPT 5.5. إنه يسميه “Foundry Circuit”، تجربة الوقت للنوبة الليلية ثلاث لفات
00:09:50عبر أعمال الصلب. لذا شيء مختلف، أعتقد، عن المسار العام الذي رأيناه في
00:09:54الاثنين الأخيرين. لذا دعونا نمضي قدماً ونبدأ هذا. وهيا بنا. حسناً، أنا لا أعرف حقاً إلى أين
00:10:04أفترض أن أذهب. أوه، أعتقد أن هذا هو المسار. تبدو العجلات مثيرة للاهتمام. إنها تدور
00:10:10بالطريقة الخاطئة. لذا هذا شيء. حسناً، لديها ضوضاء مزعجة جداً، في الواقع.
00:10:21ولا أستطيع أن أتجاوز حقيقة أن العجلات تسير أفقياً، أو أياً كان ما تصف به هذا.
00:10:28المسار نفسه جيد ويمكنك أن تتحرك نوعاً ما. نعم، يمكنك تجاوز المسار وسوف يبطئك. لكنه ليس
00:10:35واضحاً أنه مسار ممهد، مثلما رأينا مع ما بناه Opus. والباقي هو،
00:10:41كما تعلم، قل، المجال. لذا رسومات غريبة، بصراحة. أيضاً، عندما تفكر في
00:10:48حقيقة أنه استغرق ضعف طول وقت Opus، هذا غريب نوعاً ما. نعم، بصراحة، غريب جداً. مرة أخرى،
00:10:55مثل لماذا، لماذا فعل هذا بالعجلات؟ ليس لدي أي فكرة. مرة أخرى، ذهب لشيء المضلعات المنخفضة.
00:11:00وهو مظلم جداً، لسبب غير واضح. لذا أعني، أشعر أن
00:11:06هذا أكثر وظيفية مما حصلنا عليه مع GLM 5.2، ولكن، ليس أفضل بكثير. وأيضاً
00:11:12تعتبر حقيقة أن هذا كان على إعداد “فائق” في 5.5. الآن من حيث استخدام الرموز لـ 5.5،
00:11:17وصل إلى ما رأيناه تقريباً مع Claude Code. استخدم 7% من نافذته التي تبلغ خمس ساعات. إذن تقريباً
00:11:22لا شيء. الآن، الترتيب العام، كنت سأضع Opus 4.8 بوضوح قبل GLM 5.2 و 5.5. اعتقدت أن
00:11:28الاثنين الأخيرين كانا يفتقران للدقة، لكننا سنعطيهما فرصة أخرى لأننا
00:11:32سنخبرهما بإلقاء نظرة أخرى على الكود، والقيام بممر آخر. ونريد أيضاً منهما
00:11:36أن يقدما أداءً أفضل بكثير من حيث الرسومات. لا أريد الأشياء ذات المضلعات المنخفضة. أريد أن يبدو هذا
00:11:40مثل لعبة من الفئة AAA أو أقرب ما يمكن إلى ذلك. لذا دعونا نرى ما سيحدث عندما نعطيهم
00:11:46المحاولة رقم اثنين. أنهى Opus و GLM ممرهم الثاني و 5.5 ينهي عمله هناك. لذا
00:11:50دعونا نلقي نظرة على Opus 4.8 أولاً. على الفور، نرى سيارة أفضل بكثير. هذا تحسن كبير
00:11:58فيما يتعلق بالسيارة مقارنة بما رأيناه من قبل. نرى أيضاً إضاءة مختلفة تماماً.
00:12:04يمكنك رؤية انعكاس الشمس على الأرض نفسها وكل شيء يبدو أكثر سلاسة. أعني،
00:12:10الأشجار نفسها هي نوع من أنواع المضلعات المنخفضة، لكن الإضاءة وخاصة السيارة
00:12:15خطوة كبيرة للأمام. وما زالت تحتفظ بنفس نوع اللعب السلس. أعني، إلى جانب
00:12:20حقيقة أن لدينا أشجاراً في الطريق، لكن الأشجار نفسها أيضاً مظللة. ولممر إضافي واحد
00:12:26استغرق 10 دقائق وحوالي 50,000 رمز، ليس سيئاً. الآن سننظر إلى GLM. وفي هذه المرحلة،
00:12:32استغرق الأمر حوالي 1.2 مليون رمز أخرى لإجراء هذا التحديث، مما يجعل إجمالي إنفاقنا 1.83 دولار.
00:12:38لذا دعونا نشغله. ويبدو أنه حاول إضافة نوع من الإضاءة المختلفة. السيارة تبدو
00:12:46أفضل قليلاً، لكن الإضاءة نفسها غريبة نوعاً ما. كأنها متوهجة جداً. المسار
00:12:52نفسه لم يتغير كثيراً. كما تعلم، لا يزال مجرد عشب في كل مكان. وعناصر
00:12:57التحكم لا تزال متقطعة، أليس كذلك؟ أنا أتحرك بسرعة كبيرة بالنسبة للمسار. نفس نوع المشكلة
00:13:04التي كانت لدي من قبل حيث يمكنني المرور عبر بعض المسار وبعضه الآخر لا أستطيع. لذا، أعني،
00:13:10رسومات السيارة تبدو أفضل، لكنني أجادل بأن الإضاءة والوهج مزعجان جداً.
00:13:15من المحتمل أنها خطوة للوراء مقارنة بما كان لدينا من قبل. وهنا الممر الثاني مع 5.5. الآن
00:13:21تبدو السيارة أفضل قليلاً، ولكن بالنظر إلى كل شيء آخر، هذا هو نفس الشيء. حسناً،
00:13:29العجلات أفضل. لقد قمنا بإصلاح مشكلة العجلات. إنها تدور بالفعل بالطريقة التي يجب أن تدور بها العجلات،
00:13:34ولكن لا تزال هناك ضوضاء مزعجة. ولا يوجد فرق حقيقي مرة أخرى بين المسار
00:13:42والعشب. لذا يبدو كأنه نفس الشيء الذي فعله في المرة الأولى مع
00:13:49سيارة أفضل قليلاً. لكن كما تعلم، عندما قلنا له اذهب لجمالية AAA، لن أقول إنه
00:13:55أصاب الهدف. ومرة أخرى، أشعر أن الصورة الكبيرة. ننظر إلى هذه الثلاثة GLM و 5.5، بالتأكيد خطوة
00:14:02أقل من Opus. الآن لاختبارنا التالي، سنجعله يبني لنا موقعاً إلكترونياً. والمطالبة التي سنستخدمها
00:14:07هي هذه. نريده أن يبني صفحة هبوط مزيفة لمنتج، وهو نظارات ذكية تعمل بالذكاء الاصطناعي.
00:14:12فكر في شيء مثل نظارات Meta Ray-Bans. مرة أخرى، نحن نمنح هذه النماذج الحرية الكاملة من حيث
00:14:16الحزمة والتصميم. نحن نخبره أن يختار ما يعتقد أنه الأفضل، وأن يثبت ما
00:14:20نحتاجه وأن يبحث عن أفضل الممارسات لإنشاء صفحات الهبوط. نحن نقول له، “يا رجل، امض قدماً وابحث عن
00:14:25صور ولقطات للمنتج.” ولا تعتمد فقط على إنشاء أشياء HTML الخاصة بك. والمهم،
00:14:31نحن نقول، اجعلها تبدو كموقع جوائز. لا نريدها أن تبدو كقمامة الذكاء الاصطناعي. نريد تسلسلاً هرمياً بصرياً حقيقياً،
00:14:35طباعة مقصودة، وحركة حيثما كان ذلك منطقياً. إذن صفحة هبوط للنظارات الذكية،
00:14:42نريدها أن تكون بأسلوب الجوائز. لذا دعونا نرى ما سيخرجون به. إذن النماذج الثلاثة
00:14:46أنهت العمل، للمرجعية، استخدم GLM حوالي مليون رمز للتنفيذ بينما استخدم Opus و 5.5
00:14:53حوالي مائة ألف، زيادة أو نقصاناً. لذا أولاً لدينا ما بناه Opus لنا خلفية مظلمة جداً.
00:14:58لديه نوع من هذه النظارات التي أنشأها، والنص مقطوع هنا، وهو أمر
00:15:04مؤسف. بينما نمرر لأسفل، هذا أيضاً موضوع بشكل غريب لأننا نستطيع رؤية نص التمرير
00:15:12نوعاً ما فوقه. ولكن بينما أحرك مؤشر الفأرة، يمكنك رؤية نوع من الحركة وتغير
00:15:18اللون، وهو أمر رائع نوعاً ما. بينما نمرر لأسفل، لدينا بعض الرسوم المتحركة للتحميل
00:15:24لكل شيء. ولكن بشكل عام، يبدو جيداً بالنسبة للنظارات نفسها التي تستخدم HTML.
00:15:31إذن هو مثل، ماذا ستحصل حقاً من هذا؟ لم يجد حتى أي نوع من النظارات
00:15:35لاستخدامها. ولديه، كما تعلم، إليك كيف يمكنك حجزها وإليك كيف يمكنك شراؤها. لذا
00:15:41إنه جيد. مرة أخرى، لم نعطه الكثير من التوجيه، ولكننا أخبرناه بالذهاب للحصول على مظهر نوع الجوائز.
00:15:45لن أعتبره على هذا المستوى. الآن دعونا نلقي نظرة على ما بناه GLM لنا.
00:15:51ولا أعرف حقاً ما الذي يجري هنا على الإطلاق. في الواقع، هذا بالكاد محمل.
00:15:59يظهر لنا بعض النظارات، ولكن هذا الموقع كارثة. كأنه لم
00:16:04ينهِ هذا حقاً. كأنه فقط رماها معاً. نعم. نعم، المطالبة لم تكن فائقة
00:16:13التفصيل، ولكن يجب أن يكون قادراً على القيام بأكثر من هذا بناءً على ما أعطيته له. هذا في الواقع
00:16:19رهيب. ليس لدي أي فكرة عما كان يحاول تحقيقه هنا. وأخيراً، لدينا GPT 5.5. لذا
00:16:25هذا مثير للاهتمام قليلاً. أعتقد أنه يبدو رائعاً، على الرغم من أن النظارات
00:16:30تتداخل نوعاً ما مع النص هنا. ولدينا الكثير من المساحة الميتة، والتي يمكنك القول إنها
00:16:34نوع من اختيار التصميم. ولدينا اللافتة التي تتحرك فعلياً، ستتذكر أن
00:16:39إصدار Opus كان يحتوي على لافتة، لكنها لم تكن تتحرك. وبينما نمرر لأسفل، ستلاحظ أيضاً أن
00:16:44المؤشر متعدد الألوان. وبينما نمرر لأسفل، يبدو أنه أنشأ بعض أصول HTML.
00:16:50أعني، غريب، أليس كذلك؟ لقد قلنا له، “يا رجل، يمكنك الذهاب والعثور على ما تحتاجه عبر الإنترنت
00:16:55إذا أردت.” ولكن بشكل عام، ربما هو الأفضل من بين الثلاثة. لكن، كما تعلم، لن أقول إنني كنت
00:17:04مغروماً بأي منها، يوضح لك مدى قوة اليد التي تحتاجها عند القيام بأي
00:17:09نوع من التصميم البصري أو أشياء واجهة المستخدم، حتى أكثر هذه النماذج تقدماً تعاني،
00:17:14أنا في الواقع ليس لدي فكرة عما يجري هنا. هذا فوضى. إذن بشكل عام، Opus كان
00:17:21جيداً. و 5.5 كان الأفضل من بين المجموعة و GLM كان في الواقع فشلاً ذريعاً. ومثلما فعلنا مع
00:17:26إصدار الألعاب، سنعطيهم فرصة ثانية في هذا ونرى ما إذا كان بإمكانهم تنظيف ما
00:17:30سار بشكل خاطئ. وعلاوة على ذلك، سنطلب منهم دمج، مشابه لـ، مرة أخرى، اللعبة التي طلبنا منهم
00:17:36إنشاؤها، بعض عناصر Three.js، نريد حقاً رؤية كيف يمكنه دفع قدراته مع
00:17:42نوع من الحركة والرسومات وما شابه ذلك. وتلك المطالبة الجديدة تبدو هكذا: خذ
00:17:46صفحة هبوط النظارات الذكية التي بنيتها للتو وأعد بناءها كتجربة ثلاثية الأبعاد غامرة باستخدام
00:17:51Three.js. لذا نريد مشهداً ثلاثي الأبعاد تفاعلياً. ومرة أخرى، نمنحه الحرية الكاملة
00:17:56للتنفيذ كما يراه مناسباً. وإليك ما حصلنا عليه مع Opus 4.8. يمكنك رؤية أنه أضاف الآن
00:18:02بعض Three.js، هذه النظارات تتحرك نوعاً ما. ولكن بعيداً عن ذلك، لدينا بعض المشكلات الأصلية،
00:18:08أليس كذلك؟ النص يتم قطعه، ويتم الكتابة فوقه هنا. وبقية هذا،
00:18:13من الواضح أن الذكاء الاصطناعي هو من أنشأ هذا. ملاحظة، تكاليف الرموز
00:18:21كانت متساوية تقريباً في التشغيل الثاني عبر الجميع مقارنة بالتشغيل الأول للجميع. التالي،
00:18:27لدينا GLM 5.2. وهذه المرة أنشأ في الواقع موقعاً إلكترونياً له معنى. لدينا هذه النظارات،
00:18:32على الرغم من أن النظارات التي صنعها غريبة، مثل أنك تمتلك فقط، كما تعلم،
00:18:36لا توجد نظارات ستظهر هكذا في النص المقطوع هنا أيضاً. ولكن لدينا لافتة
00:18:42تتحرك عندما أمرر فوقها، تتوقف. وأود أن أقول بشكل عام، من حيث
00:18:48كيفية تخطيط الموقع، ربما أعطيه الأفضلية على Opus. الآن، لا أعتقد
00:18:55أن أياً منهما جيد بشكل خاص. وقد منحناهم حرية القيام بما يريدون. ولكن
00:18:59سأضع هذا فوق نوع الإعداد هذا. على الرغم من أنه من حيث قسم البطل نفسه،
00:19:05أحب Opus 4.8 بشكل أفضل. الآن، GPT 5.5، أعتقد أنه الفائز هنا. أعتقد أن هذا يبدو
00:19:10أفضل بشكل عام من وجهة نظر تصميم ذاتية. وأعتقد أن رسومات الحركة Three.js
00:19:18التي أضافها هنا رائعة. أعتقد أنها منطقية في سياق ما أنشأه. مثل لدينا
00:19:22كل هذه المساحة البيضاء في الأعلى والنظارات قادرة، كما تعلم، على العيش هناك. وبالنسبة لـ
00:19:27بقية الموقع، أعتقد أنه يبدو جيداً. مرة أخرى، لا يزال يبدو جداً مثل، “اقتباس”،
00:19:32“قمامة الذكاء الاصطناعي” بمعنى أن الذكاء الاصطناعي هو من أنشأ هذا بالتأكيد، ولكنه لا يبدو سيئاً. ومثل من
00:19:37الأعلى إلى الأسفل، أفضل ما قدمه لنا 5.5 على الآخرين. لذا عندما نلقي نظرة على هذا
00:19:42الشيء، بجلب هذه الاختبارات المعيارية الأكثر تعقيداً، مثل DeepSuite جنباً إلى جنب
00:19:48مع ما فعلناه اليوم، أعتقد أن هذا ما كنا نتوقعه. لا أعتقد أن GLM كان سيئاً للغاية
00:19:56بأي معنى من المعاني، لكنه بالتأكيد شعر وكأنه خطوة تحت GPT 5.5 أو 4.8 أو في
00:20:03سيناريوهات حيث، كما تعلم، في القسم الأول حيث كان Opus أفضل من الجميع. وفي
00:20:07القسم الثاني حيث كان GPT أفضل من الجميع، كان GLM دائماً بالقرب من القاع. لم يكن
00:20:12أسوأ بكثير من أي منهم، لكنه بالتأكيد لم يكن أفضل. كما استخدم عدداً لا نهائياً من الرموز.
00:20:17لذا عندما نلقي نظرة على شيء مثل هذا، درجة DeepSuite، حيث،
00:20:21يا رجل، GLM في القاع وفي الواقع أقل كفاءة من 5.5 و 4.8، كلاهما من حيث
00:20:27التكلفة ومدى جودة أدائه. من المنطقي. أعتقد أن هذا ما نراه. لذا
00:20:35الصورة الكبيرة، هل GLM نموذج رائع مفتوح المصدر؟ بالتأكيد. ولكن هل يواجه بعض المشكلات التي
00:20:41تواجهها النماذج مفتوحة المصدر بشكل عام؟ نعم. وعلاوة على ذلك، إذا كنت شخصاً
00:20:47مهووساً بالمصادر المفتوحة، افهم أن هذا ليس شيئاً ستشغله على جهاز الكمبيوتر الخاص بك، أليس كذلك؟ هذا يتطلب
00:20:52طناً من العتاد. وأعتقد أن ما يضيع في المحادثة هو ما تحدثنا عنه في
00:20:57البداية، وهو، حسناً، التكاليف تمثل مشكلة بالفعل لـ GLM 5.2. ومع ذلك، لا
00:21:05يأخذ هذا في الاعتبار حتى الدعم الهائل الذي تحصل عليه إما على خطة Anthropic Max أو OpenAI
00:21:12Max. لذا ضع ذلك في الاعتبار، وهكذا، حسناً، لا يوجد جدل.
00:21:16إنه ليس جدالاً حقاً. لذا هل أقترح استخدام GLM 5.2 للمستخدم العادي؟ لا،
00:21:24ليس حقاً. أعتقد ربما إذا كنت تقوم بمهام منخفضة المستوى وأنت شخص يقارن
00:21:29ذلك فقط بأسعار واجهة برمجة التطبيقات، ربما، ربما. ولكن، كما تعلم، أعتقد أنه من الصعب الجدال
00:21:38بذلك لأنه حينها ماذا سنفعل عندما يصدر، كما تعلم، Sonnet 5 الأسبوع المقبل؟ مثل،
00:21:42هل ستنتقل فقط من هنا إلى هناك؟ هناك شيء يجب قوله حول الالتزام
00:21:46بالنموذج، خاصة عندما نتحدث أكثر عن مستوى فرق المؤسسات،
00:21:50حيث تبدأ تكاليف واجهة برمجة التطبيقات في التراكم حقاً. لأننا مرة أخرى، بالنسبة للمستخدم الفردي العادي الذي
00:21:55سيستخدم إحدى الخطط المدعومة ولا يدفع تكاليف واجهة برمجة تطبيقات مباشرة، لا أرى حجة لـ
00:22:01GLM 5.2. لذا هذا هو ما سأترككم معه اليوم. آمل أن أكون قد سلطت الضوء على
00:22:05جدال GLM بأكمله وكل الضجيج الذي تراه حوله. كالعادة، دعني أعرف ما
00:22:09رأيك في التعليقات. تأكد من إلقاء نظرة على Chase AI Plus إذا كنت تريد وضع يديك على
00:22:13دورة Cloud Code Masterclass، وأراكم حولكم.

Key Takeaway

على الرغم من الجدل الدائر حول كفاءة GLM 5.2 كمصدر مفتوح، إلا أن النماذج التجارية مثل GPT 5.5 وOpus 4.8 تتفوق عليه بوضوح في الأداء والنتائج النهائية للمهام البرمجية المعقدة مقابل تكلفة إجمالية أكثر فعالية.

Highlights

  • نموذج GLM 5.2 يتطلب أجهزة قوية جداً لتشغيله ولا يمكن اعتباره مفتوح المصدر بالمعنى التقليدي الذي يسمح بالتشغيل الشخصي المباشر.

  • أظهر اختبار DeepSuite أن تكلفة المهمة الواحدة باستخدام GLM 5.2 تبلغ 3.92 دولار، بينما يحقق نموذج GPT 5.5 نتائج أفضل بنسبة 67% مقابل 7.23 دولار للإعدادات القصوى.

  • استخدم نموذج Opus 4.8 حوالي 100,000 رمز لإنشاء لعبة سباق، بينما استهلك GLM 5.2 أكثر من مليون رمز للمهمة نفسها.

  • تفوق نموذج GPT 5.5 في تصميم واجهة المستخدم وتكامل Three.js في مهمة بناء صفحة هبوط للنظارات الذكية مقارنة بـ Opus 4.8 و GLM 5.2.

  • تُعد تكاليف استهلاك الرموز لكل مليون رمز هي 1.40 دولار للإدخال و4.40 دولار للإخراج في GLM 5.2، مما يجعله أرخص ظاهرياً ولكن أقل كفاءة في إنجاز المهام المطلوبة مقارنة بالمنافسين.

Timeline

تحليل الأداء عبر اختبار DeepSuite

  • يصنف DeepSuite كاختبار معياري متقدم للمهام الوكيلة طويلة الأمد عبر لغات برمجة متعددة.
  • يحقق GPT 5.5 نسبة نجاح 67% في المهام مقابل 59% لـ Opus 4.8 و44% لـ GLM 5.2.
  • النماذج التجارية تتفوق في كفاءة استخدام الرموز لإنجاز المهام المحددة.

يركز هذا القسم على تقييم النماذج الثلاثة باستخدام اختبار DeepSuite الذي يقيس الأداء في 113 مهمة برمجية. بالرغم من انخفاض تكلفة الرمز الواحد في GLM 5.2، يستهلك النموذج كميات أكبر من الرموز لتنفيذ المهام، مما يجعل النماذج التجارية أكثر كفاءة من حيث التكلفة الإجمالية للمشروع.

اختبار بناء لعبة سباق ثلاثية الأبعاد

  • أنهى Opus 4.8 إنشاء اللعبة في 13 دقيقة مع أداء سلس ورسومات مقبولة.
  • واجه GLM 5.2 صعوبات في الدقة التقنية وعناصر التحكم، مستهلكاً 1.35 مليون رمز.
  • ظهر GPT 5.5 ببطء في التنفيذ مع مشكلات تقنية واضحة في تصميم العجلات والرسومات.

يتم اختبار قدرة النماذج على بناء لعبة سباق في المتصفح بناءً على مطالبات غامضة. يتصدر Opus 4.8 النتائج من حيث السلاسة والالتزام بالتصميم، بينما يعاني GLM 5.2 من استهلاك رمزي مفرط مع جودة رسومية متدنية، ويقدم GPT 5.5 أداءً وظيفياً لكنه يفتقر إلى الدقة البصرية.

اختبار تصميم صفحة هبوط لمنتج تقني

  • حقق GPT 5.5 أفضل نتائج تصميمية وتكامل حركي باستخدام Three.js.
  • فشل GLM 5.2 في محاولته الأولى لإنشاء صفحة هبوط وظيفية بوضوح.
  • أثبتت النتائج أن جميع النماذج تحتاج إلى تدخل بشري لتصحيح التخطيط البصري.

تطلب الاختبار من النماذج تصميم صفحة هبوط لنظارات ذكية بأسلوب احترافي. أظهر GPT 5.5 قدرة أفضل على التنسيق البصري ودمج مكتبات Three.js بشكل منطقي في المحاولات اللاحقة، في حين بقي أداء GLM 5.2 متأخراً عن التوقعات التقنية، مما يعزز النتيجة بأن النماذج الحالية لا تزال تتطلب توجيهاً دقيقاً في المهام المرئية.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video