لقد اختبرت GLM 5.2 مقابل Opus 4.8 مقابل GPT 5.5
CChase AI
Computing/SoftwareVideo & Computer GamesInternet Technology
Transcript
00:00:00صدر نموذج GLM 5.2 هذا الأسبوع، وهو أقوى نموذج مفتوح المصدر رأيناه
00:00:04على الإطلاق. وفي بعض الاختبارات المعيارية، كما ترون هنا، يتفوق هذا النموذج حتى على العمالقة
00:00:10مثل Opus 4.8 من Anthropics و 5.5 من OpenAI. ولكن هل هذه الاختبارات المعيارية موثوقة؟ كيف يقارن هذا النموذج
00:00:18مباشرة بـ Opus 4.8 و GPT 5.5؟ حسناً، هذا بالضبط ما سنجيب عليه
00:00:25في فيديو اليوم، حيث سأقوم بإجراء اختبارات متعددة على هذه النماذج الثلاثة الكبيرة لنرى
00:00:31كيف يكون أداؤها فعلياً في العالم الحقيقي. علاوة على ذلك، سنقوم بتحليل عميق
00:00:35لاختبار معياري واحد على وجه الخصوص أعتقد أنه مهم جداً، بالإضافة إلى توضيح ما
00:00:40نعنيه حقاً بأن GLM 5.2 أفضل في بعض الحالات من Opus و GPT 5.5. هل نتحدث عن
00:00:47كونه أكثر كفاءة، أو أقل تكلفة، أم أنه يتفوق فعلاً في كل تلك الجوانب في نفس
00:00:51الوقت؟ لذا دون مزيد من التأخير، دعونا نبدأ مباشرة. والآن، قبل أن ندخل في اختبار
00:00:56المقارنة المباشرة، دعونا نلقي نظرة أولاً على بعض الاختبارات المعيارية الموجودة بالفعل لمقارنة هذه
00:00:59النماذج الثلاثة. الاختبار الذي أريد التركيز عليه حقاً هو DeepSuite. إن DeepSuite
00:01:04اختبار معياري جديد نسبياً، ويهدف إلى أن يكون تحسيناً على أشياء مثل Terminal
00:01:08Bench و Terminal Bench Pro. الآن، لن أتعمق كثيراً في هذا الاختبار المعياري، يمكنك
00:01:12الاطلاع على موقعهم الإلكتروني أو مستودع GitHub الخاص بهم، والذي يشرح الأمر بمزيد من التفصيل. ولكنه يركز
00:01:17على المهام الوكيلة طويلة الأمد، وتحديداً 113 مهمة عبر لغات TypeScript و Go و Python و JavaScript
00:01:23و Rust مع بيئات معزولة ومتحقق برمجيات. وهنا على هذا الرسم البياني، يمكننا رؤية
00:01:29النتيجة، أي النسبة المئوية للإجابات الصحيحة على الجانب الأيسر، بالإضافة إلى متوسط التكلفة
00:01:34لكل مهمة. الآن، نريد أن نكون في أعلى اليمين. المنطقة الأكثر كفاءة هي هنا في أعلى
00:01:39اليمين. حيث نحصل على أعلى درجة بأقل تكلفة. ويمكننا أن نرى هنا أن GLM 5.2
00:01:44بإعداد “ماكس” يعطينا 44% بتكلفة 3.92 دولار للمهمة. وإذا قارنا ذلك بـ Opus 4.8 و GPT 5.5، يمكننا أن نرى
00:01:55أن أداءهما أفضل بكثير. عند إعداد “ماكس”، يحقق Opus 4.8 نسبة 59%، و 5.5 يحقق 67% عند إعداد “فائق” (Extra High). من الواضح،
00:02:04عند الإعدادات القصوى، لدينا تكلفة باهظة جداً. بالنسبة لـ GPT 5.5، التكلفة 7.23 دولار، و13 دولار لـ Opus،
00:02:12وعند GLM، التكلفة هي 3.92 دولار. إذن هو أرخص بكثير. ومع ذلك، عندما ننظر إلى مستويات جهد مختلفة
00:02:19في 5.5 وفي Opus، إذا كنا عند مستوى “متوسط”، على سبيل المثال، مع Opus 4.8، سنحقق نتيجة
00:02:25أعلى من GLM 5.2، وسنكون أقل تكلفة. أي 49% بـ 3.44 مقابل 44% بـ 3.92. وهذا فرق
00:02:36كبير، فنموذج 5.5 يحقق 54% بـ 2.75 دولار مقابل 44% بـ 3.92 دولار. إذن من البداية، في هذا الاختبار المعياري،
00:02:47إذا أخذنا الأمور بقيمتها الظاهرية، فإن 4.8 و 5.5 متفوقان على GLM 5.2. وهذا ليس مفاجئاً. فهذه
00:02:55هي أفضل نماذج الحدود (Frontier Models). وهي ليست مفتوحة المصدر. وإذا ضغطنا بكل قوتنا،
00:03:01سوف يسحقون GLM 5.2 في هذه المهام طويلة الأمد، وهو أمر متوقع نوعاً ما.
00:03:07ما قد لا تتوقعه هو حقيقة أنه يمكن أن يكون أفضل وبسعر أرخص،
00:03:11وهو نوع من المشكلة. وأريد فقط توضيح ذلك لأنني أعلم أن هناك الكثير من
00:03:16الحديث والكثير من الضجيج حالياً حول GLM 5.2 وحقيقة أنه مفتوح المصدر. و، كما تعلمون،
00:03:21هذا يعني فوراً، “أوه، إنه رخيص جداً جداً. ويمكننا القيام بأشياء جيدة حقاً.”
00:03:25حسناً، أعني، من خلال الأرقام، إنه جيد، لكنه ليس بمستوى 4.8 أو 5.5 بناءً على هذا الاختبار المعياري. وتذكروا،
00:03:33أرقام 4.8 و 5.5 هذه تعتمد على تكاليف واجهة برمجة التطبيقات (API). إذا كنت على خطة “ماكس”، فهي أرخص بـ 10 أضعاف من
00:03:40هذا. نفس الشيء إذا كنت فقط على خطة OpenAI، كما تعلمون، خطة 100 دولار في الشهر أو 200 دولار في الشهر. لذا
00:03:46هذا شيء آخر يجب أخذه في الاعتبار. لذا أردت فقط أن أضغط على الفرامل أمام أي كلام
00:03:50يقول إن GLM أرخص بكثير، لأنه ليس كذلك حقاً. وعلى الرغم من أنه مفتوح المصدر،
00:03:56GLM 5.2، النموذج مفتوح المصدر الذي يحصل على هذه الأرقام، هذا ليس مفتوح المصدر بمعنى
00:04:01أنه يمكنك فقط تنزيله على جهاز الكمبيوتر الخاص بك. إنه مفتوح المصدر بمعنى أنه يمكنك رؤية الكود،
00:04:05يمكنك رؤية الأوزان. إنه ليس مفتوح المصدر بمعنى، “أوه لا، إنه فقط، يمكنني الذهاب والحصول
00:04:09عليه من OLAMA. يمكنني تشغيله على جهاز الكمبيوتر الشخصي الخاص بي.” لا، لا يمكنك ذلك. لا يمكنك ذلك. هذا النموذج يحتوي على ما يقرب من
00:04:14تريليون بارامتر. هذا يتطلب طناً من العتاد لتشغيله. لذا لا تخلطوا بين الأمور لأنني أعلم
00:04:20أن هناك شريحة من الناس تخلط، لكن هذا فقط لتمهيد الطريق. ومرة أخرى،
00:04:24هذا يعتمد على بيانات DeepSuite. هذه مهام مكثفة جداً يتم تكليفها بها. و
00:04:30اليوم سنجري بضعة اختبارات مختلفة بمستوى أقل قليلاً، والتي هي
00:04:35ربما أكثر انعكاساً لما يقوم به المستخدم العادي. لذا شيء يجب وضعه
00:04:39في الاعتبار. وفقط لنكون جميعاً على نفس الصفحة، هذا ما ننظر إليه من حيث التكاليف
00:04:44لكل رمز (Token). تذكروا أن السبب في كونه أرخص لـ Opus 4.8 و 5.5 هو أنه يستخدم رموزاً أقل بكثير
00:04:50للقيام بما يحتاجه. كان في النهاية أكثر كفاءة، ولكن على أساس كل رمز.
00:04:55وتذكروا بالنسبة للإدخال والإخراج، هذا لكل مليون رمز، GLM 5.2، يكلف 1.40 دولار للإدخال،
00:05:01و 4.40 دولار للإخراج. و Opus 4.8 أغلى بـ 5.7 مرة. و 5.5 من GPT أغلى بـ 6.8 مرة
00:05:10أكثر تكلفة. إذن على أساس كل رمز، هو أرخص بكثير. ولكن تذكروا، نحن نهتم بالنتائج لمهمة ما،
00:05:16وليس بالضرورة مقارنة الرموز واحداً لواحد. والآن قبل أن نقفز إلى الاختبارات الفعلية،
00:05:21كلمة سريعة من راعي فيديو اليوم، أنا. فقد أطلقت للتو دورة “Cloud Code Masterclass” داخل
00:05:26منصة “Chase AI Plus” وهي الطريقة الأولى للانتقال من الصفر إلى مطور ذكاء اصطناعي، خاصة إذا لم تكن
00:05:30تأتي من خلفية تقنية. أقوم بتحديث هذه الدورة كل أسبوع، وتتضمن أيضاً دورات متقدمة للترميز
00:05:35ولإنشاء نظام التشغيل الوكيل الخاص بك. لذا إذا كان هذا شيئاً تريد معرفة المزيد عنه ولست
00:05:40متأكداً من أين تبدأ، فإن Chase AI Plus هو المكان المناسب لك. يوجد رابط له في التعليقات المثبتة.
00:05:46إذن هكذا سنجري هذا الاختبار. سنعطي كل نموذج نفس
00:05:49المطالبة ووضع التخطيط. سيعطينا الخطة. قد نقوم أو لا نقوم ببعض الأخذ والرد،
00:05:53اعتماداً على ما نعتقده في الخطة التي توصل إليها. وبعد ذلك، سندعه ينفذ.
00:05:58بعد التنفيذ، سأقوم بتطبيق معايير التقييم الذاتية للغاية الخاصة بي على النتيجة النهائية وأخبرك
00:06:03أيهم أعجبني أكثر. إذا لم تعجبك معايير التقييم الخاصة بي أو ما قررته كأفضل نموذج، تأكد من
00:06:08ترك تعليق. وسأحرص أيضاً على حذف تعليقك. الآن، هنا على اليسار، لدينا
00:06:14GPT 5.5 داخل Codex على إعداد “فائق”. ولدينا OpenCode في المنتصف يشغل GLM 5.2 على إعداد “فائق”
00:06:21وعلى اليمين هنا، لدينا Cloud Code يعمل بنموذج Opus 4.8 بإعدادات عالية.
00:06:26على إعداد “عالٍ”. الآن، لماذا اخترت إعدادات الجهد هذه بالتحديد؟ لأن هذه هي الطريقة التي يستخدم بها معظم الناس
00:06:32هذه النماذج في الحياة الواقعية. ومن المحتمل أنك إما على خطة “ماكس” أو أنك على نوع ما من
00:06:37خطط OpenAI ومن المحتمل أنك لا تشغلها على “متوسط”. لنكن صادقين. لذا أعتقد أن هذا
00:06:42انعكاس أفضل لكيفية استخدام المستخدم العادي لهذه النماذج يوماً بعد يوم.
00:06:47لذا بالنسبة لمطالبتنا الأولى، سنجعله يبني لعبة سباق ثلاثية الأبعاد قابلة للعب تعمل في
00:06:51المتصفح. ومن المهم أننا نحافظ على هذه المطالبة غامضة نوعاً ما. أنا أقول إن لديك الحرية الكاملة
00:06:56للذهاب إلى الويب واختيار أي حزمة ومكتبة تعتقد أنها الأفضل لتنفيذ ذلك. لذا
00:07:02دعونا نمضي قدماً ونشغلها ونرى ماذا سيحدث. لذا لدينا جميع النماذج الثلاثة تعمل في وضع التخطيط.
00:07:08ومرة أخرى، الفكرة وراء جعل المطالبة غامضة نوعاً ما هي أننا نريد رؤية أكبر قدر
00:07:12ممكن من الاختلاف بين هذه النماذج. إذا أعطيتها خارطة الطريق الدقيقة، وكيفية القيام بكل شيء،
00:07:18حسناً، عندها لا نرى حقاً كيف تفكر هذه النماذج وكيف تتعامل مع أنواع أكثر
00:07:23فوضوية من المشكلات. لذا بعد 13 دقيقة، كان Opus 4.8 هو أول من أنهى إنشاء لعبة السباق.
00:07:29لذا دعونا نلقي نظرة على ما صنعه. حسناً، هنا نحن في مستوى منخفض من المضلعات (Low Poly). لديه
00:07:37بعض الأصوات. يتحرك بسلاسة كبيرة. يبدو أن لدينا القدرة على الانجراف (Drift) هنا أيضاً.
00:07:44حسناً، العشب يؤثر بالفعل على كيفية عمل الفيزياء. بشكل عام، سلس جداً، ولكن،
00:07:54كما تعلم، ممل نسبياً، أليس كذلك؟ أعني أن هذا مضمار سباق أساسي جداً. لا شيء مجنون، لم يضف
00:07:59أي نوع من الذكاء الاصطناعي أو أي شيء من هذا القبيل. لذا أنا مهتم برؤية كيف تؤدي النماذج الأخرى من حيث
00:08:04التعقيد وما سأفعله غالباً بعد هذا الاختبار الأول إذا كانت جميعها متشابهة
00:08:09في هذه الرؤية الباهتة. سنقوم ربما بإعطائها مطالبة أخرى ترفع مستوى التحدي. التالي
00:08:13هو GLM 5.2. لقد استغرق وقتاً أطول بخمس دقائق من Claude Code. للمرجعية، GPT 5.5 لا يزال
00:08:20يعمل، وهو أمر لا يفاجئني كثيراً. فهو يميل إلى أن يكون أبطأ قليلاً. من حيث مقارنة الرموز،
00:08:26استخدم Claude Code حوالي 100,000 رمز لإنشاء ذلك. و GLM 5.2 استغرق أكثر من مليون. ويمكننا إلقاء نظرة
00:08:33داخل Open Router لهذا التشغيل، حيث كان إجمالي الإنفاق 1.21 دولار. وإجمالي حجم الرموز كان 1.35
00:08:41مليون لإنشاء هذه اللعبة. لذا مباشرة، مسار مثير للاهتمام لدينا هنا.
00:08:48عناصر التحكم سريعة جداً، مقارنة بما كان لدينا مع Claude Code. أنا أتحرك
00:08:53بسرعة كبيرة جداً بالنسبة للمسار نفسه. سريع جداً. وكأنني أصرخ أثناء المرور عبر هذا. ونحن أيضاً كأننا
00:09:00فقط، لا يوجد فرق حقيقي بين المسار والمجال نفسه. وفي
00:09:09بعض الحالات، كنت قادراً تقريباً، كما رأيت هناك، على المرور عبر المسار، ولكن ليس حقاً.
00:09:15أيضاً، السيارة نفسها أقل تفصيلاً مما رأيناه داخل Claude Code. أعني،
00:09:23هناك مسار، ولديه مؤقت. من حيث اللعب الفعلي، القليل من الخلل (Janky) بالنسبة لما هو عليه،
00:09:30ليس بسلاسة ما رأيناه مع Opus. وأيضاً مرة أخرى، مع وضع المضلعات المنخفض كما رأينا مع
00:09:36Opus. لذا أود أن أرى ما سيفعله إذا أخبرناه أن ينشئ شيئاً يبدو
00:09:40أفضل. وأيضاً هذا المسار نفسه لا معنى له كثيراً. والآن ننظر إلى
00:09:44ما أنشأه GPT 5.5. إنه يسميه “Foundry Circuit”، تجربة الوقت للنوبة الليلية ثلاث لفات
00:09:50عبر أعمال الصلب. لذا شيء مختلف، أعتقد، عن المسار العام الذي رأيناه في
00:09:54الاثنين الأخيرين. لذا دعونا نمضي قدماً ونبدأ هذا. وهيا بنا. حسناً، أنا لا أعرف حقاً إلى أين
00:10:04أفترض أن أذهب. أوه، أعتقد أن هذا هو المسار. تبدو العجلات مثيرة للاهتمام. إنها تدور
00:10:10بالطريقة الخاطئة. لذا هذا شيء. حسناً، لديها ضوضاء مزعجة جداً، في الواقع.
00:10:21ولا أستطيع أن أتجاوز حقيقة أن العجلات تسير أفقياً، أو أياً كان ما تصف به هذا.
00:10:28المسار نفسه جيد ويمكنك أن تتحرك نوعاً ما. نعم، يمكنك تجاوز المسار وسوف يبطئك. لكنه ليس
00:10:35واضحاً أنه مسار ممهد، مثلما رأينا مع ما بناه Opus. والباقي هو،
00:10:41كما تعلم، قل، المجال. لذا رسومات غريبة، بصراحة. أيضاً، عندما تفكر في
00:10:48حقيقة أنه استغرق ضعف طول وقت Opus، هذا غريب نوعاً ما. نعم، بصراحة، غريب جداً. مرة أخرى،
00:10:55مثل لماذا، لماذا فعل هذا بالعجلات؟ ليس لدي أي فكرة. مرة أخرى، ذهب لشيء المضلعات المنخفضة.
00:11:00وهو مظلم جداً، لسبب غير واضح. لذا أعني، أشعر أن
00:11:06هذا أكثر وظيفية مما حصلنا عليه مع GLM 5.2، ولكن، ليس أفضل بكثير. وأيضاً
00:11:12تعتبر حقيقة أن هذا كان على إعداد “فائق” في 5.5. الآن من حيث استخدام الرموز لـ 5.5،
00:11:17وصل إلى ما رأيناه تقريباً مع Claude Code. استخدم 7% من نافذته التي تبلغ خمس ساعات. إذن تقريباً
00:11:22لا شيء. الآن، الترتيب العام، كنت سأضع Opus 4.8 بوضوح قبل GLM 5.2 و 5.5. اعتقدت أن
00:11:28الاثنين الأخيرين كانا يفتقران للدقة، لكننا سنعطيهما فرصة أخرى لأننا
00:11:32سنخبرهما بإلقاء نظرة أخرى على الكود، والقيام بممر آخر. ونريد أيضاً منهما
00:11:36أن يقدما أداءً أفضل بكثير من حيث الرسومات. لا أريد الأشياء ذات المضلعات المنخفضة. أريد أن يبدو هذا
00:11:40مثل لعبة من الفئة AAA أو أقرب ما يمكن إلى ذلك. لذا دعونا نرى ما سيحدث عندما نعطيهم
00:11:46المحاولة رقم اثنين. أنهى Opus و GLM ممرهم الثاني و 5.5 ينهي عمله هناك. لذا
00:11:50دعونا نلقي نظرة على Opus 4.8 أولاً. على الفور، نرى سيارة أفضل بكثير. هذا تحسن كبير
00:11:58فيما يتعلق بالسيارة مقارنة بما رأيناه من قبل. نرى أيضاً إضاءة مختلفة تماماً.
00:12:04يمكنك رؤية انعكاس الشمس على الأرض نفسها وكل شيء يبدو أكثر سلاسة. أعني،
00:12:10الأشجار نفسها هي نوع من أنواع المضلعات المنخفضة، لكن الإضاءة وخاصة السيارة
00:12:15خطوة كبيرة للأمام. وما زالت تحتفظ بنفس نوع اللعب السلس. أعني، إلى جانب
00:12:20حقيقة أن لدينا أشجاراً في الطريق، لكن الأشجار نفسها أيضاً مظللة. ولممر إضافي واحد
00:12:26استغرق 10 دقائق وحوالي 50,000 رمز، ليس سيئاً. الآن سننظر إلى GLM. وفي هذه المرحلة،
00:12:32استغرق الأمر حوالي 1.2 مليون رمز أخرى لإجراء هذا التحديث، مما يجعل إجمالي إنفاقنا 1.83 دولار.
00:12:38لذا دعونا نشغله. ويبدو أنه حاول إضافة نوع من الإضاءة المختلفة. السيارة تبدو
00:12:46أفضل قليلاً، لكن الإضاءة نفسها غريبة نوعاً ما. كأنها متوهجة جداً. المسار
00:12:52نفسه لم يتغير كثيراً. كما تعلم، لا يزال مجرد عشب في كل مكان. وعناصر
00:12:57التحكم لا تزال متقطعة، أليس كذلك؟ أنا أتحرك بسرعة كبيرة بالنسبة للمسار. نفس نوع المشكلة
00:13:04التي كانت لدي من قبل حيث يمكنني المرور عبر بعض المسار وبعضه الآخر لا أستطيع. لذا، أعني،
00:13:10رسومات السيارة تبدو أفضل، لكنني أجادل بأن الإضاءة والوهج مزعجان جداً.
00:13:15من المحتمل أنها خطوة للوراء مقارنة بما كان لدينا من قبل. وهنا الممر الثاني مع 5.5. الآن
00:13:21تبدو السيارة أفضل قليلاً، ولكن بالنظر إلى كل شيء آخر، هذا هو نفس الشيء. حسناً،
00:13:29العجلات أفضل. لقد قمنا بإصلاح مشكلة العجلات. إنها تدور بالفعل بالطريقة التي يجب أن تدور بها العجلات،
00:13:34ولكن لا تزال هناك ضوضاء مزعجة. ولا يوجد فرق حقيقي مرة أخرى بين المسار
00:13:42والعشب. لذا يبدو كأنه نفس الشيء الذي فعله في المرة الأولى مع
00:13:49سيارة أفضل قليلاً. لكن كما تعلم، عندما قلنا له اذهب لجمالية AAA، لن أقول إنه
00:13:55أصاب الهدف. ومرة أخرى، أشعر أن الصورة الكبيرة. ننظر إلى هذه الثلاثة GLM و 5.5، بالتأكيد خطوة
00:14:02أقل من Opus. الآن لاختبارنا التالي، سنجعله يبني لنا موقعاً إلكترونياً. والمطالبة التي سنستخدمها
00:14:07هي هذه. نريده أن يبني صفحة هبوط مزيفة لمنتج، وهو نظارات ذكية تعمل بالذكاء الاصطناعي.
00:14:12فكر في شيء مثل نظارات Meta Ray-Bans. مرة أخرى، نحن نمنح هذه النماذج الحرية الكاملة من حيث
00:14:16الحزمة والتصميم. نحن نخبره أن يختار ما يعتقد أنه الأفضل، وأن يثبت ما
00:14:20نحتاجه وأن يبحث عن أفضل الممارسات لإنشاء صفحات الهبوط. نحن نقول له، “يا رجل، امض قدماً وابحث عن
00:14:25صور ولقطات للمنتج.” ولا تعتمد فقط على إنشاء أشياء HTML الخاصة بك. والمهم،
00:14:31نحن نقول، اجعلها تبدو كموقع جوائز. لا نريدها أن تبدو كقمامة الذكاء الاصطناعي. نريد تسلسلاً هرمياً بصرياً حقيقياً،
00:14:35طباعة مقصودة، وحركة حيثما كان ذلك منطقياً. إذن صفحة هبوط للنظارات الذكية،
00:14:42نريدها أن تكون بأسلوب الجوائز. لذا دعونا نرى ما سيخرجون به. إذن النماذج الثلاثة
00:14:46أنهت العمل، للمرجعية، استخدم GLM حوالي مليون رمز للتنفيذ بينما استخدم Opus و 5.5
00:14:53حوالي مائة ألف، زيادة أو نقصاناً. لذا أولاً لدينا ما بناه Opus لنا خلفية مظلمة جداً.
00:14:58لديه نوع من هذه النظارات التي أنشأها، والنص مقطوع هنا، وهو أمر
00:15:04مؤسف. بينما نمرر لأسفل، هذا أيضاً موضوع بشكل غريب لأننا نستطيع رؤية نص التمرير
00:15:12نوعاً ما فوقه. ولكن بينما أحرك مؤشر الفأرة، يمكنك رؤية نوع من الحركة وتغير
00:15:18اللون، وهو أمر رائع نوعاً ما. بينما نمرر لأسفل، لدينا بعض الرسوم المتحركة للتحميل
00:15:24لكل شيء. ولكن بشكل عام، يبدو جيداً بالنسبة للنظارات نفسها التي تستخدم HTML.
00:15:31إذن هو مثل، ماذا ستحصل حقاً من هذا؟ لم يجد حتى أي نوع من النظارات
00:15:35لاستخدامها. ولديه، كما تعلم، إليك كيف يمكنك حجزها وإليك كيف يمكنك شراؤها. لذا
00:15:41إنه جيد. مرة أخرى، لم نعطه الكثير من التوجيه، ولكننا أخبرناه بالذهاب للحصول على مظهر نوع الجوائز.
00:15:45لن أعتبره على هذا المستوى. الآن دعونا نلقي نظرة على ما بناه GLM لنا.
00:15:51ولا أعرف حقاً ما الذي يجري هنا على الإطلاق. في الواقع، هذا بالكاد محمل.
00:15:59يظهر لنا بعض النظارات، ولكن هذا الموقع كارثة. كأنه لم
00:16:04ينهِ هذا حقاً. كأنه فقط رماها معاً. نعم. نعم، المطالبة لم تكن فائقة
00:16:13التفصيل، ولكن يجب أن يكون قادراً على القيام بأكثر من هذا بناءً على ما أعطيته له. هذا في الواقع
00:16:19رهيب. ليس لدي أي فكرة عما كان يحاول تحقيقه هنا. وأخيراً، لدينا GPT 5.5. لذا
00:16:25هذا مثير للاهتمام قليلاً. أعتقد أنه يبدو رائعاً، على الرغم من أن النظارات
00:16:30تتداخل نوعاً ما مع النص هنا. ولدينا الكثير من المساحة الميتة، والتي يمكنك القول إنها
00:16:34نوع من اختيار التصميم. ولدينا اللافتة التي تتحرك فعلياً، ستتذكر أن
00:16:39إصدار Opus كان يحتوي على لافتة، لكنها لم تكن تتحرك. وبينما نمرر لأسفل، ستلاحظ أيضاً أن
00:16:44المؤشر متعدد الألوان. وبينما نمرر لأسفل، يبدو أنه أنشأ بعض أصول HTML.
00:16:50أعني، غريب، أليس كذلك؟ لقد قلنا له، “يا رجل، يمكنك الذهاب والعثور على ما تحتاجه عبر الإنترنت
00:16:55إذا أردت.” ولكن بشكل عام، ربما هو الأفضل من بين الثلاثة. لكن، كما تعلم، لن أقول إنني كنت
00:17:04مغروماً بأي منها، يوضح لك مدى قوة اليد التي تحتاجها عند القيام بأي
00:17:09نوع من التصميم البصري أو أشياء واجهة المستخدم، حتى أكثر هذه النماذج تقدماً تعاني،
00:17:14أنا في الواقع ليس لدي فكرة عما يجري هنا. هذا فوضى. إذن بشكل عام، Opus كان
00:17:21جيداً. و 5.5 كان الأفضل من بين المجموعة و GLM كان في الواقع فشلاً ذريعاً. ومثلما فعلنا مع
00:17:26إصدار الألعاب، سنعطيهم فرصة ثانية في هذا ونرى ما إذا كان بإمكانهم تنظيف ما
00:17:30سار بشكل خاطئ. وعلاوة على ذلك، سنطلب منهم دمج، مشابه لـ، مرة أخرى، اللعبة التي طلبنا منهم
00:17:36إنشاؤها، بعض عناصر Three.js، نريد حقاً رؤية كيف يمكنه دفع قدراته مع
00:17:42نوع من الحركة والرسومات وما شابه ذلك. وتلك المطالبة الجديدة تبدو هكذا: خذ
00:17:46صفحة هبوط النظارات الذكية التي بنيتها للتو وأعد بناءها كتجربة ثلاثية الأبعاد غامرة باستخدام
00:17:51Three.js. لذا نريد مشهداً ثلاثي الأبعاد تفاعلياً. ومرة أخرى، نمنحه الحرية الكاملة
00:17:56للتنفيذ كما يراه مناسباً. وإليك ما حصلنا عليه مع Opus 4.8. يمكنك رؤية أنه أضاف الآن
00:18:02بعض Three.js، هذه النظارات تتحرك نوعاً ما. ولكن بعيداً عن ذلك، لدينا بعض المشكلات الأصلية،
00:18:08أليس كذلك؟ النص يتم قطعه، ويتم الكتابة فوقه هنا. وبقية هذا،
00:18:13من الواضح أن الذكاء الاصطناعي هو من أنشأ هذا. ملاحظة، تكاليف الرموز
00:18:21كانت متساوية تقريباً في التشغيل الثاني عبر الجميع مقارنة بالتشغيل الأول للجميع. التالي،
00:18:27لدينا GLM 5.2. وهذه المرة أنشأ في الواقع موقعاً إلكترونياً له معنى. لدينا هذه النظارات،
00:18:32على الرغم من أن النظارات التي صنعها غريبة، مثل أنك تمتلك فقط، كما تعلم،
00:18:36لا توجد نظارات ستظهر هكذا في النص المقطوع هنا أيضاً. ولكن لدينا لافتة
00:18:42تتحرك عندما أمرر فوقها، تتوقف. وأود أن أقول بشكل عام، من حيث
00:18:48كيفية تخطيط الموقع، ربما أعطيه الأفضلية على Opus. الآن، لا أعتقد
00:18:55أن أياً منهما جيد بشكل خاص. وقد منحناهم حرية القيام بما يريدون. ولكن
00:18:59سأضع هذا فوق نوع الإعداد هذا. على الرغم من أنه من حيث قسم البطل نفسه،
00:19:05أحب Opus 4.8 بشكل أفضل. الآن، GPT 5.5، أعتقد أنه الفائز هنا. أعتقد أن هذا يبدو
00:19:10أفضل بشكل عام من وجهة نظر تصميم ذاتية. وأعتقد أن رسومات الحركة Three.js
00:19:18التي أضافها هنا رائعة. أعتقد أنها منطقية في سياق ما أنشأه. مثل لدينا
00:19:22كل هذه المساحة البيضاء في الأعلى والنظارات قادرة، كما تعلم، على العيش هناك. وبالنسبة لـ
00:19:27بقية الموقع، أعتقد أنه يبدو جيداً. مرة أخرى، لا يزال يبدو جداً مثل، “اقتباس”،
00:19:32“قمامة الذكاء الاصطناعي” بمعنى أن الذكاء الاصطناعي هو من أنشأ هذا بالتأكيد، ولكنه لا يبدو سيئاً. ومثل من
00:19:37الأعلى إلى الأسفل، أفضل ما قدمه لنا 5.5 على الآخرين. لذا عندما نلقي نظرة على هذا
00:19:42الشيء، بجلب هذه الاختبارات المعيارية الأكثر تعقيداً، مثل DeepSuite جنباً إلى جنب
00:19:48مع ما فعلناه اليوم، أعتقد أن هذا ما كنا نتوقعه. لا أعتقد أن GLM كان سيئاً للغاية
00:19:56بأي معنى من المعاني، لكنه بالتأكيد شعر وكأنه خطوة تحت GPT 5.5 أو 4.8 أو في
00:20:03سيناريوهات حيث، كما تعلم، في القسم الأول حيث كان Opus أفضل من الجميع. وفي
00:20:07القسم الثاني حيث كان GPT أفضل من الجميع، كان GLM دائماً بالقرب من القاع. لم يكن
00:20:12أسوأ بكثير من أي منهم، لكنه بالتأكيد لم يكن أفضل. كما استخدم عدداً لا نهائياً من الرموز.
00:20:17لذا عندما نلقي نظرة على شيء مثل هذا، درجة DeepSuite، حيث،
00:20:21يا رجل، GLM في القاع وفي الواقع أقل كفاءة من 5.5 و 4.8، كلاهما من حيث
00:20:27التكلفة ومدى جودة أدائه. من المنطقي. أعتقد أن هذا ما نراه. لذا
00:20:35الصورة الكبيرة، هل GLM نموذج رائع مفتوح المصدر؟ بالتأكيد. ولكن هل يواجه بعض المشكلات التي
00:20:41تواجهها النماذج مفتوحة المصدر بشكل عام؟ نعم. وعلاوة على ذلك، إذا كنت شخصاً
00:20:47مهووساً بالمصادر المفتوحة، افهم أن هذا ليس شيئاً ستشغله على جهاز الكمبيوتر الخاص بك، أليس كذلك؟ هذا يتطلب
00:20:52طناً من العتاد. وأعتقد أن ما يضيع في المحادثة هو ما تحدثنا عنه في
00:20:57البداية، وهو، حسناً، التكاليف تمثل مشكلة بالفعل لـ GLM 5.2. ومع ذلك، لا
00:21:05يأخذ هذا في الاعتبار حتى الدعم الهائل الذي تحصل عليه إما على خطة Anthropic Max أو OpenAI
00:21:12Max. لذا ضع ذلك في الاعتبار، وهكذا، حسناً، لا يوجد جدل.
00:21:16إنه ليس جدالاً حقاً. لذا هل أقترح استخدام GLM 5.2 للمستخدم العادي؟ لا،
00:21:24ليس حقاً. أعتقد ربما إذا كنت تقوم بمهام منخفضة المستوى وأنت شخص يقارن
00:21:29ذلك فقط بأسعار واجهة برمجة التطبيقات، ربما، ربما. ولكن، كما تعلم، أعتقد أنه من الصعب الجدال
00:21:38بذلك لأنه حينها ماذا سنفعل عندما يصدر، كما تعلم، Sonnet 5 الأسبوع المقبل؟ مثل،
00:21:42هل ستنتقل فقط من هنا إلى هناك؟ هناك شيء يجب قوله حول الالتزام
00:21:46بالنموذج، خاصة عندما نتحدث أكثر عن مستوى فرق المؤسسات،
00:21:50حيث تبدأ تكاليف واجهة برمجة التطبيقات في التراكم حقاً. لأننا مرة أخرى، بالنسبة للمستخدم الفردي العادي الذي
00:21:55سيستخدم إحدى الخطط المدعومة ولا يدفع تكاليف واجهة برمجة تطبيقات مباشرة، لا أرى حجة لـ
00:22:01GLM 5.2. لذا هذا هو ما سأترككم معه اليوم. آمل أن أكون قد سلطت الضوء على
00:22:05جدال GLM بأكمله وكل الضجيج الذي تراه حوله. كالعادة، دعني أعرف ما
00:22:09رأيك في التعليقات. تأكد من إلقاء نظرة على Chase AI Plus إذا كنت تريد وضع يديك على
00:22:13دورة Cloud Code Masterclass، وأراكم حولكم.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video