نموذج GLM 5.2 هو المفضل الجديد لدي...

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00أفضل نموذج مفتوح في العالم حالياً ليس من شركة تسمى OpenAI، بل هو بالطبع من
00:00:04مختبر صيني، وهذا النموذج هو GLM 5.2 من Zhipu AI، هذا النموذج مثير للإعجاب حقاً، حيث يضاهي GPT 5.5 في
00:00:10بعض المعايير، وهناك حتى فئة يبدو فيها متفوقاً على Fable، كل ذلك مع كونه
00:00:15مفتوح المصدر بترخيص MIT. لنلقِ نظرة عليه. إذاً، GLM 5.2 هو نموذج بإجمالي 744 مليار معلمة
00:00:26مع 40 مليار معلمة نشطة، وهو في الواقع بنفس حجم سلفه GLM 5.1
00:00:31وهذا هو سبب كونه أمراً مثيراً للإعجاب حقاً أنهم حققوا مثل هذه القفزة في مؤشر الذكاء
00:00:35من Artificial Analysis. هذا نتيجة مجمعة عبر مجموعة من المعايير، مثل الاستنتاج، والبرمجة،
00:00:40والعلوم، والكثير غيرها. حقق GLM 5.2 هنا درجة 51، وهي تسبق إصدارهم السابق بـ 11 نقطة
00:00:45وهو أفضل نموذج مفتوح بفارق جيد. يمكنك رؤية Qwen 3.7 في المرتبة التالية، ثم Minimax M3
00:00:51يليه Kimi K 2.6. هذا يضعه فعلياً في نفس نطاق Gemini 3.5 Flash و GPT 5.4 في
00:00:57أقصى جهد، وهو أمر جنوني إلى حد ما. وفي بعض المعايير المدرجة في هذا المؤشر مثل GPT Val
00:01:03يتفوق في الواقع على GPT 5.5. إذا ركزنا على البرمجة تحديداً، فهو لا يزال رائعاً في مؤشر البرمجة
00:01:09حيث يسجل نفس درجة Gemini 3.1 Pro ويتفوق في الواقع على Sonnet 4.6، وهو ليس بعيداً جداً عن
00:01:14أفضل النماذج الرائدة. كما أنه يتقدم قليلاً على Kimi K 2.7 Code وهو أحدث نماذجنا الذي أعرف أن
00:01:19الكثير من الناس، بمن فيهم أنا، معجبون به بشدة. لطالما وجدت أن نماذج Kimi تتمتع بملمس
00:01:23رائع حقاً. خارج مؤشر البرمجة، أحد المعايير الأخرى التي يبدو أن الناس يحبونها كثيراً هذه
00:01:27الأيام هو SWE Bench. إذا ألقينا نظرة هناك، فإنه يتفوق في الواقع على Opus 4.7 في الجهد المتوسط
00:01:33وهذا أمر مثير للإعجاب حقاً. تجدر الإشارة هنا إلى أنه لم يتم اختبار كل نموذج على هذا
00:01:38المعيار، والأداة المستخدمة كانت في الواقع Claude Code، تحتاج فقط إلى القليل من التلاعب بواجهة البرمجة (API)
00:01:42لتشير إلى Zhipu بدلاً من Anthropic. المجموعة الأخيرة من المعايير التي أحبها هي Design Arenas
00:01:47وهنا تصبح الأمور مثيرة للاهتمام. حصل GLM 5.2 للتو على المركز الأول إجمالاً في لوحة صدارة
00:01:53تصميم الويب بـ HTML المعتمد على المحاولة الواحدة في Design Arena، ليصبح أول نموذج على الإطلاق يتغلب على خط Claude
00:01:58بما في ذلك Fable 5. يبدو أن هذا قد يكون مجال تركيز للنموذج، حيث أن المزيد من التحقيق
00:02:02من قبل Design Arena يبدو أنه يظهر أن GLM 5.2 لديه مجموعة قوية من قوالب الخبراء التي تتجنب أنماط الذكاء الاصطناعي
00:02:08السيئة الشائعة، لذا يجب أن تحصل على تدرجات لونية أرجوانية أقل، ويبدو أيضاً أنه يعمل بشكل جيد حقاً
00:02:12مع المكتبات الشائعة مثل Chart.js و Three.js و Tailwind. يأتي مع مقايضة صغيرة وهي
00:02:18أنه أبطأ قليلاً، لكنني سأعود إلى ذلك لاحقاً. إنه ليس في المركز الأول في كل مكان في Design Arena
00:02:22فهو يحتل المركز الثاني في تطوير الألعاب، وتصور البيانات، والأبعاد الثلاثية، والرابع عندما يتعلق الأمر بمكونات واجهة المستخدم، ولكن هذا
00:02:28لا يزال مثيراً للإعجاب للغاية. فكرت في تجربة هذا على بعض التطبيقات التجريبية، وكان أولها في الواقع
00:02:32إعادة إنشاء موقع Linear، ولكن أحد الأشياء المزعجة بشأن GLM 5.2 التي تعد عيباً بسيطاً
00:02:37هو أنه يقبل أنماط النص فقط، لذا لا يمكنك تحميل لقطة شاشة والقول “أعد إنشاء هذا”
00:02:42لذا ما فعلته في الواقع هو إرسال لقطة شاشة إلى Claude وقلت له “أعطني طلباً (Prompt) لإعادة إنشاء هذا”
00:02:46وهذا هو الطلب الذي انتهى بي الأمر بتقديمه إلى GLM 5.2. بغض النظر عن ذلك، النتائج التي حصلت عليها كانت مثيرة للإعجاب
00:02:51للغاية. على اليسار هنا لدي صفحة ويب Linear الحقيقية، وعلى اليمين هنا لدينا إعادة إنشاء GLM
00:02:55يمكنك أن ترى أنه حصل على العناصر الإجمالية بشكل صحيح، وبالنسبة للقطة الشاشة هنا في الواقع قام فقط
00:02:59بإعادة إنشاء واجهة المستخدم وهو أمر أعتقد أنه كان رائعاً جداً. بينما نمرر لأسفل يمكنك رؤية أنه حصل على الشعور العام
00:03:04لموقع Linear، وأعتقد أن هذا يبدو جيداً حقاً، لذا فهو يمتلك بعض مهارات تصميم واجهة المستخدم القوية
00:03:09من الواضح أنه ليس مثالياً لأنه لم يستطع أخذ لقطة شاشة، لذا فهو نوعاً ما يقوم بهذا كإعادة
00:03:14إنشاء لطلب النص الذي أريتكم إياه، لكن صفحة الويب هذه تبدو لطيفة جداً. للمقارنة
00:03:19على اليسار هنا لدي ما أعطاني إياه Claude Opus 4.8 بنفس الطلب تماماً، وهذا هو
00:03:23Kimi K 2.7 Code، ومرة أخرى، قاموا جميعاً بعمل جيد جداً في إعادة إنشاء الموقع فقط من ذلك
00:03:29الطلب، وأعتقد في الواقع أنني قد أحب نسخة Kimi K 2.7 أكثر. إنها تتمتع نوعاً ما بأفضل
00:03:34شعور عام وتبدو الأكثر اكتمالاً في رأيي. بعد ذلك، فكرت أنه سيكون من الجيد
00:03:38إعطاء هذه النماذج موقعاً إلكترونياً جديداً ربما لم تره من قبل، حيث أن Linear ربما موجود في
00:03:42بيانات التدريب للكثير من هذه النماذج. لذا قلت ببساطة “صمم وابنِ موقعاً جميلاً بصفحة واحدة
00:03:46لمنتج خيالي يسمى North Star”، إنه تطبيق تخطيط شخصي مدعوم بالذكاء الاصطناعي. يمكنك رؤية
00:03:50وجود بعض توجيهات التصميم هنا أيضاً مثل “نريد قسماً رئيسياً، وبعض الأدلة الاجتماعية، وقسم تسعير
00:03:56وكل الأشياء المعتادة”، وهنا في الأسفل توجيه التصميم هو “جمالي للمنشآت البرمجية (SaaS) نظيف ومميز
00:04:00تدرج ناعم، طباعة قوية، بطاقات مستديرة، وما إلى ذلك”. هذه هي النتيجة التي حصلت عليها من نموذجين
00:04:06وسأخبركم أيهما هو في النهاية، لكن يمكنكم رؤية أنه بينما نمرر لأسفل أعتقد أن هذا
00:04:10يبدو لطيفاً جداً، وأعتقد أنه قام بعمل جيد جداً، إنه موقع شركة ناشئة أساسي تماماً مع
00:04:15قسم التسعير المعتاد وما إلى ذلك، ونفس الشيء على اليمين هنا. ربما أحب هذا النمط قليلاً
00:04:20أكثر، لكن يمكنك رؤية أنه ذهب لهذا النوع من مظهر الذكاء الاصطناعي ذو التدرج الأرجواني، لكني أعتقد أن هناك شيئاً
00:04:25في موقع الويب هذا الذي يبدو أنظف وأكثر اكتمالاً بالنسبة لي، لكن هذا رأي شخصي تماماً.
00:04:29إذا كان لديك مفضل، أخبرني في التعليقات أدناه واشترك أيضاً
00:04:33بينما أنت هناك. النموذج الموجود على اليسار هنا كان في الواقع GLM 5.2، وهذا كان Claude Opus 4.8.
00:04:39للاكتمل، هذا ما قدمه لي Kimi K 2.7 Code، وأعتقد حقاً أن هذا يقع في ذلك النوع
00:04:43من مظهر وإحساس الذكاء الاصطناعي مع هذه التدرجات الأرجوانية، إنه مشابه قليلاً لنموذج Claude فقط مع رسوم متحركة أقل
00:04:48ولمعان أقل. أردت أيضاً معرفة ما سيفعله GLM 5.2 بسرعة إذا لم أعطه أي
00:04:53توجيه تصميم، لذا أعطيته فقط الجزء الأولي من الطلب، ولا أعتقد أن
00:04:56المخرجات تبدو سيئة، لكني لست متأكداً من أنني أستطيع الموافقة على رأي Design Arena بأن هذا لا يحتوي على
00:05:01مظهر الذكاء الاصطناعي المعتاد، فهو يستخدم حقاً تلك التدرجات الأرجوانية إلى أقصى حد. للاختبار التالي قمت
00:05:05بمحاولة اختباره على تطبيقات Three.js، وقلت ببساطة “ابنِ لعبة Three.js
00:05:10حيث يمكنني سباق سيارة F1 حول حلبة سيلفرستون”. يمكنك رؤية أن هذا النموذج بدأ العمل هنا، واستغرق هذا
00:05:15إجمالاً حوالي 10 دقائق. إذا مررنا لأسفل إلى القاع، استخدم 40,000 رمز وكلف 32
00:05:20سنتاً. هذه هي النتيجة التي قدمها لنا GLM 5.2، ويمكنك رؤية أنه يقول “Silverstone F1” و”ابدأ
00:05:25محركك”. بالمناسبة، لويس هاميلتون فاز للتو لصالح فيراري، هذا رائع حقاً، أنا سعيد لرؤية أن لدينا
00:05:30سيارة حمراء هنا كفيراري أيضاً، على الرغم من أننا بالتأكيد أبطأ قليلاً مما كنت أود أن نكون عليه
00:05:35وشيء واحد ألاحظه هنا هو إذا ضغطت على A يبدو أنني أذهب يميناً و D يساراً، لذا فإن عناصر التحكم
00:05:40معكوسة، ولكن ليس على مفاتيح الأسهم، ويبدو أن هذه ليست السرعة التي أود
00:05:45أن تقطع بها فيراري حلبة سيلفرستون، لكن أعني أنها ليست سيئة جداً بالنسبة لمحاولة أولى في الواقع
00:05:51يبدو أنني أذهب بشكل أسرع إذا قمت بالرجوع للخلف، لذا ربما إذا قمت فقط بالرجوع حول الحلبة فسيكون ذلك أفضل. جربت
00:05:55نفس الاختبار مع Kimi K 2.7 Code، لكنني لم أحصل في الواقع على مثال يعمل في طلب
00:05:59واحد. في مكان ما في الأسفل كان لدي بضعة أخطاء في وحدة التحكم كانت تتكرر باستمرار، لذا كان علي
00:06:04أن أخبره أن لدي بضعة أخطاء، ولكن بعد ذلك قام بإصلاحها في الطلب الثاني، ويمكنك رؤية
00:06:08أن هذا استخدم في الواقع المزيد من الرموز بـ 110,000 وكلف 81 سنتاً. النتيجة التي حصلت عليها كانت أيضاً
00:06:14أقل قابلية للعب قليلاً، يبدو أن لدينا سرعة أكبر قليلاً ولكن دائرة الانعطاف لدينا فظيعة. لا
00:06:19أعتقد أنني رأيت سائق F1 ينعطف هكذا من قبل، ويمكننا أيضاً القيادة عبر بعض المباني
00:06:23هنا. من الرائع أنهم حصلوا على أسماء المنعطفات في سيلفرستون ولكن لا يوجد مسار أيضاً، إنها
00:06:27على ما يبدو مجرد حواجز. النموذج الأخير إذاً هو Claude Opus 4.8، وهذا أكثر قابلية للعب قليلاً
00:06:33بجانب حقيقة أنني لا أعتقد أن هناك أشجاراً في منتصف حلبة سيلفرستون، أعني
00:06:37آخر مرة تحققت فيها لم تكن موجودة، ونعم هي لعبة جيدة إلى حد ما، لدينا بعض عناصر التحكم في الكاميرا
00:06:42هنا، عجلاتي ربما لن تحبها لو كنت سائق F1، لكن يبدو أنها تتعامل
00:06:47بشكل جيد، على الرغم من أن المسار نفسه هو أيضاً واحد من أكثر المسارات إرباكاً التي أعتقد أنني رأيت
00:06:52أي شخص يتسابق حولها، هناك الكثير من التداخل هنا ولا أعرف في الواقع أي اتجاه
00:06:57للذهاب، ولكنني أود القول إن Opus 4.8 أعطانا العرض التوضيحي الأكثر قابلية للعب في طلب واحد. الاختبار الأخير الذي قمت به
00:07:02أكثر تعقيداً قليلاً، إنه واجهة أمامية وخلفية من الصفر للوحة تحكم إدارة مالية شخصية
00:07:07مع بضع ميزات يمكنك رؤيتها مدرجة هنا، والفكرة العامة هنا هي
00:07:11رؤية ما هي الحزمة (Stack) التي يختارها عندما يبدأ من جديد، وأيضاً إذا كان بإمكانه ربط واجهة أمامية وخلفية
00:07:16كل ذلك في ذلك الطلب الواحد دون أي أخطاء. ها هي محاولة GLM 5.2، ويجب أن أقول نعم إنها
00:07:22لوحة تحكم تبدو أساسية جداً، لا يوجد شيء فاخر ولكن لا يوجد أيضاً الكثير من الأشياء الفاخرة التي يمكنك
00:07:26القيام بها مع نوع الطلب الذي أعطيته إياه، كل شيء يبدو أنه يعمل، لقد أضفت أشياء إلى قاعدة البيانات
00:07:32لقد دفعت مقابل اشتراكي في Fable 5 هنا، كل هذه الصفحات قابلة للنقر وكل شيء ينتقل
00:07:37بينها عندما أنقر عليها، لقد اختبرته لذا يبدو أنه قام بعمل جيد جداً من
00:07:41ذلك الطلب الواحد. أنا دائماً فضولي بشأن الحزمة التي اختارها أيضاً، وهذا اختار تطبيق Next.js
00:07:46واستخدم Prisma لقاعدة البيانات، ويمكننا رؤية ذلك هنا، لدينا أيضاً قاعدة بيانات تطوير
00:07:50ربما كنت أفضل أن يستخدم Drizzle وربما TanStack، لكن لا يمكنني حقاً
00:07:55الشكوى، لم أعطه أي توجيه. هذا في الواقع ما قدمه لي Kimi K 2.7 Code ويمكنك رؤية أنه
00:07:59نفس التطبيق تماماً تقريباً، إنه فقط أود القول ليس بنفس الفخامة، لديهم بالتأكيد بعض
00:08:04نفس القوالب في تدريبهم في مكان ما تبدو تماماً مثل هذا، ومرة أخرى نعم لا يمكنني
00:08:09الشكوى كثيراً بشأن هذا، لكنه يفتقد نوعاً ما كل الإضافات مع الأزرار لتكون قادراً
00:08:13على التحويل. لدي ميزات إضافة الحساب وإضافة المعاملات، وهي تعمل لكنني أقول فقط إن
00:08:18واجهة المستخدم الإجمالية لهذا وتجربة المستخدم أسوأ قليلاً لأنه لا يحتوي على تلك المعلومات
00:08:23القابلة للنقر هنا في الأعلى. الحزمة الافتراضية التي اختارها سأجادل أيضاً أنها أسوأ قليلاً، استخدم React هنا مع
00:08:28إعداد Vite عادي و React Router الذي ليس لدي مشكلة معه، لكن الواجهة الخلفية ذهبت مع
00:08:33Express، وإذا ألقينا نظرة على ملف قاعدة البيانات الفعلي، فهو يستخدم فقط Node SQLite للكتابة إليه و
00:08:39كتابة المخططات في النص هنا، وهو ما أعتقد أنه سيكون أقل قابلية للتوسع إذا كنت
00:08:43أقوم فقط بـ “Vibe Coding” ولم أكن أعرف أي شيء عن الحزمة، فمن المحتمل أنني سأريد GLM 5.2، ولكن إذا كنت
00:08:48أستخدم Kimi K 2.7 Code فمن المحتمل أنني سأكون قد أعطيته توجيهات لاستخدام Drizzle و Next.js و
00:08:53أشياء أخرى متنوعة أيضاً، لذا فهو يختلف بناءً على ما تحبه. بالحديث عن الرأي الشخصي أيضاً، هذا
00:08:58هو في الواقع ما قدمه لي Claude Opus 4.8، لقد ذهب بالتأكيد بأسلوب مختلف تماماً
00:09:03عن تلك التي رأيناها من قبل، لكنه نوعاً ما هذا الأسلوب من النص الذي يبدو أن Claude يحبه في
00:09:07هذه اللحظة، إنه بالتأكيد ما وضعوه في بيانات التدريب أو يدفعونه نحوه، وكل
00:09:11هذا يعمل بشكل جيد حقاً، ونعم أعتقد أنه يبدو جيداً جداً. ربما سأطلب منه استخدام
00:09:16خطوط مختلفة ونظام ألوان مختلف، ولكن نوعاً ما القاعدة العامة جيدة جداً. لم يقم في الواقع
00:09:20بعمل صفحات منفصلة لهذا، لقد قام فقط بعمل أقسام منفصلة، لذا ربما هذا أسوأ، لكن مرة أخرى
00:09:25ذلك يعود إلى الطلب. كل الميزات وكل شيء من هذا القبيل يعمل. بإلقاء نظرة
00:09:29على الكود الفعلي الذي قدمه لي Opus، أعتقد في الواقع أن GLM 5.2 ربما فاز بهذا. ما فعله Opus
00:09:34هو أنه استخدم فقط تطبيق React عادي، ولم يكلف نفسه عناء React Router لأنه كان
00:09:38كل ذلك في تلك الصفحة الواحدة هناك، وذهب أيضاً مع Express للواجهة الخلفية الخاصة به، لكنه لم
00:09:43يقم في الواقع بأي اتصال بقاعدة بيانات. كل ذلك في الواقع مجرد مخزن داخل الذاكرة (In-memory store) يمكننا رؤيته
00:09:48هنا حيث يقوم ببذر البيانات (seed) وهو فقط يشغل كل ذلك خارج كائن Javascript، والذي مرة أخرى ربما
00:09:53ليس ما أريده إذا كنت سأقوم بتوسيع هذا في المستقبل، ولكنه يعود إلى الطلب. أعتقد
00:09:58أن هذا هو نوعاً ما أهم ما أخذته من تجربتي لهذا النموذج على مدى الأيام القليلة الماضية. أعتقد للكثير من
00:10:02المهام يمكنك سراً تبديل GLM 5.2 مكان Sonnet أو حتى Opus للمهام الأبسط وأنا
00:10:07ربما لن ألاحظ ذلك. إنه نموذج قادر حقاً، وإذا أعطيته التوجيه الصحيح ستحصل على
00:10:12نتائج جيدة حقاً. إنه أحد النماذج المفتوحة الأولى التي لم أشعر أنني أقاتل من أجل
00:10:16استخدامها، وأيضاً أحد النماذج المفتوحة الأولى التي لم ينتابني فيها شعور “أعلم أن Claude
00:10:21يمكنه فعل هذا بشكل أفضل أو أسرع”. الأشياء الأخيرة التي يجب ذكرها إذاً لاختتام هذا هي الرموز والتكلفة و
00:10:25السرعة. أحد سلبيات GLM 5.2 يمكن أن يكون أنه متعطش للرموز أكثر عند مقارنته
00:10:31بالنماذج الأخرى في فئته. استخدم متوسط 43,000 رمز للمهمة الواحدة، وهو أكثر من Kimi K 2.6
00:10:37و Minimax و DeepSeek، لكن الخبر السار هو أنه لا يكلف في الواقع الكثير اعتماداً على
00:10:41المزود. إنه حوالي 1.40 دولار لمليون رمز مدخل و 4.40 دولار لمليون رمز مخرج، وفي
00:10:47معايير Artificial Analysis، كلف في الواقع حوالي 50 سنتاً للمهمة الواحدة، ويمكنك رؤية أن هذا في
00:10:52مكان جيد جداً عندما نقوم بالتكلفة مقابل الذكاء. تجاهل تسمية Gemini هنا، إنها في الواقع هذه النقطة الزرقاء
00:10:57ويمكنك رؤية أنه مخطط مزدحم جداً، ولكن ما يظهره هذا في الواقع هو أنه عند مستوى ذكائه
00:11:02GLM 5.2 هو النموذج الأرخص، على الرغم من أنني سأقول هنا إذا كنت تستطيع تحمل ضربة في الذكاء
00:11:07فأنا أعتقد أن Minimax وخصوصاً DeepSeek V4 جيدان جداً لهذا السعر. عندما يتعلق الأمر بالسرعة
00:11:12GLM 5.2 ليس سيئاً على الإطلاق، لقد تفوق في الأداء على معظم النماذج المفتوحة القريبة من مستوى ذكائه
00:11:17أي DeepSeek V4 و Kimi 2.7 Code و Minimax، وهو متأخر قليلاً عن نموذج رائد مثل Gemini 3.1 Pro
00:11:24الذي يتمتع بنفس مستوى الذكاء ولكن هذا نموذج رائد، وأود أيضاً رؤية Gemini
00:11:283.5 Pro مضافاً إلى هذه القائمة. جوجل من فضلك أصدريه. عندما يتعلق الأمر بالسرعة أيضاً، Design Arena
00:11:33حصلت في الواقع على نتيجة مختلفة قليلاً حيث يقولون إن GLM 5.2 يسجل أعلى الدرجات في
00:11:38تفضيل المستخدم للتصميم، ولكنه كان أيضاً الأبطأ من بين أفضل النماذج، على الرغم من أنه من
00:11:42الجدير بالذكر أيضاً أن كل تلك النماذج العلوية هي نماذج رائدة وليست مفتوحة. إجمالاً، يبدو حقاً
00:11:47كأننا في نقطة حيث هذه النماذج المفتوحة متأخرة بـ أربعة إلى ستة أشهر، لذا
00:11:51ربما بتفاؤل مفرط يمكننا أن نتطلع إلى نموذج Fable بحلول العام المقبل، وأعني أنهم هم أنفسهم
00:11:56يعدون في الواقع بحلول الربع الأول، وأكره الموافقة على هذا الشخص التالي في أي شيء، لكنه يطرح
00:12:01نقطة جيدة هنا وهي أنه ربما على المعايير يمكنهم اللحاق بـ Fable، لكن الفائدة الفعلية تبدو
00:12:06مختلفة قليلاً، وهذا ما تجيده Anthropic، من النادر جداً أن تراه في الواقع
00:12:10يقدم لهم مجاملة هناك، لكنني يجب أن أوافق على هذا الشعور حيث أن استخدام
00:12:14هذه النماذج يبدو مختلفاً قليلاً، لكني أعتقد أن GLM 5.2 هو أحد النماذج الأولى التي كسرت
00:12:19تلك الحلقة بالنسبة لي. أعتقد لو أخبرتني قبل عام أن هذه النماذج المفتوحة ستكون في أي مكان قريب
00:12:23من هذا الجيد، لكنت مصدوماً تماماً وربما لم أكن لأصدقك، وأنا في الواقع لست
00:12:27مستعداً ليوم القيامة، لكني أشعر مع حظر Fable الأخير أنني أريد فقط تنزيل GLM 5.2 وتخزينه
00:12:31على قرص SSD فقط في حال احتجت إليه لاحقاً. أخبرني برأيك في هذا النموذج في التعليقات
00:12:36أدناه، وأخبرني أيضاً ما هو نموذجك المفتوح المفضل الذي تستخدمه بينما أنت هناك، اشترك
00:12:40وكما هو الحال دائماً، أراكم في المرة القادمة.

Key Takeaway

يمثل نموذج GLM 5.2 من Zhipu AI قفزة نوعية في النماذج مفتوحة المصدر، حيث يضاهي أداء النماذج الرائدة في البرمجة وتصميم الويب بتكلفة تشغيلية منخفضة وفعالية عالية.

Highlights

  • يتميز نموذج GLM 5.2 المفتوح المصدر بـ 744 مليار معلمة إجمالية و40 مليار معلمة نشطة.

  • حقق النموذج درجة 51 في مؤشر الذكاء الخاص بـ Artificial Analysis، متفوقاً بفارق 11 نقطة على إصدار الشركة السابق.

  • يحتل GLM 5.2 المركز الأول في لوحة صدارة تصميم الويب (Design Arena) لمحاولة واحدة في HTML، متجاوزاً بذلك جميع إصدارات خط Claude.

  • تصل تكلفة تشغيل النموذج إلى حوالي 50 سنتاً للمهمة الواحدة، مما يجعله خياراً اقتصادياً مقارنة بمستوى ذكائه.

  • يعتمد النموذج على معالجة النصوص فقط، مما يتطلب تزويده بطلبات نصية بديلة بدلاً من تحميل لقطات شاشة مباشرة.

Timeline

نظرة عامة على GLM 5.2

  • يحتوي النموذج على 744 مليار معلمة إجمالية مع 40 مليار معلمة نشطة.
  • يتفوق النموذج على إصدارات عديدة في مؤشرات الاستنتاج والبرمجة والعلوم.
  • يضاهي أداء النماذج الرائدة مثل Gemini 3.5 Flash وGPT 5.4.

يعد GLM 5.2 من Zhipu AI نموذجاً مفتوح المصدر بترخيص MIT يحقق قفزات ملحوظة في مؤشر الذكاء لشركة Artificial Analysis. رغم كونه بنفس حجم سلفه، فقد سجل درجة 51، متقدماً بـ 11 نقطة عن النسخة السابقة، مما يضعه في مصاف النماذج الرائدة عالمياً.

الأداء في التصميم والبرمجة

  • يحتل المركز الأول في لوحة صدارة تصميم الويب المعتمد على HTML في Design Arena.
  • يتفوق في اختبارات SWE Bench على نموذج Opus 4.7 في الجهد المتوسط.
  • أظهر مهارات قوية في تصميم واجهات المستخدم والتعامل مع مكتبات مثل Tailwind وThree.js.

يتميز النموذج بقدرة استثنائية على تجنب أنماط الذكاء الاصطناعي السيئة في التصميم، مما يجعله متفوقاً في بناء واجهات الويب. على الرغم من عدم قدرته على تحليل لقطات الشاشة مباشرة، إلا أنه ينتج نتائج مبهرة عند تزويده بطلبات نصية دقيقة، محققاً جودة تضاهي نماذج تجارية قوية.

تجارب عملية وقابلية التشغيل

  • استغرق بناء لعبة Three.js حوالي 10 دقائق بتكلفة 32 سنتاً.
  • أثبت قدرة على ربط الواجهات الأمامية بالخلفية في طلب واحد لتطبيقات إدارة مالية.
  • أظهر تفاوتاً في اختيار الحزم البرمجية مقابل نماذج أخرى مثل Kimi K 2.7.

في اختبارات البرمجة المعقدة، مثل بناء لعبة سيارات أو لوحة تحكم مالية، أثبت GLM 5.2 استقراراً عالياً. على الرغم من بعض التحديات في عناصر التحكم أو اختيار قواعد البيانات، إلا أنه قدم مخرجات قابلة للتشغيل بشكل مباشر، متفوقاً أحياناً على المنافسين في تنظيم الكود واستخدام الأدوات.

السرعة والتكلفة والتقييم النهائي

  • يعد النموذج من بين الأرخص في فئة ذكائه بتكلفة 1.40 دولار للمدخلات و4.40 دولار للمخرجات لكل مليون رمز.
  • يستهلك النموذج عدداً أكبر من الرموز مقارنة بـ Kimi أو DeepSeek.
  • تعتبر النماذج المفتوحة حالياً متأخرة بفارق 4 إلى 6 أشهر فقط عن النماذج الرائدة.

يوفر النموذج توازناً ممتازاً بين الأداء والتكلفة. وبالرغم من كونه متعطشاً للرموز، إلا أن كفاءته الاقتصادية وسرعته تجعلانه خياراً عملياً كبديل للنماذج المغلقة. يمثل هذا التطور تحولاً في المشهد البرمجي، حيث أصبحت النماذج مفتوحة المصدر تقدم جودة تنهي الحاجة للاعتماد الحصري على خدمات Anthropic أو OpenAI.

Community Posts

View all posts