GLM 4.7 مجنون بالنسبة لتطوير البرمجيات...

AAI LABS
컴퓨터/소프트웨어창업/스타트업재택/원격 근무AI/미래기술

Transcript

00:00:00الرجال في ZAI أطلقوا للتو GLM 4.7، وبـ 29 دولاراً سنوياً، هذا رخيص بشكل مجنون لنموذج يدعون أنه يحقق 73% على SWE bench، وهو في نفس مستوى Sonnet 4.5.
00:00:11التوقيت ليس عشوائياً.
00:00:12هم على وشك الدخول للبورصة ويحتاجون إلى إظهار جذب غربي..
00:00:15بل قاموا حتى بجلسة أسئلة وأجوبة مباشرة على Reddit، وهذا شيء لم أره من قبل من معمل ذكاء اصطناعي صيني.
00:00:19لكن 4.6 كان لديه مشاكل حقيقية. هل 4.7 مصحح فعلاً؟
00:00:23مرحباً بالجميع، إذا كنتم جدداً هنا، هذا AI Labs، وأهلاً بكم في حلقة أخرى من Debunked، وهي سلسلة نأخذ فيها أدوات وأنماذج الذكاء الاصطناعي، ونزيل عنها الضجة التسويقية، ونريكم ما يمكنها فعله حقاً من خلال الاختبار الفعلي والنتائج الصادقة.
00:00:35النموذج الجديد تم تحسينه بشكل أساسي من خلال المعالجة اللاحقة، وليس من خلال تغيير البنية المعمارية.
00:00:40إنه محسّن بكثافة لـ Claude code، وفريق ZAI قال بوضوح أن هذا هو أولويتهم الأساسية.
00:00:46حالياً، يتفوق فعلاً على الكثير من النماذج من الدرجة الأولى، بما فيها GPT-5، خاصة في معايير البرمجة.
00:00:52في جميع خطط البرمجة الخاصة بهم، هناك شيء إضافي أضافوه وهو هذه أدوات MCP الجديدة، التي لا يتم دمجها مباشرة.
00:00:58إنها خوادم MCP منفصلة. لقد أدرجوا ثلاثة الآن.
00:01:02وحتى تعمل جميعها، تحتاج فقط إلى مفتاح API.
00:01:04هذا هو السبب في أنها مضمنة مع الخطة، لكنها منفصلة عن النموذج..
00:01:07بخصوص حدود الاستخدام، فهي تقريباً نفس الحدود التي كانت عليها في 4.6.
00:01:11لكن إذا كنت لا تعرف ما كانت عليه من قبل، قمت بالفعل بإنشاء تقرير عن ذلك.
00:01:15ما يضحك هو أنني حاولت في البداية إنشاء التقرير باستخدام Gemini 3، وبسبب ما، لم تتمكن من إعطائي مقارنة صحيحة للخطط.
00:01:22عدت إلى Claude، وقام بالبحث بشكل جيد.
00:01:24بشكل أساسي، كل ما تحتاج إلى معرفته هو أنه مقابل الخطة الأساسية، تحصل على 10 إلى 40 طلب في Claude code، بينما في برمجة GLM، تحصل على 120 طلب مقابل 3 دولارات فقط، وهذا فرق ضخم.
00:01:34هذا فقط يزداد كلما صعدت في المستويات الأعلى، حيث تحصل خطة الـ 200 دولار على 800 طلب في نافذة الـ 5 ساعات مع Claude، بينما تحصل الـ 30 دولار على 2,
00:01:44400 طلب.
00:01:44جميع هذه الأسعار مخصومة للشهر الأول، ثم تتضاعف بعد ذلك.
00:01:48لكن إذا كنت على خطة سنوية، فهي أكثر بأسعار معقولة.
00:01:50معيار آخر مهم كان آخر امتحان للبشرية.
00:01:53بالنسبة لمن لا يعرف، فهو أحد تلك المعايير غير المشبعة، ولا تزال معظم النماذج الأحدث تسجل نقاطاً منخفضة فيه لأنه صعب حقاً.
00:02:00لاختبار واجهة المستخدم بالفعل، لدينا هذا الطلب، الذي لا يركز حقاً على البنية المعمارية.
00:02:05يركز بشكل أساسي على منطق التصميم الذي يفترض أن يطبقه النموذج، مع توفير بعض خيارات التصميم أيضاً.
00:02:11يمكننا بعد ذلك أن نرى، بناءً على الشركة التي أقترحها، والتي تكون في هذه الحالة منصة مراجعة أكواد مدعومة بالذكاء الاصطناعي، ما الذي ينشئه.
00:02:18اشتركنا أيضاً في خطة MAX، وهناك طريقتان يمكنك من خلالهما الاتصال بها مع Claude code.
00:02:22في كلا الحالتين، تقوم بتغيير settings.json، لكن إحداها تقع في جذر المشروع الخاص بك، الذي يغير الإعدادات العامة.
00:02:29إذا قمت بذلك داخل مشروعك، فإنه يغيره فقط لهذا المشروع.
00:02:33فعلنا هذا حتى نتمكن من مقارنته مع Sonnet 4.5.
00:02:36هذا ما جاءت به Sonnet 4.5.
00:02:38الطلب جيد حقاً، وكنا نستخدمه لتحديد أي من هذه النماذج يبني واجهات المستخدم وما مدى إبداعها في فعل ذلك.
00:02:45إنه JavaScript عادي بسيط، لذا لا ننظر إلى البنية المعمارية الآن، بل فقط التصميم.
00:02:49هذا ما جاءت به GLM 4.7.
00:02:52من حيث التصميم، إنه جيد جداً، لكنه ارتكب خطأ هنا حيث لم يأخذ في الاعتبار الطول، وهذا هو السبب في تفكك الآثار قليلاً.
00:02:59بخلاف ذلك، التصميم متين، لكنني بالفعل لا أحب هذه الرموز التعبيرية على الإطلاق.
00:03:02لم تستخدم Sonnet أي رموز تعبيرية، وهذا جيد ويطابق لغة التصميم.
00:03:06لاختبارهما بالفعل، لدي مشروع Next.js معد مسبقاً، الذي يحتوي على هذا السياق المهيأ الذي يحتاج إلى بناء واجهة مستخدم قابلة للتوسع وجاهزة للخلفية.
00:03:15هذا الجزء مهم لأنه، عندما سأقيّم الأسباب التي جعلت GLM يؤدي أداءً أفضل بشكل مفاجئ، سيعود إلى هذه النقطة.
00:03:22تم تثبيت Framer Motion ومكونات ShadCN مسبقاً حتى تتمكن من بناء واجهة المستخدم.
00:03:27طُلب من كليهما بناء الصفحة الرئيسية للمتصفح لمنصة بث تشبه Netflix.
00:03:32تم تحديدهما على ما يجب بناؤه بالفعل وما يجب أن يكون على الصفحة.
00:03:35إذا كنت تتحدث عن سهولة استخدام نموذج GLM مع Claude code، فإحدى مشاكل GLM 4.6 كانت أنه كان بطيئاً جداً في توليد الأكواد.
00:03:43هنا، هذه المشكلة، حسب تجربتي، لم تُحل. لا تزال بطيئة جداً.
00:03:48لكن هناك تغيير واحد.
00:03:49مع GLM 4.6، لم يكن النموذج يفكر حقاً، بمعنى أنه لم يكن يفكر داخل Claude code..
00:03:54النص التفصيلي الذي تحصل عليه هنا يوضح بوضوح التفكير، لكن هذا لم يكن يظهر في 4.6.
00:03:59يمكنك أن ترى بوضوح هنا أنه يفكر مع نموذج 4.7، لذا تم إصلاح هذا.
00:04:04بخلاف ذلك، هناك بعض الغرائب التي تحتاج إلى معرفتها.
00:04:07GLM 4.7 ليس مستقلاً جداً..
00:04:09اكتشفت هذا أثناء الاختبار.
00:04:10كما ترى هنا، هذا مجلد GLM لديه بالفعل مجلد معيار واجهة المستخدم الذي يحتاج إلى تطبيق التطبيق، لكنه اختار تجاهله..
00:04:18على الرغم من أنه كان مكتوباً بوضوح داخل السياق، فقد المضي قدماً وإنشاء تطبيق Next.js آخر بمفرده.
00:04:22لم يقم حتى بتهيئته، فقط بدأ في كتابة الأكواد.
00:04:25أحياناً يتصرف بحماقة حقاً..
00:04:27لكن بعد أن صححته وأرشدته في الاتجاه الصحيح، من حيث التطبيق، هذا ما أنشأته Claude.
00:04:32مرة أخرى، كونها النموذج الأعلى، فهي جيدة جداً في واجهات المستخدم.
00:04:35هذا ما أنشأته GLM 4.7.
00:04:37أنشأت Claude واضحاً واجهة مستخدم أفضل لأنها، في رأينا، لا تزال أفضل في التصميم..
00:04:42مقابل السعر، هذا حسن.
00:04:43لكن بعد أن نظرت إلى الكود وحفرت فيه، بما أنهم قيل لهم أن هذا كان من المفترض أن يكون خلفياً وجاهزاً وأنهم الآن يحتاجون إلى استخدام بيانات وهمية، فإن نموذج GLM طبق بنية معمارية أفضل بوضع جميع البيانات الوهمية في ملف واحد..
00:04:56ثم عندما نحتاج إلى استبداله، نحتاج فقط إلى تغيير هذا الملف لأن الواردات متصلة هناك، بدلاً من ما طبقته Claude حيث لكل مكون آخر استيراده الخاص.
00:05:05عندما ننفذ الخلفية بالفعل، سيتعين علينا تغيير جميع تلك الملفات واحداً تلو الآخر.
00:05:09من حيث البنية الأساسية وجودة الأكواد، أدى GLM أداءً جيداً جداً، وفاجأني ذلك لأن 4.6 لم يكن بهذا الجودة في اختباراتي.
00:05:17الخطة السابقة لم تكن مبررة حقاً بمقدار ما اضطررت إلى توجيهه والأخطاء التي ارتكبها، لكن هذا بالتأكيد قفزة ضخمة.
00:05:24تلك المعايير مبررة بالتأكيد من خلال الاختبارات التي أجريتها.
00:05:27نظرت أيضاً في بعض الأشياء الصغيرة الأخرى في الكود، و GLM 4.7 نموذج جيد حقاً.
00:05:32نظراً لهذه النتائج غير المتوقعة، نحن بصراحة نوصي الجميع بالحصول على خطة الـ 29 دولاراً سنوياً.
00:05:38إذا كان لديك بالفعل خطة Claude الـ 20 دولار، فهذا بالأساس لا شيء بالمقارنة.
00:05:42ومع ذلك، لا تزال ليست نموذجاً ستستخدمه للبرمجة المستقلة تماماً.
00:05:46على الرغم من أن Claude فسد البنية المعمارية هنا حقاً، إلا أنها جيدة بما يكفي لأنها يمكن أن تصحح وتحسن عليها لاحقاً.
00:05:52لكن مع الغرائب الصغيرة التي لا يزال GLM يمتلكها، لا نعتقد أنها فكرة جيدة أن تعتمد عليها وحدها.
00:05:57هذا يأتينا بنا إلى نهاية هذا الفيديو.
00:05:58إذا كنت تريد دعم القناة وتساعدنا على الاستمرار في إنشاء مقاطع فيديو مثل هذا، يمكنك فعل ذلك باستخدام زر super thanks أدناه.
00:06:05كما هو الحال دائماً، شكراً لك على المشاهدة وسأراك في القادم.

Key Takeaway

GLM 4.7 نموذج برمجي محسّن بسعر منخفض جداً يقترب من أداء Sonnet 4.5، لكنه ليس بديلاً كاملاً للنماذج الأعلى ويعمل بشكل أفضل كأداة مساعدة مع نماذج أخرى.

Highlights

أطلقت شركة ZAI نموذج GLM 4.7 بسعر 29 دولاراً سنوياً مع أداء 73% على معيار SWE Bench، مما يعادل مستوى Sonnet 4.5

تم تحسين النموذج بشكل أساسي من خلال المعالجة اللاحقة والتحسينات المكثفة لـ Claude Code، وليس التغييرات المعمارية

GLM 4.7 يتفوق على نماذج من الدرجة الأولى بما فيها GPT-5 خاصة في معايير البرمجة والكود

تم إضافة خوادم MCP منفصلة توفر 120 طلب مقابل 3 دولارات فقط في خطة GLM مقابل 10-40 طلب في Claude

النموذج يعرض قدرة تفكير واضحة في Claude Code (تحسن على 4.6)، لكنه يفتقر لبعض الاستقلالية ويحتاج إلى توجيه في بعض الحالات

تم بناء هياكل معمارية أفضل من Claude مع تنظيم أفضل للبيانات الوهمية، مما يسهل الصيانة والتحديثات المستقبلية

رغم التحسينات الملحوظة، لا يُنصح باستخدام GLM 4.7 كحل برمجي مستقل تماماً ويفضل دمجه مع نماذج أخرى

Timeline

الإطلاق والتسعير والسياق السوقي

أطلقت شركة ZAI نموذج GLM 4.7 بسعر تنافسي جداً بلغ 29 دولاراً سنوياً، حيث يحقق النموذج 73% على معيار SWE Bench وهو ما يعادل مستوى Sonnet 4.5. يتناول المحلل السياق السوقي لهذا الإطلاق، حيث أن شركة ZAI على وشك الدخول للبورصة وتحتاج إلى إظهار جذب من الأسواق الغربية. قامت الشركة بخطوة غير معهودة من معامل الذكاء الاصطناعي الصينية بعقد جلسة أسئلة وأجوبة مباشرة على Reddit. المحلل يثير تساؤلاً حول ما إذا كان النموذج الجديد قد حل بالفعل مشاكل الإصدار السابق 4.6 التي كانت موجودة.

طريقة التحسين والقدرات البرمجية الأساسية

تم تحسين GLM 4.7 بشكل أساسي من خلال المعالجة اللاحقة وليس من خلال تغيير البنية المعمارية للنموذج، مع تركيز مكثف على تحسين أداؤه في Claude Code. يتفوق النموذج حالياً على العديد من النماذج من الدرجة الأولى بما فيها GPT-5، خاصة في معايير البرمجة والاختبارات المتعلقة بالأكواد. تم إضافة أدوات MCP جديدة على شكل خوادم منفصلة وليس مدمجة مباشرة في النموذج، حيث تم إدراج ثلاثة منها حالياً. هذه الأدوات تعمل بحاجة فقط إلى مفتاح API، وهو السبب في إدراجها مع الخطة لكنها منفصلة عن النموذج نفسه.

حدود الاستخدام والتسعير المقارن

تبقى حدود الاستخدام في GLM 4.7 تقريباً مماثلة لما كانت عليه في الإصدار 4.6. يقارن المحلل بشكل مفصل بين خطط التسعير بين Claude و GLM، حيث أن خطة GLM الأساسية توفر 120 طلب مقابل 3 دولارات فقط بينما توفر Claude فقط 10-40 طلب في الخطة المساوية، مما يمثل فرقاً هائلاً في القيمة. هذا الفرق يتسع كلما ارتفعنا في المستويات الأعلى، حيث تحصل خطة Claude البالغة 200 دولار على 800 طلب في نافذة 5 ساعات مقابل 2,400 طلب من خطة GLM بـ 30 دولار. جميع هذه الأسعار مخصومة للشهر الأول ثم تتضاعف، لكن الخطط السنوية توفر أسعاراً أكثر معقولية.

اختبار واجهة المستخدم والمقارنة مع Sonnet 4.5

استخدم المحلل طلب معيار معين لاختبار قدرات النموذج على تصميم واجهات المستخدم بدلاً من البنية المعمارية، حيث يركز على منطق التصميم الذي يجب أن يطبقه النموذج. أنشأ Sonnet 4.5 واجهة مستخدم نظيفة بدون رموز تعبيرية وتصميم متين يطابق لغة التصميم المطلوبة. في المقابل، أنشأ GLM 4.7 واجهة مستخدم جيدة جداً من حيث التصميم لكنها ارتكبت خطأ في عدم الأخذ في الاعتبار الطول الديناميكي، مما أدى إلى تفكك الآثار قليلاً. كما استخدمت GLM رموز تعبيرية لا تفضلها المحلل، بينما Sonnet تجنب ذلك. بشكل عام، كانت كلا النموذجين قادرة على إنشاء تصاميم جيدة لكن مع فروقات في التفاصيل.

اختبار بناء صفحة مشروع متقدم والاستقلالية

طُلب من النموذجين بناء صفحة رئيسية متقدمة لمنصة بث تشبه Netflix باستخدام مشروع Next.js معد مسبقاً مع Framer Motion و ShadCN، مع سياق واضح يحدد ما يجب بناؤه. لاحظ المحلل أن GLM 4.7 لا يزال بطيئاً جداً في توليد الأكواد مثل الإصدار السابق، لكن تحسناً واحداً مهماً هو أن النموذج الآن يعرض بوضوح عملية التفكير داخل Claude Code، وهذا تحسن ملحوظ على 4.6 الذي لم يكن يظهر هذه العملية. كشف المحلل أيضاً مشكلة في استقلالية GLM حيث تجاهل النموذج مجلد معيار واجهة المستخدم الموجود بالفعل والذي تم تحديده في السياق، وبدأ بدلاً من ذلك بإنشاء تطبيق Next.js منفصل من الصفر. هذا يظهر أن النموذج يحتاج إلى توجيه وتصحيح من المستخدم أحياناً.

مقارنة جودة الكود والبنية المعمارية

عند فحص الأكواد بشكل عميق، اكتشف المحلل أن GLM 4.7 طبق بنية معمارية أفضل من Claude بشكل واضح، حيث وضع جميع البيانات الوهمية في ملف واحد مركزي بدلاً من توزيعها على ملفات متعددة. هذا التنظيم يجعل الصيانة والتحديثات المستقبلية أسهل بكثير، فعند استبدال البيانات الوهمية بقاعدة بيانات حقيقية، يحتاج المستخدم فقط إلى تعديل ملف واحد بدلاً من تغيير جميع الملفات واحداً تلو الآخر كما هو الحال في حل Claude. رغم أن Claude قدمت واجهة مستخدم أفضل بصرياً، إلا أن GLM 4.7 أظهرت فهماً أعمق لأفضليات الهندسة البرمجية. المحلل يعترف بأن هذه النتائج فاجأته إيجاباً لأن الإصدار 4.6 لم يكن بهذه الجودة، مما يمثل قفزة كبيرة جداً في التحسين.

التوصيات النهائية والاستنتاجات

بناءً على نتائج الاختبارات التي أجراها المحلل، يوصي بشدة الجميع بالحصول على خطة GLM 4.7 بـ 29 دولاراً سنوياً، خاصة إذا كان لديهم بالفعل خطة Claude بـ 20 دولار فإن التكلفة الإضافية ضئيلة جداً. لكنه يصرح بوضوح أن GLM 4.7 لا يزال ليس نموذجاً يمكن استخدامه للبرمجة المستقلة تماماً والاعتماد عليه وحده. يشير إلى أنه رغم أن Claude أفسدت البنية المعمارية، إلا أنها جيدة بما يكفي لأن المستخدم يمكنه تصحيحها وتحسينها لاحقاً، لكن مع الغرائب الصغيرة التي لا يزال GLM يمتلكها، فإن الحل الأمثل هو استخدامه كأداة مساعدة مع نماذج أخرى وليس كحل وحيد.

Community Posts

View all posts