Log in to leave a comment
No posts yet
يشهد سوق النماذج اللغوية الكبيرة (LLM) في عام 2026 حماسًا كبيرًا مع إطلاق شركة علي بابا لنموذج Qwen 3.5 35B. وبما أنه نموذج مفتوح المصدر تمكن من مطاردة Claude 4.5 Sonnet من شركة Anthropic في درجات الاختبارات القياسية، بدأ العديد من المطورين يتساءلون: هل حان الوقت للتخلي عن واجهات البرمجة المدفوعة (APIs) والانتقال إلى النماذج المحلية؟
لكن عالم البرمجة الواقعي صارم. هناك فجوة هائلة بين مجرد الإجابة الصحيحة في اختبار قياسي وبين القدرة على تنفيذ مشروع فعلي يتداخل فيه عشرات الآلاف من أسطر الكود. دعونا نشرّح القدرات الحقيقية لكلا النموذجين وراء الأرقام.
غالبًا ما نحكم على أداء النموذج بناءً على مؤشرات مثل HumanEval أو MBPP. ومع ذلك، تظهر النماذج الحديثة ظاهرة تحسين الاختبارات القياسية (Benchmark Contamination)، أي تلوث البيانات حيث يدرس النموذج أسئلة الاختبار مسبقًا قبل خوضه.
وفقًا لقوانين القياس (Scaling Laws) في بنية المحولات (Transformer)، كلما زادت معاملات النموذج () وحجم البيانات ()، قلّت دالة الخسارة ():
L(P, D) approx left( rac{P_c}{P} ight)^{alpha_P} + left( rac{D_c}{D} ight)^{alpha_D}المشكلة هي أن هذه الصيغة لا تضمن نزاهة البيانات. فبينما يبدو Qwen 3.5 قويًا في أنواع معينة من المشكلات، إلا أنه يظهر ما يسمى بظاهرة الفوهة (Crater Phenomenon)، حيث ينخفض الأداء بشكل حاد في المهام المعقدة التي تتطلب الحفاظ على الاتساق المنطقي عبر ملفات متعددة.
للتحقق من القدرة الحقيقية للنماذج، أجرينا اختبار “القفاز” (Gauntlet) للبرمجة الذي يتجاوز الخوارزميات البسيطة. وكانت النتائج أكثر وضوحًا مما توقعنا.
في تنفيذ قائمة مهام (To-Do List) أو لوحة تحكم باستخدام React، يظهر Qwen 3.5 35B سرعة مذهلة. ولكن عند تطبيق اختبار البيئة النظيفة (Clean Environment Test)، الذي يقيس الأداء بناءً على المنطق الصافي دون الاعتماد على أدوات خارجية، تظهر الاختلافات في التفاصيل.
مشروع تنفيذ نظام شمسي باستخدام مكتبة الرسومات ثلاثية الأبعاد Three.js (3JS) هو أفضل ما يوضح فرق المستوى بين النموذجين.
يخرج Qwen 3.5 35B كودًا يبدو سليمًا للوهلة الأولى، ولكن عند التشغيل الفعلي غالبًا ما تظهر صفحة فارغة (Blank Page). أنماط الفشل الرئيسية تشمل:
requestAnimationFrame مما يجعل سرعة الرسوم المتحركة غير منتظمة.في المقابل، يتمكن Claude Sonnet 4.5 ومن محاولة واحدة فقط (Zero-shot) من تنفيذ إدارة حالة التحميل غير المتزامن وتحسين تنعيم الحواف (Anti-aliasing) بشكل مثالي. هذا يثبت أن درجته الكاسحة البالغة 77.2% في اختبار SWE-bench Verified ليست مجرد رقم وهمي.
جاذبية النماذج المحلية تكمن في المجانية والأمان. ولكن لاستخدام Qwen 3.5، الذي يفتقر إلى قدرات الاستدلال العالية، كبديل لـ Sonnet، فإنك تحتاج إلى استراتيجية.
عند حدوث خطأ، يقوم Sonnet 4.5 بتحليل السجلات لتحديد ما إذا كان السبب هو المنطق البرمجي أم قيود واجهة برمجة خارجية. أما Qwen، فمن السهل أن يقع في حلقة استدلال مفرغة بتكرار نفس الإجابة الخاطئة. وللتغلب على ذلك، لا بد من تقسيم المطالبات خطوة بخطوة (Chain of Thought):
ليس من الضروري استخدام Sonnet المكلف في كل الحالات. امزج بين الأدوات بناءً على المعايير التالية:
| طبيعة المشروع | النموذج الموصى به | السبب الرئيسي |
|---|---|---|
| مشاريع الشركات عالية الأمان | Qwen 3.5 (محلي) | بيئة مغلقة، سيادة كاملة على البيانات |
| تصميم البنى المعقدة | Sonnet 4.5 | استدلال رفيع المستوى وقدرة على تذكر السياق الطويل |
| عمليات CRUD واختبارات الوحدة | Qwen 3.5 | كفاءة التكلفة وسرعة التجارب التكرارية |
| تصورات 3JS/WebGL | Sonnet 4.5 | تفوق في تجربة المستخدم والقدرة على التصحيح الذاتي |
إذا قررت التشغيل محليًا، فإن تحسين الأجهزة أمر ضروري. يعتمد Qwen 3.5 35B بنية MoE (Mixture-of-Experts)، مما ينشط حوالي 3 مليارات معلمة فقط أثناء الاستدلال الفعلي، وهو أمر فعال للغاية.
presence_penalty بين 1.1 و 1.2. كما يجب تفعيل وضع enable_thinking=True لتحفيز النموذج على اتباع عملية استدلال داخلية.لقد فتح Alibaba Qwen 3.5 35B عصر الذكاء الاصطناعي المحلي للبرمجة، ولكن في التصميمات المعقدة للمؤسسات، لا يزال Claude Sonnet 4.5 مهيمنًا. المطور الذكي يتبنى استراتيجية هجينة: يستخدم Qwen للوحدات البسيطة التي تتطلب أمانًا عاليًا لتقليل التكاليف بنسبة تزيد عن 90%، ويوظف Sonnet لمنطق الأعمال الجوهري وتصحيح الأخطاء المعقدة. في النهاية، أفضل اختبار قياسي هو سطر الكود الذي يعمل على شاشتك دون أخطاء.