Qwen 3.5 35B ضد Sonnet 4.5: هل بدأت الفجوة تتقلص؟

BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology

Transcript

00:00:00في بداية هذا الشهر، أطلقت علي بابا نموذج Qwend 3.5 بـ 400 مليار معامل و
00:00:05نسخة Max Thinking التي تدعي تفوقها في الاختبارات على Opus 4.5 مع متطلبات تشغيل
00:00:11كبيرة للتشغيل محلياً.
00:00:12ولكن هذا الأسبوع فقط، أطلقوا نماذج Qwend 3.5 من الفئة المتوسطة (Medium) التي تكاد تكون
00:00:17بقوة نسخة Max، ومع القدرة على تشغيلها محلياً على جهاز MacBook Pro حديث، مع ادعاءات
00:00:22بأن نتائجها أفضل من Sonnet 4.5، وهو ما لا أصدقه، لذا اشترك في القناة
00:00:27ولنضع هذين النموذجين تحت الاختبار.
00:00:31سيعترف معظم المطورين أن Sonnet 4.5 نموذج رائع، ويعمل بشكل ممتاز مع Claude
00:00:35Code وCo-Work ومجموعة Anthropic الكاملة، مما يجعل التجربة تبدو راقية.
00:00:40لكن يجب أن تكون متصلاً بالإنترنت لتعمل هذه النماذج، كما أنها ليست رخيصة.
00:00:44تهدف فئة Qwend 3.5 المتوسطة لتغيير كل ذلك من خلال إتاحة تشغيل
00:00:49نموذج بجودة Sonnet 4.5 محلياً، والناس على تويتر يشعرون بحماس مفرط.
00:00:54لكنني لست مقتنعاً بأنه بالفعل بنفس جودة Sonnet 4.5.
00:00:58لذا سأختبر كلا النموذجين في مهام سهلة، ومتوسطة، وصعبة لنرى أيهما
00:01:02سيكون أداؤه أفضل.
00:01:04ولكن قبل أن نبدأ الاختبارات، لدي اعتراف بسيط.
00:01:07لن أقوم بتشغيل Qwend 3.5 محلياً لأن جهازي الضعيف M1 MacBook Pro لا
00:01:12يملك الذاكرة الموحدة الكافية لتشغيل الاستنتاج بشكل صحيح.
00:01:15لذا سأستخدم Qwend 3.5 35b عبر OpenRouter متصلاً بـ OpenCode، وسأقوم
00:01:21بتشغيل Sonnet 4.5 في Claude Code بوضع “النظيف”، لضمان عدم استخدامه لأي من
00:01:25مهاراتي أو الإضافات أو أدوات MCP.
00:01:27سنبدأ بشيء بسيط ونطلب من النماذج بناء قائمة مهام من الصفر باستخدام React وVite.
00:01:32إذا نظرنا لما أنتجه Sonnet 4.5، سنرى أنه استخدم هذا اللون البنفسجي المميز للذكاء الاصطناعي.
00:01:36يمكنني إضافة مهمة وتحديدها كمكتملة، ولدي القدرة على المسح، و
00:01:40إذا قمت بتحديث الصفحة، سيبقى كل شيء كما هو لأنه استخدم التخزين المحلي.
00:01:44أما في Qwend 3.5، فكلاهما يملك تصميماً متشابهاً ولم يقوما بتغيير
00:01:48التنسيق الافتراضي الذي يأتي مع Vite.
00:01:51ولكن مجدداً، يمكنني إضافة مهمة.
00:01:53وهنا لدينا بعض الخيارات الإضافية.
00:01:54يمكننا اختيار الفئة التي تندرج تحتها، ويمكننا اختيار درجة الأهمية على ما أظن، و
00:01:59ربما تاريخ المهمة أو تاريخ الاستحقاق.
00:02:02يمكنني كتابة شيء مثل “القيام بالتسوق” وسيظهر التاريخ والأهمية
00:02:06والفئة الخاصة بها، وهذا أمر رائع حقاً.
00:02:08دعونا نلقي نظرة على الكود.
00:02:09هذا الكود من Sonnet، وهنا يستخدم useEffect، وهو ما أعتقد أنه
00:02:13مرتبط بالتخزين المحلي بالأسفل.
00:02:15أظن أنه لا بأس به، لكنني كنت أفضل كتابته بطريقة مختلفة.
00:02:17لدينا دالة لإضافة المهام مستخدمة هنا، وبعض الدوال هنا لتنفيذ الإجراءات.
00:02:22مثل تبديل حالة المهمة، وهنا لدينا حذف المهمة.
00:02:25كل هذا يبدو جيداً.
00:02:26وشيء واحد صدمني قليلاً هو الجزء العلوي الذي ذكر فيه تحليل JSON.
00:02:32يبدو أنه يحفظها في التخزين المحلي كـ JSON ثم يحللها.
00:02:35وكان من الأفضل وضع هذا الكود في دالة منفصلة حتى إذا أردت
00:02:38إضافة المزيد من الأشياء، لا يتسبب ذلك في ازدحام الجزء العلوي من الكود.
00:02:42الآن، إذا نظرنا إلى Qwend، لدينا بعض الفئات، ولا يبدو أنه يستخدم
00:02:46useEffect، وهذا أمر جيد.
00:02:48وإذا نزلنا للأسفل، سنجد handle submit، وهو الاسم الذي أفضل استخدامه.
00:02:51ولدينا أيضاً handle updates وhandle delete وhandle toggle completed.
00:02:55وشيء واحد أعجبني حقاً هو أنه وضع عناصر المهام في مكون (Component) منفصل.
00:02:59فبدلاً من ازدحام المكون الرئيسي للتطبيق، قام بإنشاء
00:03:03مكون جديد هنا، والذي يُستخدم بالأسفل في قسم التطبيق بما أن هناك
00:03:07عناصر مهام متعددة.
00:03:08لذا، يذهب الفوز لـ Qwend لأنه أنتج قائمة مهام بميزات أكثر بكثير.
00:03:13لكن بعد إجراء هذه الاختبارات، أدركت أن Qwend كان لديه مهارة القوة الخارقة مفعلة
00:03:18في OpenCode.
00:03:19لذا أعدت الاختبار بدونها، وهذه هي النتيجة التي حصلنا عليها.
00:03:23لذا أظن أن الفوز يذهب لـ Sonnet.
00:03:25لننتقل للاختبار الثاني، وهو بناء نظام شمسي تفاعلي باستخدام
00:03:29React وVite وThree.js.
00:03:31قام Claude بعمل أفضل بكثير من المحاولة الأولى.
00:03:33حسناً، تنقصه بعض الكواكب، لكن يمكنني النقر على الكواكب الموجودة.
00:03:37أنقر على الشمس وأحصل على معلومات عنها.
00:03:39أنقر على أورانوس هنا بالأسفل وأحصل أيضاً على معلومات عنه.
00:03:44الحركة في الموقع أيضاً انسيابية، فيمكنني التحريك والتدوير والتقريب
00:03:48وما إلى ذلك.
00:03:49وهذا ما أنتجه Qwend.
00:03:50نعم، صفحة فارغة.
00:03:51إذا نظرنا إلى وحدة التحكم (Console)، سنرى خطأً هنا قمت بإرساله لـ Qwend
00:03:56عدة مرات، لكنه لم يتمكن من حله.
00:03:58في الواقع، كانت عملية إنشاء هذا المشروع بأكملها مرهقة للغاية.
00:04:01لقد توقف Qwend عن الاستجابة عدة مرات واضطررت لتنبيهه، كما عانى في إصلاح
00:04:05الأخطاء مراراً وتكراراً.
00:04:06ناهيك عن أنه إذا نظرنا إلى الملفات التي أنتجها Qwend، سنجد ملف package JSON هنا،
00:04:10وملف package lock ومجلد node modules، والذي لم يُستخدم على الإطلاق لأن المشروع
00:04:15الرئيسي داخل مجلد solar system ويحتوي على ملف package JSON صحيح بالإضافة إلى
00:04:20مجلد node modules صحيح.
00:04:21لذا بالنسبة للاختبار الثاني، يفوز Claude أيضاً.
00:04:23وفي الاختبار النهائي، طلبت من النماذج تعديل كود برمجي حالي لالتقاط لقطة شاشة
00:04:28لتغريدة عندما يضع المستخدم الرابط داخل التطبيق.
00:04:32سنبدأ مع Claude، الذي أنتج هذه الصفحة هنا.
00:04:35أعطاني خيار تغيير الخلفية والهوامش.
00:04:38الآن، في المرة الأولى التي شغلت فيها هذا، ظهر لي خطأ وطلبت من Claude إصلاحه.
00:04:42سأنسخ رابط هذه التغريدة، وألصقه هنا ثم أضغط على التقاط.
00:04:47وبعد ثوانٍ قليلة، حصلنا على الصورة بالأسفل مع خيار تحميلها.
00:04:51وهذه هي نتيجة Qwend مع هذه الصفحة هنا.
00:04:54مرة أخرى، سأنسخ التغريدة وألصقها هنا.
00:04:56مكتوب “استخراج فيديو” بدلاً من “استخراج لقطة شاشة” وبدأ بالالتقاط، وهذا يبدو واعداً.
00:05:01لكن بعد فترة، واجهنا انتهاء المهلة المحددة بـ 60 ثانية، وهو خطأ مشابه لما واجهناه
00:05:06مع Sonnet.
00:05:07لكنني طلبت من Qwend إصلاحه وقام بالفعل بتمديد المهلة، لكنه لم يصلح المشكلة
00:05:11التي تسببت في ذلك من الأساس.
00:05:13لذا يبدو أن Sonnet 4.5 يفوز في الاختبارات الثلاثة.
00:05:17لذلك، على الرغم من أن Qwend 3.5/35b ينبغي أن يتفوق على Sonnet 4.5 نظرياً، إلا أنه في
00:05:24الاختبارات الواقعية لا يبدو أن هذا هو الحال.
00:05:26ولا تفهموني خطأ، فمن المثير للإعجاب حقاً أنه يمكنك تشغيل نموذج بـ 35 مليار أو حتى 27 مليار
00:05:31معامل محلياً على جهاز MacBook حديث.
00:05:34ولكن بغض النظر عما يقوله الناس على تويتر، مستحيل أن يتفوق في الإنتاجية على
00:05:38Sonnet 4.5 في مهام البرمجة، كما رأيتم في الاختبارات التي أجريتها.
00:05:42إذاً لماذا تجعله نتائج الاختبارات القياسية (Benchmarks) يبدو جيداً جداً؟
00:05:45حسناً، هناك احتمال كبير أن Qwend 3.5 قد تم تدريبه لاحقاً على أسئلة اختبار محددة
00:05:51مثل Sweebench لكي يؤدي جيداً في تلك الأسئلة.
00:05:55لكن نموذجاً مثل Sonnet 4.5 سيكون قد تدرب على مجموعة بيانات أوسع وأكثر قوة،
00:06:01مما يجعله يتعامل مع مهام أكثر دقة وتعقيداً.
00:06:03ناهيك عن أن نموذج Qwend الذي اختبرته لديه 35 مليار معامل، لكنه يستخدم 3 مليارات فقط
00:06:08أثناء الاستنتاج.
00:06:09بينما، وبالرغم من أن Anthropic لا تنشر أرقامها، إلا أن التقديرات تشير إلى أن Sonnet
00:06:143 ربما تدرب على 70 مليار معامل، ولا شك أن Sonnet 4.5 سيكون
00:06:18أكبر من ذلك بكثير.
00:06:19لذا ليس من العدل حقاً مقارنة هذه النماذج بناءً على الاختبارات القياسية وحدها.
00:06:23من المهم دائماً إجراء بحثك الخاص وتجاربك الخاصة.
00:06:26أقصد، هناك سبب لعدم إدراج Qwend 3.5 في قائمة النماذج لـ OpenCode Go.
00:06:31وبما أننا نتحدث عن Qwend، فقد تم إصدار نموذج TTS الخاص بهم مؤخراً، ولدى
00:06:35Joss فيديو رائع يغطي ميزاته في استنساخ الصوت، والمشاعر في الصوت وأكثر من ذلك بكثير، والذي
00:06:39يمكنكم مشاهدته هنا.

Key Takeaway

على الرغم من الضجيج حول تفوق Qwen 3.5 في الاختبارات القياسية، إلا أن التجربة الواقعية تثبت استمرار سيادة Sonnet 4.5 في المهام البرمجية المعقدة والدقة التقنية.

Highlights

إطلاق شركة علي بابا لنموذج Qwen 3.5 بنسخة Medium التي تهدف لمنافسة Sonnet 4.5 مع إمكانية التشغيل المحلي.

تفوق Sonnet 4.5 بشكل واضح في المهام البرمجية المعقدة مثل بناء نظام شمسي تفاعلي باستخدام Three.js.

نموذج Qwen 3.5 أظهر أداءً جيداً في المهام البسيطة ولكنه عانى من استقرار الاستجابة وتكرار الأخطاء البرمجية.

التشكيك في مصداقية الاختبارات القياسية (Benchmarks) لنموذج Qwen واقتراح احتمالية تدريبه خصيصاً لتجاوز تلك الاختبارات.

الفجوة لا تزال موجودة بين النماذج مفتوحة المصدر (المحلية) والنماذج الضخمة المملوكة لشركات مثل Anthropic.

أهمية حجم المعاملات (Parameters) في قوة الاستنتاج، حيث يتفوق Sonnet تقنياً في هذا الجانب رغم عدم إعلان الأرقام الرسمية.

Timeline

مقدمة ومقارنة المواصفات الأولية

يبدأ المتحدث باستعراض إطلاق علي بابا لنموذج Qwen 3.5 بنسخ مختلفة، بما في ذلك نسخة Max الضخمة ونسخة Medium المخصصة للتشغيل المحلي. يشير الفيديو إلى الادعاءات المنتشرة حول تفوق هذه النماذج على Sonnet 4.5 من شركة Anthropic، وهو ما يثير شكوك المحلل. يتم توضيح الفرق الجوهري بين النماذج التي تتطلب اتصالاً بالإنترنت وتلك التي يمكن تشغيلها على أجهزة MacBook Pro الحديثة. يقرر المحلل وضع النموذجين تحت اختبارات واقعية تشمل مستويات صعوبة متفاوتة للتأكد من صحة هذه الادعاءات. تنتهي المقدمة بتوضيح بيئة الاختبار المستخدمة، حيث تم استخدام OpenRouter لنموذج Qwen وClaude Code لنموذج Sonnet.

الاختبار الأول: بناء تطبيق قائمة مهام (To-Do List)

يركز هذا القسم على اختبار بسيط يتمثل في بناء تطبيق قائمة مهام باستخدام React وVite. قدم Sonnet 4.5 تصميماً أنيقاً مع ميزة التخزين المحلي، بينما فاجأ Qwen 3.5 الجميع بتقديم ميزات إضافية مثل تصنيف المهام وتحديد تواريخ الاستحقاق. قام المحلل بفحص الكود البرمجي المنتج، ولاحظ أن Qwen استخدم هيكلية أفضل عبر فصل المكونات (Components) بشكل منظم. ومع ذلك، اكتشف المحلل أن Qwen كان يستخدم مهارات إضافية مفعلة مسبقاً في المنصة، وعند إعادة الاختبار بدونها، تراجع أداؤه. في النهاية، اعتبر المحلل أن النتيجة تميل لصالح Sonnet نظراً لدقة التنفيذ الأساسي.

الاختبار الثاني: محاكاة النظام الشمسي التفاعلي

ينتقل الاختبار إلى مستوى متوسط من الصعوبة عبر طلب بناء نظام شمسي تفاعلي باستخدام مكتبة Three.js ثلاثية الأبعاد. نجح Sonnet 4.5 في تقديم تجربة بصرية جيدة تتيح التفاعل مع الكواكب والحصول على معلومات عنها رغم نقص بعض التفاصيل. في المقابل، فشل Qwen 3.5 تماماً في هذا الاختبار، حيث أنتج صفحة فارغة مليئة بالأخطاء البرمجية التي لم يستطع حلها. يصف المتحدث عملية العمل مع Qwen في هذا المشروع بأنها كانت "مرهقة للغاية" بسبب توقف الاستجابة المتكرر. تسبب هذا الفشل في إظهار الفجوة الكبيرة بين النموذجين عند التعامل مع مكتبات برمجية متقدمة وتنسيق الملفات.

الاختبار الثالث: تعديل كود برمجي لالتقاط لقطات شاشة

يتناول الاختبار النهائي مهمة معقدة تتطلب تعديل كود موجود مسبقاً لالتقاط لقطة شاشة لتغريدة من رابط معين. قدم Sonnet حلاً متكاملاً يسمح بتعديل الخلفية والهوامش مع إصلاح الأخطاء ذاتياً عند طلب ذلك منه. أما Qwen، فقد واجه مشاكل في "انتهاء المهلة" (Timeout) ولم يتمكن من معالجة المشكلة الجذرية التي تمنع التقاط الصورة. يظهر هذا القسم قدرة Sonnet على التفكير المنطقي وتصحيح المسار، وهي مهارة يفتقر إليها Qwen 3.5 في النسخة المتوسطة. يؤكد هذا الاختبار تفوق نماذج Anthropic في التعامل مع المتطلبات البرمجية الواقعية والدقيقة.

التحليل الختامي: لماذا تخدعنا الأرقام القياسية؟

يختتم الفيديو بتحليل عميق للأسباب التي تجعل Qwen يظهر بمظهر المتفوق في الاختبارات القياسية بينما يفشل في الواقع. يطرح المحلل فرضية أن النموذج تم تدريبه خصيصاً على مجموعات بيانات الاختبار مثل Sweebench لتحقيق نتائج عالية. يقارن المتحدث أيضاً بين أحجام النماذج، مشيراً إلى أن Sonnet يعتمد على عدد معاملات أكبر بكثير مما يمنحه قدرة أوسع على الفهم. ينصح المشاهدين بضرورة إجراء تجاربهم الخاصة وعدم الاعتماد الكلي على الضجيج في وسائل التواصل الاجتماعي. ينتهي المقطع بالإشارة إلى أدوات أخرى من علي بابا مثل نموذج تحويل النص إلى كلام (TTS) الذي يمتلك قدرات واعدة.

Community Posts

View all posts