00:00:00الإنترنت يضج بالحديث حاليًا، وهذه المرة عن Quen 3.5،
00:00:05تحديدًا سلسلة النماذج الصغيرة لديهم. لقد أصدرت علي بابا للتو إصدارات
00:00:10متعددة الوسائط أصلية من Quen 3.5، بحجم صغير يصل إلى 2 مليار وحتى 0.8 مليار بارامتر.
00:00:17تتفوق هذه النماذج على أخرى أكبر منها بـ 4 أضعاف في التفكير المنطقي والرؤية الحاسوبية.
00:00:22وهي صغيرة جدًا لدرجة أنه يمكننا الآن تشغيلها محليًا على هواتف وكمبيوترات محمولة عمرها 6 سنوات
00:00:28دون الحاجة لاتصال بالإنترنت. في هذا الفيديو، سنلقي نظرة خاصة على نماذج Quen 3.5
00:00:34من السلسلة الصغيرة مثل 0.8 مليار و2 مليار. سنختبرها أيضًا على جهاز
00:00:40MacBook Pro بمعالج M2، وكذلك على iPhone 14 Pro، لنعرف مدى قوتها الفعلية.
00:00:48سيكون الأمر ممتعًا للغاية، لذا دعونا نبدأ.
00:00:55إذًا، لماذا الجميع مهووسون بنماذج Quen 3.5 الجديدة هذه؟ ففي النهاية، لدينا نماذج صغيرة
00:01:01منذ فترة. حتى أنني غطيت نماذج Granite 4.0 nano من IBM في فيديو سابق،
00:01:08وكان حجم نموذجهم 300 مليون بارامتر فقط. فما الذي يجعل نماذج Quen الصغيرة مختلفة؟
00:01:14الأمر يتعلق بشيء يسمى “كثافة الذكاء”. لفترة طويلة كانت القاعدة هي:
00:01:20إذا أردت نموذجًا يمكنه الرؤية والتفكير والبرمجة، فيجب أن يكون ضخمًا. لكن نماذج Quen 3.5 الصغيرة
00:01:27تثبت أن هذا ليس ضروريًا. لقد تمكنوا بطريقة ما من ضغط نماذجهم الكبيرة في
00:01:33نسخ أصغر لا تزال تدعم بنية موحدة متعددة الوسائط. وهذا يعني أن
00:01:39نموذج الـ 0.8 مليار لا يجيب على النصوص فحسب، بل يمتلك قدرات الرؤية والبرمجة مدمجة فيه.
00:01:46لنلقِ نظرة سريعة على نتائج الاختبارات، لأنها مثيرة للاهتمام حقًا. في اختبار MMLU،
00:01:51الذي يقيس المعرفة العامة والتفكير، حقق نموذج الـ 2 مليار درجة 66.5،
00:01:57بينما حقق نموذج الـ 0.8 مليار 42.3. قد لا يبدو هذا مبهرًا للغاية، لكن ضع في اعتبارك
00:02:04للمقارنة، أن نموذج Llama 2 الأصلي بـ 7 مليار بارامتر، والذي صدر في 2023،
00:02:11حقق 45.3 في نفس الاختبار. هذا يوضح مدى قدرتنا على تقليص
00:02:17حجم البارامترات مع الحفاظ على مستوى استيعاب جيد. ولكن انظروا لهذا،
00:02:23التميز الحقيقي هو أدائهم متعدد الوسائط. في اختبارات الرؤية المتخصصة مثل OCRBench،
00:02:29حقق نموذج الـ 2 مليار 85.4 ونموذج الـ 0.8 مليار 79.1. مما يشير إلى
00:02:37قدرتها العالية على مهام مثل قراءة المستندات المعقدة وتحليل الصور التي تحتوي نصوصًا.
00:02:43أوه، وكلاهما يدعم نافذة سياق ضخمة تصل لـ 262 ألف توكن، لذا يمكنك تزويدها بملفات PDF كاملة
00:02:51أو استخدامها لتحليل أكواد برمجية ضخمة. هذا مذهل حقًا. والآن، لنرَ كيف
00:02:56يؤدون فعليًا. بما أن كلا النموذجين يمكن تشغيلهما محليًا على أي كمبيوتر محمول
00:03:02حديث تقريبًا، سأجري هذه الاختبارات في وضع الطيران الكامل دون أي اتصال بالإنترنت
00:03:08على جهازي المحمول. للاختبار الأول، سنقوم بتشغيل خادم محلي على LM Studio
00:03:14ونربطه بـ CLINE في VS Code لنرى ما إذا كانت هذه النماذج الصغيرة قادرة فعليًا على التعامل
00:03:21مع مهمة برمجة واقعية. أولاً، عليك الذهاب لتبويب النماذج وتحميل نسخ GGUF من نموذج
00:03:28الـ 0.8 مليار والـ 2 مليار بارامتر. وبما أننا سنستخدمها في مهام البرمجة،
00:03:33سنحتاج أيضًا لزيادة طول السياق المتاح بشكل كبير. وبمجرد الانتهاء من ذلك،
00:03:38يمكننا البدء بتشغيل الخادم. والآن لننتقل إلى CLINE. وكما ذكرت، سأقوم
00:03:43بإيقاف الواي فاي لنجري الاختبارات بدون إنترنت تمامًا. ثم في قسم إعدادات API في CLINE،
00:03:50سأقوم بتوجيهه إلى عنوان URL الخاص بخادم LM Studio المحلي. ودعونا نتأكد
00:03:56من اختيار نموذج الـ 0.8 مليار. وبالنسبة للمطالبة، سأطلب من النموذج بناء
00:04:01موقع إلكتروني بسيط لشركة عبارة عن مقهى صغير. وقد لاحظت أننا إذا لم نحدد إطار عمل
00:04:07معين وتركنا الخيار لـ Quen، فسيختار تثبيت React، وهذا لن يعمل في عرضنا
00:04:14بدون إنترنت. لذا عدلت المطالبة لتطلب تحديدًا استخدام HTML و CSS و JavaScript
00:04:20دون أي مكتبات خارجية. لنبدأ الاختبار. استغرق النموذج دقيقة واحدة تقريبًا
00:04:25لإكمال المهمة. وهذه هي النتيجة النهائية. كما ترون، الموقع بسيط جدًا، والتصميم
00:04:32ليس جذابًا من الناحية الجمالية، والنص داكن جدًا. ولاحظت أيضًا أنه في ملف CSS،
00:04:37حاول النموذج تضمين صور محددة من Unsplash تناسب فكرة الموقع. ملاحظة مثيرة للاهتمام.
00:04:43وإذا أعدنا تشغيل الواي فاي للحظة، سنرى أن إحدى تلك الصور
00:04:48قد ظهرت بالفعل. ويبدو أنها صورة لطبيب يمسك بهاتف. وهذا غريب
00:04:54وعشوائي تمامًا. أما الصور الأخرى فكانت روابطها غير صالحة. حاولت أيضًا
00:05:00مطالبة النموذج مجددًا لإصلاح النص المعطوب وتحسين جوانب أخرى، لكنه لم يستطع فعل ذلك بدقة.
00:05:06بشكل عام، أقول إنه رغم قدرة هذا النموذج على البرمجة واستدعاء الأدوات، لا أظن
00:05:12أن استخدامه فكرة جيدة في سيناريوهات واقعية، لأن عدد البارامترات منخفض جدًا.
00:05:17والآن لنختبر نموذج الـ 2 مليار بارامتر بنفس المطالبة ونرى جودة أدائه. في الواقع،
00:05:23سبب لي هذا النموذج الكثير من المتاعب لأنه كان يعلق غالبًا في حلقة تكرارية،
00:05:28حيث يكتب نفس القسم مرارًا وتكرارًا. فاضطررت لإيقاف المهمة وإعادة تشغيلها. لست متأكدًا
00:05:34إن كانت المشكلة في النموذج نفسه أو في طريقة إدارة LM Studio للخادم أو كيفية معالجة Cline
00:05:40للمطالبة. لكن مع هذا الإعداد تحديدًا، كان صراعًا مستمرًا بالنسبة لي.
00:05:45والشيء الآخر الذي لاحظته هو أنه بينما بدأ نموذج الـ 0.8 مليار بالبرمجة مباشرة،
00:05:51فإن نسخة الـ 2 مليار فضلت وضع خطة هيكلية أولاً ثم البدء بالبرمجة الفعلية.
00:05:57أنهى نموذج الـ 2 مليار المهمة في حوالي ثلاث دقائق، أي وقت أطول بكثير.
00:06:02ولنرى النتيجة النهائية. كما نلاحظ، هناك تحسن بالفعل لأن التصميم يبدو
00:06:08أكثر ترتيبًا ويستخدم سمة باللون البني، وهي أقرب للهوية البصرية للمقاهي.
00:06:14وشيء آخر لاحظته هو أننا إذا شغلنا الواي فاي، فسيقوم بتحميل بعض الأيقونات
00:06:20الخارجية، مما يجعل الموقع يبدو أفضل. وهذه النسخة حاولت فعليًا تنفيذ
00:06:24خاصية سلة التسوق التي طلبتها في البداية لأننا حصلنا على شريط جانبي جميل للسلة،
00:06:29رغم أنني لا أرى زر “أضف إلى السلة” على بطاقات المنتجات. وعندما حاولت
00:06:35مطالبته بإصلاح هذه المشاكل، وقعت مجددًا في نفس المشكلة التقنية حيث دخل
00:06:41النموذج في حلقة لانهائية. فاستنتجت أن المشكلة قد تكون في LM Studio مع Cline
00:06:46أو شيء من هذا القبيل. لكن لنكن صريحين، بالتأكيد لا أحد سيفكر جديًا
00:06:51في استخدام نماذج صغيرة كهذه لمهام برمجية معقدة وجادة.
00:06:56أجريت هذه الاختبارات فقط من باب الفضول لمعرفة ما إذا كان عدد بارامترات صغير كهذا
00:07:02يمكنه تقديم نتيجة مفيدة لمهمة برمجية معينة. والآن لنفعل شيئًا أكثر إثارة.
00:07:07دعونا نجرب تشغيل هذه النماذج على iPhone 14 Pro. وللقيام بذلك، قمت ببناء
00:07:14تطبيق iOS أصلي باستخدام Swift وإطار عمل MLX Swift. و MLX هي مكتبة
00:07:22آبل مفتوحة المصدر التي تتيح تشغيل النماذج مباشرة على بنية الذاكرة الموحدة لمعالجات آبل.
00:07:29وبالاستفادة من معالج الرسوميات Metal، يمكننا تشغيل نماذج Quen مع تسريع عتادي
00:07:34مباشرة على الجهاز. سأضع رابطًا في الوصف لمستودع مشروع Swift هذا
00:07:40لتتمكنوا من تحميله وتجميعه على أجهزتكم. بمجرد فتح التطبيق، سيبدأ فورًا
00:07:46بتحميل نموذج الـ 0.8 مليار. وبمجرد الانتهاء، نصبح جاهزين لاستخدامه. ولكن
00:07:52قبل كتابة أي مطالبة، دعوني أفعل وضع الطيران في هاتفي. لنبدأ بكلمة “مرحباً” بسيطة.
00:07:58لسبب ما، يجيب بأن اسمه هو “أليكس”. حسنًا، هذا عشوائي جدًا، لكن لا بأس.
00:08:04لكن هل لاحظتم سرعة تدفق الاستجابة؟ أنا مذهول حقًا من السرعة
00:08:10التي يجيب بها هذا النموذج في الوقت الفعلي. الآن لنجرب اختبار “غسيل السيارات” الشهير،
00:08:17الذي تخطئ فيه معظم النماذج عادةً. ويا للمفاجأة، Quen 3.5 يجيب بشكل صحيح.
00:08:23هذا مبهر بالفعل. والآن، أروع شيء في هذه النماذج هو قدراتها البصرية.
00:08:29سأريه صورة لموزة، ولنرى إن كان سيفهم ما هي وما هي حالتها.
00:08:35لقد حدد بشكل صحيح أنها موزة بالفعل، رغم قوله أنها “موزة كلب”.
00:08:40بصراحة لم أسمع بهذا المصطلح قط. موزة كلب؟ عن ماذا يتحدث Quen هنا؟
00:08:47على أي حال، هو يرى أنها ناضجة أكثر من اللازم ويحذرني من أنها قد لا تكون آمنة للأكل،
00:08:52وهذا غير صحيح. لقد أكلت تلك الموزة هذا الصباح وكانت لذيذة. ولكن مجددًا،
00:08:58أنا مذهول من سرعة معالجته للمطالبة وتقديمه للاستجابة.
00:09:04الآن لنجرب صورة أخرى. لنرَ إن كان بإمكانه تحديد سلالة الكلب في هذه الصورة.
00:09:09هنا نرى أنه ليس دقيقًا تمامًا لأنه يعتقد أنه يرى كلبين، وهذا ليس صحيحًا.
00:09:15ولم يذكر السلالة. لذا سألتُه تحديدًا عن نوع الكلب.
00:09:20يعتقد أنه مسترد ذهبي (Golden Retriever)، وهو أمر بعيد كل البعد عن الحقيقة. إذًا،
00:09:27رغم أن بعض الإجابات ليست دقيقة تمامًا، وبعضها مضحك حقًا،
00:09:34لا أزال معجبًا حقًا بقدرة نموذج صغير كهذا على تحليل محتويات صورة
00:09:39والقيام بذلك بهذه السرعة. وآخر شيء أريد اختباره هو قدرات التعرف الضوئي (OCR)،
00:09:45كما تم الترويج لها في الاختبارات. تحديدًا، أريد معرفة إن كان بإمكانه تحديد
00:09:50لغة النص الموجود في هذه الصورة. لأعطيكم سياقًا، اللغة المعروضة
00:09:55في الصورة هي اللاتفية، وهي لغتي الأم، لأنني في الأصل من لاتفيا.
00:10:00وللأسف، فشل Quen في هذا الاختبار لأنه قال إنها السلوفينية، ولغتنا ليست حتى
00:10:05شبيهة بها. وأجد من المضحك أيضًا كيف يترجم الكلمة بكل ثقة
00:10:11إلى نفس الكلمة، والتي لست متأكدًا حتى إن كانت كلمة حقيقية. من الواضح أن هناك
00:10:19حالات هلوسة شديدة في هذه الاستجابة. حسنًا، لننتقل الآن إلى نموذج الـ 2 مليار
00:10:25بارامتر. عند تبديله من القائمة المنسدلة، سيقوم بتحميله أولاً. وبمجرد الانتهاء،
00:10:30يمكننا إجراء نفس الاختبارات عليه لنرى إن كنا سنحصل على تحسينات ملموسة. لنبدأ
00:10:36بتحية بسيطة مجددًا. حسنًا، على الأقل هذه المرة لم يرد “أليكس”. هذا تحسن بحد ذاته.
00:10:42الآن اختبار غسيل السيارات مجددًا. ومرة أخرى، ينجح النموذج في الاختبار.
00:10:47عمل جيد. ننتقل الآن لصورة الموزة. وهذه المرة حصلنا على إجابة أكثر عقلانية.
00:10:53لقد رصد أنها موزة بالفعل. وبالنسبة لحالتها، قال إنها ناضجة تمامًا
00:11:00وجاهزة للأكل، وهذا صحيح. لنجرب صورة الكلب مرة أخرى.
00:11:06هذا النموذج يقول إنه كلب “بوميرانيان”. لا أظن أن هذه السلالات حتى متشابهة نسبيًا.
00:11:11للأسف، حتى نموذج الـ 2 مليار سيء في تحديد سلالات الكلاب.
00:11:18وأخيرًا، لنجرب الصورة التي تحتوي نصًا لنرى إن كان سيعرف اللغة.
00:11:22انظروا إلى هذا، نموذج الـ 2 مليار بارامتر حدد بشكل صحيح أن هذا النص
00:11:29باللغة اللاتفية. هذا رائع حقًا. ها قد رأيتموها، هذه هي سلسلة نماذج Quen 3.5 الصغيرة.
00:11:36بصراحة، أظن أنه رغم بعض التناقضات البسيطة، فهذه هي أقوى النماذج الصغيرة
00:11:42التي استخدمتها قط. حقيقة أننا نملك الآن نموذج ذكاء اصطناعي مفتوح المصدر وأصيل
00:11:49ومتعدد الوسائط يعمل على iPhone 14 Pro دون إنترنت ويقدم نتائج مفيدة وبسرعة معالجة
00:11:55عالية نسبيًا هو أمر مذهل للغاية. Quen تفوقوا على أنفسهم هذه المرة. أحسنتم.
00:12:01لكن هناك تحديث محزن قليلاً أود مشاركته. بينما كنت أنهي هذا الفيديو، ظهرت تقارير
00:12:07تفيد بأن علي بابا تجري إعادة هيكلة كبرى لفريق Quen. وقد غادر قادة بارزون
00:12:13ومهندسون كبار كانوا وراء هذه النماذج، والبعض ذهب لإنشاء شركاتهم الناشئة. هذا جعل
00:12:18المجتمع يتساءل عما إذا كانت حقبة Quen من الاختراقات السريعة قد تتباطأ.
00:12:24هذا يجعل النماذج الحالية أكثر أهمية لأنها قد تكون آخر إصدار كبير من هذا الفريق
00:12:30المحدد لفترة من الوقت. ولكن ما رأيكم في هذه النماذج من السلسلة الصغيرة؟ هل جربتموها؟
00:12:35هل ستستخدمونها؟ أخبرونا في التعليقات أدناه. وأيها الأصدقاء، إذا أعجبتكم
00:12:39هذه التحليلات التقنية، يرجى إخباري عبر الضغط على زر الإعجاب أسفل الفيديو.
00:12:45ولا تنسوا الاشتراك في قناتنا. كان معكم أندريس من Better Stack، وسأراكم
00:12:50في الفيديوهات القادمة.