00:00:00في الأسبوع الماضي، قامت جوجل بشيء غير متوقع.
00:00:02فقد أطلقوا نموذجًا مفتوح المصدر حقًا بموجب ترخيص Apache 2.0.
00:00:08يطلق عليه Gemma 4، ويتميز بإصدارات طرفية متخصصة بحجم صغير يصل إلى 2.3 مليار بارامتر
00:00:14مصممة للعمل بالكامل دون اتصال بالإنترنت على أجهزة مثل iPhone، وأجهزة Android الرائدة
00:00:21أو حتى على جهاز Raspberry Pi.
00:00:23يبدو أن السباق لبناء النموذج الصغير الأمثل يزداد حماسة حقًا.
00:00:28قبل بضعة أسابيع فقط، أجريت بعض الاختبارات على QWAN 3.5 لمعرفة كيف كان يدفع حدود
00:00:33الذكاء الاصطناعي المحلي، ولكن الآن تعد جوجل بكثافة ذكاء أعلى.
00:00:39لذا في هذا الفيديو، سنقوم بإجراء اختبارات مماثلة على Gemma 4 لنرى ما إذا كان هذا النموذج حقًا
00:00:44هو أفضل نموذج صغير متاح حاليًا.
00:00:47سيكون الأمر ممتعًا للغاية، لذا دعونا نبدأ.
00:00:53إذًا، ما الذي يميز نماذج Gemma 4 الجديدة هذه؟
00:00:57حسنًا، التحول التقني الحقيقي هنا هو شيء تسميه جوجل "التضمينات لكل طبقة".
00:01:03في محولات Transformer التقليدية، يحصل الرمز (token) على تضمين واحد في البداية يجب أن يحمل
00:01:08كل معانيه عبر كل طبقة.
00:01:11لكن في Gemma 4، كل طبقة لها مجموعتها الخاصة من التضمينات، مما يسمح للنموذج بإدخال
00:01:16معلومات جديدة بالضبط حيث تشتد الحاجة إليها.
00:01:19هذا هو السبب في رؤيتك لحرف E في أسماء الطرازين E2B و E4B.
00:01:24إنه يرمز إلى "البارامترات الفعالة" (effective parameters).
00:01:27بينما يعمل النموذج بعمق تفكير نموذج ذو 5 مليار بارامتر، فإنه يستخدم فقط
00:01:32حوالي 2.3 مليار بارامتر نشط أثناء الاستنتاج.
00:01:36يؤدي هذا إلى كثافة ذكاء أعلى بكثير، مما يسمح له بالتعامل مع المنطق المعقد
00:01:42بينما يستخدم أقل من 1.5 جيجابايت من ذاكرة الوصول العشوائي (RAM).
00:01:46وبعيدًا عن أداء النصوص، فإن Gemma 4 متعدد الأنماط بشكل أصلي.
00:01:50وهذا يعني أن الرؤية والنص وحتى الصوت تتم معالجتها ضمن نفس البنية الموحدة
00:01:56بدلاً من إضافتها كأنظمة منفصلة.
00:01:59تتيح هذه البنية وضع تفكير جديد يستخدم سلسلة استدلال داخلية للتحقق
00:02:05من منطقه الخاص قبل إعطائك الإجابة.
00:02:08تم تصميم هذا خصيصًا لمنع الحلقات اللانهائية والأخطاء المنطقية التي غالبًا
00:02:13ما تعاني منها النماذج الصغيرة.
00:02:15كما يأتي مع نافذة سياق بحجم 128 ألف رمز ودعم لأكثر من 140 لغة، مما يجعله
00:02:22أكثر قدرة بشكل كبير في مهام مثل التعرف البصري المعقد على الحروف أو التعرف على اللغات المحلية.
00:02:29ولاستعراض هذه القدرات، أصدرت جوجل بعض المقاييس المذهلة.
00:02:34في اختباراتهم الداخلية، حقق طراز E4B درجة 42.5% في مقياس AIME 2026 للرياضيات،
00:02:43وهو أكثر من ضعف درجة النماذج الأكبر بكثير من الجيل السابق.
00:02:49كما استعرضوا إمكانات الوكيل في النموذج على مقياس T2 bench، حيث أظهر
00:02:54قفزة هائلة في دقة استخدام الأدوات.
00:02:57واستعرضوا أيضًا إمكانات الوكيل في النموذج من خلال ميزة تسمى "مهارات الوكيل".
00:03:02بدلاً من مجرد إنتاج نصوص ثابتة، أظهر النموذج استخدامه لاستدعاء الوظائف الأصلي
00:03:07للتعامل مع سير عمل متعدد الخطوات مثل الاستعلام في ويكيبيديا عن بيانات حية أو بناء
00:03:13أداة ذكية متكاملة لأصوات الحيوانات.
00:03:15الآن، كل هذا يبدو مثيرًا للإعجاب، ولكن دعونا نجربه بأنفسنا ونرى كيف يعمل.
00:03:20في فيديو QWAN 3.5 السابق، اختبرت النماذج الصغيرة عن طريق تشغيلها محليًا بدون
00:03:25اتصال بالإنترنت باستخدام LMStudio و CLINE.
00:03:28سأستخدم نفس الإعداد لاختبار GEMMA 4.
00:03:32أولاً، يتعين علينا تنزيل النماذج على LMStudio، ثم زيادة نافذة السياق المتاحة
00:03:37وبدء تشغيل الخادم.
00:03:39يمكننا بعد ذلك الانتقال إلى CLINE وربط خادم LMStudio المحلي الخاص بنا، واختيار طراز E2B،
00:03:45وإيقاف اتصالنا بالإنترنت وبدء اختباراتنا.
00:03:49في المرة السابقة رأينا أن QWAN 3.5 كان جيدًا جدًا في إنشاء موقع ويب بسيط لمقهى باستخدام HTML و
00:03:55CSS و JavaScript مع اثنين من أصغر نماذجه من حيث البارامترات.
00:04:00دعونا نعيد استخدام نفس المطالبة ونرى ما إذا كان GEMMA 4 جيدًا بنفس القدر في مهمة البرمجة هذه.
00:04:05لقد استغرق طراز E2B حوالي دقيقة ونصف لإكمال هذه المهمة.
00:04:10وبالنسبة لنموذج يحتوي على 2.3 مليار بارامتر نشط، كانت النتائج صراحةً مخيبة للآمال قليلاً
00:04:16مقارنة بنتائج مخرجات QWAN الذي استخدم 0.8 مليار بارامتر فقط.
00:04:22كان الشيء الأكثر إزعاجًا هو أن GEMMA أضاف قائمة المهام في نهاية ملف HTML وكذلك
00:04:28في نهاية ملف CSS، لذا اضطررت لحذفها يدويًا من كلا الملفين قبل
00:04:33فتح الصفحة.
00:04:34كما ادعى أنه كتب ملف JavaScript، بينما في الواقع لم يتم إنتاج أي ملف JS
00:04:40في المخرجات النهائية، لذا كانت نتائج اختبار E2B مخيبة للآمال قليلاً.
00:04:45لكن هذا الوضع تحسن كثيرًا عند الانتقال إلى إصدار طراز E4B.
00:04:50استغرق هذا الإصدار حوالي 3.5 دقيقة لإنهاء المهمة، لكن النتيجة النهائية كانت أفضل
00:04:55بشكل ملحوظ.
00:04:56ربما ليس من حيث التصميم، فلا يزال يبدو بسيطًا جدًا، لكن هذا الإصدار تضمن فعليًا
00:05:00وظيفة سلة تسوق تعمل، وهو ما لم تنجح أي من الاختبارات السابقة، لكل من QWAN و GEMMA،
00:05:06في إنتاجها بنجاح.
00:05:08لذا فإن إصدار E4B يعد بالفعل خطوة كبيرة للأمام مقارنة بإصدار E2B، ولكن من الواضح أنه
00:05:15لا أحد سيفكر بجدية في استخدام مثل هذه النماذج الصغيرة لبرمجة معقدة أو جادة.
00:05:20لقد أجريت هذه الاختبارات فقط بدافع الفضول لمعرفة ما إذا كان هذا العدد الصغير من البارامترات
00:05:25يمكن أن ينتج نتيجة ذات مغزى لمهمة برمجة معينة.
00:05:29حسنًا، دعونا الآن نرى كيف يعمل GEMMA 4 على الأجهزة الطرفية مثل iPhone.
00:05:34في فيديو QWAN 3.5، قمت ببناء تطبيق iOS مخصص كان قادرًا على تشغيل النموذج
00:05:40على وحدة معالجة الرسومات Metal الأصلية باستخدام إطار عمل MLX الخاص بـ Swift.
00:05:44على الرغم من أن GEMMA 4 مفتوح المصدر، فإنه للأسف لا توجد روابط MLX متاحة لهذا
00:05:49النموذج حتى الآن، والتي ستكون قادرة على تشغيل هذا النموذج على iOS بقدرات متعددة الأنماط.
00:05:56وتقوم جوجل نفسها بتشغيل GEMMA 4 على تطبيق AI Edge Gallery الخاص بها باستخدام إطار عمل
00:06:01الاستنتاج الخاص بها المسمى Lite RTLM، والذي للأسف لا يدعم أيضًا روابط iOS في
00:06:07الوقت الحالي.
00:06:08لذا لتجربته على iPhone، فإن أفضل خيار لنا حاليًا هو استخدام تطبيق Edge Gallery الخاص بهم.
00:06:13لذا سنجري اختباراتنا على تطبيقهم الخاص ونرى كيف سيكون أداؤه.
00:06:18دعونا ننتقل إلى قسم دردشة الذكاء الاصطناعي.
00:06:20وهنا سيُطلب منا تنزيل إصدار E2B من GEMMA 4.
00:06:25لديك أيضًا خيار تنزيل إصدار E4B، ولكن لسبب ما يقول التطبيق إنني
00:06:29لا أملك مساحة كافية لتنزيله، وأنا متأكد من أن هذا ليس صحيحًا، فربما يكون هذا
00:06:34خللًا في التطبيق.
00:06:36لكن على أي حال، الآن بعد أن قمت بتنزيل النموذج، يمكننا أخيرًا البدء في استخدامه.
00:06:41ولنبدأ بكتابة "مرحبًا" بسيطة.
00:06:43واو، هل رأيتم مدى سرعة الاستجابة؟
00:06:46أسرع بكثير من QWAN 3.5.
00:06:48ربما يكون هذا هو سحر إطار عمل Lite RTLM الذي يستخدمونه.
00:06:53الآن دعونا نجرب اختبار غسيل السيارات الشهير ونرى ما إذا كان GEMMA سيجيب عليه بشكل صحيح.
00:06:57واو، لقد أعطاني ردًا طويلاً حقًا.
00:07:00وفي نهايته، نرى أن التوصية النهائية هي القيادة، وهي صحيحة،
00:07:06لكن يجب أن آخذ في الاعتبار حقيقة أنه ينظر إلى الراحة والملاءمة
00:07:10وليس إلى الحقيقة المنطقية الفعلية.
00:07:13لذا لا أدري، إنه ينجح في الاختبار نوعًا ما، ولا ينجح في نفس الوقت.
00:07:18حسنًا، دعونا ننتقل الآن إلى قسم "اسأل صورة" ولنرى ما إذا كان GEMMA يستطيع التعرف
00:07:24على الكلب في هذه الصورة.
00:07:26لقد تعرف بالفعل على أنه كلب وقدم بعض التفاصيل الأخرى حول الصورة.
00:07:31هذا رائع جدًا.
00:07:32ولكن إذا سألته، ما هي سلالة الكلب؟
00:07:35يجيب قائلاً إنه Border Collie، وهو أمر غير صحيح.
00:07:39إنه في الواقع Corgi.
00:07:40ولكن يجب أن أقول، بالنسبة لنموذج يزيد قليلاً عن 2 مليار بارامتر نشط، فإن هذه الاستجابة
00:07:45جيدة جدًا رغم ذلك.
00:07:46أخيرًا، دعونا نجرب اختبار التعرف البصري على الحروف (OCR).
00:07:48إذا شاهدتم فيديوي السابق مع Quen 3.5، فستتذكرون أنني اختبرته باستخدام
00:07:54صورة تحتوي على نص باللغة اللاتفية، وهي لغتي الأم أيضًا.
00:07:59الآن تروج GEMMA لنفسها على أنها قادرة على فهم ما يصل إلى 140 لغة.
00:08:05لذا أفترض أنها يجب أن تجتاز هذا الاختبار بسهولة.
00:08:08ونعم، بالفعل، لقد تعرف على أن اللغة هي اللاتفية.
00:08:13وأنا مندهش لأن معظم النص دقيق تمامًا.
00:08:16مع بعض الاستثناءات البسيطة، أرى أن بعض الكلمات غير موجودة وبعض
00:08:22التراكيب النحوية غريبة جدًا.
00:08:24لكنه لا يزال مثيرًا للإعجاب للغاية.
00:08:26لذا سأعتبره ناجحًا في هذا الاختبار.
00:08:28الآن، هذا يطرح سؤالاً: هل يمكنني الدردشة مع هذا النموذج باللغة اللاتفية؟
00:08:32سأجرب ذلك تاليًا.
00:08:33أرى أن الرد هو بالفعل باللغة اللاتفية.
00:08:36ولكن مرة أخرى، التراكيب النحوية غريبة جدًا.
00:08:39ولا أحد يتحدث بهذه الطريقة.
00:08:41ولكن مع ذلك، اللاتفية لغة صغيرة جدًا.
00:08:44لذا من المثير للإعجاب حقًا أن يمتلك كل تلك المعرفة في نموذج صغير كهذا.
00:08:48وبما أنني في هذا الصدد، سأسأله من هو الرئيس الحالي للولايات المتحدة لأرى
00:08:53ما هو تاريخ انقطاع المعرفة لدى GEMMA 4؟
00:08:56وأجاب بأنه جو بايدن.
00:08:58ثم إذا سألت فعليًا، ما هو تاريخ انقطاع معرفتك؟
00:09:02سيخبرني أنه يناير 2025، وهذا منطقي.
00:09:06إليكم الأمر إذًا.
00:09:07هذا هو GEMMA 4، أحدث نموذج مفتوح المصدر من جوجل.
00:09:10ولأكون صادقًا، يبدو هذا النموذج جيدًا جدًا.
00:09:14إنه يفعل ما يروج له، وإن كان يفتقر إلى بعض الإبداع في تصميم الويب.
00:09:19ولكن عدا ذلك، فإن النماذج الصغيرة، كما رأينا للتو، قادرة تمامًا على إكمال
00:09:24جميع المهام التي كنت أعطيها إياها بنجاح.
00:09:27من المؤسف أنه لا تزال لدينا روابط MLX لهذا النموذج، لأنني كنت أود حقًا
00:09:32استخدام GEMMA 4 محليًا على تطبيق iOS مخصص.
00:09:36لكنني متأكد من أن جوجل لن تستغرق وقتًا طويلاً لإيصال هذا الإصدار إلى الجمهور.
00:09:41وفي هذه الأثناء، أراقب عن كثب المشاريع المجتمعية مثل SwiftLM، والتي
00:09:46تعمل بالفعل على روابط أصلية غير رسمية لهذه النماذج.
00:09:50إذًا، هذا هو رأيي في النموذج.
00:09:52ما رأيكم في GEMMA 4؟
00:09:54هل جربتموه؟
00:09:55هل ستستخدمونه؟
00:09:56أخبرونا في قسم التعليقات أدناه.
00:09:59وأصدقائي، إذا أعجبتكم هذه الأنواع من التحليلات التقنية، فيرجى إخباري من خلال
00:10:03الضغط على زر الإعجاب أسفل الفيديو.
00:10:05ولا تنسوا أيضًا الاشتراك في قناتنا.
00:10:07كان معكم أندريس من BetterStack وسأراكم في الفيديوهات القادمة.