هل صممت جوجل للتو نموذج الذكاء الاصطناعي الأفضل للأجهزة؟ (Gemma 4)

BBetter Stack
Computing/SoftwareLanguagesConsumer ElectronicsCell PhonesInternet Technology

Transcript

00:00:00في الأسبوع الماضي، قامت جوجل بشيء غير متوقع.
00:00:02فقد أطلقوا نموذجًا مفتوح المصدر حقًا بموجب ترخيص Apache 2.0.
00:00:08يطلق عليه Gemma 4، ويتميز بإصدارات طرفية متخصصة بحجم صغير يصل إلى 2.3 مليار بارامتر
00:00:14مصممة للعمل بالكامل دون اتصال بالإنترنت على أجهزة مثل iPhone، وأجهزة Android الرائدة
00:00:21أو حتى على جهاز Raspberry Pi.
00:00:23يبدو أن السباق لبناء النموذج الصغير الأمثل يزداد حماسة حقًا.
00:00:28قبل بضعة أسابيع فقط، أجريت بعض الاختبارات على QWAN 3.5 لمعرفة كيف كان يدفع حدود
00:00:33الذكاء الاصطناعي المحلي، ولكن الآن تعد جوجل بكثافة ذكاء أعلى.
00:00:39لذا في هذا الفيديو، سنقوم بإجراء اختبارات مماثلة على Gemma 4 لنرى ما إذا كان هذا النموذج حقًا
00:00:44هو أفضل نموذج صغير متاح حاليًا.
00:00:47سيكون الأمر ممتعًا للغاية، لذا دعونا نبدأ.
00:00:53إذًا، ما الذي يميز نماذج Gemma 4 الجديدة هذه؟
00:00:57حسنًا، التحول التقني الحقيقي هنا هو شيء تسميه جوجل "التضمينات لكل طبقة".
00:01:03في محولات Transformer التقليدية، يحصل الرمز (token) على تضمين واحد في البداية يجب أن يحمل
00:01:08كل معانيه عبر كل طبقة.
00:01:11لكن في Gemma 4، كل طبقة لها مجموعتها الخاصة من التضمينات، مما يسمح للنموذج بإدخال
00:01:16معلومات جديدة بالضبط حيث تشتد الحاجة إليها.
00:01:19هذا هو السبب في رؤيتك لحرف E في أسماء الطرازين E2B و E4B.
00:01:24إنه يرمز إلى "البارامترات الفعالة" (effective parameters).
00:01:27بينما يعمل النموذج بعمق تفكير نموذج ذو 5 مليار بارامتر، فإنه يستخدم فقط
00:01:32حوالي 2.3 مليار بارامتر نشط أثناء الاستنتاج.
00:01:36يؤدي هذا إلى كثافة ذكاء أعلى بكثير، مما يسمح له بالتعامل مع المنطق المعقد
00:01:42بينما يستخدم أقل من 1.5 جيجابايت من ذاكرة الوصول العشوائي (RAM).
00:01:46وبعيدًا عن أداء النصوص، فإن Gemma 4 متعدد الأنماط بشكل أصلي.
00:01:50وهذا يعني أن الرؤية والنص وحتى الصوت تتم معالجتها ضمن نفس البنية الموحدة
00:01:56بدلاً من إضافتها كأنظمة منفصلة.
00:01:59تتيح هذه البنية وضع تفكير جديد يستخدم سلسلة استدلال داخلية للتحقق
00:02:05من منطقه الخاص قبل إعطائك الإجابة.
00:02:08تم تصميم هذا خصيصًا لمنع الحلقات اللانهائية والأخطاء المنطقية التي غالبًا
00:02:13ما تعاني منها النماذج الصغيرة.
00:02:15كما يأتي مع نافذة سياق بحجم 128 ألف رمز ودعم لأكثر من 140 لغة، مما يجعله
00:02:22أكثر قدرة بشكل كبير في مهام مثل التعرف البصري المعقد على الحروف أو التعرف على اللغات المحلية.
00:02:29ولاستعراض هذه القدرات، أصدرت جوجل بعض المقاييس المذهلة.
00:02:34في اختباراتهم الداخلية، حقق طراز E4B درجة 42.5% في مقياس AIME 2026 للرياضيات،
00:02:43وهو أكثر من ضعف درجة النماذج الأكبر بكثير من الجيل السابق.
00:02:49كما استعرضوا إمكانات الوكيل في النموذج على مقياس T2 bench، حيث أظهر
00:02:54قفزة هائلة في دقة استخدام الأدوات.
00:02:57واستعرضوا أيضًا إمكانات الوكيل في النموذج من خلال ميزة تسمى "مهارات الوكيل".
00:03:02بدلاً من مجرد إنتاج نصوص ثابتة، أظهر النموذج استخدامه لاستدعاء الوظائف الأصلي
00:03:07للتعامل مع سير عمل متعدد الخطوات مثل الاستعلام في ويكيبيديا عن بيانات حية أو بناء
00:03:13أداة ذكية متكاملة لأصوات الحيوانات.
00:03:15الآن، كل هذا يبدو مثيرًا للإعجاب، ولكن دعونا نجربه بأنفسنا ونرى كيف يعمل.
00:03:20في فيديو QWAN 3.5 السابق، اختبرت النماذج الصغيرة عن طريق تشغيلها محليًا بدون
00:03:25اتصال بالإنترنت باستخدام LMStudio و CLINE.
00:03:28سأستخدم نفس الإعداد لاختبار GEMMA 4.
00:03:32أولاً، يتعين علينا تنزيل النماذج على LMStudio، ثم زيادة نافذة السياق المتاحة
00:03:37وبدء تشغيل الخادم.
00:03:39يمكننا بعد ذلك الانتقال إلى CLINE وربط خادم LMStudio المحلي الخاص بنا، واختيار طراز E2B،
00:03:45وإيقاف اتصالنا بالإنترنت وبدء اختباراتنا.
00:03:49في المرة السابقة رأينا أن QWAN 3.5 كان جيدًا جدًا في إنشاء موقع ويب بسيط لمقهى باستخدام HTML و
00:03:55CSS و JavaScript مع اثنين من أصغر نماذجه من حيث البارامترات.
00:04:00دعونا نعيد استخدام نفس المطالبة ونرى ما إذا كان GEMMA 4 جيدًا بنفس القدر في مهمة البرمجة هذه.
00:04:05لقد استغرق طراز E2B حوالي دقيقة ونصف لإكمال هذه المهمة.
00:04:10وبالنسبة لنموذج يحتوي على 2.3 مليار بارامتر نشط، كانت النتائج صراحةً مخيبة للآمال قليلاً
00:04:16مقارنة بنتائج مخرجات QWAN الذي استخدم 0.8 مليار بارامتر فقط.
00:04:22كان الشيء الأكثر إزعاجًا هو أن GEMMA أضاف قائمة المهام في نهاية ملف HTML وكذلك
00:04:28في نهاية ملف CSS، لذا اضطررت لحذفها يدويًا من كلا الملفين قبل
00:04:33فتح الصفحة.
00:04:34كما ادعى أنه كتب ملف JavaScript، بينما في الواقع لم يتم إنتاج أي ملف JS
00:04:40في المخرجات النهائية، لذا كانت نتائج اختبار E2B مخيبة للآمال قليلاً.
00:04:45لكن هذا الوضع تحسن كثيرًا عند الانتقال إلى إصدار طراز E4B.
00:04:50استغرق هذا الإصدار حوالي 3.5 دقيقة لإنهاء المهمة، لكن النتيجة النهائية كانت أفضل
00:04:55بشكل ملحوظ.
00:04:56ربما ليس من حيث التصميم، فلا يزال يبدو بسيطًا جدًا، لكن هذا الإصدار تضمن فعليًا
00:05:00وظيفة سلة تسوق تعمل، وهو ما لم تنجح أي من الاختبارات السابقة، لكل من QWAN و GEMMA،
00:05:06في إنتاجها بنجاح.
00:05:08لذا فإن إصدار E4B يعد بالفعل خطوة كبيرة للأمام مقارنة بإصدار E2B، ولكن من الواضح أنه
00:05:15لا أحد سيفكر بجدية في استخدام مثل هذه النماذج الصغيرة لبرمجة معقدة أو جادة.
00:05:20لقد أجريت هذه الاختبارات فقط بدافع الفضول لمعرفة ما إذا كان هذا العدد الصغير من البارامترات
00:05:25يمكن أن ينتج نتيجة ذات مغزى لمهمة برمجة معينة.
00:05:29حسنًا، دعونا الآن نرى كيف يعمل GEMMA 4 على الأجهزة الطرفية مثل iPhone.
00:05:34في فيديو QWAN 3.5، قمت ببناء تطبيق iOS مخصص كان قادرًا على تشغيل النموذج
00:05:40على وحدة معالجة الرسومات Metal الأصلية باستخدام إطار عمل MLX الخاص بـ Swift.
00:05:44على الرغم من أن GEMMA 4 مفتوح المصدر، فإنه للأسف لا توجد روابط MLX متاحة لهذا
00:05:49النموذج حتى الآن، والتي ستكون قادرة على تشغيل هذا النموذج على iOS بقدرات متعددة الأنماط.
00:05:56وتقوم جوجل نفسها بتشغيل GEMMA 4 على تطبيق AI Edge Gallery الخاص بها باستخدام إطار عمل
00:06:01الاستنتاج الخاص بها المسمى Lite RTLM، والذي للأسف لا يدعم أيضًا روابط iOS في
00:06:07الوقت الحالي.
00:06:08لذا لتجربته على iPhone، فإن أفضل خيار لنا حاليًا هو استخدام تطبيق Edge Gallery الخاص بهم.
00:06:13لذا سنجري اختباراتنا على تطبيقهم الخاص ونرى كيف سيكون أداؤه.
00:06:18دعونا ننتقل إلى قسم دردشة الذكاء الاصطناعي.
00:06:20وهنا سيُطلب منا تنزيل إصدار E2B من GEMMA 4.
00:06:25لديك أيضًا خيار تنزيل إصدار E4B، ولكن لسبب ما يقول التطبيق إنني
00:06:29لا أملك مساحة كافية لتنزيله، وأنا متأكد من أن هذا ليس صحيحًا، فربما يكون هذا
00:06:34خللًا في التطبيق.
00:06:36لكن على أي حال، الآن بعد أن قمت بتنزيل النموذج، يمكننا أخيرًا البدء في استخدامه.
00:06:41ولنبدأ بكتابة "مرحبًا" بسيطة.
00:06:43واو، هل رأيتم مدى سرعة الاستجابة؟
00:06:46أسرع بكثير من QWAN 3.5.
00:06:48ربما يكون هذا هو سحر إطار عمل Lite RTLM الذي يستخدمونه.
00:06:53الآن دعونا نجرب اختبار غسيل السيارات الشهير ونرى ما إذا كان GEMMA سيجيب عليه بشكل صحيح.
00:06:57واو، لقد أعطاني ردًا طويلاً حقًا.
00:07:00وفي نهايته، نرى أن التوصية النهائية هي القيادة، وهي صحيحة،
00:07:06لكن يجب أن آخذ في الاعتبار حقيقة أنه ينظر إلى الراحة والملاءمة
00:07:10وليس إلى الحقيقة المنطقية الفعلية.
00:07:13لذا لا أدري، إنه ينجح في الاختبار نوعًا ما، ولا ينجح في نفس الوقت.
00:07:18حسنًا، دعونا ننتقل الآن إلى قسم "اسأل صورة" ولنرى ما إذا كان GEMMA يستطيع التعرف
00:07:24على الكلب في هذه الصورة.
00:07:26لقد تعرف بالفعل على أنه كلب وقدم بعض التفاصيل الأخرى حول الصورة.
00:07:31هذا رائع جدًا.
00:07:32ولكن إذا سألته، ما هي سلالة الكلب؟
00:07:35يجيب قائلاً إنه Border Collie، وهو أمر غير صحيح.
00:07:39إنه في الواقع Corgi.
00:07:40ولكن يجب أن أقول، بالنسبة لنموذج يزيد قليلاً عن 2 مليار بارامتر نشط، فإن هذه الاستجابة
00:07:45جيدة جدًا رغم ذلك.
00:07:46أخيرًا، دعونا نجرب اختبار التعرف البصري على الحروف (OCR).
00:07:48إذا شاهدتم فيديوي السابق مع Quen 3.5، فستتذكرون أنني اختبرته باستخدام
00:07:54صورة تحتوي على نص باللغة اللاتفية، وهي لغتي الأم أيضًا.
00:07:59الآن تروج GEMMA لنفسها على أنها قادرة على فهم ما يصل إلى 140 لغة.
00:08:05لذا أفترض أنها يجب أن تجتاز هذا الاختبار بسهولة.
00:08:08ونعم، بالفعل، لقد تعرف على أن اللغة هي اللاتفية.
00:08:13وأنا مندهش لأن معظم النص دقيق تمامًا.
00:08:16مع بعض الاستثناءات البسيطة، أرى أن بعض الكلمات غير موجودة وبعض
00:08:22التراكيب النحوية غريبة جدًا.
00:08:24لكنه لا يزال مثيرًا للإعجاب للغاية.
00:08:26لذا سأعتبره ناجحًا في هذا الاختبار.
00:08:28الآن، هذا يطرح سؤالاً: هل يمكنني الدردشة مع هذا النموذج باللغة اللاتفية؟
00:08:32سأجرب ذلك تاليًا.
00:08:33أرى أن الرد هو بالفعل باللغة اللاتفية.
00:08:36ولكن مرة أخرى، التراكيب النحوية غريبة جدًا.
00:08:39ولا أحد يتحدث بهذه الطريقة.
00:08:41ولكن مع ذلك، اللاتفية لغة صغيرة جدًا.
00:08:44لذا من المثير للإعجاب حقًا أن يمتلك كل تلك المعرفة في نموذج صغير كهذا.
00:08:48وبما أنني في هذا الصدد، سأسأله من هو الرئيس الحالي للولايات المتحدة لأرى
00:08:53ما هو تاريخ انقطاع المعرفة لدى GEMMA 4؟
00:08:56وأجاب بأنه جو بايدن.
00:08:58ثم إذا سألت فعليًا، ما هو تاريخ انقطاع معرفتك؟
00:09:02سيخبرني أنه يناير 2025، وهذا منطقي.
00:09:06إليكم الأمر إذًا.
00:09:07هذا هو GEMMA 4، أحدث نموذج مفتوح المصدر من جوجل.
00:09:10ولأكون صادقًا، يبدو هذا النموذج جيدًا جدًا.
00:09:14إنه يفعل ما يروج له، وإن كان يفتقر إلى بعض الإبداع في تصميم الويب.
00:09:19ولكن عدا ذلك، فإن النماذج الصغيرة، كما رأينا للتو، قادرة تمامًا على إكمال
00:09:24جميع المهام التي كنت أعطيها إياها بنجاح.
00:09:27من المؤسف أنه لا تزال لدينا روابط MLX لهذا النموذج، لأنني كنت أود حقًا
00:09:32استخدام GEMMA 4 محليًا على تطبيق iOS مخصص.
00:09:36لكنني متأكد من أن جوجل لن تستغرق وقتًا طويلاً لإيصال هذا الإصدار إلى الجمهور.
00:09:41وفي هذه الأثناء، أراقب عن كثب المشاريع المجتمعية مثل SwiftLM، والتي
00:09:46تعمل بالفعل على روابط أصلية غير رسمية لهذه النماذج.
00:09:50إذًا، هذا هو رأيي في النموذج.
00:09:52ما رأيكم في GEMMA 4؟
00:09:54هل جربتموه؟
00:09:55هل ستستخدمونه؟
00:09:56أخبرونا في قسم التعليقات أدناه.
00:09:59وأصدقائي، إذا أعجبتكم هذه الأنواع من التحليلات التقنية، فيرجى إخباري من خلال
00:10:03الضغط على زر الإعجاب أسفل الفيديو.
00:10:05ولا تنسوا أيضًا الاشتراك في قناتنا.
00:10:07كان معكم أندريس من BetterStack وسأراكم في الفيديوهات القادمة.

Key Takeaway

يقدم Gemma 4 كثافة ذكاء عالية عبر استهلاك 1.5 جيجابايت فقط من الذاكرة مع تحقيق أداء رياضي مضاعف وتفوق في المهام متعددة الأنماط على الأجهزة المحمولة دون اتصال بالإنترنت.

Highlights

يستخدم طراز Gemma 4 بنية "التضمينات لكل طبقة" التي تسمح لكل طبقة بإدخال معلومات جديدة بدلاً من الاعتماد على تضمين واحد في البداية.

يعمل إصدار E2B بحجم 2.3 مليار بارامتر نشط ويستهلك أقل من 1.5 جيجابايت من ذاكرة الوصول العشوائي (RAM) مما يتيح تشغيله محلياً بالكامل.

حقق طراز E4B درجة 42.5% في مقياس AIME 2026 للرياضيات وهو ما يعادل ضعف أداء النماذج الأكبر من الجيل السابق.

يدعم النموذج نافذة سياق تصل إلى 128 ألف رمز وأكثر من 140 لغة منها اللغة اللاتفية بمستوى دقة عالٍ في التعرف البصري على الحروف.

يتميز Gemma 4 بتعدد الأنماط الأصلي حيث تعالج بنية موحدة واحدة النصوص والرؤية والصوت دون الحاجة لأنظمة منفصلة.

يتضمن وضع تفكير جديد يستخدم سلسلة استدلال داخلية للتحقق من المنطق قبل إصدار الإجابة النهائية لمنع الأخطاء المنطقية في النماذج الصغيرة.

Timeline

إطلاق Gemma 4 ومواصفات الأداء المحلي

  • يصدر طراز Gemma 4 بموجب ترخيص Apache 2.0 كنموذج مفتوح المصدر بالكامل.
  • تستهدف النسخ الصغيرة الأجهزة الطرفية مثل iPhone وAndroid وRaspberry Pi للعمل دون اتصال بالإنترنت.
  • تهدف جوجل من هذا الإصدار إلى تحقيق أعلى كثافة ذكاء ممكنة في النماذج المدمجة.

يمثل هذا الإصدار تحولاً في استراتيجية جوجل نحو البرمجيات المفتوحة. صُممت النماذج لتعمل بكفاءة على الأجهزة ذات الموارد المحدودة. تشتد المنافسة حالياً بين النماذج الصغيرة مثل QWAN 3.5 وGemma 4 لتقديم أفضل أداء محلي للمستخدمين.

الابتكار التقني في بنية التضمينات والبارامترات الفعالة

  • تسمح تقنية التضمينات لكل طبقة بتحديث معاني الرموز (tokens) تدريجياً عبر مسار المعالجة.
  • يوفر طراز E2B عمق تفكير يعادل نماذج 5 مليار بارامتر باستخدام 2.3 مليار بارامتر نشط فقط.
  • تمنع ميزة سلسلة الاستدلال الداخلية وقوع النموذج في الحلقات اللانهائية والأخطاء المنطقية الشائعة.

حرف E في أسماء الطرازات يشير إلى البارامترات الفعالة التي توازن بين سرعة الاستنتاج وعمق التحليل. تدمج البنية الموحدة الرؤية والصوت والنص بشكل أصلي بدلاً من استخدام وحدات نمطية مضافة. تدعم هذه البنية مهام معقدة مثل التعرف البصري على الحروف (OCR) بلغات متعددة وسياق نصي واسع.

نتائج المقاييس واختبارات البرمجة المحلية

  • سجل طراز E4B قفزة هائلة في دقة استخدام الأدوات وسير العمل متعدد الخطوات.
  • أنتج إصدار E4B وظيفة سلة تسوق برمجية ناجحة في اختبارات HTML وCSS وJavaScript.
  • أظهر إصدار E2B أداءً مخيباً للآمال في البرمجة مقارنة بنموذج QWAN الأصغر حجماً.

تُظهر الاختبارات الداخلية تفوقاً كبيراً في حل المسائل الرياضية المعقدة واختبارات الوكلاء الذكيين (Agent skills). عند اختبار البرمجة محلياً باستخدام LMStudio، فشل E2B في إنتاج ملفات JavaScript المطلوبة وكرر المهام بشكل غير ضروري. في المقابل، قدم E4B نتائج وظيفية أفضل رغم بساطة التصميم البصري، مما يجعله خطوة للأمام في قدرات النماذج الصغيرة.

الأداء على الأجهزة المحمولة واختبارات اللغات

  • يعمل إطار عمل Lite RTLM على تسريع استجابة النموذج بشكل ملحوظ على هواتف iPhone.
  • يتعرف النموذج بشكل دقيق على محتوى الصور والنصوص باللغات النادرة مثل اللاتفية.
  • يصل تاريخ انقطاع المعرفة في نموذج Gemma 4 إلى يناير 2025.

يوفر تطبيق AI Edge Gallery سرعة استجابة فائقة تتجاوز المنافسين عند التشغيل المحلي. نجح النموذج في اختبارات المنطق (غسيل السيارات) والتعرف على فصائل الحيوانات رغم وجود بعض الأخطاء البسيطة في تحديد سلالة الكلب (Corgi). تظل جودة القواعد النحوية في اللغات الصغيرة أقل من المثالية، لكن وجود هذه المعرفة في نموذج بهذا الحجم يعد إنجازاً تقنياً.

Community Posts

View all posts