جوجل تحل للتو أكبر مشكلة في الذكاء الاصطناعي متعدد الوسائط (Gemma 4 12B)

BBetter Stack
컴퓨터/소프트웨어가전제품/카메라

Transcript

00:00:00كشفت جوجل للتو عن أحدث نماذجها “جيما 4” بـ 12 مليار بارامتر، وهذا تغيير جذري في قواعد اللعبة.
00:00:06لا، بجدية، هذا ليس مجرد عنوان جذاب. هذا النموذج هو في الواقع تغيير جذري في طريقة بنائه.
00:00:13الشيء الذي يميز هذا النموذج عن غيره من نماذج الذكاء الاصطناعي هو حقيقة أنه
00:00:18خالٍ تماماً من المشفّر (Encoder). الآن، ماذا يعني ذلك وكيف يعمل ولماذا يعتبر هذا الأمر مهماً جداً؟
00:00:24حسناً، هذه كلها أسئلة جيدة سنستكشفها في فيديو اليوم. سيكون الأمر ممتعاً
00:00:29كثيراً، لذا دعونا نتعمق في الموضوع. نموذج جيما 4 بـ 12 مليار بارامتر يمتلك بنية جديدة
00:00:39تكسر تماماً القواعد التي تعمل بها جميع النماذج متعددة الوسائط الأخرى. نموذج متعدد الوسائط. يا إلهي
00:00:46هذا تعبير يصعب نطقه. لفهم لماذا يعتبر هذا أمراً مهماً، يجب علينا
00:00:51أن ننظر إلى كيفية تعامل كل النماذج متعددة الوسائط الأخرى مع الأمور حالياً. النماذج اللغوية مصممة لقراءة
00:00:57الرموز، وهي أساساً أجزاء من النص تحولت إلى أرقام. هي لا تعرف بشكل طبيعي ما هي البكسلات أو
00:01:05كيف تبدو الموجات الصوتية. لذا عادة نقوم بربط نماذج مختلفة ببعضها. إذا أعطيت الذكاء الاصطناعي صورة، فإن
00:01:11مشفّر رؤية ضخم يعترضها أولاً. هو يقضي الكثير من قوة المعالجة في ترجمة تلك البكسلات الخام إلى
00:01:19لغة يمكن للنموذج اللغوي الكبير فهمها. وينطبق الشيء نفسه على الصوت. مشفّر كلام منفصل يجب عليه
00:01:25ترجمة الموجات الصوتية أولاً. بحلول الوقت الذي يحصل فيه عقل الذكاء الاصطناعي الفعلي على البيانات، تكون قد قمت بتشغيل ثلاث
00:01:32شبكات منفصلة في نفس الوقت. على حاسوب محمول عادي، هذا يستهلك ذاكرة الفيديو (VRAM) بالكامل ويبطئ
00:01:38كل شيء. لكن جوجل ديب مايند نظرت إلى هذه المشكلة وفكرت، ماذا لو استطعنا التخلص من
00:01:44الوسيط؟ لذا في نموذج جيما 4 بـ 12 مليار بارامتر، قاموا بحذف مشفّر الرؤية الثقيل تماماً. بدلاً من ذلك،
00:01:51عندما تغذيه بصورة، يقوم النموذج بتقطيعها إلى قطع صغيرة بحجم 48 في 48 بكسل. وبدلاً من تمرير
00:01:58تلك القطع عبر عشرات الطبقات من شبكة رؤية منفصلة، تمر البكسلات الخام عبر خطوة رياضية واحدة
00:02:04خفيفة تسمى الإسقاط الخطي (Linear Projection). وهذا الإسقاط الخطي هو مجرد شبكة ضخمة من الأرقام
00:02:11تأخذ 2304 قيمة بكسل، لأن ذلك يتوافق مع مربع 48 في 48 بكسل، وتضربهم في
00:02:19خطوة واحدة، وتمددهم في صف واحد يطابق تماماً تنسيق رموز النص الخاص بالنموذج اللغوي الكبير.
00:02:26لذا هو لا يحلل فقط ما في الصورة بعد، هو فقط يعيد تنسيق البيانات الخام حتى تتمكن من المرور
00:02:32عبر النموذج. وإذا نظرت إلى النماذج القياسية، فإن مشفرات الرؤية الخاصة بها ضخمة. على سبيل المثال،
00:02:38هذا النموذج يحتوي على 550 مليون بارامتر. ذلك لأن المشفّر التقليدي يحتاج إلى الكثير من البيانات لإعادة تشكيل،
00:02:45رسم خرائط، وفهم الصورة. لديه عشرات طبقات الانتباه الداخلية التي تحسب العلاقات
00:02:50بين البكسلات، محاولاً معرفة أين تقع الحواف، ما هي الأشكال، وما قد تكون عليه الأشياء
00:02:57قبل أن يسلمها إلى النموذج النصي. لكن ديب مايند قلصته عن طريق حذف كل ذلك التفكير الثقيل
00:03:04تماما. لقد أدركوا أن العمود الفقري للغة هو ذكي بشكل لا يصدق بالفعل ولديه وفرة
00:03:10من الطبقات للقيام بالاستدلال البصري الفعلي. لذا من خلال إزالة كل تلك الطبقات المفكرة، تُركوا مع
00:03:1735 مليون بارامتر فقط، وهذا حرفياً هو العدد الفيزيائي الخام لأوزان الاتصال المطلوبة
00:03:24لتعيين شبكات البكسل تلك في تنسيق نصي. لذا فهي خريطة ساكنة ذات طبقة واحدة تعمل مع كل صورة.
00:03:30ولأنها لا تقوم بأي تفكير داخلي، فهي لا تستهلك أي قوة معالجة تقريباً، مما يوفر ذاكرة الفيديو
00:03:37ويسمح للنموذج اللغوي الكبير بالتعامل مع الذكاء الفعلي بشكل أصلي. ولفهم كيف تعمل تلك الخطوة الواحدة،
00:03:44عليك أن تنظر إلى ما يحدث بالفعل داخل العمود الفقري للنموذج اللغوي. كل نموذج لغوي لديه
00:03:50قاعدة تنسيق داخلية تسمى البعد الخفي (Hidden Dimension). فكر في الأمر كحجم صينية موحد. سواء كانت
00:03:56كلمة “تفاحة” أو قطعة من التعليمات البرمجية أو علامة ترقيم، كل شيء يتم تغذيته في النموذج اللغوي يجب تحويله
00:04:04إلى هذه القائمة الضخمة المحددة من الأرقام لأنه يجب أن تتطابق مع أبعاد المصفوفات. وهذا الخام
00:04:11مربع 48 في 48 بكسل هو مجرد شبكة من 2304 أرقام لونية فردية. إذا حاولت تغذية تلك القطعة الخام
00:04:19مباشرة إلى النموذج اللغوي، سيرفضها النموذج لأن الأبعاد لا تتطابق فعلياً. وهذا هو
00:04:26بالضبط سبب وجود طبقة التعيين تلك ذات الـ 35 مليون بارامتر. إنها حرفياً شبكة ضخمة واحدة من
00:04:33أوزان الاتصال التي تضرب تلك القيم البالغة 2304 بكسل وتمددها في صف واحد
00:04:40يطابق تماماً تنسيق رموز النص للنموذج اللغوي الكبير. هو لا يقوم بأي تفكير تحليلي، بل يعمل فقط كمحول
00:04:48تنسيق حتى تتمكن البيانات من الانزلاق مباشرة إلى المحول الرئيسي حيث يحدث الاستدلال البصري الفعلي
00:04:54بشكل أصلي. والنموذج يقوم بشيء مشابه للاستدلال الصوتي أيضاً، ولكن بالنسبة للصوت الأمر أبسط.
00:05:01لذا الطريقة التي تمكنوا بها من التخلص من مشفر الصوت هي أخذ إشارة صوتية خام بتردد 16 كيلوهيرتز
00:05:07وتقطيعها إلى إطارات متصلة مدتها 40 مللي ثانية. كل إطار صغير يحتوي على 640 رقماً بالضبط
00:05:15بفاصلة عائمة تصف الموجة الصوتية. يأخذ النموذج تلك الأرقام الـ 640 ويمررها عبر
00:05:21طبقة إسقاط بسيطة مماثلة تقوم بتعيينها مباشرة إلى مساحة إدخال النموذج اللغوي. بالنسبة للعمود الفقري
00:05:28للمحول، كتلة صوتية مدتها 40 مللي ثانية تبدو مطابقة لتيار مستمر من الرموز النصية. ولأن الصوت
00:05:35هو بالفعل تسلسل زمني، تماماً مثل جملة في تسلسل من الكلمات، فإن النموذج اللغوي الكبير يعامل الصوت
00:05:42تماما مثل النص. لذا هذا التكامل الأصلي العميق يسمح للنموذج بـ 12 مليار بارامتر بالتعامل مع النسخ المباشر،
00:05:49الترجمة، وتنسيق النص في تمريرة واحدة دون إجبارك على تحميل شبكات كلام
00:05:56منفصلة في ذاكرتك. لذا هذا التكتيك الذكي هو فوز كبير لتشغيل النماذج محلياً على جهازك
00:06:02الخاص. من خلال تجريد كل تعقيدات المشفّر، تمكنت ديب مايند من حزم قوة استدلال
00:06:08مذهلة في مساحة صغيرة. وبالنظر إلى المعيار، فإنه يقترب من أداء نماذجهم الضخمة بـ 26
00:06:15مليار بارامتر، لكنه يناسب بسهولة حاسوباً محمولاً قياسياً بـ 16 جيجابايت من ذاكرة الفيديو
00:06:21أو أكثر. بالإضافة إلى ذلك، قامت جوجل بتضمين مسودات تنبؤ متعددة الرموز أصلية مباشرة، مما يعني أنه يتنبأ
00:06:28برموز متعددة في وقت واحد لسرعات استنتاج محلية سريعة دون إجبارك على ضغط النموذج.
00:06:34لذا كل ذلك يبدو مثيراً للإعجاب. والآن دعونا نختبره ونرى كيف يعمل على حاسوب M2 MacBook Pro الخاص بي.
00:06:41وبعض الأشخاص في فيديو OMLX السابق لي كانوا يسألون كم تمتلك فعلياً من ذاكرة الفيديو على
00:06:48جهازي؟ للإجابة على هذا السؤال، لدي 24 جيجابايت من ذاكرة الفيديو. لذا هذا ما نعمل به
00:06:53اليوم. يجب أن أقول أيضاً أن تطبيق معرض الحافة هذا مليء بالأخطاء. على سبيل المثال، إذا حاولت إضافة
00:07:01صورة وسألت، “من فضلك حلل هذه الصورة”، سيفشل فوراً ويعطيني هذا الخطأ العشوائي. وهذا
00:07:13على أحدث إصدار. لذا للأسف لم نتمكن من اختبار مشفر الرؤية باستخدام تطبيق الذكاء الاصطناعي الرسمي
00:07:20للحافة، ولكن هناك طريقة أخرى يمكننا من خلالها اختباره فعلياً. حسناً، بما أنني لم أستطع
00:07:26اختبار معالجة الصور بشكل موثوق مع نموذج جيما 4 بـ 12 مليار بارامتر على معرض الذكاء الاصطناعي للحافة
00:07:34الخاص بجوجل، قررت اختباره على OMLX. وقد قمت أيضاً بعمل فيديو عن OMLX. إنه إطار عمل
00:07:42مذهل لتشغيل نماذج الذكاء الاصطناعي محلياً، وتحديداً على معالجات أبل. وكما ترون هنا، قمت
00:07:47بتنزيل النسخة المكممة بـ 8 بت لهذا النموذج. والآن سأذهب إلى قسم الدردشة
00:07:54ولنرى مدى سرعته في إجراء الاستدلال على الصور في الوقت الفعلي. هنا لدي مجلد اختبار
00:08:01بصورتين. إحداهما هي مجرد لقطة شاشة لمغادرات المطار. لذا سنستخدم هذه الصورة
00:08:09ونسأل “ما الذي تراه في هذه الصورة؟” وأريدك أن تنتبه إلى أنني لا أسرع هذا الفيديو.
00:08:18هذا كله في الوقت الفعلي. أريدك أن تنتبه لمدى سرعته في إجراء الاستدلال
00:08:24على مثل هذه الصورة. إنه يبدأ هنا، يقوم بتحميل النموذج، التوليد، وبوم، انظر إلى ذلك.
00:08:33انظر إلى مدى سرعته في تحليل هذه الصورة واستخراج معلومات قيمة منها.
00:08:41في المرة الأولى التي رأيت فيها هذا على OMLX، كنت مندهشاً حقاً من سرعته. إنه أمر جنوني تماماً.
00:08:50لذا يجب أن أقول إن هذا هو أفضل نموذج اختبرته محلياً لاستدلال الصور. وأريد أيضاً
00:08:57أن تنتبه إلى حقيقة أنني أقوم بتشغيل هذا النموذج دون اتصال بالإنترنت. ليس لدي شبكة Wi-Fi قيد التشغيل.
00:09:03لذا لنحاول تجربة أخرى. هذه مجرد صورة ضبابية لمسلسل “الفايكنج” تظهر بعض
00:09:10الشخصيات. لذا مرة أخرى، لنفتح هذه الصورة ونسأل نفس الشيء. “ما الذي تراه في هذه
00:09:21الصورة؟” إنه يولد.
00:09:27وبوم، انظر إلى ذلك.
00:09:30أعني، هذا جنوني. إنه سريع جداً. كنت متفاجئاً للغاية.
00:09:37لذا نعم، أنا بصراحة معجب جداً جداً بأداء معالجة الصور لهذا النموذج الجديد.
00:09:43إذن، ها قد حصلتم على ذلك يا رفاق. هذا هو نموذج جيما 4 بـ 12 مليار بارامتر الخالي من المشفّر باختصار.
00:09:50كنت محبطاً جداً لأنني لم أستطع اختباره بثقة في تطبيقهم الرسمي لمعرض الحافة
00:09:56للذكاء الاصطناعي. ولكن كما رأينا، هناك طرق أخرى بديلة وربما أفضل لتشغيله
00:10:01محلياً. لذلك أعتقد أن هذا نموذج جيد جداً وهو يغير تماماً مستقبل تشغيل
00:10:07نماذج الذكاء الاصطناعي المحلية. لقد أثبتت جوجل ديب مايند للتو أن عموداً فقرياً لغوياً واحداً ذكي بما يكفي
00:10:13للتعامل مع الرؤية والصوت أصلياً. لذا هذه التقنية الجديدة ستفتح على الأرجح أبواباً لتطوير
00:10:19نماذج استدلال متعددة الوسائط أكثر كفاءة يمكن تشغيلها بسهولة على أجهزة الحافة. إذاً ما رأيك
00:10:26في نموذج جيما الجديد؟ هل جربته؟ هل ستستخدمه؟ أخبرنا في قسم التعليقات في
00:10:32الأسفل. وأيها الرفاق، إذا أحببتم هذه الأنواع من التحليلات التقنية، يرجى إخباري بذلك عن طريق الضغط على زر
00:10:37الإعجاب تحت الفيديو. وأيضاً لا تنسوا الاشتراك في قناتنا. كان معكم أندريس
00:10:43من BetterStack وسأراكم في الفيديوهات القادمة.

Key Takeaway

تخلص نموذج جيما 4 ذو الـ 12 مليار بارامتر من مشفرات الرؤية والصوت الثقيلة، مما يتيح استدلالاً متعدد الوسائط فائق السرعة على أجهزة الحافة عبر استخدام طبقة إسقاط خطي واحدة تحول البيانات الخام مباشرة إلى تنسيق الرموز النصية للنموذج.

Highlights

  • يستخدم نموذج جيما 4 ذو الـ 12 مليار بارامتر بنية جديدة تتخلص تماماً من مشفّر الرؤية (Encoder) المنفصل.

  • تُقطع الصور المدخلة إلى مربعات بحجم 48 في 48 بكسل، وتمر عبر طبقة إسقاط خطي واحدة تحتوي على 35 مليون بارامتر فقط.

  • تستهلك عملية الإسقاط الخطي الحد الأدنى من قوة المعالجة، مما يوفر ذاكرة الفيديو (VRAM) ويسمح للنموذج اللغوي بالاستدلال البصري بشكل أصلي.

  • يُعالج الصوت عبر تقطيع الإشارة الخام بتردد 16 كيلوهيرتز إلى إطارات بمدة 40 مللي ثانية، وتعيينها مباشرة إلى مساحة إدخال النموذج.

  • أظهر النموذج سرعة عالية في تحليل الصور محلياً عند تجربته باستخدام إطار عمل OMLX على أجهزة أبل المعتمدة على شرائح M2 بذاكرة 24 جيجابايت.

  • يتضمن النموذج مسودات تنبؤ متعددة الرموز (Multi-token prediction) لتحسين سرعة الاستنتاج المحلي دون الحاجة لضغط النموذج.

Timeline

إلغاء مشفرات الوسائط المتعددة

  • تعتمد النماذج التقليدية على مشفرات رؤية وكلام منفصلة تستهلك طاقة معالجة وذاكرة كبيرة.
  • يتجاهل جيما 4 المشفّر التقليدي ويستبدله بعملية رياضية خفيفة.
  • يتم تحويل البكسلات الخام عبر خطوة إسقاط خطي واحدة لتناسب تنسيق النموذج اللغوي.

تتطلب النماذج متعددة الوسائط الشائعة مشفرات رؤية ضخمة تترجم البكسلات إلى لغة يفهمها النموذج، مما يستهلك موارد كبيرة. قدمت جوجل ديب مايند في جيما 4 بنية تلغي هذا الوسيط. بدلاً من شبكات الرؤية المعقدة، تُقطع الصور إلى مربعات 48 في 48 بكسل، وتُحول إلى مصفوفة بيانات تتطابق مع متطلبات النموذج اللغوي مباشرة.

كفاءة المعالجة وآلية العمل

  • تقلصت طبقة التعيين إلى 35 مليون بارامتر فقط بعد إزالة طبقات التفكير التحليلي.
  • يُعامل النموذج الصوت كمتتالية زمنية مماثلة للنص لتسهيل النسخ والترجمة المباشرة.
  • تسمح البنية الجديدة بتشغيل النموذج على حواسيب محمولة بذاكرة 16 جيجابايت فأكثر.

يعمل العمود الفقري للنموذج اللغوي كقاعدة أساسية للاستدلال البصري دون الحاجة لطبقات وسيطة تحاول فهم الأشكال أو الحواف مسبقاً. بالنسبة للصوت، تُقطع الموجات إلى إطارات زمنية قصيرة تُغذي النموذج مباشرة. هذه الطريقة تقلل من استهلاك ذاكرة الفيديو وتدعم ميزات مثل التنبؤ المتعدد الرموز لزيادة سرعة الاستجابة محلياً.

الاختبار العملي والأداء

  • أخفقت تطبيقات جوجل الرسمية في اختبار الصور، بينما نجح إطار عمل OMLX في التشغيل.
  • حقق النموذج أداءً سريعاً جداً في استخراج المعلومات من الصور دون اتصال بالإنترنت.
  • تغير هذه التقنية مستقبل تشغيل نماذج الذكاء الاصطناعي محلياً على أجهزة الحافة.

أظهر الاختبار على جهاز M2 MacBook Pro بذاكرة 24 جيجابايت سرعة ملحوظة في تحليل صور متنوعة، بما في ذلك لقطات الشاشة والصور الضبابية. يؤكد هذا الأداء أن النموذج قادر على تنفيذ مهام بصرية معقدة بكفاءة عالية خارج البيئات السحابية، مما يفتح آفاقاً جديدة لتطوير تطبيقات الذكاء الاصطناعي التي تعمل محلياً على الأجهزة الشخصية.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video