جوجل تحل للتو أكبر مشكلة في الذكاء الاصطناعي متعدد الوسائط (Gemma 4 12B)
BBetter Stack
컴퓨터/소프트웨어가전제품/카메라
Transcript
00:00:00كشفت جوجل للتو عن أحدث نماذجها “جيما 4” بـ 12 مليار بارامتر، وهذا تغيير جذري في قواعد اللعبة.
00:00:06لا، بجدية، هذا ليس مجرد عنوان جذاب. هذا النموذج هو في الواقع تغيير جذري في طريقة بنائه.
00:00:13الشيء الذي يميز هذا النموذج عن غيره من نماذج الذكاء الاصطناعي هو حقيقة أنه
00:00:18خالٍ تماماً من المشفّر (Encoder). الآن، ماذا يعني ذلك وكيف يعمل ولماذا يعتبر هذا الأمر مهماً جداً؟
00:00:24حسناً، هذه كلها أسئلة جيدة سنستكشفها في فيديو اليوم. سيكون الأمر ممتعاً
00:00:29كثيراً، لذا دعونا نتعمق في الموضوع. نموذج جيما 4 بـ 12 مليار بارامتر يمتلك بنية جديدة
00:00:39تكسر تماماً القواعد التي تعمل بها جميع النماذج متعددة الوسائط الأخرى. نموذج متعدد الوسائط. يا إلهي
00:00:46هذا تعبير يصعب نطقه. لفهم لماذا يعتبر هذا أمراً مهماً، يجب علينا
00:00:51أن ننظر إلى كيفية تعامل كل النماذج متعددة الوسائط الأخرى مع الأمور حالياً. النماذج اللغوية مصممة لقراءة
00:00:57الرموز، وهي أساساً أجزاء من النص تحولت إلى أرقام. هي لا تعرف بشكل طبيعي ما هي البكسلات أو
00:01:05كيف تبدو الموجات الصوتية. لذا عادة نقوم بربط نماذج مختلفة ببعضها. إذا أعطيت الذكاء الاصطناعي صورة، فإن
00:01:11مشفّر رؤية ضخم يعترضها أولاً. هو يقضي الكثير من قوة المعالجة في ترجمة تلك البكسلات الخام إلى
00:01:19لغة يمكن للنموذج اللغوي الكبير فهمها. وينطبق الشيء نفسه على الصوت. مشفّر كلام منفصل يجب عليه
00:01:25ترجمة الموجات الصوتية أولاً. بحلول الوقت الذي يحصل فيه عقل الذكاء الاصطناعي الفعلي على البيانات، تكون قد قمت بتشغيل ثلاث
00:01:32شبكات منفصلة في نفس الوقت. على حاسوب محمول عادي، هذا يستهلك ذاكرة الفيديو (VRAM) بالكامل ويبطئ
00:01:38كل شيء. لكن جوجل ديب مايند نظرت إلى هذه المشكلة وفكرت، ماذا لو استطعنا التخلص من
00:01:44الوسيط؟ لذا في نموذج جيما 4 بـ 12 مليار بارامتر، قاموا بحذف مشفّر الرؤية الثقيل تماماً. بدلاً من ذلك،
00:01:51عندما تغذيه بصورة، يقوم النموذج بتقطيعها إلى قطع صغيرة بحجم 48 في 48 بكسل. وبدلاً من تمرير
00:01:58تلك القطع عبر عشرات الطبقات من شبكة رؤية منفصلة، تمر البكسلات الخام عبر خطوة رياضية واحدة
00:02:04خفيفة تسمى الإسقاط الخطي (Linear Projection). وهذا الإسقاط الخطي هو مجرد شبكة ضخمة من الأرقام
00:02:11تأخذ 2304 قيمة بكسل، لأن ذلك يتوافق مع مربع 48 في 48 بكسل، وتضربهم في
00:02:19خطوة واحدة، وتمددهم في صف واحد يطابق تماماً تنسيق رموز النص الخاص بالنموذج اللغوي الكبير.
00:02:26لذا هو لا يحلل فقط ما في الصورة بعد، هو فقط يعيد تنسيق البيانات الخام حتى تتمكن من المرور
00:02:32عبر النموذج. وإذا نظرت إلى النماذج القياسية، فإن مشفرات الرؤية الخاصة بها ضخمة. على سبيل المثال،
00:02:38هذا النموذج يحتوي على 550 مليون بارامتر. ذلك لأن المشفّر التقليدي يحتاج إلى الكثير من البيانات لإعادة تشكيل،
00:02:45رسم خرائط، وفهم الصورة. لديه عشرات طبقات الانتباه الداخلية التي تحسب العلاقات
00:02:50بين البكسلات، محاولاً معرفة أين تقع الحواف، ما هي الأشكال، وما قد تكون عليه الأشياء
00:02:57قبل أن يسلمها إلى النموذج النصي. لكن ديب مايند قلصته عن طريق حذف كل ذلك التفكير الثقيل
00:03:04تماما. لقد أدركوا أن العمود الفقري للغة هو ذكي بشكل لا يصدق بالفعل ولديه وفرة
00:03:10من الطبقات للقيام بالاستدلال البصري الفعلي. لذا من خلال إزالة كل تلك الطبقات المفكرة، تُركوا مع
00:03:1735 مليون بارامتر فقط، وهذا حرفياً هو العدد الفيزيائي الخام لأوزان الاتصال المطلوبة
00:03:24لتعيين شبكات البكسل تلك في تنسيق نصي. لذا فهي خريطة ساكنة ذات طبقة واحدة تعمل مع كل صورة.
00:03:30ولأنها لا تقوم بأي تفكير داخلي، فهي لا تستهلك أي قوة معالجة تقريباً، مما يوفر ذاكرة الفيديو
00:03:37ويسمح للنموذج اللغوي الكبير بالتعامل مع الذكاء الفعلي بشكل أصلي. ولفهم كيف تعمل تلك الخطوة الواحدة،
00:03:44عليك أن تنظر إلى ما يحدث بالفعل داخل العمود الفقري للنموذج اللغوي. كل نموذج لغوي لديه
00:03:50قاعدة تنسيق داخلية تسمى البعد الخفي (Hidden Dimension). فكر في الأمر كحجم صينية موحد. سواء كانت
00:03:56كلمة “تفاحة” أو قطعة من التعليمات البرمجية أو علامة ترقيم، كل شيء يتم تغذيته في النموذج اللغوي يجب تحويله
00:04:04إلى هذه القائمة الضخمة المحددة من الأرقام لأنه يجب أن تتطابق مع أبعاد المصفوفات. وهذا الخام
00:04:11مربع 48 في 48 بكسل هو مجرد شبكة من 2304 أرقام لونية فردية. إذا حاولت تغذية تلك القطعة الخام
00:04:19مباشرة إلى النموذج اللغوي، سيرفضها النموذج لأن الأبعاد لا تتطابق فعلياً. وهذا هو
00:04:26بالضبط سبب وجود طبقة التعيين تلك ذات الـ 35 مليون بارامتر. إنها حرفياً شبكة ضخمة واحدة من
00:04:33أوزان الاتصال التي تضرب تلك القيم البالغة 2304 بكسل وتمددها في صف واحد
00:04:40يطابق تماماً تنسيق رموز النص للنموذج اللغوي الكبير. هو لا يقوم بأي تفكير تحليلي، بل يعمل فقط كمحول
00:04:48تنسيق حتى تتمكن البيانات من الانزلاق مباشرة إلى المحول الرئيسي حيث يحدث الاستدلال البصري الفعلي
00:04:54بشكل أصلي. والنموذج يقوم بشيء مشابه للاستدلال الصوتي أيضاً، ولكن بالنسبة للصوت الأمر أبسط.
00:05:01لذا الطريقة التي تمكنوا بها من التخلص من مشفر الصوت هي أخذ إشارة صوتية خام بتردد 16 كيلوهيرتز
00:05:07وتقطيعها إلى إطارات متصلة مدتها 40 مللي ثانية. كل إطار صغير يحتوي على 640 رقماً بالضبط
00:05:15بفاصلة عائمة تصف الموجة الصوتية. يأخذ النموذج تلك الأرقام الـ 640 ويمررها عبر
00:05:21طبقة إسقاط بسيطة مماثلة تقوم بتعيينها مباشرة إلى مساحة إدخال النموذج اللغوي. بالنسبة للعمود الفقري
00:05:28للمحول، كتلة صوتية مدتها 40 مللي ثانية تبدو مطابقة لتيار مستمر من الرموز النصية. ولأن الصوت
00:05:35هو بالفعل تسلسل زمني، تماماً مثل جملة في تسلسل من الكلمات، فإن النموذج اللغوي الكبير يعامل الصوت
00:05:42تماما مثل النص. لذا هذا التكامل الأصلي العميق يسمح للنموذج بـ 12 مليار بارامتر بالتعامل مع النسخ المباشر،
00:05:49الترجمة، وتنسيق النص في تمريرة واحدة دون إجبارك على تحميل شبكات كلام
00:05:56منفصلة في ذاكرتك. لذا هذا التكتيك الذكي هو فوز كبير لتشغيل النماذج محلياً على جهازك
00:06:02الخاص. من خلال تجريد كل تعقيدات المشفّر، تمكنت ديب مايند من حزم قوة استدلال
00:06:08مذهلة في مساحة صغيرة. وبالنظر إلى المعيار، فإنه يقترب من أداء نماذجهم الضخمة بـ 26
00:06:15مليار بارامتر، لكنه يناسب بسهولة حاسوباً محمولاً قياسياً بـ 16 جيجابايت من ذاكرة الفيديو
00:06:21أو أكثر. بالإضافة إلى ذلك، قامت جوجل بتضمين مسودات تنبؤ متعددة الرموز أصلية مباشرة، مما يعني أنه يتنبأ
00:06:28برموز متعددة في وقت واحد لسرعات استنتاج محلية سريعة دون إجبارك على ضغط النموذج.
00:06:34لذا كل ذلك يبدو مثيراً للإعجاب. والآن دعونا نختبره ونرى كيف يعمل على حاسوب M2 MacBook Pro الخاص بي.
00:06:41وبعض الأشخاص في فيديو OMLX السابق لي كانوا يسألون كم تمتلك فعلياً من ذاكرة الفيديو على
00:06:48جهازي؟ للإجابة على هذا السؤال، لدي 24 جيجابايت من ذاكرة الفيديو. لذا هذا ما نعمل به
00:06:53اليوم. يجب أن أقول أيضاً أن تطبيق معرض الحافة هذا مليء بالأخطاء. على سبيل المثال، إذا حاولت إضافة
00:07:01صورة وسألت، “من فضلك حلل هذه الصورة”، سيفشل فوراً ويعطيني هذا الخطأ العشوائي. وهذا
00:07:13على أحدث إصدار. لذا للأسف لم نتمكن من اختبار مشفر الرؤية باستخدام تطبيق الذكاء الاصطناعي الرسمي
00:07:20للحافة، ولكن هناك طريقة أخرى يمكننا من خلالها اختباره فعلياً. حسناً، بما أنني لم أستطع
00:07:26اختبار معالجة الصور بشكل موثوق مع نموذج جيما 4 بـ 12 مليار بارامتر على معرض الذكاء الاصطناعي للحافة
00:07:34الخاص بجوجل، قررت اختباره على OMLX. وقد قمت أيضاً بعمل فيديو عن OMLX. إنه إطار عمل
00:07:42مذهل لتشغيل نماذج الذكاء الاصطناعي محلياً، وتحديداً على معالجات أبل. وكما ترون هنا، قمت
00:07:47بتنزيل النسخة المكممة بـ 8 بت لهذا النموذج. والآن سأذهب إلى قسم الدردشة
00:07:54ولنرى مدى سرعته في إجراء الاستدلال على الصور في الوقت الفعلي. هنا لدي مجلد اختبار
00:08:01بصورتين. إحداهما هي مجرد لقطة شاشة لمغادرات المطار. لذا سنستخدم هذه الصورة
00:08:09ونسأل “ما الذي تراه في هذه الصورة؟” وأريدك أن تنتبه إلى أنني لا أسرع هذا الفيديو.
00:08:18هذا كله في الوقت الفعلي. أريدك أن تنتبه لمدى سرعته في إجراء الاستدلال
00:08:24على مثل هذه الصورة. إنه يبدأ هنا، يقوم بتحميل النموذج، التوليد، وبوم، انظر إلى ذلك.
00:08:33انظر إلى مدى سرعته في تحليل هذه الصورة واستخراج معلومات قيمة منها.
00:08:41في المرة الأولى التي رأيت فيها هذا على OMLX، كنت مندهشاً حقاً من سرعته. إنه أمر جنوني تماماً.
00:08:50لذا يجب أن أقول إن هذا هو أفضل نموذج اختبرته محلياً لاستدلال الصور. وأريد أيضاً
00:08:57أن تنتبه إلى حقيقة أنني أقوم بتشغيل هذا النموذج دون اتصال بالإنترنت. ليس لدي شبكة Wi-Fi قيد التشغيل.
00:09:03لذا لنحاول تجربة أخرى. هذه مجرد صورة ضبابية لمسلسل “الفايكنج” تظهر بعض
00:09:10الشخصيات. لذا مرة أخرى، لنفتح هذه الصورة ونسأل نفس الشيء. “ما الذي تراه في هذه
00:09:21الصورة؟” إنه يولد.
00:09:27وبوم، انظر إلى ذلك.
00:09:30أعني، هذا جنوني. إنه سريع جداً. كنت متفاجئاً للغاية.
00:09:37لذا نعم، أنا بصراحة معجب جداً جداً بأداء معالجة الصور لهذا النموذج الجديد.
00:09:43إذن، ها قد حصلتم على ذلك يا رفاق. هذا هو نموذج جيما 4 بـ 12 مليار بارامتر الخالي من المشفّر باختصار.
00:09:50كنت محبطاً جداً لأنني لم أستطع اختباره بثقة في تطبيقهم الرسمي لمعرض الحافة
00:09:56للذكاء الاصطناعي. ولكن كما رأينا، هناك طرق أخرى بديلة وربما أفضل لتشغيله
00:10:01محلياً. لذلك أعتقد أن هذا نموذج جيد جداً وهو يغير تماماً مستقبل تشغيل
00:10:07نماذج الذكاء الاصطناعي المحلية. لقد أثبتت جوجل ديب مايند للتو أن عموداً فقرياً لغوياً واحداً ذكي بما يكفي
00:10:13للتعامل مع الرؤية والصوت أصلياً. لذا هذه التقنية الجديدة ستفتح على الأرجح أبواباً لتطوير
00:10:19نماذج استدلال متعددة الوسائط أكثر كفاءة يمكن تشغيلها بسهولة على أجهزة الحافة. إذاً ما رأيك
00:10:26في نموذج جيما الجديد؟ هل جربته؟ هل ستستخدمه؟ أخبرنا في قسم التعليقات في
00:10:32الأسفل. وأيها الرفاق، إذا أحببتم هذه الأنواع من التحليلات التقنية، يرجى إخباري بذلك عن طريق الضغط على زر
00:10:37الإعجاب تحت الفيديو. وأيضاً لا تنسوا الاشتراك في قناتنا. كان معكم أندريس
00:10:43من BetterStack وسأراكم في الفيديوهات القادمة.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video