هل هذا هو أسرع نموذج ذكاء اصطناعي في العالم؟!! (Xiaomi MiMo V2.5 Pro UltraSpeed)

BBetter Stack
컴퓨터/소프트웨어게임/e스포츠가전제품/카메라

Transcript

00:00:00يا إلهي، “شاومي”، هل تعلمون أن شركة الهواتف الصينية، قد صنعت نموذج ذكاء اصطناعي للتو
00:00:05قد يكون الأسرع في العالم؟ يسمى “شاومي ميمو V2.5 ألترا سبيد” وهو مذهل حقاً
00:00:13في فيديو اليوم سنلقي نظرة على هذا النموذج، ونرى كيف يعمل، وقد تمكنت بالفعل
00:00:18من الحصول على وصول مبكر للنموذج، لذا سنختبره ببعض الأمثلة المثيرة للاهتمام
00:00:24لنرى مدى سرعته الحقيقية. سيكون الأمر ممتعاً للغاية، فلنبدأ
00:00:30قبل أن نلقي نظرة على ما تحت غطاء هذا النموذج، دعونا نرى ما هي الاختلافات الهائلة التي نتعامل
00:00:39معها هنا. ففي نماذج فرونتير مثل “جي بي تي 5.5” أو “كلود 4 أوبوس”، غالباً ما تعانون من
00:00:46تأخيرات هائلة في المعالجة، حيث تحققون نحو 50 أو 60 رمزاً في الثانية. هذا ليس سيئاً لكنه
00:00:54بطيء نوعاً ما. لكن نموذج “شاومي ميمو ألترا سبيد” الجديد يسجل أكثر من 1000 رمز في الثانية
00:01:00والأكثر جنوناً هو حقيقة أن هذا النموذج ضخم الحجم أيضاً. إنه نموذج خليط من الخبراء
00:01:07بقدرة 1 تريليون معامل. لذا قد تفكرون، حسناً ربما يستخدمون نوعاً ما من الأجهزة
00:01:13المخصصة المتقدمة لهذا. في الواقع ليس تماماً. تعاونت “شاومي” مع شريك أنظمتها
00:01:19“تايل آر تي” وحققوا ذلك باستخدام خادم قياسي واحد فقط بثماني
00:01:25وحدات معالجة رسوميات تجارية. إذا لم تكن تلك هي الإجابة، فالسؤال هو: كيف تجبر نموذجاً بقدرة تريليون
00:01:31معامل على إنتاج نص بسرعات الميكروثانية على أجهزة قياسية؟ حسناً، لقد توصلوا
00:01:39إلى شيء يسمونه التصميم المشترك للنظام النموذجي المتطرف. لقد هاجموا عنق زجاجة زمن الاستجابة
00:01:44من ثلاث زوايا مختلفة في آن واحد. أولاً، قاموا بتحسين نطاق الذاكرة الترددي. نقل تريليون
00:01:50معامل عبر ذاكرة وحدة معالجة الرسوميات أثناء مرحلة توليد النص يخلق ازدحامات مرورية هائلة. لإصلاح ذلك
00:01:57استخدمت “شاومي” تقنية التكميم “إم إكس إف بي 4”. ولكن لأن الضغط بـ 4 بت يمكنه عادةً أن يجعل الذكاء الاصطناعي
00:02:04أقل دقة، استخدموا التدريب الواعي بالتكميم أو “كيو إيه تي” وحافظوا على طبقات التوجيه الأساسية بدقة
00:02:12أعلى. هذا خفف من ضغط الذاكرة مع الحفاظ على ذكاء النموذج مطابقاً تقريباً
00:02:18للنسخة غير المضغوطة. ثانياً، غيروا في النهاية طريقة توقع النموذج للكلمات. فالتفكيك
00:02:25التكهني القياسي يعمل عن طريق جعل نموذج مسودة صغير يخمن بضع كلمات مسبقاً ثم يقوم النموذج الرئيسي
00:02:32الضخم بالتحقق من الحسابات. لكن “شاومي” فعلت شيئاً مختلفاً هنا بما يسمونه “دي-فلاش”. بدلاً من تخمين رمز
00:02:39واحد في كل مرة، فإنه يتوقع كتلة كاملة من الرموز المخفية دفعة واحدة في تمرير أمامي متوازٍ. ومن
00:02:46خلال الاختبار، اكتشفوا أنه عند استخدامه لمهام البرمجة، يحتفظ النموذج الرئيسي في الواقع بمتوسط
00:02:526.3 من كل ثمانية رموز يخمنها “دي-فلاش”. لذا فهو يسمح للنموذج بشكل أساسي بأخذ
00:02:58قفزات هائلة من ثمانية رموز في كل مرة بدلاً من اتخاذ خطوات صغيرة. وثالثاً، يستخدمون
00:03:04المحرك الخاص الذي يحل عنق زجاجة مزعجاً حقاً للأجهزة. فعندما تدفع ألف رمز في الثانية
00:03:11لا يمكن لوحدات معالجة الرسوميات القياسية مواكبة منطق التعليمات. عادةً، تطلق وحدة معالجة الرسوميات
00:03:17عملية حسابية، وتنهيها، وتمسح الذاكرة ثم تنتظر لإطلاق العملية التالية. وعلى الرغم من أن هذه
00:03:23التوقفات تدوم فقط لأجزاء من الميكروثانية، إلا أنها تقتل الزخم تماماً. لإصلاح ذلك، قامت “تايل آر تي” ببناء
00:03:30محرك مستمر يظل داخل وحدة معالجة الرسوميات ولا يغادرها أبداً. استخدموا حيلة تسمى تخصص الالتواء
00:03:37لتعيين أدوار دائمة لأجزاء مختلفة من الأجهزة. بينما يقوم قسم بنقل البيانات
00:03:42يقوم آخر بتنفيذ الحسابات، والثالث يتعامل مع الاتصالات في نفس الوقت تماماً. لذا فإن
00:03:48خط الأنابيب لا يتوقف عن الحركة أبداً. وهذا مثير للاهتمام لأنني قمت للتو بعمل فيديو عن “ديفيوشن
00:03:55جيما”، الذي هو أيضاً سريع جداً، لكنه يعالج نفس المشكلة بطريقة مختلفة جداً. لذا تحققوا
00:04:00من ذلك الفيديو إذا كنتم مهتمين. وهذه يا أصدقائي هي الطريقة التي تصل بها “شاومي” إلى سرعات 1000 رمز في الثانية
00:04:07زعماً. ولكن دعونا الآن نختبره فعلياً ونرى ما إذا كان هذا الوعد صامداً. بالنسبة لاختباري الأول
00:04:14قررت أن آخذ أحد أسئلة “ليت كود” الصعبة وأمررها للنموذج. وكان سريعاً بشكل مذهل.
00:04:20كم هو جنوني ذلك؟ بالإضافة إلى ذلك، كما نرى هنا، وصل إلى ذروة 3451 رمزاً في الثانية، وهو أمر جنوني تماماً.
00:04:29الآن، قد يكون هناك احتمال أن يكون سؤال “ليت كود” هذا جزءاً من بيانات تدريب النموذج.
00:04:34لذا بقدر ما يبدو هذا مثيراً للإعجاب، فربما ليس مقارنة عادلة. لذا دعونا ننتقل إلى شيء أكثر تعقيداً.
00:04:41بعد ذلك، طلبت منه بناء لوحة تحكم بسيطة لتمويل شخصي في ملف “إتش تي إم إل” واحد مع عدم وجود
00:04:48مكتبات خارجية ولا شيء فاخر جداً. وفي هذا الاختبار، يمكننا الآن رؤية مدى الجنون في
00:04:54كفاءته. كان يحقق متوسط نحو 700 رمز في الثانية لجزء التفكير ونحو 1000 رمز
00:05:02في الثانية لعمليات الإخراج. واستغرق النموذج 65 ثانية فقط لإكمال المهمة.
00:05:09وأعتقد أن النتيجة جيدة جداً. على الرغم من أن بعض الأزرار لا تعمل وبعض
00:05:14الإجراءات معطلة، لكن التصميم ككل جيد جداً. أعني، ليس سيئاً لمهمة استغرقت دقيقة واحدة.
00:05:21لذا قررت تحدي النموذج لبناء شيء أكثر تعقيداً. طلبت منه
00:05:26بناء صفحة ويب لشرح الرياضيات بأسلوب “خان أكاديمي” تعرض 10 مفاهيم رياضية شائعة لمعرفة مدى
00:05:34تعقيد موقع الويب الذي يمكننا إنتاجه هنا. وهنا بدأت الأمور تصبح صعبة بعض الشيء.
00:05:40جربت هذا الاختبار مرتين وفي كلتا المرتين بعد حوالي دقيقتين أو ثلاث دقائق، توقف النموذج عن
00:05:45التوليد وتجمد تماماً. لذا افترضت أنه مع هذه المهمة، وصلت إلى حد سياق النموذج أو
00:05:51ربما وضعت “شاومي” محدد معدل من نوع ما. لذا قررت تبسيط المهمة قليلاً بطلب
00:05:58تصميم صفحة ويب بخمسة مفاهيم رياضية فقط. وهذه المرة نجح الأمر أخيراً. تمكن من
00:06:04إنهاء المهمة في 75 ثانية. وكانت النتيجة جيدة جداً. والمفاهيم الرياضية الثلاثة الأولى
00:06:10تعمل بالفعل، لكن كل ما بعد تلك النقطة معطل، غير وظيفي أو فارغ.
00:06:17لذا لا أعرف ما حدث بالضبط هنا. ربما أسقط النموذج بعضاً من سياقه أثناء مرحلة التفكير
00:06:23ومع ذلك، أعتقد أن هذه نتيجة جيدة جداً، خاصة عند الأخذ في الاعتبار أننا
00:06:29كنا نحقق متوسط 500 رمز في الثانية أثناء مرحلة التفكير. وبالنسبة لاختباري الأخير، قررت
00:06:34القيام بشيء أكثر متعة قليلاً. طلبت ببساطة هذه الجملة القصيرة جداً لبناء استنساخ لـ “سيرفرز صب واي”
00:06:41باستخدام “ثري جي إس”، وتمكن بالفعل من بناء استنساخ وظيفي بالكامل لـ “سيرفرز صب واي” في 50
00:06:49ثانية. هذا جنوني. يجب أن أقول إنه على الرغم من أنه وظيفي، كما ترون هنا، فهو
00:06:55لا يتضمن أي عوائق أو عملات معدنية أو أي شيء من هذا القبيل. لذا فهو ممل نوعاً ما. ثم قررت
00:07:01تقديم طلب متابعة لإصلاح هذه المشكلات الطفيفة. وبعد تمريرتين، تمكن بنجاح
00:07:07من إضافة بعض العملات المعدنية وبعض العوائق. وبصراحة، عندما كنت أختبره، كان هذا عرضاً توضيحياً لا تشوبه شائبة.
00:07:14كانت الوظيفة موجودة. كل شيء كان يعمل. حتى أنه كان يحفظ نتيجتي العالية بعد كل جولة.
00:07:20لذا هذا العرض التوضيحي الخاص فاجأني بطريقة إيجابية جداً. أنا متأكد من أنه في الوقت الحاضر يمكننا جميعاً
00:07:26بناء استنساخ لـ “سيرفرز صب واي” باستخدام نماذج أخرى أيضاً. لكن حقيقة أنني استطعت الحصول على نموذج وظيفي
00:07:32ليس سيئاً تماماً وممتعاً في اللعب وكل ذلك في 50 ثانية فقط مع
00:07:39بعض طلبات المتابعة، هو أمر مثير للإعجاب جداً. لذا كما رأينا جميعاً في الاختبارات، تمكن النموذج من
00:07:45الوصول إلى سرعة قياسية تزيد عن 3000 رمز في الثانية. لذا فهذا بالفعل هو أسرع نموذج
00:07:52رأيته على الإطلاق. وفيما يتعلق بالمخرجات، أعني، نعم بالتأكيد. بعضها معطل. بعضها
00:07:58نصف مطبوخ. بالتأكيد هذا ليس “كلود أوبوس” أو “جي بي تي 5.5”. لكنني متأكد من أن نماذج “شاومي” ستستمر بالتأكيد في
00:08:06التحسن بمرور الوقت. لذا سيكون من المثير جداً للاهتمام رؤية ما سيأتون به في المستقبل.
00:08:12إذن ها قد حصلتم عليها يا رفاق. هذا هو “شاومي ميمو V2.5 ألترا سبيد” باختصار. فما رأيكم
00:08:18في هذا النموذج؟ هل أنتم معجبون؟ محبطون؟ غير مبالين؟ أخبرونا في قسم التعليقات أدناه.
00:08:24ويا رفاق، إذا أحببتم هذه الأنواع من التحليلات التقنية، يرجى إخباري بذلك عن طريق ضغط
00:08:29زر الإعجاب أسفل الفيديو. ولا تنسوا أيضاً الاشتراك في قناتنا.
00:08:33كان معكم أندروس من “بيتر ستاك”، وسأراكم في الفيديوهات القادمة.

Key Takeaway

يستخدم نموذج شاومي ميمو V2.5 ألترا سبيد تصميمًا مشتَرَكًا للنظام يجمع بين التكميم الذكي ومحرك استدلال مستمر داخل الذاكرة لتحقيق سرعات تتجاوز 1000 رمز في الثانية على خادم قياسي بثماني وحدات رسومية.

Highlights

  • نموذج شاومي ميمو V2.5 ألترا سبيد يسجل سرعة معالجة تزيد عن 1000 رمز في الثانية.

  • يعتمد النموذج على هيكلية خليط من الخبراء (MoE) بقدرة 1 تريليون معامل.

  • استخدم المطورون تقنية التكميم MXFP4 مع التدريب الواعي بالتكميم (QAT) للحفاظ على دقة النموذج.

  • تساهم تقنية التوقع المتوازي للرموز (D-Flash) في تحقيق قفزات تصل إلى 8 رموز في التمريرة الواحدة.

  • يعمل محرك الاستدلال المستمر داخل وحدة معالجة الرسوميات دون مغادرتها، مما يلغي فترات التوقف بين العمليات الحسابية.

  • حقق النموذج ذروة أداء بلغت 3451 رمزاً في الثانية خلال اختبارات البرمجة المعقدة.

  • أظهر النموذج قدرة على بناء نسخة وظيفية من لعبة (Subway Surfers) في 50 ثانية عبر مكتبة Three.js.

Timeline

مواصفات وتقنيات الأداء

  • يتجاوز النموذج سرعة 1000 رمز في الثانية وهو أكبر بكثير من نماذج فرونتير الحالية.
  • تم تشغيل نموذج تريليون معامل على خادم قياسي يحتوي على ثماني وحدات معالجة رسومية تجارية.
  • يعالج التصميم المشترك للنظام عنق زجاجة زمن الاستجابة عبر ثلاث تقنيات أساسية.
  • يضمن محرك الاستدلال المستمر عدم توقف خط الأنابيب عن الحركة داخل وحدة معالجة الرسوميات.

يركز التصميم على تحسين نطاق الذاكرة الترددي عبر تقنية MXFP4 للحفاظ على الدقة، واستبدال التفكيك التكهني التقليدي بتقنية D-Flash التي تتوقع كتلًا من الرموز دفعة واحدة. هذه الحلول تمنع ازدحامات نقل البيانات وتسمح للنموذج بأخذ قفزات كبيرة في التوليد. إضافة إلى ذلك، يلغي المحرك المستمر التوقفات الميكروثانية الناتجة عن إطلاق وإنهاء العمليات الحسابية المتكررة.

اختبارات الأداء العملي

  • سجل النموذج ذروة بلغت 3451 رمزاً في الثانية في مهام البرمجة الصعبة.
  • نجح النموذج في بناء لوحة تحكم تمويل شخصي في 65 ثانية رغم وجود بعض الأخطاء الوظيفية.
  • تطلب تنفيذ صفحة ويب لتبسيط الرياضيات تعديل عدد المفاهيم المطلوبة للنجاح في المهمة.
  • بنى النموذج استنساخاً وظيفياً للعبة Subway Surfers في 50 ثانية مع إمكانية تحسينه بطلبات إضافية.

خضع النموذج لاختبارات متنوعة تبدأ من أسئلة البرمجة الصعبة وصولاً إلى بناء تطبيقات ويب. أظهر النموذج سرعة فائقة في البرمجة رغم بعض التحديات في المهام المعقدة التي تتطلب سياقاً طويلاً، حيث توقف عند طلبات التصميم الكبيرة جداً. في اختبارات الألعاب، أثبت القدرة على تقديم نتائج وظيفية سريعة قابلة للتطوير، مما يجعله أداة واعدة رغم كونه أقل دقة من النماذج الرائدة حالياً.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video