00:00:00في الأسبوع الماضي، كشفت جوجل عن Genie 3، نموذجها الرائد للعوالم اللانهائية، حيث يمكنك
00:00:05محاكاة بيئة والتفاعل معها كما لو كنت في لعبة فيديو حقيقية.
00:00:10وفجأة، تراجعت أسهم شركات ألعاب الفيديو بشكل حاد خوفاً من أن تكون هذه
00:00:16بداية النهاية لصناعة ألعاب الفيديو.
00:00:20ثم حدث شيء أكثر إثارة للاهتمام.
00:00:22أصدرت شركة تقنية صينية تدعى Robiant منافسها الخاص مفتوح المصدر لنموذج Genie، والذي
00:00:28يبدو أنه يتمتع برسومات أفضل حتى من نظيره في جوجل.
00:00:32والآن انفتحت الأبواب على مصراعيها للسباق لتحديد أي شركة
00:00:37ستكون الأولى في استبدال ألعاب الفيديو التقليدية بهذه التكنولوجيا الجديدة.
00:00:43ولكن بينما يروج الجميع لهذه الصرعة الجديدة لنماذج العوالم اللانهائية، أنا هنا لأقول لكم إن
00:00:49هذا قد يكون مجرد وعود مبالغ فيها دون أي جوهر حقيقي.
00:00:54ما الذي يجعلني واثقاً جداً من ذلك؟
00:00:55حسناً، هذا ما سنتحدث عنه في فيديو اليوم.
00:01:02بمجرد صدور Genie 3، هرعت إلى الموقع لتجربته بنفسي.
00:01:07ولكن بمجرد النقر على زر الاستكشاف، واجهت رسالة خطأ 404 مخيبة للآمال.
00:01:14وذلك لأنني أعيش في كندا.
00:01:16وفي الوقت الحالي، سمحت جوجل فقط لمواطني الولايات المتحدة بتجربة
00:01:20هذه المعجزة التكنولوجية المتطورة.
00:01:23لذا قمت بتشغيل الـ VPN الخاص بي وحاولت مرة أخرى من موقع داخل الولايات المتحدة.
00:01:27وهذه المرة واجهت رفضاً مخيباً آخر، يفيد بأنني يجب أن أكون
00:01:33عضواً في UltraPlan للوصول إلى هذا البرنامج الثوري.
00:01:37وإذا كنت تتساءل عن تكلفة UltraPlan، حسناً، دعنا نقول فقط إنها باهظة قليلاً
00:01:41مقارنة بما أنا مستعد لدفعه لمجرد تجربة أداة ذكاء اصطناعي مبالغ في تقديرها.
00:01:46لكن هذا يطرح سؤالاً: لماذا من الصعب جداً الحصول على Genie 3 في المقام الأول؟
00:01:51والإجابة على هذا السؤال ستكون مهمة جداً لقصتنا، لكنني سأعود إلى
00:01:56ذلك لاحقاً في هذا الفيديو.
00:01:57على الرغم من أنني لم يحالفني الحظ أو لم تتوفر لدي الأموال لتجربة Genie 3، ففي الوقت نفسه ولحسن الحظ،
00:02:04على الجانب الآخر من العالم، قامت شركة صينية تدعى Robiont، والتي تبدو
00:02:09تابعة لشركة Ant Group، التي هي بدورها شركة زميلة لمجموعة علي بابا، والتي
00:02:15تملك أيضاً شركة Quen، بإطلاق نموذج العالم اللانهائي الخاص بها
00:02:20باسم Lingbot World، وهو بشكل مفاجئ مفتوح المصدر.
00:02:25وهذا يعني أنه يمكننا فعلياً اختباره ومعرفة ما هو قادر عليه.
00:02:29وبالنظر إلى أمثلتهم، فقد بدا الأمر مذهلاً للغاية.
00:02:32ولكن بمجرد أن بدأت في تفحص صفحة المشروع، واجهت خيبة أمل كبيرة أخرى.
00:02:38على الرغم من أن صفحة المشروع مليئة بفيديوهات توضيحية حيث يمكنك التجول بحرية
00:02:43في المكان باستخدام مفاتيح الأسهم، إلا أن هذه النسخة من النموذج التي تتضمن
00:02:48تحكماً كاملاً في الشخصية لا تزال قيد التطوير.
00:02:51إنهم يخططون لإصدار Lingbot fast، والذي سيكون مكافئاً كاملاً لـ Genie 3، ولكن
00:02:56لا نعرف متى سيأتي ذلك بعد.
00:02:57في الوقت الحالي، لدينا وصول إلى نموذجهم الأساسي الذي يحتوي على 14 مليار بارامتر، والذي يقدم
00:03:03ما يسمونه “عمليات محاكاة عالية الدقة وقابلة للتحكم ومتسقة منطقياً”.
00:03:08ولكن بشكل أساسي، الشيء الوحيد الذي يستطيع هذا النموذج فعله حالياً هو إنشاء فيديو.
00:03:14نعم، مجرد فيديو.
00:03:16لذا كنت مرتبكاً نوعاً ما، أين يكمن عامل التحكم هنا؟
00:03:20حسناً، لديهم خيار تقديم قيم موضع الكاميرا الخاصة بك، بحيث يمكنك
00:03:25بمعنى ما التحكم في حركة الكاميرا، وهو ما أعتقد أنه يوفر بديلاً للتنقل
00:03:31باستخدام مفاتيح الأسهم، ولكن عليك تسجيل ذلك مسبقاً.
00:03:35كيف يختلف هذا عن أي مولد فيديو آخر يوفر أيضاً القدرة على التحكم
00:03:40في حركات الكاميرا؟
00:03:41حسناً، إليكم الفرق الجوهري.
00:03:44في مولد الفيديو التقليدي بالذكاء الاصطناعي، يحاول النموذج دائماً التنبؤ بالإطار التالي مع
00:03:50تقدم الفيديو المرجعي، وقد رأينا في العديد من فيديوهات الـ memes على الإنترنت كيف يخطئ
00:03:55هذا النظام بشكل فادح إذا استمر الفيديو طويلاً، وذلك لأن النموذج لا يحتفظ
00:04:00بالمعلومات عما يحدث خارج الإطار.
00:04:04فإذا تحركت الكاميرا بعيداً عن كائن ما ثم عادت إليه، فقد لا يكون الكائن موجوداً
00:04:09لأن المشهد بأكمله يتم إنشاؤه في الوقت الفعلي.
00:04:13هنا يأتي دور العقل الهندسي لنموذج Lingbot World بـ 14 مليار بارامتر.
00:04:19على عكس مولد الفيديو القياسي الذي يخمن ببساطة البكسلات التالية، يستخدم Lingbot World
00:04:24بيانات خصائص الكاميرا ووضعيات بـ 6 درجات من الحرية لمطابقة كل بكسل مع
00:04:31نقطة محددة في الفضاء ثلاثي الأبعاد.
00:04:33إنه يخلق ما يسميه الباحثون “ديمومة الكائن” لأنه يفهم العلاقة الرياضية
00:04:39بين عدسة الكاميرا والبيئة.
00:04:42لذا فهو يتذكر أساساً أن كائناً معيناً موجود في إحداثيات محددة.
00:04:47وهذه السلامة الهيكلية هي السبب في أن هذا النموذج ضخم جداً ويستهلك الكثير من الموارد.
00:04:52إلى أي مدى يستهلك؟
00:04:53يا له من أمر، دعوني أخبركم.
00:04:55حاولت تشغيل نموذج Lingbot World على جهاز يحتوي على وحدة معالجة رسومات RTX 1590 واحدة و
00:05:02حاولت تشغيل العرض التوضيحي البسيط الذي قدموه لكنه تعطل على الفور.
00:05:07لقد كان من السذاجة مني الاعتقاد بأن بطاقة 1590 واحدة ستكون قادرة على التعامل مع هذا العبء.
00:05:13ثم حاولت تشغيله ببطاقتي 1590، ولا، لا يزال يتعطل.
00:05:18ثم جربت بـ 4 بطاقات 1590، ومرة أخرى، لا يزال يتعطل.
00:05:23ثم قمت بتشغيل بيئة بـ 8 بطاقات RTX 1590 وحاولت تشغيل العرض التوضيحي الأساسي و
00:05:31لا يزال يتعطل.
00:05:32انظر، السبب هو أنه عند تشغيل نموذج العالم اللانهائي هذا لفترة طويلة،
00:05:38فإن كمية الذاكرة التي يجب أن يخزنها هذا النموذج عن المشاهد تزداد باستمرار
00:05:44إلى حد تصل فيه إلى خطأ “نفاذ الذاكرة” لأنك ببساطة استهلكت كل
00:05:49ذاكرة الوصول العشوائي (RAM).
00:05:50لكنني تمكنت من تشغيل العرض التوضيحي بنجاح على إعداد بـ 8 وحدات معالجة رسومات عن طريق خفض
00:05:55حجم العينات من القيمة الافتراضية 70 إلى 20 فقط.
00:05:59وبصراحة، الفرق بين 70 و 20 عينة لم يكن ملحوظاً جداً.
00:06:03لكن هذا يوضح مدى التكلفة الباهظة من حيث الموارد لتشغيل نموذج العالم اللانهائي
00:06:09هذا.
00:06:10وبالعودة إلى Genie 3، هذا هو بالضبط السبب في أنهم يسمحون بالوصول إليه لأعضاء Ultra
00:06:16فقط، لأنهم بحاجة إلى استرداد تكاليف وحدات معالجة الرسومات لتشغيل هذا الشيء.
00:06:21وهذا هو السبب أيضاً في أنك تحصل فقط على بضع ثوانٍ للعرض التوضيحي الواحد، لأنه في
00:06:27نقطة ما تتضخم الذاكرة لدرجة أن النظام بأكمله ينهار.
00:06:32ولأعطيكم فكرة عن مدى التكلفة الجنونية لتشغيل مثل هذا النموذج على أجهزة
00:06:37المستهلكين العادية، تبلغ تكلفة بطاقة RTX 1590 الواحدة حوالي 5000 دولار.
00:06:43الآن خذ 8 منها، وهو الحد الأدنى المطلوب لتشغيل هذا الشيء.
00:06:48يا رجل، حتى قول ذلك بصوت عالٍ يبدو سخيفاً.
00:06:51على أي حال، 8 منها ستكلفك ما يصل إلى 40,000 دولار، ناهيك عن الأجزاء الأخرى
00:06:57والرام التي تنفجر أسعارها أيضاً في الوقت الحالي.
00:07:01وعندما تأخذ ذلك في الاعتبار، فإن هذا الرقم، بالإضافة إلى الحد الأقصى لوقت التشغيل البالغ 60 ثانية الذي
00:07:06يفرضه Genie، بالإضافة إلى مشكلة تضخم ذاكرة الرام، هي بالضبط
00:07:12الأسباب التي تجعل موضوع العالم اللانهائي مجرد ضجة إعلامية وليس أمراً يمكن تحقيقه
00:07:18على أجهزة المستهلكين بالهندسة الحالية التي نمتلكها الآن.
00:07:24وحتى مؤلفو هاتين الأداتين يعترفون بهذه المشكلات.
00:07:28فتكلفة الاستنتاج العالية تتطلب حالياً وحدات معالجة رسومات مخصصة للمؤسسات، مما يجعل
00:07:34التكنولوجيا غير متاحة على أجهزة المستهلكين.
00:07:37كما تفتقر المحاكاة إلى الاستقرار على المدى الطويل.
00:07:39وهذا يؤدي غالباً إلى “الانجراف البيئي” حيث يفقد المشهد تدريجياً
00:07:44سلامته الهيكلية خلال الفترات الطويلة.
00:07:46بالضبط.
00:07:48وعلى الأقل فريق Lingbot صريح بشأن هذا الأمر.
00:07:51دعونا نرى ما تقوله جوجل عن ذلك.
00:07:53“يمكن للنموذج دعم بضع دقائق من التفاعل المستمر بدلاً من الساعات الممتدة”.
00:07:59أعني، إنهم لا يعترفون بذلك علانية، ولكن في هذه المرحلة كلنا نعرف السبب.
00:08:04لذلك أقول لكم يا رفاق، ألعاب الفيديو التقليدية لن تختفي قريباً.
00:08:09يبدو هذا مجرد حلم بعيد المنال في هذه المرحلة، وربما، فقط ربما، في المستقبل، إذا
00:08:15وجدوا حلاً لهذه المشكلات الحسابية، قد نبدأ في التفكير في هذا الأمر.
00:08:20لكن الآن، يا صاح، حقاً؟
00:08:23أنا أيضاً متحمس جداً لتجربة Lingbot fast عندما يصل أخيراً.
00:08:27ولكن حتى ذلك الحين، لا أعتقد أن هذه التكنولوجيا ستنتشر قريباً.
00:08:32ولكن إذا كنت مهتماً بتجربة Lingbot world بنفسك، فإليك نصيحتي.
00:08:37لا تفعل ما فعلته أنا.
00:08:38لا تجمع ثماني بطاقات RTX 1590 معاً لأن مثل هذا التكوين على منصة مثل RunPod
00:08:45سيكلفك 7 دولارات عن كل ساعة تشغيل.
00:08:48بدلاً من ذلك، قم بتشغيل بيئة H200 واحدة، والتي تكلف فقط 3.50 دولار في الساعة واضبط
00:08:55علامة “nproc/node” على 1 وربما قلل عدد العينات إلى 50 أو حتى 20 وستكون
00:09:01في وضع جيد.
00:09:02يمكنك أيضاً استخدام نسخة الـ 4-bit من هذا النموذج، التي أنشأها المستخدم Caelan Humphries،
00:09:08والتي تقلل بشكل كبير من استهلاك ذاكرة وحدة معالجة الرسومات مع الحفاظ على جودة بصرية
00:09:13مماثلة للاستنتاج.
00:09:15لذا يمكنك تقنياً محاولة تشغيل ذلك على بطاقة RTX 1590 واحدة.
00:09:19وإذا فعلت ذلك، أخبرني بالنتائج.
00:09:21بالنسبة لي، قمت بتشغيل العرض التوضيحي الأساسي على بيئة H200 ونعم، حصلت
00:09:28أساساً على نفس النتيجة الموجودة في صفحة العرض الخاصة بهم.
00:09:30ثم قمت بإنشاء صورة بالذكاء الاصطناعي لهذا الفايكنج الذي يقاتل لوكي وأدخلت هذه الصورة
00:09:36إلى نفس الأمر.
00:09:37وهذه هي النتيجة التي حصلت عليها.
00:09:39أعتقد أنه يمكنك رؤية كيف يحافظ النموذج على سلامة البيئة والقلعة
00:09:44طوال الفيديو، لكنه لا يزال ينتج بعض الشوائب الغريبة.
00:09:48لذا بصراحة، لا أعرف ما الذي يجب أن أفكر فيه حيال ذلك.
00:09:52أنا متأكد تماماً من أنه يمكنني إنشاء فيديو لعب أفضل باستخدام سير عمل Comfy UI قياسي،
00:09:59وبالمناسبة، إذا كنت مهتماً بتعلم كيفية صنع مولد الفيديو الخاص بك مثل Sora
00:10:04بدون تكاليف الحوسبة الباهظة، شاهد الفيديو الذي صورته منذ فترة حول هذا الموضوع.
00:10:09هذا كل شيء يا رفاق، هذا هو رأيي في Genie 3 وكل هذه الضجة ومستقبل
00:10:15ألعاب الفيديو.
00:10:16أنا أقدر حقاً الفريق وراء Lingbot لجعله نموذجهم مفتوح المصدر لنتمكن من
00:10:20الحصول على فكرة أفضل عن كيفية عمل نموذج مثل Genie.
00:10:25لكن هذه مجرد وجهة نظري الشخصية حول الموضوع.
00:10:27الأهم من ذلك، ما رأيكم في نماذج العالم اللانهائي هذه؟
00:10:30أنا فضولي لمعرفة آرائكم، لذا شاركوني أفكاركم في قسم التعليقات
00:10:35بالأسفل.
00:10:36ويا رفاق، إذا وجدتم هذا الفيديو مفيداً، أخبروني بذلك من خلال الضغط على زر الإعجاب
00:10:40تحت الفيديو.
00:10:41ولا تنسوا أيضاً الاشتراك في قناتنا لمزيد من الفيديوهات مثل هذا الفيديو.
00:10:45كان معكم أندريس من Better Stack وأراكم في الفيديوهات القادمة.
00:11:00(موسيقى مبهجة)