نظرة فاحصة على ضجة ذكاء Google Genie 3 الاصطناعي: هل تستحق كل هذا الاهتمام؟

BBetter Stack
Computing/SoftwareVideo & Computer GamesStocksConsumer Electronics

Transcript

00:00:00في الأسبوع الماضي، كشفت جوجل عن Genie 3، نموذجها الرائد للعوالم اللانهائية، حيث يمكنك
00:00:05محاكاة بيئة والتفاعل معها كما لو كنت في لعبة فيديو حقيقية.
00:00:10وفجأة، تراجعت أسهم شركات ألعاب الفيديو بشكل حاد خوفاً من أن تكون هذه
00:00:16بداية النهاية لصناعة ألعاب الفيديو.
00:00:20ثم حدث شيء أكثر إثارة للاهتمام.
00:00:22أصدرت شركة تقنية صينية تدعى Robiant منافسها الخاص مفتوح المصدر لنموذج Genie، والذي
00:00:28يبدو أنه يتمتع برسومات أفضل حتى من نظيره في جوجل.
00:00:32والآن انفتحت الأبواب على مصراعيها للسباق لتحديد أي شركة
00:00:37ستكون الأولى في استبدال ألعاب الفيديو التقليدية بهذه التكنولوجيا الجديدة.
00:00:43ولكن بينما يروج الجميع لهذه الصرعة الجديدة لنماذج العوالم اللانهائية، أنا هنا لأقول لكم إن
00:00:49هذا قد يكون مجرد وعود مبالغ فيها دون أي جوهر حقيقي.
00:00:54ما الذي يجعلني واثقاً جداً من ذلك؟
00:00:55حسناً، هذا ما سنتحدث عنه في فيديو اليوم.
00:01:02بمجرد صدور Genie 3، هرعت إلى الموقع لتجربته بنفسي.
00:01:07ولكن بمجرد النقر على زر الاستكشاف، واجهت رسالة خطأ 404 مخيبة للآمال.
00:01:14وذلك لأنني أعيش في كندا.
00:01:16وفي الوقت الحالي، سمحت جوجل فقط لمواطني الولايات المتحدة بتجربة
00:01:20هذه المعجزة التكنولوجية المتطورة.
00:01:23لذا قمت بتشغيل الـ VPN الخاص بي وحاولت مرة أخرى من موقع داخل الولايات المتحدة.
00:01:27وهذه المرة واجهت رفضاً مخيباً آخر، يفيد بأنني يجب أن أكون
00:01:33عضواً في UltraPlan للوصول إلى هذا البرنامج الثوري.
00:01:37وإذا كنت تتساءل عن تكلفة UltraPlan، حسناً، دعنا نقول فقط إنها باهظة قليلاً
00:01:41مقارنة بما أنا مستعد لدفعه لمجرد تجربة أداة ذكاء اصطناعي مبالغ في تقديرها.
00:01:46لكن هذا يطرح سؤالاً: لماذا من الصعب جداً الحصول على Genie 3 في المقام الأول؟
00:01:51والإجابة على هذا السؤال ستكون مهمة جداً لقصتنا، لكنني سأعود إلى
00:01:56ذلك لاحقاً في هذا الفيديو.
00:01:57على الرغم من أنني لم يحالفني الحظ أو لم تتوفر لدي الأموال لتجربة Genie 3، ففي الوقت نفسه ولحسن الحظ،
00:02:04على الجانب الآخر من العالم، قامت شركة صينية تدعى Robiont، والتي تبدو
00:02:09تابعة لشركة Ant Group، التي هي بدورها شركة زميلة لمجموعة علي بابا، والتي
00:02:15تملك أيضاً شركة Quen، بإطلاق نموذج العالم اللانهائي الخاص بها
00:02:20باسم Lingbot World، وهو بشكل مفاجئ مفتوح المصدر.
00:02:25وهذا يعني أنه يمكننا فعلياً اختباره ومعرفة ما هو قادر عليه.
00:02:29وبالنظر إلى أمثلتهم، فقد بدا الأمر مذهلاً للغاية.
00:02:32ولكن بمجرد أن بدأت في تفحص صفحة المشروع، واجهت خيبة أمل كبيرة أخرى.
00:02:38على الرغم من أن صفحة المشروع مليئة بفيديوهات توضيحية حيث يمكنك التجول بحرية
00:02:43في المكان باستخدام مفاتيح الأسهم، إلا أن هذه النسخة من النموذج التي تتضمن
00:02:48تحكماً كاملاً في الشخصية لا تزال قيد التطوير.
00:02:51إنهم يخططون لإصدار Lingbot fast، والذي سيكون مكافئاً كاملاً لـ Genie 3، ولكن
00:02:56لا نعرف متى سيأتي ذلك بعد.
00:02:57في الوقت الحالي، لدينا وصول إلى نموذجهم الأساسي الذي يحتوي على 14 مليار بارامتر، والذي يقدم
00:03:03ما يسمونه “عمليات محاكاة عالية الدقة وقابلة للتحكم ومتسقة منطقياً”.
00:03:08ولكن بشكل أساسي، الشيء الوحيد الذي يستطيع هذا النموذج فعله حالياً هو إنشاء فيديو.
00:03:14نعم، مجرد فيديو.
00:03:16لذا كنت مرتبكاً نوعاً ما، أين يكمن عامل التحكم هنا؟
00:03:20حسناً، لديهم خيار تقديم قيم موضع الكاميرا الخاصة بك، بحيث يمكنك
00:03:25بمعنى ما التحكم في حركة الكاميرا، وهو ما أعتقد أنه يوفر بديلاً للتنقل
00:03:31باستخدام مفاتيح الأسهم، ولكن عليك تسجيل ذلك مسبقاً.
00:03:35كيف يختلف هذا عن أي مولد فيديو آخر يوفر أيضاً القدرة على التحكم
00:03:40في حركات الكاميرا؟
00:03:41حسناً، إليكم الفرق الجوهري.
00:03:44في مولد الفيديو التقليدي بالذكاء الاصطناعي، يحاول النموذج دائماً التنبؤ بالإطار التالي مع
00:03:50تقدم الفيديو المرجعي، وقد رأينا في العديد من فيديوهات الـ memes على الإنترنت كيف يخطئ
00:03:55هذا النظام بشكل فادح إذا استمر الفيديو طويلاً، وذلك لأن النموذج لا يحتفظ
00:04:00بالمعلومات عما يحدث خارج الإطار.
00:04:04فإذا تحركت الكاميرا بعيداً عن كائن ما ثم عادت إليه، فقد لا يكون الكائن موجوداً
00:04:09لأن المشهد بأكمله يتم إنشاؤه في الوقت الفعلي.
00:04:13هنا يأتي دور العقل الهندسي لنموذج Lingbot World بـ 14 مليار بارامتر.
00:04:19على عكس مولد الفيديو القياسي الذي يخمن ببساطة البكسلات التالية، يستخدم Lingbot World
00:04:24بيانات خصائص الكاميرا ووضعيات بـ 6 درجات من الحرية لمطابقة كل بكسل مع
00:04:31نقطة محددة في الفضاء ثلاثي الأبعاد.
00:04:33إنه يخلق ما يسميه الباحثون “ديمومة الكائن” لأنه يفهم العلاقة الرياضية
00:04:39بين عدسة الكاميرا والبيئة.
00:04:42لذا فهو يتذكر أساساً أن كائناً معيناً موجود في إحداثيات محددة.
00:04:47وهذه السلامة الهيكلية هي السبب في أن هذا النموذج ضخم جداً ويستهلك الكثير من الموارد.
00:04:52إلى أي مدى يستهلك؟
00:04:53يا له من أمر، دعوني أخبركم.
00:04:55حاولت تشغيل نموذج Lingbot World على جهاز يحتوي على وحدة معالجة رسومات RTX 1590 واحدة و
00:05:02حاولت تشغيل العرض التوضيحي البسيط الذي قدموه لكنه تعطل على الفور.
00:05:07لقد كان من السذاجة مني الاعتقاد بأن بطاقة 1590 واحدة ستكون قادرة على التعامل مع هذا العبء.
00:05:13ثم حاولت تشغيله ببطاقتي 1590، ولا، لا يزال يتعطل.
00:05:18ثم جربت بـ 4 بطاقات 1590، ومرة أخرى، لا يزال يتعطل.
00:05:23ثم قمت بتشغيل بيئة بـ 8 بطاقات RTX 1590 وحاولت تشغيل العرض التوضيحي الأساسي و
00:05:31لا يزال يتعطل.
00:05:32انظر، السبب هو أنه عند تشغيل نموذج العالم اللانهائي هذا لفترة طويلة،
00:05:38فإن كمية الذاكرة التي يجب أن يخزنها هذا النموذج عن المشاهد تزداد باستمرار
00:05:44إلى حد تصل فيه إلى خطأ “نفاذ الذاكرة” لأنك ببساطة استهلكت كل
00:05:49ذاكرة الوصول العشوائي (RAM).
00:05:50لكنني تمكنت من تشغيل العرض التوضيحي بنجاح على إعداد بـ 8 وحدات معالجة رسومات عن طريق خفض
00:05:55حجم العينات من القيمة الافتراضية 70 إلى 20 فقط.
00:05:59وبصراحة، الفرق بين 70 و 20 عينة لم يكن ملحوظاً جداً.
00:06:03لكن هذا يوضح مدى التكلفة الباهظة من حيث الموارد لتشغيل نموذج العالم اللانهائي
00:06:09هذا.
00:06:10وبالعودة إلى Genie 3، هذا هو بالضبط السبب في أنهم يسمحون بالوصول إليه لأعضاء Ultra
00:06:16فقط، لأنهم بحاجة إلى استرداد تكاليف وحدات معالجة الرسومات لتشغيل هذا الشيء.
00:06:21وهذا هو السبب أيضاً في أنك تحصل فقط على بضع ثوانٍ للعرض التوضيحي الواحد، لأنه في
00:06:27نقطة ما تتضخم الذاكرة لدرجة أن النظام بأكمله ينهار.
00:06:32ولأعطيكم فكرة عن مدى التكلفة الجنونية لتشغيل مثل هذا النموذج على أجهزة
00:06:37المستهلكين العادية، تبلغ تكلفة بطاقة RTX 1590 الواحدة حوالي 5000 دولار.
00:06:43الآن خذ 8 منها، وهو الحد الأدنى المطلوب لتشغيل هذا الشيء.
00:06:48يا رجل، حتى قول ذلك بصوت عالٍ يبدو سخيفاً.
00:06:51على أي حال، 8 منها ستكلفك ما يصل إلى 40,000 دولار، ناهيك عن الأجزاء الأخرى
00:06:57والرام التي تنفجر أسعارها أيضاً في الوقت الحالي.
00:07:01وعندما تأخذ ذلك في الاعتبار، فإن هذا الرقم، بالإضافة إلى الحد الأقصى لوقت التشغيل البالغ 60 ثانية الذي
00:07:06يفرضه Genie، بالإضافة إلى مشكلة تضخم ذاكرة الرام، هي بالضبط
00:07:12الأسباب التي تجعل موضوع العالم اللانهائي مجرد ضجة إعلامية وليس أمراً يمكن تحقيقه
00:07:18على أجهزة المستهلكين بالهندسة الحالية التي نمتلكها الآن.
00:07:24وحتى مؤلفو هاتين الأداتين يعترفون بهذه المشكلات.
00:07:28فتكلفة الاستنتاج العالية تتطلب حالياً وحدات معالجة رسومات مخصصة للمؤسسات، مما يجعل
00:07:34التكنولوجيا غير متاحة على أجهزة المستهلكين.
00:07:37كما تفتقر المحاكاة إلى الاستقرار على المدى الطويل.
00:07:39وهذا يؤدي غالباً إلى “الانجراف البيئي” حيث يفقد المشهد تدريجياً
00:07:44سلامته الهيكلية خلال الفترات الطويلة.
00:07:46بالضبط.
00:07:48وعلى الأقل فريق Lingbot صريح بشأن هذا الأمر.
00:07:51دعونا نرى ما تقوله جوجل عن ذلك.
00:07:53“يمكن للنموذج دعم بضع دقائق من التفاعل المستمر بدلاً من الساعات الممتدة”.
00:07:59أعني، إنهم لا يعترفون بذلك علانية، ولكن في هذه المرحلة كلنا نعرف السبب.
00:08:04لذلك أقول لكم يا رفاق، ألعاب الفيديو التقليدية لن تختفي قريباً.
00:08:09يبدو هذا مجرد حلم بعيد المنال في هذه المرحلة، وربما، فقط ربما، في المستقبل، إذا
00:08:15وجدوا حلاً لهذه المشكلات الحسابية، قد نبدأ في التفكير في هذا الأمر.
00:08:20لكن الآن، يا صاح، حقاً؟
00:08:23أنا أيضاً متحمس جداً لتجربة Lingbot fast عندما يصل أخيراً.
00:08:27ولكن حتى ذلك الحين، لا أعتقد أن هذه التكنولوجيا ستنتشر قريباً.
00:08:32ولكن إذا كنت مهتماً بتجربة Lingbot world بنفسك، فإليك نصيحتي.
00:08:37لا تفعل ما فعلته أنا.
00:08:38لا تجمع ثماني بطاقات RTX 1590 معاً لأن مثل هذا التكوين على منصة مثل RunPod
00:08:45سيكلفك 7 دولارات عن كل ساعة تشغيل.
00:08:48بدلاً من ذلك، قم بتشغيل بيئة H200 واحدة، والتي تكلف فقط 3.50 دولار في الساعة واضبط
00:08:55علامة “nproc/node” على 1 وربما قلل عدد العينات إلى 50 أو حتى 20 وستكون
00:09:01في وضع جيد.
00:09:02يمكنك أيضاً استخدام نسخة الـ 4-bit من هذا النموذج، التي أنشأها المستخدم Caelan Humphries،
00:09:08والتي تقلل بشكل كبير من استهلاك ذاكرة وحدة معالجة الرسومات مع الحفاظ على جودة بصرية
00:09:13مماثلة للاستنتاج.
00:09:15لذا يمكنك تقنياً محاولة تشغيل ذلك على بطاقة RTX 1590 واحدة.
00:09:19وإذا فعلت ذلك، أخبرني بالنتائج.
00:09:21بالنسبة لي، قمت بتشغيل العرض التوضيحي الأساسي على بيئة H200 ونعم، حصلت
00:09:28أساساً على نفس النتيجة الموجودة في صفحة العرض الخاصة بهم.
00:09:30ثم قمت بإنشاء صورة بالذكاء الاصطناعي لهذا الفايكنج الذي يقاتل لوكي وأدخلت هذه الصورة
00:09:36إلى نفس الأمر.
00:09:37وهذه هي النتيجة التي حصلت عليها.
00:09:39أعتقد أنه يمكنك رؤية كيف يحافظ النموذج على سلامة البيئة والقلعة
00:09:44طوال الفيديو، لكنه لا يزال ينتج بعض الشوائب الغريبة.
00:09:48لذا بصراحة، لا أعرف ما الذي يجب أن أفكر فيه حيال ذلك.
00:09:52أنا متأكد تماماً من أنه يمكنني إنشاء فيديو لعب أفضل باستخدام سير عمل Comfy UI قياسي،
00:09:59وبالمناسبة، إذا كنت مهتماً بتعلم كيفية صنع مولد الفيديو الخاص بك مثل Sora
00:10:04بدون تكاليف الحوسبة الباهظة، شاهد الفيديو الذي صورته منذ فترة حول هذا الموضوع.
00:10:09هذا كل شيء يا رفاق، هذا هو رأيي في Genie 3 وكل هذه الضجة ومستقبل
00:10:15ألعاب الفيديو.
00:10:16أنا أقدر حقاً الفريق وراء Lingbot لجعله نموذجهم مفتوح المصدر لنتمكن من
00:10:20الحصول على فكرة أفضل عن كيفية عمل نموذج مثل Genie.
00:10:25لكن هذه مجرد وجهة نظري الشخصية حول الموضوع.
00:10:27الأهم من ذلك، ما رأيكم في نماذج العالم اللانهائي هذه؟
00:10:30أنا فضولي لمعرفة آرائكم، لذا شاركوني أفكاركم في قسم التعليقات
00:10:35بالأسفل.
00:10:36ويا رفاق، إذا وجدتم هذا الفيديو مفيداً، أخبروني بذلك من خلال الضغط على زر الإعجاب
00:10:40تحت الفيديو.
00:10:41ولا تنسوا أيضاً الاشتراك في قناتنا لمزيد من الفيديوهات مثل هذا الفيديو.
00:10:45كان معكم أندريس من Better Stack وأراكم في الفيديوهات القادمة.
00:11:00(موسيقى مبهجة)

Key Takeaway

على الرغم من الإمكانيات المبهرة لنماذج العوالم اللانهائية مثل Genie 3 وLingbot، إلا أن تكاليف الحوسبة الباهظة وعدم استقرار المحاكاة تجعل استبدالها لألعاب الفيديو التقليدية أمراً بعيد المنال في الوقت الراهن.

Highlights

إطلاق جوجل لنموذج Genie 3 الذي يحاكي بيئات تفاعلية تشبه ألعاب الفيديو وتأثير ذلك على أسهم شركات الألعاب.

ظهور منافس صيني مفتوح المصدر يدعى Lingbot World من شركة Robiont يتميز بدقة رسومية عالية.

التحديات التقنية الكبيرة التي تواجه هذه النماذج مثل استهلاك الذاكرة الهائل والحاجة لعتاد باهظ الثمن.

مفهوم "ديمومة الكائن" في نموذج Lingbot الذي يربط البكسلات بإحداثيات ثلاثية الأبعاد لمنع التشوهات.

القيود الحالية التي تجعل استبدال ألعاب الفيديو التقليدية بالذكاء الاصطناعي مجرد ضجة إعلامية غير واقعية حالياً.

نصائح عملية لتشغيل النماذج المفتوحة المصدر بتكلفة أقل باستخدام الحوسبة السحابية ونسخ الأوزان المضغوطة.

Timeline

مقدمة عن Genie 3 والمنافسة الصينية

يبدأ الفيديو باستعراض إعلان جوجل عن نموذج Genie 3 الذي يهدف لخلق عوالم افتراضية تفاعلية لا نهائية. تسبب هذا الإعلان في ذعر بأسواق المال أدى لهبوط أسهم شركات ألعاب الفيديو الكبرى خوفاً من انتهاء عصر الصناعة التقليدي. يبرز المتحدث دخول شركة Robiont الصينية على الخط بإصدار نموذج مفتوح المصدر يتفوق في الرسوميات. يطرح الفيديو تساؤلاً جوهرياً حول ما إذا كانت هذه التقنية حقيقية أم مجرد وعود تسويقية مبالغ فيها. يمهد هذا القسم للنقاش التقني العميق الذي سيكشف زيف بعض هذه الادعاءات.

عقبات الوصول وتجربة المستخدم المحبطة

يسرد المتحدث تجربته الشخصية المخيبة للآمال عند محاولة اختبار Genie 3 من كندا، حيث واجه قيوداً جغرافية واشتراطات مالية باهظة. تفرض جوجل اشتراك UltraPlan مرتفع الثمن للوصول إلى هذه الأداة، مما يثير تساؤلات حول ندرة الموارد التقنية المتاحة. ينتقل الحديث بعد ذلك إلى شركة Robiont التابعة لمجموعة Ant Group وعلاقتها بشركتي علي بابا وQuen. أطلقت هذه الشركة نموذج Lingbot World وجعلته متاحاً للجميع كنسخة مفتوحة المصدر. يوضح هذا الجزء الفجوة بين الوعود التسويقية للشركات الكبرى وصعوبة وصول المستخدم العادي للتقنية.

التحليل التقني لنموذج Lingbot وخصائص الكاميرا

يشرح المتحدث أن النسخة الحالية من Lingbot World هي نموذج أساسي بـ 14 مليار بارامتر يركز على إنتاج الفيديو بدلاً من التحكم الكامل. يتميز هذا النموذج عن مولدات الفيديو التقليدية باستخدام بيانات وضعية الكاميرا بـ 6 درجات من الحرية (6DoF) لضمان ثبات المشهد. يشرح مفهوم "ديمومة الكائن" الذي يمنع اختفاء العناصر عند تحرك الكاميرا بعيداً عنها ثم العودة إليها. تعتمد هذه السلامة الهيكلية على علاقات رياضية معقدة بين عدسة الكاميرا والبيئة ثلاثية الأبعاد. هذا التطور الهندسي هو ما يمنح النموذج تفوقه الرسومي لكنه يأتي بتكلفة حوسبة خيالية.

أزمة الموارد وتكاليف الحوسبة الجنونية

يكشف المتحدث عن فشل محاولاته لتشغيل النموذج على أجهزة قوية تحتوي على بطاقات RTX 1590 المتطورة بسبب نفاذ الذاكرة. يتطلب التشغيل المستقر ما لا يقل عن 8 وحدات معالجة رسومات بتكلفة إجمالية قد تصل إلى 40,000 دولار للجهاز الواحد. يفسر هذا السبب وراء حصر جوجل للخدمة في فئات الاشتراك العليا وتحديد مدة العرض ببضع ثوانٍ فقط. تعاني هذه الأنظمة من مشكلة تضخم الذاكرة (RAM) التي تؤدي لانهيار النظام عند محاولة محاكاة فترات طويلة. يخلص المتحدث إلى أن الهندسة الحالية غير قادرة على تقديم هذه التقنية للمستهلك العادي بشكل اقتصادي.

القيود التقنية ومستقبل ألعاب الفيديو

يتناول هذا القسم اعترافات المطورين أنفسهم بمشاكل "الانجراف البيئي" وفقدان السلامة الهيكلية للمشاهد بمرور الوقت. تؤكد جوجل أن التفاعل متاح لبضع دقائق فقط وليس لساعات كما في ألعاب الفيديو التقليدية، مما يضعف فرضية استبدال الألعاب قريباً. يقدم المتحدث نصيحة للمهتمين بتجربة Lingbot باستخدام بيئات H200 السحابية لتقليل التكاليف إلى 3.5 دولار للساعة. يقترح أيضاً تقليل عدد العينات البرمجية لضمان عدم انهيار النظام أثناء الاستنتاج. يهدف هذا الجزء لتوضيح أن التكنولوجيا لا تزال في مراحلها التجريبية الأولى وغير ناضجة تجارياً.

تجارب عملية وخاتمة التحليل

يعرض المتحدث نتائج تجاربه باستخدام نسخة 4-bit من النموذج التي تقلل استهلاك الذاكرة مع الحفاظ على الجودة. قام بإنشاء مشهد لفايكنج يقاتل لوكي، مشيراً إلى دقة البيئة رغم وجود بعض الشوائب البصرية الغريبة. يقارن النتائج بسير عمل Comfy UI التقليدي، معتبراً أن الأدوات الحالية المتاحة قد تعطي نتائج أفضل بجهد أقل. يشكر فريق Lingbot على شفافيتهم وجعل الكود مفتوحاً، مما سمح بفهم أعمق لآلية عمل نماذج العوالم. يختتم الفيديو بدعوة الجمهور للمشاركة بآرائهم حول مستقبل هذه التقنية المثيرة للجدل.

Community Posts

View all posts