فهم الذكاء الاصطناعي التوليدي البصري متعدد الوسائط

العربيةDeutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

AI/미래기술마케팅/광고사진/예술

Transcript

00:00:00يسعدني رؤية هذا العدد الكبير هنا.

00:00:03كما ذكرت في المقدمة، سأقدم لكم لمحة متعمقة عن Flux، عائلة نماذجنا لتوليد الصور وتعديلها.

00:00:12كنت بالفعل - هل يعمل؟ أنا آندي، المؤسس المشارك لـ Black Force Labs.

00:00:19قبل أن أبدأ بالحديث عن النموذج، أود أن أقدم لكم لمحة عامة عما نقوم به.

00:00:26في Black Force Labs، نؤمن بأن الوسائط المرئية ستصبح الواجهة المركزية للتواصل البشري في المستقبل.

00:00:36نرى أنفسنا المزود المركزي للبنية التحتية لتشغيل جميع الصور ومقاطع الفيديو التي سيستخدمها البشر للتفاعل مع بعضهم البعض، وليس فقط ما يمكن للكاميرات التقاطه، بل أبعد من ذلك بكثير.

00:00:54مع أخذ ذلك في الاعتبار، بدأنا الشركة في أغسطس 2024.

00:01:00منذ ذلك الحين، نمت الشركة لتضم 45 موظفًا، ولدينا مقرين رئيسيين.

00:01:06المقر الرئيسي في فرايبورغ بالغابة السوداء في ألمانيا، ولدينا أيضًا مكتب هنا في سان فرانسيسكو.

00:01:16منذ أن أطلقنا عائلة نماذج توليد الصور Flux في أغسطس 2024 عندما بدأنا الشركة، قمنا دائمًا بتنظيم الإصدارات في ثلاثة مستويات مختلفة، وقمنا بتطوير عائلة النماذج باستمرار.

00:01:33المستويات هي كالتالي: لدينا نماذج Pro.

00:01:37إنها قوية للغاية وأسرع النماذج التي نقدمها.

00:01:41إنها متاحة فقط عبر واجهة برمجة تطبيقات VFL وأيضًا عبر عدد قليل من شركاء الاستدلال مثل File و Replicate.

00:01:52أعتقد أنكم تعرفونهم أيضًا.

00:01:54إنها سهلة الدمج للغاية وتتوسع لتناسب أحجامًا هائلة على الفور تقريبًا..

00:02:03هذا هو المستوى الأول، ولكن كما قد يعلم البعض منكم، فإنني وشركائي المؤسسين لدينا جذور قوية جدًا في المصادر المفتوحة، على غرار، أعتقد، المؤسس الذي دعانا اليوم.

00:02:16نحن أيضًا المطورون الأصليون وراء Stable Diffusion.

00:02:20ما زلنا نلتزم بذلك.

00:02:22نحن نحب مجتمع المصادر المفتوحة، ولهذا السبب نقدم أيضًا أوزانًا مفتوحة ونماذج مفتوحة المصدر..

00:02:29لدينا نماذج Flux Dev.

00:02:31هذه متاحة للجمهور للتنزيل والتعديل.

00:02:35إنها قابلة للتخصيص بالكامل وتوفر الكثير من المرونة لكل من يرغب في استخدامها.

00:02:42أخيرًا، لدينا نماذج Flux Schnell.

00:02:45إنها مفتوحة المصدر بالكامل، وهي، بطريقة ما، نقطة الدخول المثالية إلى نظام Flux البيئي.

00:02:53بالحديث عن النظام البيئي، إذا نظرتم إلى Model Atlas على Hugging Face، والذي يعرض، أعتقد، نماذج الأساس مفتوحة المصدر الأكثر استخدامًا عبر المجالات، يمكننا أن نرى أن النموذج الأكبر الوحيد على Hugging Face الذي يمتلك أكبر نظام بيئي مرتبط به هو نموذج Flux Dev الخاص بنا.

00:03:18وهذا يوضح إلى حد كبير أن Flux قد أصبح بالفعل المعيار لتوليد الصور مفتوح المصدر.

00:03:25من الواضح أننا نتطلع إلى تطوير أو توسيع انتشارنا في المستقبل.

00:03:31هذا كل ما يتعلق بالشركة.

00:03:33دعوني أرى إذا كان لا يزال لا يعمل.

00:03:37على أي حال.

00:03:38الآن للجزء الرئيسي من الحديث..

00:03:41أردت أن أتعمق معكم في Flux، وخاصة في أحدث نماذجنا، Flux Context، الذي يوحد توليد الصور من النصوص وتعديلها.

00:03:52أريد أن أتحدث اليوم عن كيفية توحيد هذا..

00:03:56بضع كلمات قبل ذلك.

00:03:58أعتقد أنه من المهم للغاية أن يكون لدينا هذا النموذج المشترك، لأنه من الواضح أن توليد الصور له العديد من التطبيقات الرائعة وقد رأينا ذلك في العام الماضي، لكن تعديل الصور لم يواكب نفس السرعة في التطور حتى هذا العام حقًا.

00:04:18تعديل الصور هو في الواقع حالة استخدام بالغة الأهمية.

00:04:23إنه يسمح لنا بالتكرار على الصور الموجودة ويمنح الناس، في رأيي، مستوى إضافيًا من التحكم لتعديل الصور بدقة وغير ذلك.

00:04:34هذا بالغ الأهمية.

00:04:35مع Flux Context، لقد خلقنا اللحظة الحاسمة لتعديل الصور.

00:04:40تم إصداره في يونيو 2025.

00:04:43إنه نموذج يجمع بين توليد الصور وأشياء للتعديل مثل اتساق الشخصيات، ومرجع الأسلوب، والتعديل المحلي، وكل ذلك بسرعة تقارب الوقت الفعلي.

00:04:55سنرى هذا لاحقًا..

00:04:57وكمثال جيد، أحضرت لكم صف الصور هذا هنا.

00:05:00من اليسار إلى اليمين، نبدأ بصورة إدخال.

00:05:04ثم يمكننا توجيه النموذج لإزالة هذا الكائن من وجهها، وبعد ذلك يمكننا وضعها في سياق جديد تمامًا مع الحفاظ على اتساق الشخصية.

00:05:14هذا بالغ الأهمية.

00:05:15كان هناك الكثير من العمل الذي تم في الماضي لضبط النماذج للحصول على هذا النوع من اتساق الشخصيات في النموذج بناءً على نماذج تحويل النص إلى صورة المتاحة للجمهور، لكن هذا التعديل الفوري للصور سمح لنا بإزالة كل هذا الضبط الدقيق، والذي يتطلب دائمًا بعض الجهد، على حد تعبيري.

00:05:38هذا مدهش حقًا أن يستغرق هذا الآن أربع ثوانٍ أو نحو ذلك.

00:05:42أخيرًا، يمكننا فقط تغيير المشهد.

00:05:45في هذه الحالة، الصورة أقصى اليمين، نغيرها إلى مشهد شتوي.

00:05:50رائع.

00:05:50إليكم بعض الأمثلة الأخرى لما يمكن أن يفعله أيضًا.

00:05:54إنه ليس جيدًا فقط للتعديلات المتسقة مع الشخصيات أو ما شابه، ولكنه أيضًا رائع جدًا لنقل الأسلوب.

00:06:02نرى ذلك على الجانب الأيسر.

00:06:04نأخذ الأسلوب من الصورة المدخلة ونطبقه على محتوى جديد، أو يمكننا القيام بأشياء مثل تعديل النص، فقط تغيير مونتريال إلى فرايبورغ مع الحفاظ على اتساق الخط.

00:06:17كل هذا مدمج في نموذج واحد ويمكنك التفاعل معه ببساطة عبر واجهة نصية سهلة للغاية.

00:06:24رائع.

00:06:24الأهم من ذلك، أنه ليس نموذجًا عامًا فقط، بل إنه جيد جدًا في حل مشاكل الأعمال المحددة والمهمة والمثيرة للاهتمام.

00:06:33على سبيل المثال، هنا في المثال الأيسر، يمكننا استخراج هذه التنورة من صورة واقعية ونحصل على لقطة للمنتج وتكبير لها على الفور تقريبًا، مرة أخرى، في غضون ثوانٍ.

00:06:47هذا، قبل نماذج التعديل هذه، كان يستغرق ساعات أو أيام، أو لم يكن ممكنًا على الإطلاق.

00:06:53وبالمثل على الجانب الأيمن هنا، يمكننا الانتقال من رسم تخطيطي إلى إخراج مكتمل تمامًا في بضع ثوانٍ.

00:07:02رائع.

00:07:02كما ذكرت سابقًا، يجمع Flux Context بين تحويل النص إلى صورة وتعديل الصور.

00:07:08لقد رأينا للتو بضعة أمثلة.

00:07:10دعونا نلقي نظرة سريعة على ما يعنيه هذا بالفعل من حيث مسار عمل النموذج الذي تحتاجون إليه.

00:07:18هنا نرى مسار عمل تحويل النص إلى صورة الكلاسيكي.

00:07:22بسيط جدًا.

00:07:22كلنا نعرفه.

00:07:23نستخدم موجهًا نصيًا.

00:07:25نمرره عبر النموذج.

00:07:26ثم يقوم النموذج ببعض السحر.

00:07:29سأشرح لكم كيفية إنشاء مثل هذا النموذج في ثانية.

00:07:33ثم نحصل على صورة، نأمل، إذا كان النموذج جيدًا، أن تتبع موجهنا النصي المدخل.

00:07:39إذا نظرتم إلى تعديل الصور، فإنه يبدو مختلفًا تمامًا.

00:07:43نبدأ بصورة، نعرضها للنموذج بطريقة ما، ثم لا نضيف تعليمات نصية تصف مشهدًا كاملاً، بل تغييرًا لتلك الصورة فقط.

00:07:52هنا لدينا شرطان.

00:07:54الجزء الأول، لدينا المزيد من المدخلات فقط.

00:07:57في المثال الأول، كان لدينا مدخل واحد فقط.

00:08:01الآن نصف تغييرًا ويجب على النموذج بعد ذلك تعديل الصورة وفقًا للتغيير.

00:08:06بعض الأجزاء، مثل الكنيسة هنا، يجب أن تظل كما هي بعد التعديل.

00:08:11والبعض الآخر لا.

00:08:13هذا ما تفعله نماذج التعديل هذه.

00:08:15إنها مهمة مختلفة تمامًا.

00:08:17دمج هذا في نموذج واحد هو أمر رائع حقًا لأنه يمكنك فعل كل شيء.

00:08:22يمكنك توليد صورة، ثم تعديلها بعد ذلك، والحصول على مرونة أكبر بكثير بطريقة ما.

00:08:29لقد ذكرت بالفعل أنه قبل أن نصدر نماذج التعديل هذه، أو قبل أن نرى نماذج التعديل العامة هذه، كان هناك الكثير من العمل الذي تم على ضبط نماذج تحويل النص إلى صورة للحصول على هذا المستوى من التحكم في النموذج.

00:08:46لكن هذا لم يعد ضروريًا الآن.

00:08:48يمكننا القيام بذلك على الفور.

00:08:50وهذا يقلل بشكل كبير من الوقت الذي تحتاجه للحصول على نتائج جيدة.

00:08:56إذن هذا كل ما يتعلق بمسار العمل.

00:08:58الآن، دعونا نلقي نظرة على كيفية تدريب هذه النماذج بالفعل.

00:09:03وهناك خوارزمية مهمة جدًا أريد التحدث عنها.

00:09:07الخوارزمية التي تمكننا من تدريب هذه النماذج تسمى Latent Flow Matching، والتي تتكون من جانبين، Latent و Flow Matching، وأريد أن أسلط الضوء قليلاً على كليهما..

00:09:24لنبدأ بـ Latent.

00:09:25هذا يأتي من نمذجة التوليد الكامن.

00:09:28هذه خوارزمية توصلت إليها أنا وشركائي المؤسسين منذ ما يقرب من خمس سنوات.

00:09:34لشرح ما يعنيه هذا، دعونا أولاً نلقي نظرة على المثال التالي.

00:09:39ما أعرضه هنا هو في الأساس صورتان، وبالنسبة لنا، تبدوان متطابقتين تمامًا.

00:09:45اليسرى هي JPEG، واليمنى هي نفس الصورة بصيغة PNG.

00:09:49لذا، اليسرى هي تقريب لليمنى، لكننا لا نرى أي فرق..

00:09:53أو هل هناك من يرى فرقًا في هاتين الصورتين؟ لا أعتقد ذلك.

00:09:59حسنًا، الآن دعونا نلقي نظرة على حجم ملفات هذه الصور.

00:10:03حجم ملف JPEG هو في الواقع أصغر بمقدار يقارب رتبة حجم ملف PNG.

00:10:09هذا أمر جدير بالملاحظة، وكلنا نعرف كيف يعمل ضغط الصور، ولكن مجرد إدراك أنه يمكننا إزالة الكثير من المعلومات من الصورة دون أن نلاحظ ذلك هو أمر جدير بالملاحظة حقًا، على حد تعبيري..

00:10:26إذن، يبدو أن هناك الكثير من المعلومات في الصورة لا يمكننا إدراكها بالعين البشرية.

00:10:33طريقة أخرى لتصور ذلك هي رسم التشابه الإدراكي لصورة في المثال الأخير لـ JPEG، وتقريب هذه الصورة - عذرًا، في المثال الأخير لـ PNG هي الصورة - والتقريب هو JPEG لهذه الصورة، ويمكننا رسمها مقابل حجم الملف.

00:10:51عند القيام بذلك، نحصل على هذا الرسم البياني.

00:10:55هذا رسم بياني مفاهيمي، لذا فهو ليس حقيقيًا، لكنه يبدو مفاهيميًا هكذا.

00:11:01يزداد التشابه الإدراكي بسرعة ثم يبقى عند مستوى ثابت لما يقرب من حجم الملف بأكمله.

00:11:08هذا ما تستخدمه خوارزميات الضغط مع فقدان البيانات مثل JPEG، وقد تسألون الآن ما علاقة هذا بالنمذجة التوليدية؟ إنه يوضح لنا أنه بالنسبة لإشارة إدراكية، أو إشارة طبيعية، مثل الصورة، وبالنسبة للصوت هو نفسه في الواقع، لتبدو حقيقية، أو لتُدرك على أنها حقيقية.

00:11:31لا نحتاج إلى نمذجة جميع التفاصيل عالية التردد التي لا يمكننا إدراكها، وبالتالي فإن تدريب نموذج توليدي في مساحة البكسل على كل هذه التفاصيل عالية التردد سيكون في الواقع إهدارًا كبيرًا للحوسبة والوقت، لأن النموذج سيتعلم تمثيل جوانب لا ندركها حتى، لذا لا فائدة من تعلم هذا، أليس كذلك؟ وهذا هو جوهر نمذجة التوليد الكامن.

00:11:59لذا بدلاً من تدريب نموذج توليدي في مساحة البكسل مباشرة على الصور، نتعلم نموذج ضغط يستخرج ما يسمى بمساحة كامنة ذات أبعاد أقل.

00:12:10هذه المساحة الكامنة هي ما نراه هنا في المنتصف.

00:12:14دعونا نرى إذا كان مؤشر الليزر يعمل.

00:12:17أوه، نعم، هذا هو.

00:12:18كيف نتعلم هذا النموذج؟ إنه بسيط للغاية في الواقع..

00:12:24نستخدم صورة هنا على اليسار.

00:12:26نمررها عبر مُشفّر، لذا هذا في الواقع مُشفّر تلقائي، نمرر الصورة عبر المُشفّر، ثم نصل إلى هذه المساحة الكامنة، والتمثيل الذي نمرره بعد ذلك عبر عملية تسمى التنظيم..

00:12:42هذا يجبر النموذج على إزالة المعلومات من هذا التمثيل الكامن.

00:12:48يمكن تنفيذه إما بشكل منفصل أو مستمر، ثم نعيد بناء الصورة من هذا التمثيل الكامن.

00:12:55إذن، المُشفّر التلقائي الكلاسيكي، الذي ندرّبه لإنتاج عمليات إعادة بناء مشابهة للمدخل، والأهم من ذلك، أننا نضيف خسارة التمييز هذه.

00:13:08يمكن تصور هذا كمعيار مسبق للتأكد من أن التفاصيل التي تهم أعيننا البشرية إدراكيًا فقط هي التي تنعكس في هذا التمثيل الكامن.

00:13:20مرة أخرى، هذا التنظيم يجبر النموذج على تقليل أو إزالة المعلومات، ويضمن المُميِّز أنه يزيل المعلومات الصحيحة التي لا يمكننا إدراكها.

00:13:33بهذه الطريقة، نصل، بمجرد تدريب هذا النموذج، إلى هذه المساحة الكامنة التي تُستخدم بعد ذلك لتدريب النموذج المُولّد.

00:13:44المساحة الكامنة هي تمثيل ذو أبعاد أقل للصورة المدخلة أو لصورة مكافئة إدراكيًا.

00:13:51هذا هو في الأساس الجانب الكامن من خوارزمية مطابقة التدفق الكامن.

00:13:57دعونا نتحدث عن الثاني، مطابقة التدفق.

00:14:01مرة أخرى، كل ما أشرحه الآن يحدث في هذه المساحة الكامنة.

00:14:06لذا كل ما نفعله الآن، ترونه هنا.

00:14:10على الجانب الأيسر، يتم تضمين كل صورة في تلك المساحة الكامنة، بشكل أساسي.

00:14:17إذن، نعم، دعونا نتحدث عن مطابقة التدفق.

00:14:20خوارزميات مطابقة التدفق هي عائلة عامة من الخوارزميات التي تُستخدم للتحويل من توزيع بسيط جدًا، وهو في حالتنا دائمًا التوزيع الطبيعي القياسي، لذا نحن نتحدث الآن عن توزيعات الاحتمالات.

00:14:38لقد عرضتها هنا.

00:14:40هذا توزيع بسيط جدًا هنا.

00:14:42خوارزميات مطابقة التدفق تحول هذا أو توفر لنا وسائل لتدريب حقل متجه يمثله شبكة عصبية، هذا الذي هنا، للربط بين التوزيع البسيط والتوزيعات المعقدة جدًا، مثل توزيع بيانات الصور الطبيعية.

00:15:00إذن هذا هو توزيع البيانات.

00:15:02ماذا نفعل لتدريب هذا؟ توفر لنا خوارزمية مطابقة التدفق وسيلة بسيطة جدًا للقيام بذلك.

00:15:10كل ما علينا فعله أثناء التدريب هو سحب عينة من هذا التوزيع الطبيعي القياسي هنا.

00:15:18لذا لدينا عينة، ثم نخصصها لعينة واحدة من توزيع البيانات، مثال تدريب، ونربط هذا، ثم يمكننا بناء هذا النوع من المتجهات الذي يربطها مباشرة وبشكل خطي..

00:15:34إذا فعلتم ذلك لكل مثال في مجموعة بيانات التدريب لدينا، أي أننا نأخذ المثال، ونختار نقطة عشوائية من التوزيع الطبيعي القياسي، ونربطها، ثم نصل إلى هذا النوع من حقل المتجهات المُنشأ هنا.

00:15:50يمكنني الآن التحدث كثيرًا عن خصائص حقول المتجهات.

00:15:54إحدى الخصائص المهمة هي أن المسارات لا يمكن أن تتقاطع في حقول المتجهات، ونرى أن هناك الكثير من التقاطعات تحدث، لذا من الواضح أن هذا ليس حقل المتجهات الحقيقي الذي يترجم بين كل نقطة على هذا التوزيع، أو بين هذا التوزيع وذاك..

00:16:13الشيء المدهش في مطابقة التدفق هو أنه إذا اتبعتم هذه القاعدة فقط، فإننا ندرب النموذج ليتنبأ دائمًا بهذه الأنواع من المتجهات بين عينة البيانات والعينة من التوزيع الطبيعي القياسي.

00:16:29نصل إلى حقل المتجهات الحقيقي، والذي يبدو بعد ذلك هكذا.

00:16:34لذا هنا نرى أن المسارات لا تتقاطع بعد الآن، وخوارزمية مطابقة التدفق تضمن ذلك.

00:16:41هذا نوع من السحر، ولكن إذا كتبتموه رياضيًا، فإننا نرى بالفعل أن هذا منطقي.

00:16:48وبهذه الطريقة، يمكننا بالفعل تدريب النموذج لتمثيل حقل المتجهات الحقيقي هذا الذي يترجم بين التوزيع الطبيعي القياسي وتوزيع بياناتنا..

00:17:00والأهم من ذلك، أننا نريد أن نكون قادرين على إنشاء صور بناءً على مدخلات نصية، لذا ما نفعله هو أننا نُشَرِّط هذه الشبكة دائمًا على مدخل نصي بشكل أساسي، لكل مثال صورة.

00:17:16رائع..

00:17:17إذن ماذا نفعل عندما نأخذ عينات من النموذج؟ لدينا حقل المتجهات هذا الذي يمثل التعيين بين هذين التوزيعين.

00:17:25ما نفعله هو أننا نبدأ بعينة من التوزيع الطبيعي القياسي.

00:17:29يمكننا أخذ عينات منه باستخدام الكمبيوتر، أليس كذلك؟ كلنا نعرف ذلك.

00:17:34ثم نقوم بالتكامل على طول هذه المسارات التي تمثلها الشبكة العصبية.

00:17:39يمكننا القيام بذلك باستخدام خوارزمية أويلر الأمامية البسيطة.

00:17:44ربما يعرف الكثير منكم هذه الخوارزميات.

00:17:47لذا باستخدام مخطط تكامل عددي، يمكننا فقط التكامل على طول هذه المسارات هنا ثم نصل إلى عينة البيانات.

00:17:55نمررها عبر المُفكّك مرة أخرى ونصل.

00:17:57لذا مرة أخرى، يحدث هذا في المساحة الكامنة، ولكن هنا نصل بعد ذلك إلى مساحة البكسل مرة أخرى.

00:18:04وهذه هي الطريقة التي يمكنني بها بعد ذلك إنشاء صور بناءً على موجه نصي.

00:18:09رائع.

00:18:10شيء واحد، مخططات التكامل العددي هذه، أعتقد أنها تستخدم الكثير من الخطوات، لذا فهي تقسم هذه العملية هنا خطوة بخطوة إلى ما يصل إلى 50 خطوة.

00:18:21لذا فإن نماذج مطابقة التدفق الكامن هذه بطبيعتها بطيئة جدًا وتستغرق حوالي 30 ثانية إلى دقيقة واحدة لتوليد صورة، وهو أمر طويل بعض الشيء..

00:18:32سأتحدث عن كيفية جعلها سريعة قريبًا جدًا.

00:18:35لكن هذه هي خوارزمية مطابقة التدفق الكامن العامة.

00:18:38لذا فإن الكامن مرة أخرى، يربط أو يمثل هذه المساحة الكامنة أو يرمز إلى هذه المساحة الكامنة التي ندرب النموذج فيها.

00:18:46وخوارزمية مطابقة التدفق هي ما ناقشناه للتو هنا.

00:18:49حسنًا، لقد شرحت الآن كيف ننشئ صورًا بناءً على موجهات نصية، ولكن كيف ينطبق هذا الآن على السياق، وهو نموذج تعديل، أليس كذلك؟ هذا أيضًا بسيط للغاية.

00:18:59إذن هذه هي بنية Flux Context الأساسية.

00:19:02إنه نموذج محوّل.

00:19:03كلنا نعرف ذلك..

00:19:05إنه مميز بعض الشيء، لكن السحر يكمن في المدخلات.

00:19:09لذا نرى هنا على الجانب الأيسر المدخل إلى النموذج.

00:19:14أولاً لدينا المدخل النصي الذي يتم تضمينه بواسطة مُشفّر نصي في مجموعة من الرموز النصية.

00:19:22ثم لدينا مُشفّر الصور الذي رأيناه بالفعل في الشريحة الأخيرة هنا، أليس كذلك؟ هذا الذي هنا.

00:19:30هذا ما نراه الآن هنا.

00:19:32لذا لدينا مُشفّر الصور هذا وهناك مجموعتان من الرموز المرئية.

00:19:38أولاً لدينا مجموعة الرموز المرئية التي نستخدمها فعليًا للتوليد.

00:19:43هذه هي الصورة الناتجة.

00:19:45ثم لدينا، إذا أردنا تعديل الصور، مجموعة ثانية من الرموز المرئية التي تقوم فقط بنمذجة أو تمثيل صورة السياق.

00:19:55أي الصورة المرجعية التي أعرضها على النموذج.

00:19:59وما نفعله بعد ذلك هو أننا نمرر هذا إلى نموذج المحوّل.

00:20:04إنه نموذج خاص لأنه يحتوي على ما يسمى بكتل التدفق المزدوج.

00:20:09هذه، أود أن أقول، نماذج خبيرة لكل دقة.

00:20:13لذا هنا نتعامل مع الرموز المرئية والرموز النصية بشكل منفصل..

00:20:20لكل شيء باستثناء عملية الانتباه، تحدث عملية الانتباه بعد ذلك بشكل مشترك عبر جميع الرموز.

00:20:28ثم لدينا كتل قياسية، كتل محوّل قياسية حيث نقوم بشكل أساسي بتعيين جميع المدخلات والرموز النصية والرموز المرئية بنفس التعيينات قبل عملية الانتباه.

00:20:43وبهذه الطريقة، يمكننا ببساطة الدخول في تعديل الصور..

00:20:48إذا قدمتم صورة مدخلة هنا وإذا قمتم بتوليد صورة نصية، فإنكم لا تقدمون هذا فقط، ثم يكون لدينا موجه نصي فقط كمدخل، أليس كذلك؟ رائع.

00:21:12النقطة الأخيرة هنا.

00:21:16كيف النموذج بهذه السرعة؟ لذا لا أعرف كم منكم يعرف نماذج Flux.

00:21:28هل يمكنكم رفع أيديكم إذا كنتم تعرفون نماذج Flux؟ أو في الواقع عدد قليل.

00:21:41حسنًا، رائع.

00:21:43إذن كلنا نعرف أنها سريعة جدًا، أليس كذلك؟ ماذا أعني عندما أقول سريعة؟ نحن في الأساس غالبًا أسرع بمقدار أوامر من حيث الحجم من النماذج المماثلة.

00:22:10لذا هنا، على سبيل المثال، ننظر بوضوح إلى نموذج بطيء جدًا هنا ولكنه جيد، GPD image one.

00:22:27أيضًا هنا للتعديل، نماذج Flux هنا أسرع بأكثر من 10 مرات، بل أكثر من، نعم، 20 مرة.

00:22:42لذا من الجنون حقًا مدى سرعتها مقارنة بالنماذج القوية المماثلة.

00:22:54والسبب في ذلك هو خوارزمية طورناها قبل عامين أو ثلاثة أعوام.

00:23:05تسمى

00:23:08التقطير الانتشاري التنافسي

00:25:44والهدف من هذه الخوارزمية هو تقليل عدد خطوات التكامل العددي.

00:25:44لقد أخبرتكم سابقًا أن هذه الخطوات غالبًا ما تكون 50 لنموذج مطابقة التدفق القياسي، والهدف هنا هو تقليلها إلى أربع خطوات فقط.

00:25:45كل خطوة تكامل عددي تعني تمريرة أمامية عبر الشبكة العصبية، لذا يمكننا أن نتخيل أن هذا يستغرق وقتًا طويلاً، لذا نريد تقليله قدر الإمكان.

00:25:46كيف يعمل؟ نقوم بتهيئة شبكتين هنا، معلم وطالب.

00:25:47كلاهما يتم تهيئتهما من نموذج مطابقة التدفق المتعلم عبر الخوارزمية التي عرضتها عليكم للتو.

00:25:47وما نفعله بعد ذلك هو تدريب الطالب للحصول على نفس جودة الصورة في الإخراج في أربع خطوات كما يفعل المعلم في 50 خطوة.

00:25:48هذا هو الهدف وهذه هي الطريقة التي نتبعها.

00:25:49نبدأ بصورة، نقوم بتشفيرها مرة أخرى إلى كامنة هنا، ثم نولد صورة إخراج للطالب في أربع خطوات أو في عدد الخطوات المستهدفة التي نريد القيام بها.

00:25:50ثم نقوم بفك تشفيرها مرة أخرى إلى بكسلات.

00:25:50في البداية، تبدو هذه الصورة هنا ضبابية جدًا وغير واقعية على الإطلاق.

00:25:51والهدف هو تحسينها بالطبع.

00:25:52لذا ما نفعله هو استخدام هذا مرة أخرى، وتشفيره مرة أخرى إلى كامنة، ثم القيام بنفس الشيء مع المعلم ولكن في 50 خطوة بدلاً من أربع خطوات.

00:25:53ينتج عن هذا صورة عالية الجودة، ثم نستخدم خسارة التقطير هذه، وهي في الأساس مجرد خسارة لضمان أن توزيعات المعلم أو الطالب تتطابق مع توزيعات المعلم.

00:25:54هذا وحده للأسف لن يسمح لنا بتوليد صور تبدو حقيقية.

00:25:54لذا ما نضيفه هو خسارة تمييز أخرى.

00:25:55رأينا هذا بالفعل في جزء المُشفّر التلقائي في جزء نمذجة التوليد الكامن من الحديث سابقًا.

00:25:56هذا هو نفسه بشكل أساسي.

00:25:56لذا ندرب مُميِّزًا لتمييز الصور المولدة من الطالب عن الصور الحقيقية التي ندخلها هنا.

00:25:57ويحدث هذا في مساحة ميزات dyno v2 أو في مساحة نموذج تمثيل صور متعلم بطريقة ما.

00:25:57وبهذه الطريقة، يمكننا بالفعل تدريب النموذج في النهاية على توليد صور واقعية بدلاً من استخدام 50 خطوة، فإنه يستخدم أربع خطوات فقط.

00:25:58وهذا تسريع هائل بالطبع.

00:25:59ومع ذلك، النقطة الأخيرة هنا.

00:25:59إذا نظرنا إلى هذا الشيء هنا، فإنه يبدو، أود أن أقول، الكثير من النفقات العامة هنا، أليس كذلك؟ لأننا هنا يجب أن ننتقل إلى الكامن.

00:26:01لذا نبدأ في مساحة الصورة، كوننا جزءًا من المساحة الكامنة، ونفك التشفير مرة أخرى، ثم يجب علينا التشفير مرة أخرى وفك التشفير مرة أخرى.

00:26:02ثم، هذا أيضًا يقوم بالتشفير مرة أخرى إلى مساحة تمثيل أخرى.

00:26:02الكثير من النفقات العامة، والكثير من تكاليف الذاكرة المتعلقة بهذا.

00:26:03وهذا أمر، لقد كنا مندهشين به بعد أن توصلنا إليه لأنه سمح لنا بتدريب نماذج سريعة.

00:26:03كان تدريب هذا يتطلب الكثير من الجهد.

00:26:04لذا فكرنا، حسنًا، كيف يمكننا تبسيط هذا بالفعل؟ والإجابة هي دائمًا الإجابة.

00:26:04فقط انقلها إلى المساحة الكامنة كلما كان لديك بكسل.

00:26:05لذا ما فعلناه هو التوصل إلى نهج تقطير الانتشار التنافسي الكامن.

00:26:05إنه مشابه جدًا لما فعلناه لخوارزمية نمذجة التوليد الكامن العامة.

00:26:06نحن فقط ننقل كل شيء هنا إلى المساحة الكامنة.

00:26:06نفس الشيء، ولكن بدلاً من الاضطرار إلى استخدام هذه المُشفّرات والمُفكّكات، يمكننا التخلص منها.

00:26:07والأهم من ذلك، كمُميِّز، لم نعد نستخدم dyno..

00:26:06نموذج تمثيل الصور هذا، نستخدم المعلم لأنه يعيش بالفعل في المساحة الكامنة، ويوفر لنا تمثيلًا رائعًا للصور.

00:26:15لذا يمكننا أيضًا استخدام المعلم كمُميِّز.

00:26:19والباقي هو نفسه تقريبًا.

00:26:21كما أننا نزيل خسارة التقطير.

00:26:24وجدنا أننا لا نحتاجها، وهو أمر رائع أيضًا.

00:26:28لذا أصبح لدينا خسارة أقل وكل شيء مبسط.

00:26:31وبهذه الطريقة، يمكننا بالفعل بطريقة فعالة جدًا من حيث الذاكرة تقليل عدد خطوات التكامل من خمس إلى أربع.

00:26:41لذا لدينا تسريع بمقدار 12.5 مرة، وهذا في الواقع ما نراه كترتيب حجم في الرسوم البيانية التي عرضتها عليكم للتو في بداية هذا القسم.

00:26:52إذن هذه هي الطريقة التي نحصل بها على نموذج سريع جدًا من مطابقة التدفق، من نموذج مطابقة تدفق أساسي.

00:27:02والآن قبل أن ينتهي هذا الحديث، لقد أحضرت لكم عرضًا توضيحيًا لأريكم Flux وهو يعمل قليلاً.

00:27:10دعونا نرى.

00:27:11إذن دعونا نستخدمه لتعديل الصور هنا.

00:27:14دعوني أحمل شيئًا بعد ذلك.

00:27:16ماذا نفعل هنا؟ هذا يبدو جيدًا.

00:27:19نعم.

00:27:19حسنًا.

00:27:20نعم.

00:27:20هذا جيد.

00:27:21لذا هنا أبدأ بشعار نادي كرة القدم المفضل لدي، نادي SC Freiburg لكرة القدم.

00:27:28يجب أن أقول كرة القدم عندما أكون في الولايات المتحدة.

00:27:33حسنًا.

00:27:33هذا هو ناديي المفضل وأريد إنشاء قميص بهذا الشعار.

00:27:38لذا دعنا نقول ضع هذا الشعار على قميص.

00:27:41يبدو غريبًا بعض الشيء لأنني لا أملك شاشة أمامي.

00:27:46حسنًا.

00:27:46ها نحن ذا.

00:27:47جاري التوليد.

00:27:48دعوني أجعل هذا أصغر قليلاً..

00:27:53ربما هكذا.

00:27:55حسنًا.

00:27:55جميل.

00:27:56ننتظر بضع ثوانٍ ونحصل على هذا الشعار الجميل على قميص.

00:28:02والشيء الجميل الآن هو أنه يمكننا المضي قدمًا، أليس كذلك؟ يمكننا التكرار على هذا.

00:28:12لذا دعنا نقول إن هذا الشعار كبير جدًا بعض الشيء، على حد تعبيري.

00:28:19اجعل الشعار أصغر وضعه على الجزء المتبقي.

00:28:24مرة أخرى.

00:28:25انتظر بضع ثوانٍ.

00:28:27حسنًا.

00:28:28رائع.

00:28:29ونصل إلى نتيجة رائعة حقًا.

00:28:32هذا هو ما أردته بالفعل.

00:28:34أريد أن أبدأ بهذا مرة أخرى.

00:28:38وأريد الآن تغيير اللون لأن لون SC Freiburg ليس أسود، بل أحمر.

00:28:45لذا اجعل القميص أحمر.

00:28:47بسيط جدًا أيضًا.

00:28:49الآن نحن في التعديل المحلي.

00:28:53نحن نعدل فقط أجزاء محلية من الصورة، أليس كذلك؟ في هذه الحالة اللون.

00:29:01والأهم من ذلك، لقد قمنا الآن ببعض التعديلات وما زلنا نرى أن الشعار ممثل بشكل متسق للغاية.

00:29:11لذا هذا هو اتساق الشخصية أو في هذه الحالة اتساق الكائن الذي رأيناه.

00:29:19هذا بالغ الأهمية.

00:29:21فكروا في مسوق لديه مجرد كائن ويريد وضعه في سياق معين، أليس كذلك؟ هذا من حيث القيمة التجارية، إنه رائع، إنه بالغ الأهمية.

00:29:36والآن أخيرًا نضيف تحويلاً أكثر تعقيدًا.

00:29:41يمكننا أن نقول ضع القميص على رجل يمشي في الحديقة.

00:29:46أوه.

00:29:47إذن هذا تحويل معقد وكان يمكنكم القول، حسنًا، أشياء مثل تغيير اللون يمكنكم القيام بها في فوتوشوب، أليس كذلك؟ تاريخيًا، أشياء كهذه، لم تكن أدوات توليد الصور القياسية أو غير الذكاء الاصطناعي السابقة قادرة على فعلها.

00:30:12هذا رائع حقًا.

00:30:14لذا هنا لدينا الآن هذا النوع من...

00:30:18وأخيرًا، أعتقد أن وقتي قد انتهى، ولكن دعونا نفعل شيئًا أخيرًا يوضح مدى عمومية هذا النموذج.

00:30:29يمكننا أيضًا القيام بنقل الأسلوب، أليس كذلك؟ لذا دعنا نقول اجعل هذا لوحة مائية..

00:30:42حسنًا، الأخير.

00:30:44وقبل نماذج كهذه، ربما كنتم ستدربون هذا الضبط الدقيق الفردي لكل نوع من هذه المهام، والآن يمكننا فقط دمجها في شيء واحد وهو أمر رائع جدًا.

00:30:58جميل.

00:30:59لذا الآن يمكنني طباعتها وتعليقها على حائطي أو شيء من هذا القبيل.

00:31:05على أي حال، نعم، أعتقد أن هذا يظهر قوة هذه النماذج.

00:31:11أوه، لقد تعطل شيء ما.

00:31:13أردت أن أعرض عليكم شريحة أخيرة لأنني انتهيت، لكننا نوظف، وإذا أردتم الانضمام إلينا، يرجى مسح هذا هنا أو زيارة الملعب، العرض التوضيحي الذي عرضته عليكم للتو متاح مجانًا.

00:31:31شكرًا جزيلاً.

00:31:32آمل أن تكونوا قد تعلمتم شيئًا..

Key Takeaway

Flux Context من Black Force Labs هو نموذج رائد للذكاء الاصطناعي التوليدي البصري متعدد الوسائط يوحد إنشاء الصور وتعديلها بسرعة فائقة، مما يجعله معيارًا جديدًا في المجال.

Highlights

تقدم Black Force Labs رؤية طموحة للوسائط المرئية كواجهة مركزية للتواصل البشري في المستقبل، مدعومة بعائلة نماذج Flux.
تتكون عائلة نماذج Flux من ثلاثة مستويات: Pro (لواجهة برمجة التطبيقات)، وDev (المعيار مفتوح المصدر لتوليد الصور)، وSchnell (نقطة دخول مفتوحة المصدر).
يوحد نموذج Flux Context الجديد توليد الصور من النصوص وتعديلها، مما يوفر ميزات مثل اتساق الشخصيات ونقل الأسلوب والتعديل المحلي بسرعة تقارب الوقت الفعلي.
تعتمد نماذج Flux على خوارزمية Latent Flow Matching التي تعمل في مساحة كامنة ذات أبعاد أقل لنمذجة التفاصيل الإدراكية بكفاءة.
تحقق نماذج Flux سرعتها الفائقة من خلال خوارزمية Latent Competitive Diffusion Distillation (LCDD)، التي تقلل عدد خطوات التكامل العددي من 50 إلى 4 خطوات فقط.
أظهر العرض التوضيحي قدرة Flux Context على إجراء تعديلات معقدة للصور، بما في ذلك وضع الكائنات، وتغيير المشاهد، ونقل الأسلوب، مع الحفاظ على الاتساق.

Timeline

رؤية Black Force Labs ومقدمة عن Flux

يقدم آندي، المؤسس المشارك لـ Black Force Labs، نفسه ويقدم لمحة متعمقة عن عائلة نماذج Flux لتوليد الصور وتعديلها. يؤكد على رؤية الشركة بأن الوسائط المرئية ستصبح الواجهة المركزية للتواصل البشري في المستقبل، وتهدف Black Force Labs لتكون المزود المركزي للبنية التحتية لتشغيل جميع الصور ومقاطع الفيديو. تأسست الشركة في أغسطس 2024 ونمت لتضم 45 موظفًا بمقرين رئيسيين في فرايبورغ بألمانيا وسان فرانسيسكو. هذا القسم يحدد السياق العام وأهداف الشركة الطموحة في مجال الذكاء الاصطناعي البصري.

عائلة نماذج Flux ومستوياتها

يشرح المتحدث المستويات الثلاثة لعائلة نماذج Flux التي تم إطلاقها في أغسطس 2024. تشمل هذه المستويات Flux Pro، وهي نماذج قوية وسريعة متاحة عبر واجهة برمجة التطبيقات وشركاء الاستدلال، وFlux Dev، وهي نماذج مفتوحة المصدر قابلة للتنزيل والتعديل والتخصيص بالكامل، وFlux Schnell، وهي نماذج مفتوحة المصدر بالكامل كنقطة دخول للنظام البيئي. يبرز أن Flux Dev أصبح المعيار لتوليد الصور مفتوح المصدر، حيث يمتلك أكبر نظام بيئي مرتبط به على Hugging Face. هذا التنوع في المستويات يلبي احتياجات مختلفة من المستخدمين، من الشركات الكبيرة إلى المطورين في المصادر المفتوحة.

تقديم Flux Context: توحيد التوليد والتعديل

يتعمق المتحدث في Flux Context، أحدث نماذجهم الذي يوحد توليد الصور من النصوص وتعديلها. يشدد على الأهمية الحاسمة لتعديل الصور، والذي لم يواكب سرعة تطور التوليد حتى الآن، ويوفر مستوى إضافيًا من التحكم. تم إصدار Flux Context في يونيو 2025 ويجمع بين توليد الصور وميزات التعديل مثل اتساق الشخصيات ونقل الأسلوب والتعديل المحلي بسرعة تقارب الوقت الفعلي. يقدم أمثلة توضيحية مثل إزالة كائن من صورة، ووضع شخصية في سياق جديد مع الحفاظ على اتساقها، ونقل الأسلوب، وتحويل رسومات تخطيطية إلى مخرجات مكتملة، مما يقلل الوقت المستغرق من ساعات إلى ثوانٍ.

مقارنة مسارات عمل توليد وتعديل الصور

يشرح المتحدث الاختلاف بين مسار عمل توليد النص إلى صورة الكلاسيكي ومسار عمل تعديل الصور. في توليد النص إلى صورة، يكون المدخل موجهًا نصيًا واحدًا، بينما في تعديل الصور، يتطلب المدخل صورة موجودة وتعليمات نصية لتغيير محدد، مع الحفاظ على أجزاء من الصورة الأصلية. يوضح أن دمج هذين المسارين في نموذج واحد، مثل Flux Context، يوفر مرونة أكبر بكثير، حيث يمكن للمستخدم توليد صورة ثم تعديلها على الفور. يلغي هذا التوحيد الحاجة إلى الضبط الدقيق المكثف الذي كان مطلوبًا سابقًا للحصول على تحكم دقيق في النماذج.

خوارزمية Latent Flow Matching: الجانب الكامن

يبدأ المتحدث بشرح خوارزمية Latent Flow Matching، وهي أساس تدريب نماذج Flux، ويركز على جانب 'الكامن' (Latent). يوضح أن العين البشرية لا تدرك جميع المعلومات في الصورة (مثل الفرق بين JPEG و PNG)، مما يعني أن تدريب النماذج التوليدية في مساحة البكسل على تفاصيل عالية التردد غير محسوسة هو إهدار للحوسبة. بدلاً من ذلك، يتم تعلم نموذج ضغط (مُشفّر تلقائي) لاستخراج 'مساحة كامنة' ذات أبعاد أقل. يتم تنظيم هذه المساحة الكامنة لضمان احتفاظها فقط بالمعلومات ذات الصلة إدراكيًا، بمساعدة خسارة التمييز، مما يجعل التدريب أكثر كفاءة.

خوارزمية Latent Flow Matching: مطابقة التدفق

يواصل المتحدث شرح خوارزمية Latent Flow Matching، مركزًا على جانب 'مطابقة التدفق' (Flow Matching) الذي يحدث في المساحة الكامنة. مطابقة التدفق هي عائلة من الخوارزميات التي تحول توزيعًا بسيطًا (مثل التوزيع الطبيعي القياسي) إلى توزيع معقد (مثل توزيع بيانات الصور الطبيعية) باستخدام حقل متجه تمثله شبكة عصبية. يتم تدريب النموذج لربط عينات من التوزيع البسيط بعينات من توزيع البيانات، مع ضمان عدم تقاطع المسارات. لإنشاء صور بناءً على نص، يتم تكييف الشبكة على المدخل النصي، ثم يتم أخذ عينات من التوزيع البسيط والتكامل على طول المسارات باستخدام مخطط تكامل عددي لإنتاج الصورة النهائية. ومع ذلك، يلاحظ أن هذه العملية بطيئة بطبيعتها، وتستغرق حوالي 30 ثانية إلى دقيقة واحدة لكل صورة.

بنية Flux Context وتحسين السرعة

يشرح المتحدث بنية Flux Context كنموذج محوّل خاص بكتل التدفق المزدوج التي تعالج الرموز المرئية والنصية بشكل منفصل ثم بشكل مشترك. النقطة المحورية في هذا القسم هي كيفية تحقيق نماذج Flux لسرعتها الفائقة، والتي تتجاوز النماذج المماثلة بمقدار 10-20 مرة. يتم ذلك من خلال خوارزمية 'التقطير الانتشاري التنافسي الكامن' (Latent Competitive Diffusion Distillation - LCDD). تهدف هذه الخوارزمية إلى تقليل خطوات التكامل العددي من 50 إلى 4 خطوات فقط، مما يقلل بشكل كبير من وقت التوليد. يتم تدريب نموذج 'طالب' ليطابق جودة نموذج 'معلم' في عدد أقل من الخطوات، باستخدام خسارة تمييزية ودمج كل العمليات في المساحة الكامنة لتقليل النفقات العامة وتحقيق تسريع هائل بمقدار 12.5 مرة.

عرض توضيحي حي لقدرات Flux Context

يقدم المتحدث عرضًا توضيحيًا حيًا لـ Flux Context، يوضح قدراته المتعددة في تعديل الصور. يبدأ بشعار نادي كرة قدم ويطلب من النموذج وضعه على قميص، ثم يطلب تصغير الشعار وتغيير لون القميص إلى الأحمر، مع الحفاظ على اتساق الشعار. يوضح هذا التعديل المحلي وقدرة النموذج على الحفاظ على اتساق الكائن. ثم ينتقل إلى تحويلات أكثر تعقيدًا، مثل وضع القميص على رجل يمشي في الحديقة، وأخيرًا تحويل الصورة بأكملها إلى لوحة مائية. يبرز العرض التوضيحي مرونة النموذج وعموميته، مما يلغي الحاجة إلى الضبط الدقيق الفردي للمهام المختلفة ويوفر قيمة تجارية كبيرة للمسوقين والمصممين.

Community Posts

Write about this video