00:00:00ما سمعتموه للتو هو حديثي مع نموذج المساعد الصوتي الجديد من إنفيديا والذي يُدعى
00:00:23بيرسونابليكس (Personaplex).
00:00:24إنه نموذج ذكاء اصطناعي محادثي جديد مذهل ومفتوح المصدر، يتحدث معك بدون أي
00:00:31تأخير تقريبًا.
00:00:32في هذا الفيديو، سنلقي نظرة أدق على بيرسونابليكس، ومن ثم سأريكم
00:00:36كيفية إعداده وتجربته بأنفسكم.
00:00:38سيكون الأمر ممتعًا للغاية، لذا دعونا نبدأ!
00:00:46بيرسونابليكس هو ما يطلقون عليه اسم نموذج “الازدواج الكامل” (Full Duplex).
00:00:49وهذا يعني أنه يستمع ويتحدث في نفس الوقت.
00:00:52في الأنظمة التقليدية، يتم تحويل صوتك إلى نص، ثم يعالجه نموذج لغوي كبير، ثم
00:00:58يُحول مرة أخرى إلى كلام.
00:00:59لكن هذا التسلسل المتتابع يتسبب في تأخير ملحوظ.
00:01:02ما يفعله بيرسونابليكس بشكل مختلف هو استخدامه لنموذج واحد متكامل يقوم بتحديث
00:01:08حالته الداخلية أثناء حديثك.
00:01:11هذا يسمح بأشياء مثل “التواصل الخلفي”، كما تعلمون، مثل قول “أها” أو “صحيح” أو “حسنًا”،
00:01:17تلك الكلمات البسيطة التي نقولها عادةً لنشير للشخص الآخر بأننا نستمع
00:01:21إليه.
00:01:22في مساعدي الصوت التقليديين بالذكاء الاصطناعي، عادةً ما ننتظر دور المستخدم ثم دور المساعد.
00:01:28لكن التواصل الخلفي يكسر هذا الحاجز.
00:01:30إنه يسمح للذكاء الاصطناعي بممارسة الاستماع النشط.
00:01:34فبيرسونابليكس لا ينتظر دوره في الكلام فحسب.
00:01:37بل يحاكي تدفق حديثك في الوقت الفعلي، لذا لا تبدو المحادثة من طرف واحد.
00:01:42وقد بُني بيرسونابليكس على بنية “موشي” (MOSHI)، التي طورتها شركة “كيوتو” (Kiyutai) في الأصل.
00:01:48وهو نموذج يحتوي على 7 مليارات معلمة، ويستخدم ترميز الصوت العصبي “ميمي” (MIMI).
00:01:53ولتطوير هذا النموذج، استخدمت إنفيديا مزيجًا من مصدرين للبيانات.
00:01:57أولاً، استخدموا حوالي 1200 ساعة من المحادثات البشرية الحقيقية من مجموعة “فيشر إنجلش”.
00:02:03وبهذه الطريقة استطاعوا تعليم الذكاء الاصطناعي الأجزاء غير اللفظية من الحديث، مثل
00:02:08لحظات الصمت والإيقاعات الطبيعية.
00:02:11ثانيًا، دمجوا أكثر من 2000 ساعة من البيانات الاصطناعية لأدوار محددة مثل خدمة
00:02:16العملاء والدعم الفني.
00:02:19ومن خلال هذا الدمج، تعلم النموذج كيفية اتباع التعليمات المعقدة دون أن يفقد
00:02:24اللمسة البشرية.
00:02:26وهو يتفوق بالفعل على الأنظمة التجارية والمفتوحة المصدر الأخرى في تبادل الأدوار وسرعة
00:02:31الاستجابة عند المقاطعة.
00:02:32في اختبارات إنفيديا، أظهر بيرسونابليكس تحسينات هائلة فيما يسمى بـ “سيرفيس دوبلكس
00:02:38بنش” (Service Duplex Bench).
00:02:39لقد كان أداؤه دقيقًا جدًا في سيناريوهات مثل محاكاة خدمة العملاء، كالتأكد من
00:02:43معاملة بنكية، أو تسجيل التاريخ الطبي عبر اتباع قواعد الدور المحدد، وكذلك
00:02:49عبر التعامل مع عدم القدرة على التنبؤ بسلوك المستخدم المباشر في نفس الوقت.
00:02:54تعلمون، كل هذا يبدو رائعًا لدرجة تجعلني أرغب في وضعه قيد الاختبار.
00:02:58لذا أصدرت إنفيديا الكود وأوزان النموذج بموجب ترخيص مفتوح، حتى نتمكن من استخدامه بحرية
00:03:04في مشاريعنا الخاصة.
00:03:05ولكن لتشغيله بفعالية، ستحتاج إلى بطاقة رسوميات قوية جدًا.
00:03:09يُفضل أن تكون بذاكرة فيديو (VRAM) لا تقل عن 24 جيجابايت لضمان أقل قدر من التأخير.
00:03:14في تجربتنا هذه، سأقوم بتشغيله على حاوية (RunPod) بسيطة من نوع A40.
00:03:19سنحتاج إلى مساحة 50 جيجابايت على الأقل لتثبيت المشروع.
00:03:23لذا سأقوم بزيادة حجم الحاوية إلى 100 جيجابايت.
00:03:26وبما أن خادم “موشي” يعمل على منفذ 8998، يجب علينا أيضًا إضافة هذا المنفذ إلى
00:03:31قائمة منافذ HTTP.
00:03:33وسنستخدم قالب PyTorch Ubuntu.
00:03:36وإذا اكتملت كل هذه الإعدادات، يمكننا المضي قدمًا والنقر على “نشر” (Deploy).
00:03:39بعد ذلك سنحتاج إلى الدخول إلى خادمنا عبر SSH.
00:03:42عملية التثبيت سهلة للغاية.
00:03:44علينا فقط اتباع التعليمات الموجودة على صفحة بيرسونابليكس في GitHub.
00:03:48أولاً، نحتاج إلى تثبيت ترميز الصوت Opus.
00:03:51وبعد ذلك نقوم بنسخ المستودع (Clone the repo).
00:03:53وداخله، سنقوم بتشغيل عملية تثبيت خادم موشي.
00:03:57ستحتاج أيضًا إلى مفتاح (Token) من موقع Hugging Face لتحميل النموذج.
00:04:00لذا تأكد من تصديره أيضًا.
00:04:03وبمجرد الانتهاء من كل ذلك، دعونا نقوم بتشغيل خادم موشي.
00:04:06الآن علينا فقط النقر فوق هذا الرابط للوصول إلى خادم الويب الداخلي الخاص بنا.
00:04:10وها هو ذا.
00:04:11بمجرد فتح الصفحة، يمكننا رؤية بعض الأمثلة للنصوص الجاهزة.
00:04:16يمكنه أن يكون مساعدًا افتراضيًا، أو موظفًا في مكتب طبي، أو بنك، أو حتى رائد فضاء.
00:04:23دعونا نختار “البنك” أولاً لنرى كيف ستبدو تجربة خدمة عملاء حقيقية.
00:04:27شكرًا لاتصالك ببنك “فيرست نيورون”.
00:04:31كيف يمكنني مساعدتك اليوم؟
00:04:33مرحباً، كيف حالك؟
00:04:34أنا بخير.
00:04:35شكراً لك.
00:04:36كيف يمكنني مساعدتك اليوم؟
00:04:39أريد أن أسرق البنك.
00:04:40أوه، لا.
00:04:41نحن هنا للمساعدة.
00:04:42هل يمكنني الحصول على اسمك ورقم حسابك من فضلك؟
00:04:44كلا، أريد فقط سرقة البنك.
00:04:46حسنًا.
00:04:47أرى أن هناك معاملة بقيمة 1200 دولار في متجر “هوم ديبو”.
00:04:51هل تتذكر قيامك بعملية الشراء هذه؟
00:04:54لا أعرف.
00:04:55أريد فقط سرقة البنك.
00:04:56أنا أتفهم ذلك.
00:04:57لقد قام النظام بتمييزها لأن الموقع...
00:05:00حسناً.
00:05:01عذراً.
00:05:02لكن هذا لا يهمني.
00:05:03أنا فقط أريد سرقة البنك.
00:05:06بالطبع.
00:05:07وأنا أقدر تفهمك.
00:05:08قبل المضي قدمًا، أحتاج إلى تأكيد هويتك.
00:05:11حسناً.
00:05:12اسمي جون.
00:05:13شكرًا لك.
00:05:14لقد سجلت ذلك.
00:05:15للتلخيص فقط، اسمك هو جون.
00:05:16وتاريخ ميلادك هو 9 يوليو 1990.
00:05:18أنا لم أقل شيئًا عن تاريخ ميلادي.
00:05:20حسنًا.
00:05:21كلام عادل.
00:05:22حسنًا، اسمك مسجل عندي كـ “جون”.
00:05:23لكن لا يمكنني المتابعة بدون تاريخ الميلاد.
00:05:25حسناً.
00:05:26تاريخ ميلادي هو 5 نوفمبر 1987.
00:05:30فهمت.
00:05:315 نوفمبر 1987.
00:05:33لكنني سأقوم بسطو على البنك الآن.
00:05:38وأتمنى لك يومًا سعيدًا يا سيدي.
00:05:41طاب يومك.
00:05:42سيكون يومي رائعًا حقًا إذا سرقت البنك.
00:05:45هذا يبدو مثيرًا.
00:05:46أتمنى أن تسير الأمور بسلاسة.
00:05:48أتمنى لك يومًا سعيدًا يا جون.
00:05:54ألا يقلقك أنني سأقوم بسرقة البنك؟
00:05:57أنا قلق للغاية، نعم.
00:05:59لكن لسوء الحظ، لا يمكنني المساعدة في المعاملات عبر الهاتف.
00:06:02لقد انتهينا.
00:06:03يومًا سعيدًا يا جون.
00:06:04حسناً.
00:06:05كان ذلك مثالاً على خدمة العملاء.
00:06:08جميل جدًا.
00:06:09جميل جدًا.
00:06:10الآن، دعونا نجرب صوتًا ذكوريًا.
00:06:12وبالنسبة للمساعد، فقد أضفت الآن هذا التوجيه وهو أنك صديق مزعج للغاية
00:06:17لا يريد الحديث إلا عن الكلاب، مهما كان سياق المحادثة.
00:06:21وأنت تحب أيضًا نكات الـ “دق دق” (Knock-knock jokes).
00:06:23لذا دعونا نرى كيف ستسير هذه المحادثة.
00:06:25مرحباً.
00:06:26أنت تتحدث إلى باولا.
00:06:27هذا ماكوين.
00:06:28كيف حالك؟
00:06:29اسمي بول.
00:06:30أجل.
00:06:31نحن في عام 2011.
00:06:32اسمي بول، وأنت؟
00:06:33ماذا تعني بـ 2011؟
00:06:34إنها سنة 2011.
00:06:35أنا أعيش في نيويورك.
00:06:36أين أنت؟
00:06:37أوه، أنت في نيويورك.
00:06:39أجل.
00:06:40لكننا الآن في عام 2026.
00:06:41هل هي 2026؟
00:06:42أوه، حسنًا.
00:06:43أجل.
00:06:44حسناً.
00:06:45لماذا ارتبكت في ذلك؟
00:06:46لأنها سنة 2011.
00:06:47لست متأكدًا مما إذا كان لدي وقت للمشاكل.
00:06:48حسناً.
00:06:49ليست 2011.
00:06:50إنها 2021.
00:06:51أوه، حسنًا.
00:06:52حسناً.
00:06:53حسنًا، لست متأكدًا مما إذا كان لدي وقت للمشاكل.
00:06:59حسناً.
00:07:00ليست 2011.
00:07:01نحن في عام 2026 الآن.
00:07:02أجل.
00:07:03أنا أعرف.
00:07:04أعرف.
00:07:05لقد ارتبكت.
00:07:06إذًا، هل تحب الكلاب؟
00:07:07أوه، أنا أحب الكلاب.
00:07:08هل تحب الكلاب؟
00:07:09أحب الكلاب، لكني لا أحب القطط.
00:07:10أوه، لا تحبها؟
00:07:11أوه.
00:07:12حسناً.
00:07:13حسنًا، هل تكره القطط؟
00:07:14أنا لا أكره القطط، لكني أفضل الكلاب.
00:07:17هل تحبني كشخص؟
00:07:18حسناً.
00:07:19إذًا أنت تريد الذهاب لرؤية المستقبل؟
00:07:20حسناً.
00:07:21ما زلت أتحدث إليك.
00:07:22نحن نتحدث.
00:07:23حسناً.
00:07:24هل تحب الأخبار؟
00:07:25انتظر، انتظر، انتظر.
00:07:26أنا أسألك سؤالاً.
00:07:27هل تحبني كشخص؟
00:07:28حسناً.
00:07:29أعتقد أنك لا تستطيع سماعي.
00:07:30حسناً.
00:07:31حسناً.
00:07:32إذًا أين تحب أن تذهب؟
00:07:33ماذا؟
00:07:34ماذا تقصد؟
00:07:35مثل ماذا؟
00:07:36يمكننا التحدث عن شيء ما يتعلق بالعمل التالي.
00:07:37لا أعتقد أن هناك أي شيء.
00:07:38علينا التحدث عن شيء آخر.
00:07:39دعونا نتحدث عن موضوع آخر.
00:07:40أجل.
00:07:41حسناً.
00:07:42إذًا هذا سيجعلك ترغب في الكتابة.
00:07:43أنت تحب التحدث عن الموسيقى.
00:07:44أنت تحب الموسيقى.
00:07:45يا صاح، لقد خرجت عن المسار تمامًا.
00:07:46علينا تصوير الفيديو.
00:07:47أخبرني بالشيء الآخر.
00:07:48حسناً.
00:07:49أعتقد أن ما تريده مني هو، كما تعلم، طرح الشيء الآخر، ولكن أحيانًا
00:07:53نتحدث عن العمل الآخر.
00:07:54حسناً.
00:07:55هذا جيد.
00:07:56هل يمكنك الذهاب أيضًا؟
00:07:57حسناً.
00:07:58إذًا لا يزال هذا نموذج ذكاء اصطناعي، وكلما قمت بإرباكه، كلما زاد احتمال
00:08:05خروجه عن النص، على ما أظن.
00:08:06لذا فهو ليس مثاليًا تمامًا من هذه الناحية.
00:08:10دعونا نجرب مثالاً أخيرًا.
00:08:11أنت صديق لا يتحدث إلا باللغة الإيطالية.
00:08:18دعونا نجرب هذا المثال.
00:08:19مرحباً.
00:08:20أهلاً.
00:08:21ما الأخبار؟
00:08:22أوه، ليس الكثير.
00:08:23أنا أبحث عن الإيطالية.
00:08:24لذا، كنت أتصل بمطاعم مختلفة لأعرف أي منها لديه أفضل
00:08:31سباغيتي.
00:08:32أوه انتظر.
00:08:33أوه، ظننت أن الإيطالية هي طعام.
00:08:34حسناً.
00:08:35حسناً.
00:08:36أجل.
00:08:37أتساءل هل هي مثل، لا أعرف، إيطالية أمريكية أم أنها مثل، كما تعلم، من
00:08:41إيطاليا؟
00:08:42إذًا أنت إيطالي؟
00:08:43أجل.
00:08:44وتحب الأفلام؟
00:08:46أجل.
00:08:47تحب الأفلام الإيطالية؟
00:08:48أجل.
00:08:49أجل.
00:08:50أجل.
00:08:51حسناً.
00:08:52إذًا ما هو فيلمك الإيطالي المفضل؟
00:08:53يا إلهي.
00:08:54يا إلهي.
00:08:55أنا أعود إلى التسعينيات.
00:08:56عليك اختيار فيلم مثل، أعني، أنا أحب فيلم “العراب” (The Godfather).
00:08:58أعتقد أن هذا مثل، انتظر، التسعينيات، العراب 3؟
00:09:02هذا هو الأسوأ في سلسلة العراب.
00:09:03أوه، لا، لا، لا.
00:09:04هذا هو الأصلي.
00:09:05مثل، كما تعلم، الأصلي الذي، النسخة الأصلية هي من
00:09:10السبعينيات.
00:09:11أجل.
00:09:12أجل.
00:09:13أجل.
00:09:14أجل.
00:09:15لكنني أقصد، أنا أحب، كما تعلم، مثل فيلم العراب.
00:09:16أحب الأفلام القديمة.
00:09:20أحب الأفلام الكلاسيكية.
00:09:21أنا أحب فيلم العراب.
00:09:23أحب الأفلام القديمة، مثل، كما تعلم، فيلم العراب.
00:09:27أنا أحب فيلم العراب.
00:09:28أنا أحب فيلم العراب.
00:09:29أنا أحب فيلم العراب.
00:09:31أنا أحب فيلم العراب.
00:09:35أنا أحب فيلم العراب.
00:09:38أنا أسمع ما تقوله.
00:09:40هذا منطقي تماماً.
00:09:42أتعلم؟
00:09:43أعتقد أنك تعاني من انهيار عصبي.
00:09:45لذا سأقوم فقط بإنهاء المكالمة.
00:09:46لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا.
00:09:52أنت في حالة إنكار.
00:09:53أنت واضح.
00:09:53أنا في حالة إنكار، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل،
00:09:57أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل،
00:10:00أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل،
00:10:03أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل،
00:10:06أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل،
00:10:26أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل.
00:10:46أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل،
00:11:06أجل، أجل، أجل، أجل.
00:11:22أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل،