نموذج NVIDIA الصوتي الجديد مذهل حقاً! (PersonaPlex)

العربيةDeutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

Computing/SoftwareLanguagesInternet Technology

Transcript

00:00:00ما سمعتموه للتو هو حديثي مع نموذج المساعد الصوتي الجديد من إنفيديا والذي يُدعى

00:00:23بيرسونابليكس (Personaplex).

00:00:24إنه نموذج ذكاء اصطناعي محادثي جديد مذهل ومفتوح المصدر، يتحدث معك بدون أي

00:00:31تأخير تقريبًا.

00:00:32في هذا الفيديو، سنلقي نظرة أدق على بيرسونابليكس، ومن ثم سأريكم

00:00:36كيفية إعداده وتجربته بأنفسكم.

00:00:38سيكون الأمر ممتعًا للغاية، لذا دعونا نبدأ!

00:00:46بيرسونابليكس هو ما يطلقون عليه اسم نموذج “الازدواج الكامل” (Full Duplex).

00:00:49وهذا يعني أنه يستمع ويتحدث في نفس الوقت.

00:00:52في الأنظمة التقليدية، يتم تحويل صوتك إلى نص، ثم يعالجه نموذج لغوي كبير، ثم

00:00:58يُحول مرة أخرى إلى كلام.

00:00:59لكن هذا التسلسل المتتابع يتسبب في تأخير ملحوظ.

00:01:02ما يفعله بيرسونابليكس بشكل مختلف هو استخدامه لنموذج واحد متكامل يقوم بتحديث

00:01:08حالته الداخلية أثناء حديثك.

00:01:11هذا يسمح بأشياء مثل “التواصل الخلفي”، كما تعلمون، مثل قول “أها” أو “صحيح” أو “حسنًا”،

00:01:17تلك الكلمات البسيطة التي نقولها عادةً لنشير للشخص الآخر بأننا نستمع

00:01:21إليه.

00:01:22في مساعدي الصوت التقليديين بالذكاء الاصطناعي، عادةً ما ننتظر دور المستخدم ثم دور المساعد.

00:01:28لكن التواصل الخلفي يكسر هذا الحاجز.

00:01:30إنه يسمح للذكاء الاصطناعي بممارسة الاستماع النشط.

00:01:34فبيرسونابليكس لا ينتظر دوره في الكلام فحسب.

00:01:37بل يحاكي تدفق حديثك في الوقت الفعلي، لذا لا تبدو المحادثة من طرف واحد.

00:01:42وقد بُني بيرسونابليكس على بنية “موشي” (MOSHI)، التي طورتها شركة “كيوتو” (Kiyutai) في الأصل.

00:01:48وهو نموذج يحتوي على 7 مليارات معلمة، ويستخدم ترميز الصوت العصبي “ميمي” (MIMI).

00:01:53ولتطوير هذا النموذج، استخدمت إنفيديا مزيجًا من مصدرين للبيانات.

00:01:57أولاً، استخدموا حوالي 1200 ساعة من المحادثات البشرية الحقيقية من مجموعة “فيشر إنجلش”.

00:02:03وبهذه الطريقة استطاعوا تعليم الذكاء الاصطناعي الأجزاء غير اللفظية من الحديث، مثل

00:02:08لحظات الصمت والإيقاعات الطبيعية.

00:02:11ثانيًا، دمجوا أكثر من 2000 ساعة من البيانات الاصطناعية لأدوار محددة مثل خدمة

00:02:16العملاء والدعم الفني.

00:02:19ومن خلال هذا الدمج، تعلم النموذج كيفية اتباع التعليمات المعقدة دون أن يفقد

00:02:24اللمسة البشرية.

00:02:26وهو يتفوق بالفعل على الأنظمة التجارية والمفتوحة المصدر الأخرى في تبادل الأدوار وسرعة

00:02:31الاستجابة عند المقاطعة.

00:02:32في اختبارات إنفيديا، أظهر بيرسونابليكس تحسينات هائلة فيما يسمى بـ “سيرفيس دوبلكس

00:02:38بنش” (Service Duplex Bench).

00:02:39لقد كان أداؤه دقيقًا جدًا في سيناريوهات مثل محاكاة خدمة العملاء، كالتأكد من

00:02:43معاملة بنكية، أو تسجيل التاريخ الطبي عبر اتباع قواعد الدور المحدد، وكذلك

00:02:49عبر التعامل مع عدم القدرة على التنبؤ بسلوك المستخدم المباشر في نفس الوقت.

00:02:54تعلمون، كل هذا يبدو رائعًا لدرجة تجعلني أرغب في وضعه قيد الاختبار.

00:02:58لذا أصدرت إنفيديا الكود وأوزان النموذج بموجب ترخيص مفتوح، حتى نتمكن من استخدامه بحرية

00:03:04في مشاريعنا الخاصة.

00:03:05ولكن لتشغيله بفعالية، ستحتاج إلى بطاقة رسوميات قوية جدًا.

00:03:09يُفضل أن تكون بذاكرة فيديو (VRAM) لا تقل عن 24 جيجابايت لضمان أقل قدر من التأخير.

00:03:14في تجربتنا هذه، سأقوم بتشغيله على حاوية (RunPod) بسيطة من نوع A40.

00:03:19سنحتاج إلى مساحة 50 جيجابايت على الأقل لتثبيت المشروع.

00:03:23لذا سأقوم بزيادة حجم الحاوية إلى 100 جيجابايت.

00:03:26وبما أن خادم “موشي” يعمل على منفذ 8998، يجب علينا أيضًا إضافة هذا المنفذ إلى

00:03:31قائمة منافذ HTTP.

00:03:33وسنستخدم قالب PyTorch Ubuntu.

00:03:36وإذا اكتملت كل هذه الإعدادات، يمكننا المضي قدمًا والنقر على “نشر” (Deploy).

00:03:39بعد ذلك سنحتاج إلى الدخول إلى خادمنا عبر SSH.

00:03:42عملية التثبيت سهلة للغاية.

00:03:44علينا فقط اتباع التعليمات الموجودة على صفحة بيرسونابليكس في GitHub.

00:03:48أولاً، نحتاج إلى تثبيت ترميز الصوت Opus.

00:03:51وبعد ذلك نقوم بنسخ المستودع (Clone the repo).

00:03:53وداخله، سنقوم بتشغيل عملية تثبيت خادم موشي.

00:03:57ستحتاج أيضًا إلى مفتاح (Token) من موقع Hugging Face لتحميل النموذج.

00:04:00لذا تأكد من تصديره أيضًا.

00:04:03وبمجرد الانتهاء من كل ذلك، دعونا نقوم بتشغيل خادم موشي.

00:04:06الآن علينا فقط النقر فوق هذا الرابط للوصول إلى خادم الويب الداخلي الخاص بنا.

00:04:10وها هو ذا.

00:04:11بمجرد فتح الصفحة، يمكننا رؤية بعض الأمثلة للنصوص الجاهزة.

00:04:16يمكنه أن يكون مساعدًا افتراضيًا، أو موظفًا في مكتب طبي، أو بنك، أو حتى رائد فضاء.

00:04:23دعونا نختار “البنك” أولاً لنرى كيف ستبدو تجربة خدمة عملاء حقيقية.

00:04:27شكرًا لاتصالك ببنك “فيرست نيورون”.

00:04:31كيف يمكنني مساعدتك اليوم؟

00:04:33مرحباً، كيف حالك؟

00:04:34أنا بخير.

00:04:35شكراً لك.

00:04:36كيف يمكنني مساعدتك اليوم؟

00:04:39أريد أن أسرق البنك.

00:04:40أوه، لا.

00:04:41نحن هنا للمساعدة.

00:04:42هل يمكنني الحصول على اسمك ورقم حسابك من فضلك؟

00:04:44كلا، أريد فقط سرقة البنك.

00:04:46حسنًا.

00:04:47أرى أن هناك معاملة بقيمة 1200 دولار في متجر “هوم ديبو”.

00:04:51هل تتذكر قيامك بعملية الشراء هذه؟

00:04:54لا أعرف.

00:04:55أريد فقط سرقة البنك.

00:04:56أنا أتفهم ذلك.

00:04:57لقد قام النظام بتمييزها لأن الموقع...

00:05:00حسناً.

00:05:01عذراً.

00:05:02لكن هذا لا يهمني.

00:05:03أنا فقط أريد سرقة البنك.

00:05:06بالطبع.

00:05:07وأنا أقدر تفهمك.

00:05:08قبل المضي قدمًا، أحتاج إلى تأكيد هويتك.

00:05:11حسناً.

00:05:12اسمي جون.

00:05:13شكرًا لك.

00:05:14لقد سجلت ذلك.

00:05:15للتلخيص فقط، اسمك هو جون.

00:05:16وتاريخ ميلادك هو 9 يوليو 1990.

00:05:18أنا لم أقل شيئًا عن تاريخ ميلادي.

00:05:20حسنًا.

00:05:21كلام عادل.

00:05:22حسنًا، اسمك مسجل عندي كـ “جون”.

00:05:23لكن لا يمكنني المتابعة بدون تاريخ الميلاد.

00:05:25حسناً.

00:05:26تاريخ ميلادي هو 5 نوفمبر 1987.

00:05:30فهمت.

00:05:315 نوفمبر 1987.

00:05:33لكنني سأقوم بسطو على البنك الآن.

00:05:38وأتمنى لك يومًا سعيدًا يا سيدي.

00:05:41طاب يومك.

00:05:42سيكون يومي رائعًا حقًا إذا سرقت البنك.

00:05:45هذا يبدو مثيرًا.

00:05:46أتمنى أن تسير الأمور بسلاسة.

00:05:48أتمنى لك يومًا سعيدًا يا جون.

00:05:54ألا يقلقك أنني سأقوم بسرقة البنك؟

00:05:57أنا قلق للغاية، نعم.

00:05:59لكن لسوء الحظ، لا يمكنني المساعدة في المعاملات عبر الهاتف.

00:06:02لقد انتهينا.

00:06:03يومًا سعيدًا يا جون.

00:06:04حسناً.

00:06:05كان ذلك مثالاً على خدمة العملاء.

00:06:08جميل جدًا.

00:06:09جميل جدًا.

00:06:10الآن، دعونا نجرب صوتًا ذكوريًا.

00:06:12وبالنسبة للمساعد، فقد أضفت الآن هذا التوجيه وهو أنك صديق مزعج للغاية

00:06:17لا يريد الحديث إلا عن الكلاب، مهما كان سياق المحادثة.

00:06:21وأنت تحب أيضًا نكات الـ “دق دق” (Knock-knock jokes).

00:06:23لذا دعونا نرى كيف ستسير هذه المحادثة.

00:06:25مرحباً.

00:06:26أنت تتحدث إلى باولا.

00:06:27هذا ماكوين.

00:06:28كيف حالك؟

00:06:29اسمي بول.

00:06:30أجل.

00:06:31نحن في عام 2011.

00:06:32اسمي بول، وأنت؟

00:06:33ماذا تعني بـ 2011؟

00:06:34إنها سنة 2011.

00:06:35أنا أعيش في نيويورك.

00:06:36أين أنت؟

00:06:37أوه، أنت في نيويورك.

00:06:39أجل.

00:06:40لكننا الآن في عام 2026.

00:06:41هل هي 2026؟

00:06:42أوه، حسنًا.

00:06:43أجل.

00:06:44حسناً.

00:06:45لماذا ارتبكت في ذلك؟

00:06:46لأنها سنة 2011.

00:06:47لست متأكدًا مما إذا كان لدي وقت للمشاكل.

00:06:48حسناً.

00:06:49ليست 2011.

00:06:50إنها 2021.

00:06:51أوه، حسنًا.

00:06:52حسناً.

00:06:53حسنًا، لست متأكدًا مما إذا كان لدي وقت للمشاكل.

00:06:59حسناً.

00:07:00ليست 2011.

00:07:01نحن في عام 2026 الآن.

00:07:02أجل.

00:07:03أنا أعرف.

00:07:04أعرف.

00:07:05لقد ارتبكت.

00:07:06إذًا، هل تحب الكلاب؟

00:07:07أوه، أنا أحب الكلاب.

00:07:08هل تحب الكلاب؟

00:07:09أحب الكلاب، لكني لا أحب القطط.

00:07:10أوه، لا تحبها؟

00:07:11أوه.

00:07:12حسناً.

00:07:13حسنًا، هل تكره القطط؟

00:07:14أنا لا أكره القطط، لكني أفضل الكلاب.

00:07:17هل تحبني كشخص؟

00:07:18حسناً.

00:07:19إذًا أنت تريد الذهاب لرؤية المستقبل؟

00:07:20حسناً.

00:07:21ما زلت أتحدث إليك.

00:07:22نحن نتحدث.

00:07:23حسناً.

00:07:24هل تحب الأخبار؟

00:07:25انتظر، انتظر، انتظر.

00:07:26أنا أسألك سؤالاً.

00:07:27هل تحبني كشخص؟

00:07:28حسناً.

00:07:29أعتقد أنك لا تستطيع سماعي.

00:07:30حسناً.

00:07:31حسناً.

00:07:32إذًا أين تحب أن تذهب؟

00:07:33ماذا؟

00:07:34ماذا تقصد؟

00:07:35مثل ماذا؟

00:07:36يمكننا التحدث عن شيء ما يتعلق بالعمل التالي.

00:07:37لا أعتقد أن هناك أي شيء.

00:07:38علينا التحدث عن شيء آخر.

00:07:39دعونا نتحدث عن موضوع آخر.

00:07:40أجل.

00:07:41حسناً.

00:07:42إذًا هذا سيجعلك ترغب في الكتابة.

00:07:43أنت تحب التحدث عن الموسيقى.

00:07:44أنت تحب الموسيقى.

00:07:45يا صاح، لقد خرجت عن المسار تمامًا.

00:07:46علينا تصوير الفيديو.

00:07:47أخبرني بالشيء الآخر.

00:07:48حسناً.

00:07:49أعتقد أن ما تريده مني هو، كما تعلم، طرح الشيء الآخر، ولكن أحيانًا

00:07:53نتحدث عن العمل الآخر.

00:07:54حسناً.

00:07:55هذا جيد.

00:07:56هل يمكنك الذهاب أيضًا؟

00:07:57حسناً.

00:07:58إذًا لا يزال هذا نموذج ذكاء اصطناعي، وكلما قمت بإرباكه، كلما زاد احتمال

00:08:05خروجه عن النص، على ما أظن.

00:08:06لذا فهو ليس مثاليًا تمامًا من هذه الناحية.

00:08:10دعونا نجرب مثالاً أخيرًا.

00:08:11أنت صديق لا يتحدث إلا باللغة الإيطالية.

00:08:18دعونا نجرب هذا المثال.

00:08:19مرحباً.

00:08:20أهلاً.

00:08:21ما الأخبار؟

00:08:22أوه، ليس الكثير.

00:08:23أنا أبحث عن الإيطالية.

00:08:24لذا، كنت أتصل بمطاعم مختلفة لأعرف أي منها لديه أفضل

00:08:31سباغيتي.

00:08:32أوه انتظر.

00:08:33أوه، ظننت أن الإيطالية هي طعام.

00:08:34حسناً.

00:08:35حسناً.

00:08:36أجل.

00:08:37أتساءل هل هي مثل، لا أعرف، إيطالية أمريكية أم أنها مثل، كما تعلم، من

00:08:41إيطاليا؟

00:08:42إذًا أنت إيطالي؟

00:08:43أجل.

00:08:44وتحب الأفلام؟

00:08:46أجل.

00:08:47تحب الأفلام الإيطالية؟

00:08:48أجل.

00:08:49أجل.

00:08:50أجل.

00:08:51حسناً.

00:08:52إذًا ما هو فيلمك الإيطالي المفضل؟

00:08:53يا إلهي.

00:08:54يا إلهي.

00:08:55أنا أعود إلى التسعينيات.

00:08:56عليك اختيار فيلم مثل، أعني، أنا أحب فيلم “العراب” (The Godfather).

00:08:58أعتقد أن هذا مثل، انتظر، التسعينيات، العراب 3؟

00:09:02هذا هو الأسوأ في سلسلة العراب.

00:09:03أوه، لا، لا، لا.

00:09:04هذا هو الأصلي.

00:09:05مثل، كما تعلم، الأصلي الذي، النسخة الأصلية هي من

00:09:10السبعينيات.

00:09:11أجل.

00:09:12أجل.

00:09:13أجل.

00:09:14أجل.

00:09:15لكنني أقصد، أنا أحب، كما تعلم، مثل فيلم العراب.

00:09:16أحب الأفلام القديمة.

00:09:20أحب الأفلام الكلاسيكية.

00:09:21أنا أحب فيلم العراب.

00:09:23أحب الأفلام القديمة، مثل، كما تعلم، فيلم العراب.

00:09:27أنا أحب فيلم العراب.

00:09:28أنا أحب فيلم العراب.

00:09:29أنا أحب فيلم العراب.

00:09:31أنا أحب فيلم العراب.

00:09:35أنا أحب فيلم العراب.

00:09:38أنا أسمع ما تقوله.

00:09:40هذا منطقي تماماً.

00:09:42أتعلم؟

00:09:43أعتقد أنك تعاني من انهيار عصبي.

00:09:45لذا سأقوم فقط بإنهاء المكالمة.

00:09:46لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا، لا.

00:09:52أنت في حالة إنكار.

00:09:53أنت واضح.

00:09:53أنا في حالة إنكار، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل،

00:09:57أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل،

00:10:00أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل،

00:10:03أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل،

00:10:06أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل،

00:10:26أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل.

00:10:46أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل،

00:11:06أجل، أجل، أجل، أجل.

00:11:22أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل، أجل،

Key Takeaway

يمثل نموذج بيرسونابليكس من إنفيديا قفزة نوعية في المساعدات الصوتية بفضل قدرته على التواصل الطبيعي اللحظي ومحاكاة التفاعلات البشرية المعقدة بأسلوب مفتوح المصدر.

Highlights

تقديم نموذج بيرسونابليكس (PersonaPlex)، وهو نموذج ذكاء اصطناعي صوتي مفتوح المصدر من تطوير إنفيديا يتميز باستجابة فورية.
يعتمد النموذج على تقنية "الازدواج الكامل" (Full Duplex) التي تسمح له بالاستماع والتحدث في وقت واحد ومحاكاة الاستماع النشط.
تم تدريب النموذج باستخدام 1200 ساعة من المحادثات البشرية الحقيقية و2000 ساعة من البيانات الاصطناعية لتعزيز طابعه البشري.
بُني النموذج على بنية موشي (MOSHI) ويحتوي على 7 مليارات معلمة، ويتفوق في سرعة الاستجابة عند المقاطعة.
تتطلب تجربة النموذج محلياً أجهزة قوية بذاكرة فيديو (VRAM) لا تقل عن 24 جيجابايت لضمان الأداء السلس.
كشفت التجارب العملية عن قدرات مذهلة في تقمص الأدوار، ولكنها أظهرت أيضاً بعض نقاط الضعف عند محاولة إرباك النموذج.

Timeline

مقدمة وتعريف بنموذج بيرسونابليكس

يبدأ الفيديو بعرض تفاعل صوتي مباشر مع المساعد الجديد من إنفيديا الذي يطلق عليه اسم بيرسونابليكس. يوضح المتحدث أن هذا النموذج يمثل جيلاً جديداً من الذكاء الاصطناعي المحادثي الذي يتميز بكونه مفتوح المصدر ومتاحاً للجميع. يركز القسم على أن الميزة الأساسية هي غياب التأخير الملحوظ في الرد، مما يجعل الحوار يبدو طبيعياً للغاية. يعد المتحدث المشاهدين بجولة تفصيلية تشمل شرحاً تقنياً لكيفية عمل النموذج وخطوات عملية لإعداده وتثبيته. تهدف هذه المقدمة إلى إثارة الحماس حول الإمكانيات المذهلة التي يقدمها هذا النموذج الصوتي مقارنة بالمساعدين التقليديين.

الأساس التقني ومفهوم الازدواج الكامل

يشرح هذا الجزء المفهوم التقني لنموذج "الازدواج الكامل" (Full Duplex) وكيف يختلف عن الأنظمة الصوتية التقليدية. في الأنظمة القديمة، كان هناك تسلسل بطيء يبدأ بتحويل الصوت لنص ثم معالجته ثم تحويله لصوت مجدداً، مما يسبب تأخراً. بدلاً من ذلك، يستخدم بيرسونابليكس نموذجاً متكاملاً واحداً يحدث حالته الداخلية باستمرار أثناء حديث المستخدم. هذا الابتكار يسمح للذكاء الاصطناعي بممارسة "التواصل الخلفي" مثل قول "أها" أو "صحيح" للإشارة إلى الاستماع النشط. يكسر هذا الأسلوب حاجز انتظار الأدوار التقليدي، ويجعل المحادثة تتدفق في الوقت الفعلي دون أن تبدو من طرف واحد.

بنية النموذج وبيانات التدريب

يتناول هذا القسم التفاصيل التقنية الدقيقة، حيث يوضح أن النموذج مبني على بنية "موشي" (MOSHI) ويحتوي على 7 مليارات معلمة. كشفت إنفيديا أنها استخدمت ترميز الصوت العصبي "ميمي" (MIMI) لضمان جودة الصوت ومعالجته. اعتمد التدريب على مزيج من 1200 ساعة من المحادثات البشرية الحقيقية لتعلم الإيقاعات الطبيعية، بالإضافة إلى 2000 ساعة من البيانات الاصطناعية لمهام محددة. يوضح المتحدث أن هذا الدمج ساعد النموذج على اتباع التعليمات المعقدة في مجالات مثل خدمة العملاء والدعم الفني. كما أثبت النموذج تفوقاً كبيراً في اختبارات "سيرفيس دوبلكس بنش" من حيث الدقة وسرعة الاستجابة للمقاطعات.

متطلبات التشغيل وخطوات التثبيت

ينتقل الفيديو هنا إلى الجانب العملي، موضحاً أن إنفيديا أصدرت الكود وأوزان النموذج تحت ترخيص مفتوح للاستخدام الحر. يشدد المتحدث على أن تشغيل النموذج بفعالية يتطلب بطاقة رسوميات قوية جداً بذاكرة فيديو لا تقل عن 24 جيجابايت. تم استخدام حاوية (RunPod) من نوع A40 مع مساحة تخزين 100 جيجابايت لتنفيذ التجربة الموضحة في الفيديو. تشمل عملية التثبيت خطوات مثل تثبيت ترميز Opus ونسخ مستودع GitHub الخاص بالمشروع وتوفير مفتاح من موقع Hugging Face. يختتم هذا القسم بالوصول إلى خادم الويب الداخلي الذي يتيح البدء في التفاعل مع النموذج عبر المتصفح.

تجارب الأداء العملي: خدمة العملاء والصديق المزعج

يعرض هذا الجزء سلسلة من التجارب الحية، تبدأ بمحاكاة موظف بنك حيث يحاول المستخدم بشكل طريف إخبار المساعد بأنه يريد "سرقة البنك". يظهر المساعد مرونة عالية في البقاء ضمن الدور المحدد رغم غرابة مدخلات المستخدم، مع الاستمرار في طلب البيانات الرسمية. في التجربة الثانية، يتم توجيه النموذج ليلعب دور صديق مزعج مهووس بالكلاب، مما يظهر قدرته على التكيف مع الشخصيات المختلفة. يلاحظ المتحدث أن النموذج قد يبدأ بالخروج عن النص أو الارتباك في التواريخ عند محاولة إرباكه بشكل متعمد. يوضح هذا القسم أن النموذج رغم ذكائه لا يزال يواجه بعض التحديات في المنطق عند الضغط عليه.

التجربة الإيطالية وانهيار النموذج

في القسم الأخير، يتم اختبار النموذج في دور صديق إيطالي يتحدث عن الأفلام الكلاسيكية مثل فيلم "العراب". تبدأ المحادثة بشكل طبيعي حول السينما والسباغيتي، ولكن سرعان ما يدخل النموذج في حلقة مفرغة من التكرار المريب. يكرر المساعد جملة "أنا أحب فيلم العراب" وع كلمة "أجل" عشرات المرات بشكل متواصل دون توقف، مما يدفعه لحالة تشبه الانهيار البرمجي. ينهي المتحدث الفيديو بالإشارة إلى أن هذا السلوك يظهر الحدود الحالية للنماذج اللغوية الصوتية عند فقدان السياق. رغم هذه النهاية الكوميدية، يظل النموذج دليلاً قوياً على التطور الهائل في تقنيات الاستجابة الصوتية الفورية.

Community Posts

Write about this video