تقنية Qwen TTS غيرت قواعد الصوت مفتوح المصدر تماماً

BBetter Stack
컴퓨터/소프트웨어창업/스타트업어학(외국어)AI/미래기술

Transcript

00:00:00كان بالإمكان إرسال هذا عبر البريد الإلكتروني.
00:00:02كان بالإمكان إرسال هذا عبر البريد الإلكتروني.
00:00:04نفس الجملة، ولكن بأداءين مختلفين تماماً.
00:00:07لقد كتبتُ فقط “ابدأ بشكل طبيعي” ثم تحول تدريجياً إلى صرخة غاضبة.
00:00:11هذا كل شيء.
00:00:12لا توجد علامات ترميز، ولا واجهة برمجة تطبيقات ترسل بياناتك إلى مكان آخر.
00:00:15هذا هو نظام Qwen 3 TTS.
00:00:17نموذجهم الصوتي الجديد مفتوح المصدر الذي يتيح لك توجيه النبرة ويستمع إليك بالفعل.
00:00:22لنرى كيف يقارن بـ Eleven Labs أو حتى Shatterbox.
00:00:30تفتقر العديد من النماذج الصوتية مفتوحة المصدر إلى أي نوع من المشاعر.
00:00:34لقد جربت Shatterbox وكان جيداً في الواقع.
00:00:37لذا مع معرفتي بأن Qwen يمتلك هذه الميزة، أردت ألا أرى استنساخ الصوت فحسب،
00:00:41بل أردت معرفة كيف تضاهي مشاعر اللغة لديهم النماذج الأخرى.
00:00:44وبصراحة، لقد فوجئتُ بسرور.
00:00:47يحتوي Shatterbox على شريط تمرير للمشاعر، بينما هنا في Qwen،
00:00:50تكتب حرفياً كيف تريد للصوت أن يبدو، مما يمنحنا حرية أكبر.
00:00:55في النموذج الأخف، تتوفر ميزة استنساخ الصوت في ثلاث ثوانٍ، وسوف نتحقق من ذلك.
00:00:59وعندما ننتقل إلى الإصدار الأقوى 1.7B، نفقد ميزة استنساخ الصوت،
00:01:02لكننا نحصل على بث مباشر بزمن استجابة 97 مللي ثانية،
00:01:05و10 لغات مع تبديل لغوي طبيعي، وكل ذلك محلي بنسبة 100%.
00:01:09إنه مجاني.
00:01:09ومرخص برخصة Apache 2.0.
00:01:11هذا يعني نماذج أولية أسرع، ووكلاء صوتيين خصوصيين، وأدوات وصول.
00:01:16إذا كنت تبحث دائماً عن أحدث الأدوات، فتأكد من الاشتراك.
00:01:19لدينا فيديوهات جديدة باستمرار.
00:01:21الآن، الاستنساخ سهل.
00:01:22أما المشاعر فهي الأصعب.
00:01:23لذا دعونا نحاول اختبار قدراته لأقصى حد.
00:01:25سنختبر الاستنساخ أولاً.
00:01:28سأقوم أولاً برفع صوتي الذي سجلته مسبقاً كمرجع هنا.
00:01:32ثم في خانة النص المرجعي، أحتاج لكتابة ما سجلته في ذلك المقطع الصوتي.
00:01:37وهنا في خانة النص المستهدف، سأكتب ما أريد أن يكون الناتج.
00:01:42هذا كل شيء.
00:01:43في الواقع، استغرق هذا وقتاً أطول مما توقعت للتشغيل.
00:01:46لذا كنت آمل أن تتطابق الجودة، فلنستمع معاً.
00:01:49كيف يبدو الصوت باستخدام هذا النموذج؟
00:01:51أعني، كان ذلك جيداً بالنسبة لنموذج خفيف، خاصة Qwen،
00:01:55لكن يمكنك بوضوح سماع بعض المقاطع التي بدت وكأنها مولدة آلياً.
00:01:59لذا لم يكن مذهلاً بأي حال من الأحوال.
00:02:01أفضل صوت مستنسخ وجدته كان Vibe Voice من Microsoft، والذي كان جنونياً.
00:02:07هذا كان مجرد “جيد”.
00:02:08حسناً.
00:02:09لقد انتهينا من استنساخ الصوت.
00:02:10تم.
00:02:11لكن الآن دعونا نقويه بنموذج 1.7b وننتقل لإضافة المشاعر
00:02:16إلى النص لنرى كيف سيتعامل Qwen مع هذا.
00:02:19دعوني أريكم شيئاً يبدو مفيداً بالفعل.
00:02:22سأكتب في خانة التعليمات هنا: “اروي هذا كمعلق تشويقي،
00:02:26تصاعد بطيء، ثم ضحكة ارتياح في النهاية”.
00:02:28وهنا، أريده أن يقول بعض المعلومات الأساسية عن Qwen لأننا نفعل ذلك حالياً.
00:02:32لمَ لا؟
00:02:33فلنستمع.
00:02:34نموذج علي بابا الجديد مفتوح المصدر لتحويل النص إلى كلام الذي
00:02:37يجعلك تشعر أخيراً وكأنك تتحدث إلى مؤدي صوتي حقيقي.
00:02:42حسناً.
00:02:42لقد سمعنا تباعداً بسيطاً.
00:02:44لم يلتقط كل النبرات، لكنه أصاب الكثير منها بشكل صحيح.
00:02:47لا توجد قوائم منسدلة ولا إعدادات مسبقة.
00:02:49نحن نوجهه تماماً لكيفية رغبتنا في الصوت.
00:02:51الآن دعونا نصنع صوتاً يبدو كشخص قد نتفاعل معه بالفعل.
00:02:55ربما نبني مشروعاً ما.
00:02:57دعونا نضع بعض النصوص هنا.
00:02:58سأقول شيئاً عن كتابة الاختبارات البرمجية.
00:03:01وفي خانة التعليمات، لنقل: “صوت مبرمج شاب
00:03:03ومتحمس، ساخر قليلاً، لكنه ودود”.
00:03:07هذا ليس اختياراً للإعداد المسبق رقم 12.
00:03:10لقد وصفتُ بالضبط كيف أريد لتلك الشخصية أن تبدو.
00:03:13فلنستمع.
00:03:14كتابة اختبارات الكود تعني التحقق بعناية من أن برنامجك يفعل ما يفترض به القيام به.
00:03:20الآن قد تتساءل، كيف يقارن هذا بالآخرين؟
00:03:22حسناً، لا يزال Eleven Labs هو الملك، لكنه مكلف وبياناتك تخرج من جهازك.
00:03:26Shatterbox ممتاز.
00:03:28إنه أحد أفضل ما استخدمت ويمتلك مشاعر جيدة.
00:03:31إذا كنت لا تزال تبحث عن استنساخ الصوت، فسأتمسك بـ Vibe Voice، الذي كان جيداً بشكل مرعب.
00:03:36يتفوق Qwen 3 TTS عندما تريد وصف الصوت بشكل طبيعي والتجربة بسرعة.
00:03:41من الواضح أن هناك أشياء جيدة هنا.
00:03:43أعجبني التحكم باللغة الطبيعية من أجل تجربة أسرع.
00:03:47إنه محلي بالكامل ويدعم البث المباشر وجاهز
00:03:50للوكلاء الفوريين، وتصميم الصوت هنا يبدو أكثر سهولة.
00:03:55أما عما لم يعجبنا في هذا، أو ما يجب أن أقوله.
00:03:57ما لم يعجبني هو أنه نموذج حديث، أليس كذلك؟
00:04:00لذا فهو لا يزال في مرحلة النضج في بعض اللغات.
00:04:03ومثل أي نظام TTS، يوصى باستخدام بطاقة الرسوميات (GPU) لأفضل أداء.
00:04:06رغم أن المعالج العادي (CPU) يعمل.
00:04:07لكنه سيكون أبطأ فقط.
00:04:09والمشاعر تعتمد حقاً على مدى جودة كتابة التعليمات وتوجيه النموذج.
00:04:13إذا كان توجيهك غامضاً، فسيكون الناتج غامضاً أيضاً.
00:04:16السؤال الكبير هو: هل الإعداد مؤلم؟
00:04:19لا، على الإطلاق.
00:04:20بسيط ومباشر للغاية.
00:04:22انسخ المستودع، ثبت التبعيات، شغل واجهة الويب، وافتح localhost.
00:04:26هذا كل ما فعلته هنا؛ من الصفر إلى عرض تجريبي يعمل في دقائق معدودة.
00:04:32لا توجد مفاتيح API.
00:04:33ولا توجد فواتير.
00:04:34إنه موجود فقط على جهازك.
00:04:35هذا ما يجب أن يبدو عليه الصوت مفتوح المصدر.
00:04:38لهذا السبب من الرائع تجربة أدوات الصوت مفتوحة المصدر هذه لنرى ميزات كل منها.
00:04:43Qwen 3 TTS سريع، وخصوصي، وأكثر تحكماً من قِبل المطور.
00:04:46لذا جربه بنفسك.
00:04:48لقد وضعت الروابط أدناه.
00:04:49وإذا كنت تريد المزيد من الأدوات المحلية مثل هذه، فتأكد من الاشتراك.
00:04:52سنراك في فيديو آخر.

Key Takeaway

يمثل Qwen TTS قفزة نوعية في النماذج الصوتية مفتوحة المصدر من خلال توفير تحكم دقيق في المشاعر عبر اللغة الطبيعية وأداء محلي سريع يضمن الخصوصية التامة.

Highlights

تقديم نظام Qwen 2-Audio (المشار إليه بـ Qwen 3 TTS في السياق) كنموذج صوتي مفتوح المصدر يغير قواعد اللعبة.

القدرة الفريدة على توجيه المشاعر والنبرة عبر الأوامر النصية الطبيعية بدلاً من أشرطة التمرير التقليدية.

مقارنة الأداء مع Eleven Labs وShatterbox وVibe Voice من مايكروسوفت لتحديد نقاط القوة.

دعم 10 لغات مع ميزة التبديل اللغوي الطبيعي وزمن استجابة منخفض يصل إلى 97 مللي ثانية.

النموذج محلي بالكامل، مجاني، ومرخص برخصة Apache 2.0، مما يضمن الخصوصية التامة وسهولة الاستخدام للمطورين.

سهولة التثبيت والتشغيل من الصفر دون الحاجة لمفاتيح برمجية (API keys) أو تكاليف إضافية.

Timeline

مقدمة عن ثورة Qwen TTS الصوتية

يبدأ الفيديو بعرض توضيحي مثير لقدرة النموذج على تحويل جملة عادية إلى صرخة غاضبة تدريجياً. يوضح المتحدث أن هذا النظام الجديد من Qwen لا يتطلب علامات ترميز معقدة أو إرسال بيانات إلى خوادم خارجية. يركز هذا الجزء على تعريف Qwen TTS كنموذج مفتوح المصدر يتيح للمستخدم توجيه النبرة الصوتية بدقة عالية. تكمن أهمية هذه المقدمة في إظهار الفرق الجوهري بينه وبين الأدوات التقليدية مثل Eleven Labs. هذا القسم يمهد الطريق لفهم كيف يستمع النموذج للمستخدم ويتفاعل مع تعليماته الوصفية.

مقارنة الميزات والتحكم في المشاعر

يستعرض المتحدث هنا الفجوة في المشاعر لدى معظم النماذج مفتوحة المصدر، مشيراً إلى تفوق Qwen في هذا الجانب. يتم شرح ميزة كتابة وصف النبرة حرفياً بدلاً من استخدام أشرطة التمرير المحدودة الموجودة في برامج مثل Shatterbox. يفرق القسم بين النسخة الخفيفة التي تدعم استنساخ الصوت في 3 ثوانٍ، والنسخة الأقوى 1.7B التي توفر بثاً مباشراً سريعاً. يذكر المتحدث أن النظام يدعم 10 لغات ويعمل محلياً بنسبة 100% تحت رخصة Apache 2.0. هذا التنوع يجعل النموذج مثالياً للمطورين الذين يبحثون عن بناء وكلاء صوتيين خصوصيين بسرعة.

اختبار استنساخ الصوت والنتائج العملية

ينتقل الفيديو إلى الجانب العملي من خلال محاولة استنساخ صوت المتحدث باستخدام عينة مرجعية مسجلة. يشرح المتحدث الخطوات البسيطة التي تتضمن رفع المقطع الصوتي وكتابة النص المرجعي ثم النص المستهدف. بعد تجربة النتائج، يصف المتحدث الأداء بأنه "جيد" لكنه ليس مذهلاً، حيث ظهرت بعض المقاطع بصوت آلي. تتم مقارنة النتيجة بنموذج Vibe Voice من مايكروسوفت الذي يعتبره المتحدث الأفضل في الاستنساخ. يخلص هذا القسم إلى أن قوة Qwen تكمن في مكان آخر غير الاستنساخ البحت.

قوة التوجيه باللغة الطبيعية وتصميم الشخصيات

يركز هذا الجزء على أقوى ميزات Qwen وهي التحكم في المشاعر عبر نموذج 1.7B الأكبر. يطبق المتحدث تجربة لتمثيل دور معلق تشويقي بضحكة ارتياح في النهاية، ويوضح كيف استجاب النموذج للتعليمات. يتم أيضاً اختبار بناء شخصية "مبرمج شاب ساخر" لإثبات مرونة النظام في صياغة هويات صوتية فريدة. يوضح المتحدث أنك لا تختار من قائمة محددة، بل تصف الشخصية تماماً كما تتخيلها. تظهر هذه التجارب قدرة النموذج على التقاط الفروق الدقيقة في الأداء البشري بشكل ملحوظ.

التحليل النهائي، العيوب، وطريقة الإعداد

في الختام، يقارن المتحدث Qwen بالمنافسين مثل Eleven Labs، مشيراً إلى أن الأخير ملك الجودة ولكنه مكلف. يوضح أن Qwen يتفوق في السرعة، الخصوصية، وسهولة تصميم الصوت للمطورين دون تكاليف API. يتم ذكر بعض العيوب مثل الحاجة لبطاقة رسوميات (GPU) للأداء الأمثل، واعتماد النتيجة بشكل كبير على جودة كتابة الأوامر. يشرح المتحدث بساطة عملية التثبيت التي تتم عبر نسخ المستودع وتشغيل واجهة الويب محلياً. ينتهي الفيديو بدعوة المستخدمين لتجربة الأداة بأنفسهم نظراً لما توفره من تحكم وحرية برمجية.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video