00:00:00كان بالإمكان إرسال هذا عبر البريد الإلكتروني.
00:00:02كان بالإمكان إرسال هذا عبر البريد الإلكتروني.
00:00:04نفس الجملة، ولكن بأداءين مختلفين تماماً.
00:00:07لقد كتبتُ فقط “ابدأ بشكل طبيعي” ثم تحول تدريجياً إلى صرخة غاضبة.
00:00:11هذا كل شيء.
00:00:12لا توجد علامات ترميز، ولا واجهة برمجة تطبيقات ترسل بياناتك إلى مكان آخر.
00:00:15هذا هو نظام Qwen 3 TTS.
00:00:17نموذجهم الصوتي الجديد مفتوح المصدر الذي يتيح لك توجيه النبرة ويستمع إليك بالفعل.
00:00:22لنرى كيف يقارن بـ Eleven Labs أو حتى Shatterbox.
00:00:30تفتقر العديد من النماذج الصوتية مفتوحة المصدر إلى أي نوع من المشاعر.
00:00:34لقد جربت Shatterbox وكان جيداً في الواقع.
00:00:37لذا مع معرفتي بأن Qwen يمتلك هذه الميزة، أردت ألا أرى استنساخ الصوت فحسب،
00:00:41بل أردت معرفة كيف تضاهي مشاعر اللغة لديهم النماذج الأخرى.
00:00:44وبصراحة، لقد فوجئتُ بسرور.
00:00:47يحتوي Shatterbox على شريط تمرير للمشاعر، بينما هنا في Qwen،
00:00:50تكتب حرفياً كيف تريد للصوت أن يبدو، مما يمنحنا حرية أكبر.
00:00:55في النموذج الأخف، تتوفر ميزة استنساخ الصوت في ثلاث ثوانٍ، وسوف نتحقق من ذلك.
00:00:59وعندما ننتقل إلى الإصدار الأقوى 1.7B، نفقد ميزة استنساخ الصوت،
00:01:02لكننا نحصل على بث مباشر بزمن استجابة 97 مللي ثانية،
00:01:05و10 لغات مع تبديل لغوي طبيعي، وكل ذلك محلي بنسبة 100%.
00:01:09إنه مجاني.
00:01:09ومرخص برخصة Apache 2.0.
00:01:11هذا يعني نماذج أولية أسرع، ووكلاء صوتيين خصوصيين، وأدوات وصول.
00:01:16إذا كنت تبحث دائماً عن أحدث الأدوات، فتأكد من الاشتراك.
00:01:19لدينا فيديوهات جديدة باستمرار.
00:01:21الآن، الاستنساخ سهل.
00:01:22أما المشاعر فهي الأصعب.
00:01:23لذا دعونا نحاول اختبار قدراته لأقصى حد.
00:01:25سنختبر الاستنساخ أولاً.
00:01:28سأقوم أولاً برفع صوتي الذي سجلته مسبقاً كمرجع هنا.
00:01:32ثم في خانة النص المرجعي، أحتاج لكتابة ما سجلته في ذلك المقطع الصوتي.
00:01:37وهنا في خانة النص المستهدف، سأكتب ما أريد أن يكون الناتج.
00:01:42هذا كل شيء.
00:01:43في الواقع، استغرق هذا وقتاً أطول مما توقعت للتشغيل.
00:01:46لذا كنت آمل أن تتطابق الجودة، فلنستمع معاً.
00:01:49كيف يبدو الصوت باستخدام هذا النموذج؟
00:01:51أعني، كان ذلك جيداً بالنسبة لنموذج خفيف، خاصة Qwen،
00:01:55لكن يمكنك بوضوح سماع بعض المقاطع التي بدت وكأنها مولدة آلياً.
00:01:59لذا لم يكن مذهلاً بأي حال من الأحوال.
00:02:01أفضل صوت مستنسخ وجدته كان Vibe Voice من Microsoft، والذي كان جنونياً.
00:02:07هذا كان مجرد “جيد”.
00:02:08حسناً.
00:02:09لقد انتهينا من استنساخ الصوت.
00:02:10تم.
00:02:11لكن الآن دعونا نقويه بنموذج 1.7b وننتقل لإضافة المشاعر
00:02:16إلى النص لنرى كيف سيتعامل Qwen مع هذا.
00:02:19دعوني أريكم شيئاً يبدو مفيداً بالفعل.
00:02:22سأكتب في خانة التعليمات هنا: “اروي هذا كمعلق تشويقي،
00:02:26تصاعد بطيء، ثم ضحكة ارتياح في النهاية”.
00:02:28وهنا، أريده أن يقول بعض المعلومات الأساسية عن Qwen لأننا نفعل ذلك حالياً.
00:02:32لمَ لا؟
00:02:33فلنستمع.
00:02:34نموذج علي بابا الجديد مفتوح المصدر لتحويل النص إلى كلام الذي
00:02:37يجعلك تشعر أخيراً وكأنك تتحدث إلى مؤدي صوتي حقيقي.
00:02:42حسناً.
00:02:42لقد سمعنا تباعداً بسيطاً.
00:02:44لم يلتقط كل النبرات، لكنه أصاب الكثير منها بشكل صحيح.
00:02:47لا توجد قوائم منسدلة ولا إعدادات مسبقة.
00:02:49نحن نوجهه تماماً لكيفية رغبتنا في الصوت.
00:02:51الآن دعونا نصنع صوتاً يبدو كشخص قد نتفاعل معه بالفعل.
00:02:55ربما نبني مشروعاً ما.
00:02:57دعونا نضع بعض النصوص هنا.
00:02:58سأقول شيئاً عن كتابة الاختبارات البرمجية.
00:03:01وفي خانة التعليمات، لنقل: “صوت مبرمج شاب
00:03:03ومتحمس، ساخر قليلاً، لكنه ودود”.
00:03:07هذا ليس اختياراً للإعداد المسبق رقم 12.
00:03:10لقد وصفتُ بالضبط كيف أريد لتلك الشخصية أن تبدو.
00:03:13فلنستمع.
00:03:14كتابة اختبارات الكود تعني التحقق بعناية من أن برنامجك يفعل ما يفترض به القيام به.
00:03:20الآن قد تتساءل، كيف يقارن هذا بالآخرين؟
00:03:22حسناً، لا يزال Eleven Labs هو الملك، لكنه مكلف وبياناتك تخرج من جهازك.
00:03:26Shatterbox ممتاز.
00:03:28إنه أحد أفضل ما استخدمت ويمتلك مشاعر جيدة.
00:03:31إذا كنت لا تزال تبحث عن استنساخ الصوت، فسأتمسك بـ Vibe Voice، الذي كان جيداً بشكل مرعب.
00:03:36يتفوق Qwen 3 TTS عندما تريد وصف الصوت بشكل طبيعي والتجربة بسرعة.
00:03:41من الواضح أن هناك أشياء جيدة هنا.
00:03:43أعجبني التحكم باللغة الطبيعية من أجل تجربة أسرع.
00:03:47إنه محلي بالكامل ويدعم البث المباشر وجاهز
00:03:50للوكلاء الفوريين، وتصميم الصوت هنا يبدو أكثر سهولة.
00:03:55أما عما لم يعجبنا في هذا، أو ما يجب أن أقوله.
00:03:57ما لم يعجبني هو أنه نموذج حديث، أليس كذلك؟
00:04:00لذا فهو لا يزال في مرحلة النضج في بعض اللغات.
00:04:03ومثل أي نظام TTS، يوصى باستخدام بطاقة الرسوميات (GPU) لأفضل أداء.
00:04:06رغم أن المعالج العادي (CPU) يعمل.
00:04:07لكنه سيكون أبطأ فقط.
00:04:09والمشاعر تعتمد حقاً على مدى جودة كتابة التعليمات وتوجيه النموذج.
00:04:13إذا كان توجيهك غامضاً، فسيكون الناتج غامضاً أيضاً.
00:04:16السؤال الكبير هو: هل الإعداد مؤلم؟
00:04:19لا، على الإطلاق.
00:04:20بسيط ومباشر للغاية.
00:04:22انسخ المستودع، ثبت التبعيات، شغل واجهة الويب، وافتح localhost.
00:04:26هذا كل ما فعلته هنا؛ من الصفر إلى عرض تجريبي يعمل في دقائق معدودة.
00:04:32لا توجد مفاتيح API.
00:04:33ولا توجد فواتير.
00:04:34إنه موجود فقط على جهازك.
00:04:35هذا ما يجب أن يبدو عليه الصوت مفتوح المصدر.
00:04:38لهذا السبب من الرائع تجربة أدوات الصوت مفتوحة المصدر هذه لنرى ميزات كل منها.
00:04:43Qwen 3 TTS سريع، وخصوصي، وأكثر تحكماً من قِبل المطور.
00:04:46لذا جربه بنفسك.
00:04:48لقد وضعت الروابط أدناه.
00:04:49وإذا كنت تريد المزيد من الأدوات المحلية مثل هذه، فتأكد من الاشتراك.
00:04:52سنراك في فيديو آخر.