00:00:00هذا هو Vibe Voice من مايكروسوفت، وقد استخدمته لاستنساخ صوتي الخاص.
00:00:04إنها حزمة برمجية مفتوحة المصدر للكلام تُقارن حالياً بـ 11 Labs وChatterbox وWhisper.
00:00:10لكنها تعمل دون اتصال بالإنترنت، ويمكنها توليد 90 دقيقة من الصوت لمتحدثين متعددين في عملية واحدة.
00:00:1590 دقيقة أو أي شيء قريب من ذلك يبدو أمراً خيالياً. فهل هي صالحة فعلاً للاستخدام من قبل المطورين،
00:00:20أم أنها مجرد مستودع أبحاث آخر يستهلك موارد كروت الشاشة بصمت؟ سأعرض بعض التجارب،
00:00:26وبعد ذلك سنرى كيف تقارن بغيرها. نحن ننشر فيديوهات باستمرار،
00:00:29لذا تأكد من الاشتراك.
00:00:31يمكنكم الحصول على كل هذا من مستودعهم البرمجي أو عبر Hugging Face. والآن قبل المقارنة،
00:00:40دعونا نلقي نظرة على النتائج. لقد جهزت كل شيء وهو يعمل أمامنا الآن،
00:00:45لنركز على ما يهم. لقد جربت برامج أخرى، لذا أنا مهتم حقاً برؤية كيف يبدو صوت Vibe Voice،
00:00:51ومدى صموده، وكيف يمكننا الحصول على نتائج مفيدة منه.
00:00:56سأقوم بكل هذا كإنتاج لمتحدثين متعددين، وتحويل نص إلى كلام في الوقت الفعلي، ثم استنساخ الصوت.
00:01:02إليكم نص بودكاست قصير لثلاثة متحدثين، مع تبادل أدوار واضح وانفعالات صوتية.
00:01:08المتوقع من معظم عروض تحويل النص لكلام هو أن يبدو الصوت جيداً ثم يبدأ في التراجع،
00:01:14لكن استمعوا لما سيحدث هنا. يبدو أن تناسق المتحدثين يظل ثابتاً،
00:01:18والانتقالات لا تنهار فعلياً. لنستمع معاً.
00:01:26أعني، يبدو جيداً، أليس كذلك؟ لا يبدو وكأنه يفقد السياق بعد 20 ثانية،
00:01:41أليس كذلك؟ ها هو ذا. هذه هي النقطة الأهم؛ مايكروسوفت لم تصمم هذا للمشاريع القصيرة فقط.
00:01:46لقد صُمم لتوليد صوت بسياقات طويلة ودون اتصال بالإنترنت أيضاً. لكن عند إضافة وسوم العواطف،
00:01:52يبدأ الأمر في الانهيار. على عكس Chatterbox مثلاً، فهو يضيف العاطفة تلقائياً بناءً على الكلمات،
00:01:58وهذا لم يكن رائعاً حقاً. لم يعجبني ذلك. Chatterbox لا يزال المتفوق هنا.
00:02:02لكن إذا كنت تبني أشياء مثل بودكاست الذكاء الاصطناعي، أو وثائق مروية، أو وكلاء للمحتوى الطويل،
00:02:07أو مجرد بيانات تدريب، فقد يؤدي هذا العمل بشكل لائق.
00:02:11والآن لننتقل إلى وضع الوقت الفعلي. هذا يعمل بشكل أسرع بكثير من وضع المتحدثين المتعددين،
00:02:16الذي استغرق وقتاً طويلاً للتوليد بصراحة. هذا الآن بنظام التدفق التدريجي، لذا فكر في
00:02:22ردود روبوتات الدردشة، والوكلاء الصوتيين والمساعدين. تأخير الاستجابة الأولي حوالي 300 مللي ثانية،
00:02:28وهو أمر مقبول. ليس الأسرع الذي جربته. لنستمع هنا.
00:02:32تخيل شرب الشوكولاتة الساخنة في اليابان تحت أزهار الكرز.
00:02:35حسناً. ونعم، يقولون إنه يمكنه الغناء أو حتى توليد موسيقى خلفية. إذا دفعته لأقصى حدوده،
00:02:40لكن ذلك لم ينجح. لقد حاولت ولم يفلح الأمر. لكن النقطة هنا هي،
00:02:43هل هذا جاهز للاستخدام الفعلي في الوقت الحقيقي؟ لا أعتقد ذلك. لكن للتجارب والوكلاء،
00:02:48نعم، هذا جيد جداً. الآن للجزء الممتع؛ دعونا نتحدث عن استنساخ الصوت لأنه
00:02:53كان رائعاً حقاً. إليكم طريقتي في إعداده: أولاً، سجلت صوتي باستخدام مذكرات الصوت.
00:02:58أستخدم جهاز ماك، ثم قمت بتحويل الملف إلى صيغة WAV، وشغلت واجهة Gradio بهذا الأمر.
00:03:04من هذه الواجهة التفاعلية، يمكنني حينها اختيار صوتي كاللغة المستهدفة.
00:03:10هذا كل شيء. مجرد تسجيل عادي. والمتوقع هو شيء قريب من صوتي،
00:03:14لكن من الواضح أنه زائف. استمعوا إلى هذا؛ هذا صوتي تم استنساخه باستخدام Vibe Voice.
00:03:19بصراحة، يبدو جيداً جداً. يكاد يكون جيداً أكثر من اللازم لأنني لم أقل أي شيء من هذا. والآن، لقد
00:03:25بدا مشابهاً لي، ولكن إذا كنت تعرفني، فمن المحتمل أن تدرك أنه زائف. على الأقل آمل ذلك.
00:03:30ليس مثالياً، لكنه متسق ومستقر ويُستخدم في مخرجات طويلة. هذا أمر رائع.
00:03:36تقول مايكروسوفت إن هذه الحزمة يمكنها التعامل مع التوليد الطويل في عملية واحدة، وعملياً
00:03:41تظل أكثر استقراراً بوضوح من الأنظمة بأسلوب Whisper بمجرد أن يصبح المقطع الصوتي أطول.
00:03:47وإذا سبق لك محاولة استنساخ صوت لأكثر من مقطع قصير، فأنت تعرف سبب أهمية ذلك. لذا نعم،
00:03:52كانت العروض مثيرة للإعجاب. لقد استمتعت بها، خاصة استنساخ الصوت، لكني راجعت
00:03:56الوثائق والمشكلات المطروحة، والآراء متباينة بين المطورين الآخرين. لنبدأ بالإيجابيات ثم المشاكل
00:04:02التي ستواجهها. الإيجابيات هنا قوية في معظمها؛ فهو يدعم المقاطع الطويلة بكل تأكيد.
00:04:08معظم أنظمة تحويل النص لكلام تتراجع جودتها أو تصبح رتيبة أو تنهار بعد بضع دقائق. Vibe Voice مُصمم
00:04:14للمقاطع الصوتية الأطول وهذا ما ظهر جلياً في تجاربي المطولة. ثم الكفاءة بالإضافة إلى التعبيرية.
00:04:20فهو يستخدم أدوات ترميز صوتي منخفضة التردد، مما يبقي السياق أسهل في الإدارة.
00:04:27ومع وجود تقنية الـ Diffusion ونموذج لغوي كبير كعمود فقري، تحصل على كلام معبر دون استهلاك ضخم للمعالجة. لقد شعرت أنه صديق للمطورين
00:04:33في تصميمه، أليس كذلك؟ كان هذا جميلاً؛ فهو مرخص برخصة MIT، ويعمل دون إنترنت، ويعمل على كروت شاشة عادية بذاكرة حوالي 7 جيجابايت للوقت الفعلي.
00:04:40كما أن كود الضبط الدقيق متضمن، خاصة للتعرف التلقائي على الكلام (ASR). هذا ليس نظاماً مغلقاً
00:04:47بأي شكل، بل هو جيد حقاً. وأخيراً، ومثل بعض المشاريع المفتوحة الأخرى، فإنه يوفر
00:04:53مخرجات ASR منظمة. فوز ساحق؛ فميزة تحديد المتحدثين والطوابع الزمنية بشكل مباشر توفر الكثير من الوقت
00:04:59لاحقاً. إذا كنت قد بنيت أنظمة تفريغ صوتي، فستعرف أن هذا ليس أمراً بسيطاً. والآن
00:05:04العيوب التي لمستها ورأيتها أيضاً. هذا البرنامج يبدو كبرمجيات الأبحاث العلمية.
00:05:11مايكروسوفت حذفت بعض أكواد تحويل النص لكلام بسبب مخاوف التزييف العميق، وهذا يخبرك بكل شيء. الـ SDK
00:05:17ليس مثالياً، وليس مصقولاً تماماً، أليس كذلك؟ من الواضح أن هناك بعض العيوب الصوتية كما وجدتها
00:05:23في برامج أخرى. قد تسمع نبرة آلية أحياناً، وقد تشعر بخلل في وتيرة الكلام،
00:05:28وفي المشاهد التي تضم أكثر من شخصين أو ثلاثة، تنخفض الجودة. يبدو أن المطورين أحبوا أداة الترميز
00:05:33وكرهوا القفزات المفاجئة في استهلاك ذاكرة الكرت. وهناك تغطية محدودة للغات؛ فالصينية والإنجليزية
00:05:40رائعتان، لكن إذا كنت بحاجة إلى أي لغات أخرى، فلن يكون Vibe Voice هو الحل. وأخيراً،
00:05:46عيب غياب الفهم الدلالي؛ فهذا الشيء يقرأ النص ولكنه لا يفهمه.
00:05:51وسوم العواطف قد تساعد، لكنها لا تزال تخطئ كثيراً إذا أضفنا تلك الوسوم. لذا فالرأي الصريح
00:05:56هنا، هو أنها أداة رائعة للتجربة، ولكن على المدى الطويل، لست
00:06:02متأكداً ما إذا كانت ستصمد. والآن الإجابة التي تريدونها حقاً؛ هل يستحق
00:06:06وقتكم مقارنة بما تستخدمونه حالياً؟ كيف يقارن Vibe Voice
00:06:11بالمنافسين المعتادين؟ لنبدأ بـ Vibe Voice مقابل Chatterbox. لقد قمت بعمل فيديو وجربت
00:06:16Chatterbox في الماضي. كان ذلك رائعاً بصراحة. تميز Chatterbox بتأخير أقل من 200
00:06:22مللي ثانية، وقوة عاطفية أكبر وردود قصيرة أفضل. لذا قد تظن
00:06:28أن Chatterbox هو الفائز، لكن Vibe Voice يتفوق عليه بمراحل في المقاطع الطويلة. Chatterbox مصمم
00:06:35لمونولوجات أقل من 30 دقيقة أو مخرجات البودكاست، وVibe Voice يتعامل مع المحتوى الطويل بشكل أفضل بكثير. لذا هي مسألة تفضيلات.
00:06:42ثم بالطبع لدينا Vibe Voice مقابل 11 Labs. هذه بسيطة، أليس كذلك؟ 11 Labs
00:06:48يفوز بسبب النطق المصقول، واستنساخ الصوت الفوري وتجربة المستخدم، ولكن حيث يتفوق
00:06:54Vibe Voice هو التكلفة؛ فهو مجاني، ويعمل دون إنترنت، ومفتوح المصدر. وهذا فوز كبير هنا؛
00:07:00فنحن لا ندفع ثمن البرنامج. وهناك Vibe Voice وWhisper أو حتى Cozy Voice؛ فهو يهزم Whisper
00:07:06بمجرد أن يصبح الصوت طويلاً ومنظماً. وهو أكثر تعبيراً من Cozy Voice، ونماذج تحويل النص لكلام القائمة على Qwen
00:07:13بدأت تلحق به في اللهجات، لكن Vibe Voice لا يزال يتصدر في طول المحتوى. إذا كنت مطوراً يبني
00:07:18برامجه محلياً، وتحب المصادر المفتوحة ويهمك الصوت الطويل، فأعتقد أن Vibe Voice يستحق وقتك.
00:07:23أما إذا كنت تريد شيئاً جاهزاً للإنتاج المباشر وسهل الاستخدام، فبصراحة، يمكنك
00:07:28تجاوز هذا حالياً. إنه مجرد مشروع رائع للتجربة، بما في ذلك استنساخ الصوت.
00:07:33Vibe Voice غير مكتمل، ولكنه قوي ومثير أيضاً. إنه أحد أقوى حزم الصوت
00:07:37مفتوحة المصدر التي رأيناها للكلام الطويل بالذكاء الاصطناعي منذ فترة. جربوا عرض Hugging Face،
00:07:43واقرأوا الوثائق، وسنراكم في فيديو آخر.