استنسخت صوتي باستخدام نموذج مايكروسوفت مفتوح المصدر

BBetter Stack
Computing/SoftwareSmall Business/StartupsConsumer ElectronicsInternet Technology

Transcript

00:00:00هذا هو Vibe Voice من مايكروسوفت، وقد استخدمته لاستنساخ صوتي الخاص.
00:00:04إنها حزمة برمجية مفتوحة المصدر للكلام تُقارن حالياً بـ 11 Labs وChatterbox وWhisper.
00:00:10لكنها تعمل دون اتصال بالإنترنت، ويمكنها توليد 90 دقيقة من الصوت لمتحدثين متعددين في عملية واحدة.
00:00:1590 دقيقة أو أي شيء قريب من ذلك يبدو أمراً خيالياً. فهل هي صالحة فعلاً للاستخدام من قبل المطورين،
00:00:20أم أنها مجرد مستودع أبحاث آخر يستهلك موارد كروت الشاشة بصمت؟ سأعرض بعض التجارب،
00:00:26وبعد ذلك سنرى كيف تقارن بغيرها. نحن ننشر فيديوهات باستمرار،
00:00:29لذا تأكد من الاشتراك.
00:00:31يمكنكم الحصول على كل هذا من مستودعهم البرمجي أو عبر Hugging Face. والآن قبل المقارنة،
00:00:40دعونا نلقي نظرة على النتائج. لقد جهزت كل شيء وهو يعمل أمامنا الآن،
00:00:45لنركز على ما يهم. لقد جربت برامج أخرى، لذا أنا مهتم حقاً برؤية كيف يبدو صوت Vibe Voice،
00:00:51ومدى صموده، وكيف يمكننا الحصول على نتائج مفيدة منه.
00:00:56سأقوم بكل هذا كإنتاج لمتحدثين متعددين، وتحويل نص إلى كلام في الوقت الفعلي، ثم استنساخ الصوت.
00:01:02إليكم نص بودكاست قصير لثلاثة متحدثين، مع تبادل أدوار واضح وانفعالات صوتية.
00:01:08المتوقع من معظم عروض تحويل النص لكلام هو أن يبدو الصوت جيداً ثم يبدأ في التراجع،
00:01:14لكن استمعوا لما سيحدث هنا. يبدو أن تناسق المتحدثين يظل ثابتاً،
00:01:18والانتقالات لا تنهار فعلياً. لنستمع معاً.
00:01:26أعني، يبدو جيداً، أليس كذلك؟ لا يبدو وكأنه يفقد السياق بعد 20 ثانية،
00:01:41أليس كذلك؟ ها هو ذا. هذه هي النقطة الأهم؛ مايكروسوفت لم تصمم هذا للمشاريع القصيرة فقط.
00:01:46لقد صُمم لتوليد صوت بسياقات طويلة ودون اتصال بالإنترنت أيضاً. لكن عند إضافة وسوم العواطف،
00:01:52يبدأ الأمر في الانهيار. على عكس Chatterbox مثلاً، فهو يضيف العاطفة تلقائياً بناءً على الكلمات،
00:01:58وهذا لم يكن رائعاً حقاً. لم يعجبني ذلك. Chatterbox لا يزال المتفوق هنا.
00:02:02لكن إذا كنت تبني أشياء مثل بودكاست الذكاء الاصطناعي، أو وثائق مروية، أو وكلاء للمحتوى الطويل،
00:02:07أو مجرد بيانات تدريب، فقد يؤدي هذا العمل بشكل لائق.
00:02:11والآن لننتقل إلى وضع الوقت الفعلي. هذا يعمل بشكل أسرع بكثير من وضع المتحدثين المتعددين،
00:02:16الذي استغرق وقتاً طويلاً للتوليد بصراحة. هذا الآن بنظام التدفق التدريجي، لذا فكر في
00:02:22ردود روبوتات الدردشة، والوكلاء الصوتيين والمساعدين. تأخير الاستجابة الأولي حوالي 300 مللي ثانية،
00:02:28وهو أمر مقبول. ليس الأسرع الذي جربته. لنستمع هنا.
00:02:32تخيل شرب الشوكولاتة الساخنة في اليابان تحت أزهار الكرز.
00:02:35حسناً. ونعم، يقولون إنه يمكنه الغناء أو حتى توليد موسيقى خلفية. إذا دفعته لأقصى حدوده،
00:02:40لكن ذلك لم ينجح. لقد حاولت ولم يفلح الأمر. لكن النقطة هنا هي،
00:02:43هل هذا جاهز للاستخدام الفعلي في الوقت الحقيقي؟ لا أعتقد ذلك. لكن للتجارب والوكلاء،
00:02:48نعم، هذا جيد جداً. الآن للجزء الممتع؛ دعونا نتحدث عن استنساخ الصوت لأنه
00:02:53كان رائعاً حقاً. إليكم طريقتي في إعداده: أولاً، سجلت صوتي باستخدام مذكرات الصوت.
00:02:58أستخدم جهاز ماك، ثم قمت بتحويل الملف إلى صيغة WAV، وشغلت واجهة Gradio بهذا الأمر.
00:03:04من هذه الواجهة التفاعلية، يمكنني حينها اختيار صوتي كاللغة المستهدفة.
00:03:10هذا كل شيء. مجرد تسجيل عادي. والمتوقع هو شيء قريب من صوتي،
00:03:14لكن من الواضح أنه زائف. استمعوا إلى هذا؛ هذا صوتي تم استنساخه باستخدام Vibe Voice.
00:03:19بصراحة، يبدو جيداً جداً. يكاد يكون جيداً أكثر من اللازم لأنني لم أقل أي شيء من هذا. والآن، لقد
00:03:25بدا مشابهاً لي، ولكن إذا كنت تعرفني، فمن المحتمل أن تدرك أنه زائف. على الأقل آمل ذلك.
00:03:30ليس مثالياً، لكنه متسق ومستقر ويُستخدم في مخرجات طويلة. هذا أمر رائع.
00:03:36تقول مايكروسوفت إن هذه الحزمة يمكنها التعامل مع التوليد الطويل في عملية واحدة، وعملياً
00:03:41تظل أكثر استقراراً بوضوح من الأنظمة بأسلوب Whisper بمجرد أن يصبح المقطع الصوتي أطول.
00:03:47وإذا سبق لك محاولة استنساخ صوت لأكثر من مقطع قصير، فأنت تعرف سبب أهمية ذلك. لذا نعم،
00:03:52كانت العروض مثيرة للإعجاب. لقد استمتعت بها، خاصة استنساخ الصوت، لكني راجعت
00:03:56الوثائق والمشكلات المطروحة، والآراء متباينة بين المطورين الآخرين. لنبدأ بالإيجابيات ثم المشاكل
00:04:02التي ستواجهها. الإيجابيات هنا قوية في معظمها؛ فهو يدعم المقاطع الطويلة بكل تأكيد.
00:04:08معظم أنظمة تحويل النص لكلام تتراجع جودتها أو تصبح رتيبة أو تنهار بعد بضع دقائق. Vibe Voice مُصمم
00:04:14للمقاطع الصوتية الأطول وهذا ما ظهر جلياً في تجاربي المطولة. ثم الكفاءة بالإضافة إلى التعبيرية.
00:04:20فهو يستخدم أدوات ترميز صوتي منخفضة التردد، مما يبقي السياق أسهل في الإدارة.
00:04:27ومع وجود تقنية الـ Diffusion ونموذج لغوي كبير كعمود فقري، تحصل على كلام معبر دون استهلاك ضخم للمعالجة. لقد شعرت أنه صديق للمطورين
00:04:33في تصميمه، أليس كذلك؟ كان هذا جميلاً؛ فهو مرخص برخصة MIT، ويعمل دون إنترنت، ويعمل على كروت شاشة عادية بذاكرة حوالي 7 جيجابايت للوقت الفعلي.
00:04:40كما أن كود الضبط الدقيق متضمن، خاصة للتعرف التلقائي على الكلام (ASR). هذا ليس نظاماً مغلقاً
00:04:47بأي شكل، بل هو جيد حقاً. وأخيراً، ومثل بعض المشاريع المفتوحة الأخرى، فإنه يوفر
00:04:53مخرجات ASR منظمة. فوز ساحق؛ فميزة تحديد المتحدثين والطوابع الزمنية بشكل مباشر توفر الكثير من الوقت
00:04:59لاحقاً. إذا كنت قد بنيت أنظمة تفريغ صوتي، فستعرف أن هذا ليس أمراً بسيطاً. والآن
00:05:04العيوب التي لمستها ورأيتها أيضاً. هذا البرنامج يبدو كبرمجيات الأبحاث العلمية.
00:05:11مايكروسوفت حذفت بعض أكواد تحويل النص لكلام بسبب مخاوف التزييف العميق، وهذا يخبرك بكل شيء. الـ SDK
00:05:17ليس مثالياً، وليس مصقولاً تماماً، أليس كذلك؟ من الواضح أن هناك بعض العيوب الصوتية كما وجدتها
00:05:23في برامج أخرى. قد تسمع نبرة آلية أحياناً، وقد تشعر بخلل في وتيرة الكلام،
00:05:28وفي المشاهد التي تضم أكثر من شخصين أو ثلاثة، تنخفض الجودة. يبدو أن المطورين أحبوا أداة الترميز
00:05:33وكرهوا القفزات المفاجئة في استهلاك ذاكرة الكرت. وهناك تغطية محدودة للغات؛ فالصينية والإنجليزية
00:05:40رائعتان، لكن إذا كنت بحاجة إلى أي لغات أخرى، فلن يكون Vibe Voice هو الحل. وأخيراً،
00:05:46عيب غياب الفهم الدلالي؛ فهذا الشيء يقرأ النص ولكنه لا يفهمه.
00:05:51وسوم العواطف قد تساعد، لكنها لا تزال تخطئ كثيراً إذا أضفنا تلك الوسوم. لذا فالرأي الصريح
00:05:56هنا، هو أنها أداة رائعة للتجربة، ولكن على المدى الطويل، لست
00:06:02متأكداً ما إذا كانت ستصمد. والآن الإجابة التي تريدونها حقاً؛ هل يستحق
00:06:06وقتكم مقارنة بما تستخدمونه حالياً؟ كيف يقارن Vibe Voice
00:06:11بالمنافسين المعتادين؟ لنبدأ بـ Vibe Voice مقابل Chatterbox. لقد قمت بعمل فيديو وجربت
00:06:16Chatterbox في الماضي. كان ذلك رائعاً بصراحة. تميز Chatterbox بتأخير أقل من 200
00:06:22مللي ثانية، وقوة عاطفية أكبر وردود قصيرة أفضل. لذا قد تظن
00:06:28أن Chatterbox هو الفائز، لكن Vibe Voice يتفوق عليه بمراحل في المقاطع الطويلة. Chatterbox مصمم
00:06:35لمونولوجات أقل من 30 دقيقة أو مخرجات البودكاست، وVibe Voice يتعامل مع المحتوى الطويل بشكل أفضل بكثير. لذا هي مسألة تفضيلات.
00:06:42ثم بالطبع لدينا Vibe Voice مقابل 11 Labs. هذه بسيطة، أليس كذلك؟ 11 Labs
00:06:48يفوز بسبب النطق المصقول، واستنساخ الصوت الفوري وتجربة المستخدم، ولكن حيث يتفوق
00:06:54Vibe Voice هو التكلفة؛ فهو مجاني، ويعمل دون إنترنت، ومفتوح المصدر. وهذا فوز كبير هنا؛
00:07:00فنحن لا ندفع ثمن البرنامج. وهناك Vibe Voice وWhisper أو حتى Cozy Voice؛ فهو يهزم Whisper
00:07:06بمجرد أن يصبح الصوت طويلاً ومنظماً. وهو أكثر تعبيراً من Cozy Voice، ونماذج تحويل النص لكلام القائمة على Qwen
00:07:13بدأت تلحق به في اللهجات، لكن Vibe Voice لا يزال يتصدر في طول المحتوى. إذا كنت مطوراً يبني
00:07:18برامجه محلياً، وتحب المصادر المفتوحة ويهمك الصوت الطويل، فأعتقد أن Vibe Voice يستحق وقتك.
00:07:23أما إذا كنت تريد شيئاً جاهزاً للإنتاج المباشر وسهل الاستخدام، فبصراحة، يمكنك
00:07:28تجاوز هذا حالياً. إنه مجرد مشروع رائع للتجربة، بما في ذلك استنساخ الصوت.
00:07:33Vibe Voice غير مكتمل، ولكنه قوي ومثير أيضاً. إنه أحد أقوى حزم الصوت
00:07:37مفتوحة المصدر التي رأيناها للكلام الطويل بالذكاء الاصطناعي منذ فترة. جربوا عرض Hugging Face،
00:07:43واقرأوا الوثائق، وسنراكم في فيديو آخر.

Key Takeaway

يعد Vibe Voice أداة قوية ومجانية للمطورين الراغبين في إنتاج محتوى صوتي طويل ومستقر محلياً، رغم افتقاره لبعض اللمسات الجمالية والعاطفية مقارنة بالحلول المدفوعة.

Highlights

نموذج Vibe Voice من مايكروسوفت هو حزمة برمجية مفتوحة المصدر لاستنساخ الصوت وتوليد الكلام.

يتميز بقدرته الفائقة على توليد مقاطع صوتية طويلة تصل إلى 90 دقيقة دون فقدان الجودة أو السياق.

يعمل البرنامج بالكامل دون الحاجة للاتصال بالإنترنت، مما يوفر خصوصية عالية وتوفير في التكاليف.

يدعم استنساخ الصوت عبر تسجيلات بسيطة بصيغة WAV وواجهة تفاعلية سهلة الاستخدام.

يوفر مخرجات منظمة تتضمن تحديد المتحدثين والطوابع الزمنية تلقائياً.

يواجه تحديات في التعبير العاطفي التلقائي ومحدودية دعم اللغات خارج الإنجليزية والصينية.

Timeline

مقدمة عن Vibe Voice ومميزاته الأساسية

يبدأ المتحدث بالتعريف بنموذج Vibe Voice كأحدث الابتكارات مفتوحة المصدر من شركة مايكروسوفت في مجال استنساخ الصوت. يوضح الفيديو أن هذه الحزمة البرمجية تهدف لمنافسة منصات شهيرة مثل 11 Labs وChatterbox من خلال ميزات فريدة. تتمثل القوة الكبرى لهذا النموذج في قدرته على العمل دون اتصال بالإنترنت وتوليد كميات هائلة من الصوت تصل إلى 90 دقيقة في المرة الواحدة. يطرح المتحدث تساؤلاً جوهرياً حول ما إذا كان هذا المشروع صالحاً للاستخدام العملي من قبل المطورين أم أنه مجرد بحث أكاديمي يستهلك الموارد. هذه الفقرة تؤسس للتوقعات حول أداء النموذج وقدرته على إدارة استهلاك كروت الشاشة بصمت.

تجربة الإنتاج لمتحدثين متعددين والمحتوى الطويل

ينتقل الفيديو لعرض نتائج فعلية لتجربة نص بودكاست قصير يضم ثلاثة متحدثين مع انفعالات صوتية متنوعة. يلاحظ المتحدث أن الصوت يحافظ على ثباته وتناسقه بشكل مدهش حتى بعد مرور وقت طويل على المقطع، وهو أمر تفشل فيه معظم النماذج الأخرى. يشير التحليل إلى أن تصميم مايكروسوفت ركز بشكل أساسي على السياقات الطويلة لضمان عدم انهيار جودة الصوت بمرور الوقت. ومع ذلك، يظهر نقد واضح لوسوم العواطف التي قد تؤدي إلى نتائج غير مرضية مقارنة بمنافسين مثل Chatterbox. يعد هذا الجزء مثالياً لمن يبحث عن بناء بودكاست بالذكاء الاصطناعي أو وثائق مروية طويلة.

وضع الوقت الفعلي وتوليد الموسيقى

يستعرض هذا القسم أداء النموذج في وضع التدفق التدريجي المخصص للردود الفورية والوكلاء الصوتييين. يبلغ تأخير الاستجابة الأولي حوالي 300 مللي ثانية، وهو رقم مقبول ولكنه ليس الأسرع في السوق حالياً. يذكر المتحدث محاولات فاشلة لاستخدام النموذج في الغناء أو توليد موسيقى خلفية رغم الادعاءات التقنية بقدرته على ذلك. يخلص التقييم إلى أن النموذج جيد للتجارب والوكلاء ولكنه قد لا يكون جاهزاً تماماً للتطبيقات التجارية الحساسة للوقت الحقيقي. تكمن أهمية هذا الجزء في توضيح الحدود القصيرة والقصوى لإمكانيات النموذج التقنية.

عملية استنساخ الصوت والنتائج المبهرة

يقدم المتحدث شرحاً عملياً لكيفية استنساخ صوته الخاص باستخدام تسجيل بسيط من مذكرات الصوت بجهاز ماك. يتم تحويل الملف إلى صيغة WAV واستخدام واجهة Gradio لاختيار الصوت المستهدف بضغطة زر واحدة. النتائج كانت مثيرة للإعجاب لدرجة أنها بدت "أكثر من اللازم"، مع الحفاظ على استقرار عالٍ في المخرجات الطويلة. يؤكد الفيديو أن استقرار Vibe Voice في المقاطع الطويلة يتفوق بوضوح على الأنظمة المعتمدة على Whisper. يمثل هذا القسم الجانب الأكثر جاذبية للمستخدمين الذين يرغبون في تخصيص الأصوات لمشاريعهم الخاصة.

تحليل الإيجابيات والمزايا التقنية للمطورين

يركز هذا الجزء على الجوانب التقنية التي تجعل Vibe Voice صديقاً للمطورين، بما في ذلك رخصة MIT مفتوحة المصدر. يعتمد النموذج على تقنية الـ Diffusion ونموذج لغوي كبير كعمود فقري، مما يوفر تعبيراً صوتياً دون استهلاك ضخم للمعالجة. يوضح المتحدث أن البرنامج يعمل بكفاءة على كروت شاشة بذاكرة 7 جيجابايت فقط، مما يجعله متاحاً لشريحة واسعة. من أهم المزايا المذكورة هي ميزة تحديد المتحدثين والطوابع الزمنية المنظمة (ASR) التي توفر جهداً كبيراً في التفريغ الصوتي. هذه التفاصيل تبرز القيمة المضافة التي تقدمها مايكروسوفت للمجتمع البرمجي.

العيوب والتحديات والمقارنة مع المنافسين

يختتم الفيديو بسرد صريح للعيوب، مثل حذف بعض الأكواد بسبب مخاوف التزييف العميق وافتقار الـ SDK للصقل النهائي. يعاني النموذج من نبرة آلية أحياناً وخلل في الوتيرة عند تعدد الشخصيات، بالإضافة إلى محدودية اللغات المتاحة. في المقارنة، يتفوق 11 Labs في تجربة المستخدم والنطق، بينما يكتسح Vibe Voice في جانب التكلفة لكونه مجانياً تماماً. يقترح المتحدث أن الأداة رائعة للتجربة والمشاريع المحلية الطويلة، ولكنها ليست البديل الأفضل للإنتاج التجاري المباشر حالياً. تنتهي المراجعة بنصيحة للمطورين باستكشاف النموذج عبر Hugging Face ومتابعة الوثائق الرسمية.

Community Posts

View all posts