SpeechBrain: ما هي الأدوات التي تستحق الاستخدام فعلاً؟

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00هذا هو SpeechBrain، وهي مجموعة أدوات مفتوحة المصدر مبنية على PyTorch تتيح لنا بناء وشحن ميزات
00:00:05الذكاء الاصطناعي الصوتي باستخدام نماذج مدربة مسبقاً. بدءاً من تقنيات إزالة الضجيج، والتحقق من هوية المتحدث،
00:00:10وصولاً إلى التعرف التلقائي على الكلام (ASR). دون الحاجة لتدريب أو ضبط دقيق. لنجرِ اختباراً سريعاً للتحقق من الصوت هنا. ربما
00:00:15تتوقعون جودة صوت أفضل. حسناً، نعم، سيحدث هذا بشكل طبيعي هنا. وفقاً لهذا النظام،
00:00:19فأنا لست الشخص نفسه، وذلك لأنني أستخدم مغير صوت في المقطع الثاني.
00:00:23لذا، ميزة التحقق من الصوت تعمل بالفعل. والآن لنرَ ماذا يمكنه أن يفعل أيضاً. نحن نصدر فيديوهات
00:00:28باستمرار، لذا تأكدوا من الاشتراك. سأعطيكم ملخصاً سريعاً قبل أن أبدأ العروض التوضيحية الأولى.
00:00:38يوفر SpeechBrain ميزات تحسين الكلام، وفصل الأصوات، وتحديد هوية المتحدث، وتحويل النص إلى كلام، باختصار؛ كل ما تحتاجه.
00:00:44وإليكم الجزء الأهم للمطورين: أكثر من 9000 نجمة على GitHub، وتكامل قوي مع Hugging Face،
00:00:51وتثبيت بامر واحد، وتحميل النموذج يتم بأسطر قليلة. لقد صُمم هذا لمن يريدون
00:00:56إنجاز العمل بسرعة، دون إضاعة الوقت في قراءة الوثائق التقنية الطويلة. هذا هو الكود الأساسي الذي قمت بتطويره
00:01:02لتشغيل هذا المشروع. وقد وجدت الكثير من الأكواد في موقع التوثيق الرسمي نفسه. قررت استخدام
00:01:08Gradio لبناء واجهة المستخدم. Gradio هي مكتبة بايثون لتطبيقات تعلم الآلة، وهي تعمل بشكل
00:01:14ممتاز لمثل هذه المهام. حسناً، هذا الجزء قد يبدو مزيفاً إن لم تره من قبل. فمعظم عروض تحسين الصوت
00:01:20تغش باستخدام صوت نقي أصلاً. سأفعل العكس تماماً هنا؛ سأقوم بتشغيل
00:01:24ضجيج عالٍ في الخلفية الآن. موسيقى في الغالب. لنبدأ. أنا أتحدث الآن بشكل طبيعي، وأسجل صوتي
00:01:31فوق هذه الموسيقى. إليكم الصوت الخام. نعم، يبدو سيئاً جداً. الآن شاهدوا النتيجة المحسنة.
00:01:37أنا أتحدث بشكل طبيعي. نفس الصوت، مع عزل الضجيج تماماً، ودون أي حيل في المعالجة. وإليكم
00:01:44الخلاصة: هذا البرنامج يعمل في ثوانٍ. يمكن استخدامه في تطبيقات المكالمات، والبودكاست، وتنقية الصوت، والأجهزة المدمجة،
00:01:51وأي جهاز به ميكروفون وبيئة صوتية سيئة. الكود بسيط: حمّل النموذج، ثم استدعِ وظيفة التحسين، وهذا كل شيء.
00:01:57لكن صراحةً، كانت الوثائق التقنية صعبة بعض الشيء، لذا اضطررت لتعديل الكود ليعمل بشكل أفضل على جهاز الماك.
00:02:02حيث واجهت بعض المشكلات التقنية. الميزة التالية هي التحقق من المتحدث، والتي أشرت إليها
00:02:07في البداية. وبصراحة، يعتقد الناس أن تقنيات الصوت معقدة للغاية. لكن المفاجأة،
00:02:13أنها ليست كذلك، على الأقل مع هذه الأداة. سأقوم بتسجيل صوتي هنا: “مرحباً، هذا هو صوتي”.
00:02:20كان ذلك في التسجيل الأول. ثم سأفعل الشيء نفسه مرة أخرى في التسجيل الثاني هنا.
00:02:26‏”مرحباً، هذا هو صوتي”. الآن لنتحقق، إنه نفس المتحدث. الدرجة عالية، والمطابقة أكدت ذلك. لدينا
00:02:36تلك النتيجة وتصنيفها في المخرجات. وإذا جربت مرة أخرى دون استخدام مغير الصوت،
00:02:42لنرى كيف ستبدو النتيجة. “ماذا تناولت في الإفطار؟” حسناً، سأغير نبرة صوتي الآن،
00:02:48لا تضحكوا عليّ كثيراً هنا. “ماذا تناولت في الإفطار؟” انخفضت درجة التشابه قليلاً،
00:02:56لكن النظام لا يزال يؤكد أنني نفس المتحدث بالفعل. هذا النموذج مدرب مسبقاً على مجموعة بيانات VoxCeleb.
00:03:01مرة أخرى، تجربة سريعة مع مغير الصوت. هذا هو صوتي الطبيعي. والآن إذا قمت بتشغيل
00:03:08مغير الصوت الخاص بي، سيصبح هكذا. سأقوم بتشغيل المقطع الثاني لكم لتسمعوه،
00:03:17إنه يبدو هكذا. “هذا هو صوتي الطبيعي”. حسناً، الصوت غريب، أليس كذلك؟
00:03:22يمكنكم سماع تأثير المغير بوضوح. نعم، لا يتطابقان أبداً، وهذا ما تظهره النتيجة هنا.
00:03:27إذا كنت تبني تطبيقات بصمة صوتية متعددة المستخدمين أو أي شيء يتطلب معرفة من يتحدث،
00:03:32فهذه الأداة هي الحل. في عرضي الأخير، نعم، من المفترض أن تكون هذه هي الركيزة الأساسية. عروض
00:03:37التحويل المباشر للكلام (ASR) تبدو مبهرة عادةً حتى تجربها بهذا الكلام. الآن سأتحدث
00:03:43بشكل طبيعي. هذه الميزة لا تعمل بشكل جيد في الواقع، والوثائق التقنية لم تساعدني
00:03:48كثيراً، لذا لست متأكداً من رأيي تجاهها. تبدو بصراحة وكأنها مجرد عملية تحويل عادية
00:03:53للكلام إلى نص. كان من المفترض أن يكون هناك اشتراك تلقائي لكنني واجهت مشاكل لا حصر لها، ولم تنجح
00:03:58حتى في ذلك. نعم، هي تقوم بتحويل الكلام لنص، لكن هناك مكتبات أخرى لا حصر لها تفعل ذلك أيضاً. هذه الميزة
00:04:04لم تكن مبهرة، على الأقل بالنسبة لي في محاولة تشغيل التحويل التلقائي. ببساطة لم تعمل.
00:04:08إذن هناك أشياء رائعة حقاً هنا، أليس كذلك؟ رأينا التحقق من الصوت، وإلغاء الضجيج
00:04:13في الخلفية، لكن بعض الميزات لم يتم ضبطها بعد. هكذا يمكننا تلخيص تجربة SpeechBrain.
00:04:18بشكل عام، هي سريعة، ومفتوحة المصدر، ومصممة للمطورين. يمكنكم
00:04:22تجربتها بأنفسكم؛ لقد وضعت الروابط في الوصف، وسنراكم في
00:04:26فيديو آخر.

Key Takeaway

تعد SpeechBrain أداة قوية وسريعة للمطورين لبناء تطبيقات معالجة الصوت، رغم حاجتها لبعض التحسينات في ميزات التعرف على الكلام وتوضيح الوثائق التقنية.

Highlights

تقديم SpeechBrain كإطار عمل مفتوح المصدر يعتمد على PyTorch لبناء ميزات صوتية متقدمة.

استعراض قوة أداة تحسين الكلام وعزل الضجيج الخلفي والموسيقى بفعالية عالية.

القدرة على التحقق من هوية المتحدث بدقة حتى مع تغيير نبرة الصوت أو استخدامه بشكل مختلف.

سهولة التثبيت والتكامل مع منصة Hugging Face مع وجود أكثر من 9000 نجمة على GitHub.

مواجهة تحديات تقنية في ميزة التعرف التلقائي على الكلام (ASR) وصعوبة في بعض الوثائق التقنية.

استخدام مكتبة Gradio لبناء واجهات مستخدم سهلة لتطبيقات تعلم الآلة الصوتية.

Timeline

مقدمة عن SpeechBrain وإمكانياتها

يبدأ المتحدث بتعريف SpeechBrain كمجموعة أدوات مفتوحة المصدر مبنية على PyTorch تهدف لشحن ميزات الذكاء الاصطناعي الصوتي بسرعة. يتطرق الفيديو إلى ميزات مثل إزالة الضجيج والتحقق من هوية المتحدث والتعرف التلقائي على الكلام دون الحاجة لضبط دقيق معقد. يوضح المقطع أهمية هذه الأدوات في بناء ميزات صوتية احترافية باستخدام نماذج مدربة مسبقاً. يقوم المتحدث بإجراء اختبار سريع للصوت لإثبات فاعلية نظام التحقق من الهوية منذ اللحظات الأولى. يركز هذا القسم على وضع الأساس لفهم كيف يمكن للمطورين الاستفادة من هذه المكتبة البرمجية.

المميزات التقنية وسهولة الاستخدام للمطورين

يستعرض هذا الجزء الميزات الشاملة التي يوفرها SpeechBrain مثل فصل الأصوات وتحويل النص إلى كلام وتحديد الهوية. يشير المتحدث إلى شعبية الأداة على منصة GitHub وتكاملها القوي مع Hugging Face مما يسهل عملية التحميل والتثبيت بأسطر قليلة. تم تصميم هذا الإطار لمن يرغب في إنجاز المهام بسرعة وتجاوز قراءة الوثائق التقنية الطويلة والمملة. يذكر المتحدث أنه استخدم مكتبة Gradio لبناء واجهة المستخدم الخاصة بمشروعه لتسهيل التفاعل مع النماذج. يعتبر هذا القسم مهماً للمطورين الذين يبحثون عن كفاءة الأداء وسهولة دمج تقنيات الصوت في تطبيقاتهم.

تجربة حية لتحسين الكلام وعزل الضجيج

يقدم المتحدث عرضاً حياً يتحدى فيه الأداة عبر تشغيل موسيقى وضجيج عالٍ في الخلفية أثناء تسجيل صوته. يظهر الفرق بوضوح بين الصوت الخام المزعج والنتيجة المحسنة التي عزلت الضجيج تماماً بضغطة زر. يوضح الفيديو أن الكود المطلوب بسيط جداً ويتلخص في تحميل النموذج واستدعاء وظيفة التحسين فقط. يشير المتحدث إلى بعض التحديات التي واجهته مع الأجهزة التي تعمل بنظام ماك وصعوبة بعض أجزاء التوثيق الرسمي. تكمن أهمية هذا القسم في إثبات الفعالية العملية للأداة في بيئات صوتية سيئة وحقيقية.

اختبار التحقق من هوية المتحدث وبصمة الصوت

يركز هذا القسم على ميزة التحقق من المتحدث (Speaker Verification) وكيفية عملها بدقة مذهلة. يقوم المتحدث بتسجيل صوته مرتين، ثم يحاول خداع النظام عبر تغيير نبرته واستخدام مغير صوت إلكتروني. تظهر النتائج أن النظام قادر على تمييز المتحدث الحقيقي حتى مع تغير النبرة، بينما يرفض المطابقة عند استخدام المغير. يعتمد النموذج المستخدم على مجموعة بيانات VoxCeleb الشهيرة في أبحاث التعرف على الأصوات. يشجع المتحدث المطورين على استخدام هذه الأداة لبناء تطبيقات بصمة صوتية متعددة المستخدمين لضمان الأمان والدقة.

تقييم ميزة التعرف على الكلام والخاتمة

ينتقل المتحدث لتقييم ميزة التعرف التلقائي على الكلام (ASR) ولكنه يعبر عن خيبة أمله في أدائها الفعلي. يشير إلى أن الوثائق التقنية لم تكن مساعدة، وأن الميزة واجهت مشاكل لا حصر لها ولم تعمل بالشكل المطلوب مقارنة بمكتبات أخرى. رغم هذا النقد، يلخص المتحدث تجربة SpeechBrain بأنها إيجابية في مجالات إزالة الضجيج والتحقق من الهوية. يختتم الفيديو بالتأكيد على أن الأداة سريعة ومفتوحة المصدر وتستحق التجربة رغم بعض العيوب التقنية. يوجه المتابعون للروابط الموجودة في الوصف لتجربة الكود بأنفسهم في مشاريعهم القادمة.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video