00:00:00هذا هو SpeechBrain، وهي مجموعة أدوات مفتوحة المصدر مبنية على PyTorch تتيح لنا بناء وشحن ميزات
00:00:05الذكاء الاصطناعي الصوتي باستخدام نماذج مدربة مسبقاً. بدءاً من تقنيات إزالة الضجيج، والتحقق من هوية المتحدث،
00:00:10وصولاً إلى التعرف التلقائي على الكلام (ASR). دون الحاجة لتدريب أو ضبط دقيق. لنجرِ اختباراً سريعاً للتحقق من الصوت هنا. ربما
00:00:15تتوقعون جودة صوت أفضل. حسناً، نعم، سيحدث هذا بشكل طبيعي هنا. وفقاً لهذا النظام،
00:00:19فأنا لست الشخص نفسه، وذلك لأنني أستخدم مغير صوت في المقطع الثاني.
00:00:23لذا، ميزة التحقق من الصوت تعمل بالفعل. والآن لنرَ ماذا يمكنه أن يفعل أيضاً. نحن نصدر فيديوهات
00:00:28باستمرار، لذا تأكدوا من الاشتراك. سأعطيكم ملخصاً سريعاً قبل أن أبدأ العروض التوضيحية الأولى.
00:00:38يوفر SpeechBrain ميزات تحسين الكلام، وفصل الأصوات، وتحديد هوية المتحدث، وتحويل النص إلى كلام، باختصار؛ كل ما تحتاجه.
00:00:44وإليكم الجزء الأهم للمطورين: أكثر من 9000 نجمة على GitHub، وتكامل قوي مع Hugging Face،
00:00:51وتثبيت بامر واحد، وتحميل النموذج يتم بأسطر قليلة. لقد صُمم هذا لمن يريدون
00:00:56إنجاز العمل بسرعة، دون إضاعة الوقت في قراءة الوثائق التقنية الطويلة. هذا هو الكود الأساسي الذي قمت بتطويره
00:01:02لتشغيل هذا المشروع. وقد وجدت الكثير من الأكواد في موقع التوثيق الرسمي نفسه. قررت استخدام
00:01:08Gradio لبناء واجهة المستخدم. Gradio هي مكتبة بايثون لتطبيقات تعلم الآلة، وهي تعمل بشكل
00:01:14ممتاز لمثل هذه المهام. حسناً، هذا الجزء قد يبدو مزيفاً إن لم تره من قبل. فمعظم عروض تحسين الصوت
00:01:20تغش باستخدام صوت نقي أصلاً. سأفعل العكس تماماً هنا؛ سأقوم بتشغيل
00:01:24ضجيج عالٍ في الخلفية الآن. موسيقى في الغالب. لنبدأ. أنا أتحدث الآن بشكل طبيعي، وأسجل صوتي
00:01:31فوق هذه الموسيقى. إليكم الصوت الخام. نعم، يبدو سيئاً جداً. الآن شاهدوا النتيجة المحسنة.
00:01:37أنا أتحدث بشكل طبيعي. نفس الصوت، مع عزل الضجيج تماماً، ودون أي حيل في المعالجة. وإليكم
00:01:44الخلاصة: هذا البرنامج يعمل في ثوانٍ. يمكن استخدامه في تطبيقات المكالمات، والبودكاست، وتنقية الصوت، والأجهزة المدمجة،
00:01:51وأي جهاز به ميكروفون وبيئة صوتية سيئة. الكود بسيط: حمّل النموذج، ثم استدعِ وظيفة التحسين، وهذا كل شيء.
00:01:57لكن صراحةً، كانت الوثائق التقنية صعبة بعض الشيء، لذا اضطررت لتعديل الكود ليعمل بشكل أفضل على جهاز الماك.
00:02:02حيث واجهت بعض المشكلات التقنية. الميزة التالية هي التحقق من المتحدث، والتي أشرت إليها
00:02:07في البداية. وبصراحة، يعتقد الناس أن تقنيات الصوت معقدة للغاية. لكن المفاجأة،
00:02:13أنها ليست كذلك، على الأقل مع هذه الأداة. سأقوم بتسجيل صوتي هنا: “مرحباً، هذا هو صوتي”.
00:02:20كان ذلك في التسجيل الأول. ثم سأفعل الشيء نفسه مرة أخرى في التسجيل الثاني هنا.
00:02:26”مرحباً، هذا هو صوتي”. الآن لنتحقق، إنه نفس المتحدث. الدرجة عالية، والمطابقة أكدت ذلك. لدينا
00:02:36تلك النتيجة وتصنيفها في المخرجات. وإذا جربت مرة أخرى دون استخدام مغير الصوت،
00:02:42لنرى كيف ستبدو النتيجة. “ماذا تناولت في الإفطار؟” حسناً، سأغير نبرة صوتي الآن،
00:02:48لا تضحكوا عليّ كثيراً هنا. “ماذا تناولت في الإفطار؟” انخفضت درجة التشابه قليلاً،
00:02:56لكن النظام لا يزال يؤكد أنني نفس المتحدث بالفعل. هذا النموذج مدرب مسبقاً على مجموعة بيانات VoxCeleb.
00:03:01مرة أخرى، تجربة سريعة مع مغير الصوت. هذا هو صوتي الطبيعي. والآن إذا قمت بتشغيل
00:03:08مغير الصوت الخاص بي، سيصبح هكذا. سأقوم بتشغيل المقطع الثاني لكم لتسمعوه،
00:03:17إنه يبدو هكذا. “هذا هو صوتي الطبيعي”. حسناً، الصوت غريب، أليس كذلك؟
00:03:22يمكنكم سماع تأثير المغير بوضوح. نعم، لا يتطابقان أبداً، وهذا ما تظهره النتيجة هنا.
00:03:27إذا كنت تبني تطبيقات بصمة صوتية متعددة المستخدمين أو أي شيء يتطلب معرفة من يتحدث،
00:03:32فهذه الأداة هي الحل. في عرضي الأخير، نعم، من المفترض أن تكون هذه هي الركيزة الأساسية. عروض
00:03:37التحويل المباشر للكلام (ASR) تبدو مبهرة عادةً حتى تجربها بهذا الكلام. الآن سأتحدث
00:03:43بشكل طبيعي. هذه الميزة لا تعمل بشكل جيد في الواقع، والوثائق التقنية لم تساعدني
00:03:48كثيراً، لذا لست متأكداً من رأيي تجاهها. تبدو بصراحة وكأنها مجرد عملية تحويل عادية
00:03:53للكلام إلى نص. كان من المفترض أن يكون هناك اشتراك تلقائي لكنني واجهت مشاكل لا حصر لها، ولم تنجح
00:03:58حتى في ذلك. نعم، هي تقوم بتحويل الكلام لنص، لكن هناك مكتبات أخرى لا حصر لها تفعل ذلك أيضاً. هذه الميزة
00:04:04لم تكن مبهرة، على الأقل بالنسبة لي في محاولة تشغيل التحويل التلقائي. ببساطة لم تعمل.
00:04:08إذن هناك أشياء رائعة حقاً هنا، أليس كذلك؟ رأينا التحقق من الصوت، وإلغاء الضجيج
00:04:13في الخلفية، لكن بعض الميزات لم يتم ضبطها بعد. هكذا يمكننا تلخيص تجربة SpeechBrain.
00:04:18بشكل عام، هي سريعة، ومفتوحة المصدر، ومصممة للمطورين. يمكنكم
00:04:22تجربتها بأنفسكم؛ لقد وضعت الروابط في الوصف، وسنراكم في
00:04:26فيديو آخر.