00:00:00تفوّق نموذج بـ 82 مليون معلمة للتو على أنظمة أكبر بكثير لتحويل النص إلى كلام، وهو يعمل محلياً على
00:00:06جهاز كمبيوتر محمول بسرعة أكبر من معظم واجهات البرمجة المدفوعة.
00:00:09في الشهر الماضي دفعت مقابل خدمة سحابية لتحويل النص إلى كلام، ومع ذلك واجهت بعض البطء.
00:00:13لم يكن ذلك منطقياً بالنسبة لي.
00:00:14كيف تتفوق بعض هذه النماذج مفتوحة المصدر على ذلك؟
00:00:17هذا هو Kokoro 82M، وقد بدأ بعض المطورين بالفعل في استخدامه في تطبيقاتهم.
00:00:22لنرى كيف يعمل هذا، والأهم من ذلك، كيف يبدو صوته.
00:00:30حسناً، إذا كنت تبني نظاماً لتحويل النص إلى كلام، فأنت عادة ما تختار بين خيارين سيئين.
00:00:36الخيار الأول هو بالتأكيد واجهات البرمجة السحابية، أليس كذلك؟
00:00:39بدؤها سهل، لكنك ستواجه فواتير، وتذبذبات في سرعة الاستجابة، وتبعية إضافية
00:00:44في كل مرة ينطق فيها تطبيقك.
00:00:46الخيار التالي سيكون شيئاً مثل هذه النماذج المفتوحة الكبيرة، لكنك ستحتاج إلى الكثير
00:00:51من الأجهزة والذاكرة، ولنكن واقعيين، لا تزال ليست بتلك السرعة.
00:00:56لذا فإن الشيء الذي يفترض أن يبدو سلساً ينتهي به الأمر بطيئاً، أو مكلفاً، أو
00:01:00ببساطة يتعطل.
00:01:02هنا يأتي دور Kokoro.
00:01:04لقد تم تدريبه على أقل من 100 ساعة من البيانات، ومع ذلك يتصدر قوائم الأفضل.
00:01:09إنه يتفوق على نماذج أكبر بكثير بجزء بسيط من الحجم، وهو مرخص بـ Apache 2.0، ويعمل على المعالج،
00:01:15وينطلق بسرعة على Apple Silicon، ويولد الكلام بصدق وبسرعة جنونية.
00:01:19الآن أصبحت تطبيقات الصوت المحلية والوكلاء في الوقت الفعلي أكثر منطقية.
00:01:24إذا كنت تستمتع بأدوات البرمجة والنصائح كهذه، تأكد من الاشتراك.
00:01:27لدينا فيديوهات جديدة تنشر باستمرار.
00:01:29حسناً، دعوني أريكم هذا.
00:01:31أنا أقوم بتشغيل كل هذا محلياً على جهاز Mac M4 Pro.
00:01:34الإعداد يستغرق حوالي 30 ثانية، سأقوم بتشغيله باستخدام أمر pip هذا هنا.
00:01:39أنا أستخدم بيئة conda، ولكن هذا كل ما في الأمر تقريباً.
00:01:42لدي هذا السكربت البرمجي الكامل بلغة بايثون من مستودعهم الرسمي، لم أضطر لتغيير أي شيء
00:01:47لاختبار هذا، الأمر مجرد سحب وإفلات، ونحصل على كل هذه النتائج.
00:01:51يمكنني اختيار الصوت واللغة هنا، لكن في الجولة الأولى سأتركه
00:01:56كما هو لأن صوته يبدو جيداً جداً للأمانة.
00:02:00سأقوم بتشغيله ثم لنستمع.
00:02:02"Better Stack هي منصة المراقبة الرائدة."
00:02:05"التي تجعل المراقبة بسيطة."
00:02:07"تتضمن AISRE، والسجلات، والمقاييس، والتتبعات، وتتبع الأخطاء."
00:02:12"واستجابة الحوادث كلها في مكان واحد."
00:02:14لن أكذب، كان ذلك جيداً جداً، وصدر بسرعة كبيرة.
00:02:19الآن إذا قمت بتغيير الإعداد، لنجرب اللغة الفرنسية وننتقل إلى الصوت الفرنسي.
00:02:24سأغير النص قليلاً ومرة أخرى لنقوم بتشغيله.
00:02:26"Better Stack هي منصة المراقبة بالتوازي."
00:02:29"إنها تبسط المراقبة."
00:02:31حسناً، لغتي الفرنسية ضعيفة لذا لا تترجموا ذلك حرفياً، لكن ذلك بدا جيداً
00:02:36جداً أيضاً.
00:02:37يمكنكم أنتم الحكم على ذلك على أي حال.
00:02:39كل شيء يحفظ كملف WAV لذا يمكنني تحميلها كما أريد.
00:02:43لا توجد سحابة.
00:02:44لا يوجد معالج رسوميات.
00:02:45كان ذلك مذهلاً حقاً.
00:02:47ما هو Kokoro 82M في الحقيقة؟
00:02:49على مستوى عالٍ، هو نموذج style TTS2 مع مشفر صوتي (vocoder) خفيف الوزن.
00:02:55كل ما يعنيه ذلك هو أنه صُمم ليبدو جيداً دون أن يكون ضخماً، وهذا هو الفرق
00:02:59الجوهري هنا.
00:03:00معظم الخيارات الأخرى تتجه نحو الأحجام الأكبر.
00:03:01مثل XTTS و Cozy Voice و F5 TTS، التي تتراوح بين مئات الملايين إلى أكثر من مليار معلمة.
00:03:08أما الأدوات السحابية مثل 11 Labs أو OpenAI، فهي تحل مشكلة العتاد، لكننا الآن
00:03:13ندفع مقابل كل طلب ونرسل بياناتنا للخارج.
00:03:16Kokoro يتجه في الاتجاه المعاكس.
00:03:19إنه صغير وسريع في البدء ويعمل محلياً، بالإضافة إلى أنه يستهلك ذاكرة أقل بكثير.
00:03:24لكن السلبيات هي أنه لا يدعم استنساخ الصوت الفوري (zero shot) بشكل مباشر، وبدلاً من ذلك
00:03:29يركز على الكفاءة والجودة التي يمكننا توفيرها بشكل أسرع بكثير.
00:03:33لا نزال نحصل على 8 لغات و 54 صوتاً وتحكماً جيداً مع مكتبة Misaki.
00:03:39أرى أن هذا سيكون مناسباً جداً لأنواع مختلفة من الوكلاء، لكنك
00:03:42لا تحصل على أي نوع من المشاعر، وهو ما كنت أتمنى رؤيته هنا.
00:03:47الذكاء الاصطناعي بدون مشاعر سيظل يبدو آلياً بشكل كبير، وهو ما أظن أنه قد يكون جيداً
00:03:52أحياناً، أليس كذلك؟
00:03:53لكن سيكون من الممتع اللعب بتلك المشاعر.
00:03:56لماذا يستخدم المطورون هذا في الحقيقة؟
00:03:58حسناً، إذا لم أكن قد أريتكم، فلنتطرق للأمر، لأنه يعالج المشاكل التي عادة
00:04:02ما تعطل ميزات الصوت.
00:04:04أولاً، السرعة.
00:04:05إذا توقف وكيلك لفترة طويلة وفقد واقعيته، فإن Kokoro يقلل ذلك التأخير بشكل كبير.
00:04:11ثم هناك إمكانية الاستخدام دون اتصال بالإنترنت.
00:04:13لا يوجد إنترنت، ولا مفاتيح واجهة برمجة، ولا توجد أعطال عشوائية. هذا رائع.
00:04:16هذا رائع.
00:04:17الخصوصية أمر بالغ الأهمية لأن Kokoro يبقي كل شيء محلياً، وبالنسبة لي وللكثيرين منكم،
00:04:22قد يكون هذا مكسباً كبيراً.
00:04:23وأخيراً، التكلفة عند التوسع.
00:04:26بما أنه خفيف الوزن جداً، يمكنك تشغيل نسخ أكثر بكثير على جهاز واحد.
00:04:30ما هو الجيد وما هو غير ذلك؟ لقد أحببت أنه سريع وصغير.
00:04:33يبدو طبيعياً في المحتوى الطويل.
00:04:35كان ذلك رائعاً حقاً.
00:04:36لقد جربت الكثير من هذه الأدوات.
00:04:38إنه مرخص بـ Apache 2.0، لذا يمكنك استخدامه تجارياً، وبعد الإعداد يصبح مجانياً تقريباً.
00:04:43كل هذه الميزات رائعة جداً.
00:04:44لقد أعجبتني كثيراً.
00:04:45كان ذلك مذهلاً.
00:04:46لكن كانت هناك أشياء لم تعجبني.
00:04:47غياب استنساخ الصوت الأصلي، يعتمد الأمر على ما إذا كنت تحتاجه، كان من الممكن
00:04:51توفير ذلك.
00:04:52المشاعر محايدة تماماً.
00:04:54ممتاز للسرد، لكنه ليس رائعاً لأي شيء درامي.
00:04:56أعني أنه لا توجد قدرة حقيقية على تغيير المشاعر هنا، بالإضافة إلى أن اللغات غير الإنجليزية
00:05:02لا تزال قيد التحسين.
00:05:03لذا يجب إضافة ذلك، أو ربما لا، يعتمد الأمر على كيفية رؤيتك لهذا الأمر.
00:05:07فهل هو مثالي؟
00:05:08لا.
00:05:09لكن بالنسبة للمشاكل التي يواجهها معظمنا فعلياً: التكلفة، زمن الوصول، الخصوصية، والنشر.
00:05:14يبدو أنه يحل المشاكل الصحيحة في الوقت الحالي.
00:05:18جربوه وأخبروني برأيكم.
00:05:19يثبت Kokoro 82M أنك لست بحاجة إلى نموذج ضخم للحصول على نظام تحويل نص إلى كلام جيد حقاً.
00:05:24حجم أصغر يعني سرعة أكبر، وسرعة أكبر تعني إمكانية استخدام أكبر، وبذلك
00:05:29يمكنك فعلياً إطلاقه واستخدامه.
00:05:30إذا كنت تبني وكلاء صوتيين أو أدوات محلية، فإن هذا يستحق التجربة.
00:05:34إذا كنت تستمتع بأدوات البرمجة والنصائح كهذه، تأكد من الاشتراك في قناة Better Stack.
00:05:38سنراكم في فيديو آخر.