هذا النموذج الصغير (82M) تفوق للتو على معظم واجهات برمجة تطبيقات TTS (يعمل محلياً)

BBetter Stack
Computing/SoftwareSmall Business/StartupsLanguagesConsumer Electronics

Transcript

00:00:00تفوّق نموذج بـ 82 مليون معلمة للتو على أنظمة أكبر بكثير لتحويل النص إلى كلام، وهو يعمل محلياً على
00:00:06جهاز كمبيوتر محمول بسرعة أكبر من معظم واجهات البرمجة المدفوعة.
00:00:09في الشهر الماضي دفعت مقابل خدمة سحابية لتحويل النص إلى كلام، ومع ذلك واجهت بعض البطء.
00:00:13لم يكن ذلك منطقياً بالنسبة لي.
00:00:14كيف تتفوق بعض هذه النماذج مفتوحة المصدر على ذلك؟
00:00:17هذا هو Kokoro 82M، وقد بدأ بعض المطورين بالفعل في استخدامه في تطبيقاتهم.
00:00:22لنرى كيف يعمل هذا، والأهم من ذلك، كيف يبدو صوته.
00:00:30حسناً، إذا كنت تبني نظاماً لتحويل النص إلى كلام، فأنت عادة ما تختار بين خيارين سيئين.
00:00:36الخيار الأول هو بالتأكيد واجهات البرمجة السحابية، أليس كذلك؟
00:00:39بدؤها سهل، لكنك ستواجه فواتير، وتذبذبات في سرعة الاستجابة، وتبعية إضافية
00:00:44في كل مرة ينطق فيها تطبيقك.
00:00:46الخيار التالي سيكون شيئاً مثل هذه النماذج المفتوحة الكبيرة، لكنك ستحتاج إلى الكثير
00:00:51من الأجهزة والذاكرة، ولنكن واقعيين، لا تزال ليست بتلك السرعة.
00:00:56لذا فإن الشيء الذي يفترض أن يبدو سلساً ينتهي به الأمر بطيئاً، أو مكلفاً، أو
00:01:00ببساطة يتعطل.
00:01:02هنا يأتي دور Kokoro.
00:01:04لقد تم تدريبه على أقل من 100 ساعة من البيانات، ومع ذلك يتصدر قوائم الأفضل.
00:01:09إنه يتفوق على نماذج أكبر بكثير بجزء بسيط من الحجم، وهو مرخص بـ Apache 2.0، ويعمل على المعالج،
00:01:15وينطلق بسرعة على Apple Silicon، ويولد الكلام بصدق وبسرعة جنونية.
00:01:19الآن أصبحت تطبيقات الصوت المحلية والوكلاء في الوقت الفعلي أكثر منطقية.
00:01:24إذا كنت تستمتع بأدوات البرمجة والنصائح كهذه، تأكد من الاشتراك.
00:01:27لدينا فيديوهات جديدة تنشر باستمرار.
00:01:29حسناً، دعوني أريكم هذا.
00:01:31أنا أقوم بتشغيل كل هذا محلياً على جهاز Mac M4 Pro.
00:01:34الإعداد يستغرق حوالي 30 ثانية، سأقوم بتشغيله باستخدام أمر pip هذا هنا.
00:01:39أنا أستخدم بيئة conda، ولكن هذا كل ما في الأمر تقريباً.
00:01:42لدي هذا السكربت البرمجي الكامل بلغة بايثون من مستودعهم الرسمي، لم أضطر لتغيير أي شيء
00:01:47لاختبار هذا، الأمر مجرد سحب وإفلات، ونحصل على كل هذه النتائج.
00:01:51يمكنني اختيار الصوت واللغة هنا، لكن في الجولة الأولى سأتركه
00:01:56كما هو لأن صوته يبدو جيداً جداً للأمانة.
00:02:00سأقوم بتشغيله ثم لنستمع.
00:02:02"Better Stack هي منصة المراقبة الرائدة."
00:02:05"التي تجعل المراقبة بسيطة."
00:02:07"تتضمن AISRE، والسجلات، والمقاييس، والتتبعات، وتتبع الأخطاء."
00:02:12"واستجابة الحوادث كلها في مكان واحد."
00:02:14لن أكذب، كان ذلك جيداً جداً، وصدر بسرعة كبيرة.
00:02:19الآن إذا قمت بتغيير الإعداد، لنجرب اللغة الفرنسية وننتقل إلى الصوت الفرنسي.
00:02:24سأغير النص قليلاً ومرة أخرى لنقوم بتشغيله.
00:02:26"Better Stack هي منصة المراقبة بالتوازي."
00:02:29"إنها تبسط المراقبة."
00:02:31حسناً، لغتي الفرنسية ضعيفة لذا لا تترجموا ذلك حرفياً، لكن ذلك بدا جيداً
00:02:36جداً أيضاً.
00:02:37يمكنكم أنتم الحكم على ذلك على أي حال.
00:02:39كل شيء يحفظ كملف WAV لذا يمكنني تحميلها كما أريد.
00:02:43لا توجد سحابة.
00:02:44لا يوجد معالج رسوميات.
00:02:45كان ذلك مذهلاً حقاً.
00:02:47ما هو Kokoro 82M في الحقيقة؟
00:02:49على مستوى عالٍ، هو نموذج style TTS2 مع مشفر صوتي (vocoder) خفيف الوزن.
00:02:55كل ما يعنيه ذلك هو أنه صُمم ليبدو جيداً دون أن يكون ضخماً، وهذا هو الفرق
00:02:59الجوهري هنا.
00:03:00معظم الخيارات الأخرى تتجه نحو الأحجام الأكبر.
00:03:01مثل XTTS و Cozy Voice و F5 TTS، التي تتراوح بين مئات الملايين إلى أكثر من مليار معلمة.
00:03:08أما الأدوات السحابية مثل 11 Labs أو OpenAI، فهي تحل مشكلة العتاد، لكننا الآن
00:03:13ندفع مقابل كل طلب ونرسل بياناتنا للخارج.
00:03:16Kokoro يتجه في الاتجاه المعاكس.
00:03:19إنه صغير وسريع في البدء ويعمل محلياً، بالإضافة إلى أنه يستهلك ذاكرة أقل بكثير.
00:03:24لكن السلبيات هي أنه لا يدعم استنساخ الصوت الفوري (zero shot) بشكل مباشر، وبدلاً من ذلك
00:03:29يركز على الكفاءة والجودة التي يمكننا توفيرها بشكل أسرع بكثير.
00:03:33لا نزال نحصل على 8 لغات و 54 صوتاً وتحكماً جيداً مع مكتبة Misaki.
00:03:39أرى أن هذا سيكون مناسباً جداً لأنواع مختلفة من الوكلاء، لكنك
00:03:42لا تحصل على أي نوع من المشاعر، وهو ما كنت أتمنى رؤيته هنا.
00:03:47الذكاء الاصطناعي بدون مشاعر سيظل يبدو آلياً بشكل كبير، وهو ما أظن أنه قد يكون جيداً
00:03:52أحياناً، أليس كذلك؟
00:03:53لكن سيكون من الممتع اللعب بتلك المشاعر.
00:03:56لماذا يستخدم المطورون هذا في الحقيقة؟
00:03:58حسناً، إذا لم أكن قد أريتكم، فلنتطرق للأمر، لأنه يعالج المشاكل التي عادة
00:04:02ما تعطل ميزات الصوت.
00:04:04أولاً، السرعة.
00:04:05إذا توقف وكيلك لفترة طويلة وفقد واقعيته، فإن Kokoro يقلل ذلك التأخير بشكل كبير.
00:04:11ثم هناك إمكانية الاستخدام دون اتصال بالإنترنت.
00:04:13لا يوجد إنترنت، ولا مفاتيح واجهة برمجة، ولا توجد أعطال عشوائية. هذا رائع.
00:04:16هذا رائع.
00:04:17الخصوصية أمر بالغ الأهمية لأن Kokoro يبقي كل شيء محلياً، وبالنسبة لي وللكثيرين منكم،
00:04:22قد يكون هذا مكسباً كبيراً.
00:04:23وأخيراً، التكلفة عند التوسع.
00:04:26بما أنه خفيف الوزن جداً، يمكنك تشغيل نسخ أكثر بكثير على جهاز واحد.
00:04:30ما هو الجيد وما هو غير ذلك؟ لقد أحببت أنه سريع وصغير.
00:04:33يبدو طبيعياً في المحتوى الطويل.
00:04:35كان ذلك رائعاً حقاً.
00:04:36لقد جربت الكثير من هذه الأدوات.
00:04:38إنه مرخص بـ Apache 2.0، لذا يمكنك استخدامه تجارياً، وبعد الإعداد يصبح مجانياً تقريباً.
00:04:43كل هذه الميزات رائعة جداً.
00:04:44لقد أعجبتني كثيراً.
00:04:45كان ذلك مذهلاً.
00:04:46لكن كانت هناك أشياء لم تعجبني.
00:04:47غياب استنساخ الصوت الأصلي، يعتمد الأمر على ما إذا كنت تحتاجه، كان من الممكن
00:04:51توفير ذلك.
00:04:52المشاعر محايدة تماماً.
00:04:54ممتاز للسرد، لكنه ليس رائعاً لأي شيء درامي.
00:04:56أعني أنه لا توجد قدرة حقيقية على تغيير المشاعر هنا، بالإضافة إلى أن اللغات غير الإنجليزية
00:05:02لا تزال قيد التحسين.
00:05:03لذا يجب إضافة ذلك، أو ربما لا، يعتمد الأمر على كيفية رؤيتك لهذا الأمر.
00:05:07فهل هو مثالي؟
00:05:08لا.
00:05:09لكن بالنسبة للمشاكل التي يواجهها معظمنا فعلياً: التكلفة، زمن الوصول، الخصوصية، والنشر.
00:05:14يبدو أنه يحل المشاكل الصحيحة في الوقت الحالي.
00:05:18جربوه وأخبروني برأيكم.
00:05:19يثبت Kokoro 82M أنك لست بحاجة إلى نموذج ضخم للحصول على نظام تحويل نص إلى كلام جيد حقاً.
00:05:24حجم أصغر يعني سرعة أكبر، وسرعة أكبر تعني إمكانية استخدام أكبر، وبذلك
00:05:29يمكنك فعلياً إطلاقه واستخدامه.
00:05:30إذا كنت تبني وكلاء صوتيين أو أدوات محلية، فإن هذا يستحق التجربة.
00:05:34إذا كنت تستمتع بأدوات البرمجة والنصائح كهذه، تأكد من الاشتراك في قناة Better Stack.
00:05:38سنراكم في فيديو آخر.

Key Takeaway

يوفر نموذج Kokoro 82M أداءً يتفوق على واجهات البرمجة السحابية المدفوعة من خلال تشغيل محلي سريع ومنخفض التكلفة على المعالجات العادية، رغم حجمه الصغير وتدريبه المحدود.

Highlights

يتكون نموذج Kokoro من 82 مليون معلمة فقط، مما يجعله أصغر بكثير من المنافسين مثل F5 TTS و Cozy Voice.

يعمل النموذج محلياً وبسرعة عالية على معالجات Apple Silicon مثل شريحة M4 Pro دون الحاجة لمعالج رسوميات خارجي.

يتم إعداد بيئة التشغيل في 30 ثانية باستخدام أمر تثبيت بسيط عبر مكتبة pip داخل بيئة conda.

يوفر النموذج 54 صوتاً مختلفاً ويدعم 8 لغات مع ترخيص Apache 2.0 الذي يسمح بالاستخدام التجاري المجاني.

يتصدر النموذج قوائم الأداء رغم تدريبه على أقل من 100 ساعة فقط من البيانات الصوتية.

تنتج المعالجة المحلية ملفات بصيغة WAV دون الحاجة للاتصال بالإنترنت أو دفع رسوم لكل طلب عبر واجهات البرمجة.

Timeline

كفاءة النماذج الصغيرة في تحويل النص إلى كلام

  • يتفوق نموذج Kokoro 82M على أنظمة أكبر حجماً وتكلفة في سرعة الاستجابة.
  • تتسبب واجهات البرمجة السحابية في فواتير مرتفعة وتذبذب في سرعة الأداء.
  • تتطلب النماذج المفتوحة الكبيرة عتاداً ضخماً وذاكرة واسعة لتعمل بفعالية.

توجد فجوة كبيرة بين سهولة بدء استخدام واجهات البرمجة السحابية وبين مشاكل التكلفة والتبعية التقنية التي تفرضها. النماذج الضخمة المتاحة حالياً لا تزال بطيئة وتتطلب أجهزة متخصصة. يكسر Kokoro هذه القاعدة عبر تقديم جودة عالية بحجم صغير جداً يسمح بالتشغيل المحلي السلس.

الخصائص التقنية لنموذج Kokoro 82M

  • يعتمد التصميم التقني على نموذج style TTS2 مع مشفر صوتي خفيف الوزن.
  • يستغرق تثبيت وتشغيل النموذج على أجهزة Mac الحديثة حوالي 30 ثانية فقط.
  • يدعم النظام معالجة لغات متعددة مثل الفرنسية والإنجليزية مع إخراج فوري للملفات.

يعمل النموذج بالكامل على المعالج المركزي (CPU) وينطلق بسرعة استثنائية على شرائح Apple Silicon. استخدام مكتبة Misaki يمنح تحكماً دقيقاً في النصوص، بينما تضمن رخصة Apache 2.0 حرية الاستخدام للمطورين. تظهر التجارب العملية سرعة فائقة في توليد الكلام الطبيعي وحفظه كملفات WAV دون أي استهلاك للبيانات السحابية.

المقارنة مع المنافسين وتحديد القيود

  • يقلل Kokoro من استهلاك الذاكرة مقارنة بنماذج XTTS و Cozy Voice التي تتجاوز مليار معلمة.
  • يفتقر النموذج حالياً لميزة استنساخ الصوت الفوري (zero shot).
  • تتميز نبرة الصوت بالحياد التام وتفتقد للتعبير عن المشاعر البشرية المعقدة.

يتجه Kokoro نحو الكفاءة القصوى بدلاً من الحجم الضخم، مما يجعله مثالياً للوكلاء الصوتيين في الوقت الفعلي. رغم جودته في السرد، إلا أنه يظل آلياً في السياقات الدرامية بسبب غياب المشاعر. المقارنة مع أدوات مثل Eleven Labs تظهر تفوق Kokoro في الخصوصية وحماية البيانات المحلية.

مزايا الاستخدام التجاري والتطوير

  • يعالج النموذج مشكلة زمن الوصول (latency) التي تعيق واقعية الوكلاء الصوتيين.
  • يسمح الحجم الصغير بتشغيل نسخ متعددة من النموذج على جهاز واحد في آن واحد.
  • تعد اللغات غير الإنجليزية ميزة قائمة لكنها لا تزال تخضع لتحسينات مستمرة.

تكمن القيمة الحقيقية للمطورين في قدرة النموذج على العمل دون اتصال بالإنترنت (offline) وبدون مفاتيح واجهة برمجة (API keys). هذا يلغي الأعطال العشوائية المرتبطة بالخدمات الخارجية ويقلل تكلفة التوسع البرمجي بشكل جذري. يثبت هذا التوجه أن النماذج الصغيرة هي الحل العملي لمشاكل الخصوصية والنشر الواسع.

Community Posts

View all posts