جربت بديل ElevenLabs مفتوح المصدر (Voicebox)

BBetter Stack
Computing/SoftwareConsumer ElectronicsInternet Technology

Transcript

00:00:00يقولون إن هذا هو “أولاما” الخاص بالذكاء الاصطناعي الصوتي. فهو يستنسخ الأصوات، ويولد الكلام، ويملي في أي تطبيق،
00:00:07ويتحدث مع الوكلاء بأصوات تمتلكها فعلياً. هذا هو VoiceBox، وهذا ما يقوله
00:00:13هنا تماماً. إنه مجاني وبديل محلي لـ 11 Labs، وبصراحة، كان هذا مذهلاً.
00:00:19لديه حوالي 30,000 نجمة على GitHub. يعمل محلياً، وفي الـ 60 ثانية القادمة،
00:00:24سأعرض لك استنساخ الصوت محلياً، وتوليد الكلام، والإملاء داخل محرر النصوص.
00:00:29ما مدى فائدة هذا بالنسبة لنا، وما مدى سهولة البدء به في المقام الأول؟ نحن على وشك معرفة ذلك.
00:00:39الآن، VoiceBox هو استوديو صوتي محلي مفتوح المصدر للذكاء الاصطناعي. الطريقة البسيطة للتفكير في الأمر هي هذه.
00:00:46Olama مخصص لنماذج النصوص المحلية. وVoiceBox يحاول أن يكون كذلك للصوت. لذا فهو ليس مجرد تحويل نص إلى كلام.
00:00:54إنه يقوم باستنساخ الصوت، والإملاء على مستوى النظام، والتحرير الإبداعي، بل ويحتوي حتى على قصص و
00:01:00جداول زمنية، ويتصل بوكلاء الذكاء الاصطناعي. لذا فهذا يمنحنا تحكماً حقيقياً وحتى المزيد من الخصوصية.
00:01:06أريد بناء أشياء دون أن أسأل، كم عدد الاعتمادات التي استخدمتها للتو لاختبار هذا؟ VoiceBox
00:01:12لا يسأل عن ذلك، لأن VoiceBox يعمل على جهازنا. لذا لا يوجد اشتراك. ولا توجد
00:01:17حدود للأحرف. بالإضافة إلى ذلك، فهو يجمع بين الاستنساخ، والإملاء المدعوم بـ Whisper، ومحرر متعدد المسارات،
00:01:23وتطبيق سطح مكتب، ودعم MCP، وواجهة REST API محلية. فبدلاً من خمس أدوات منفصلة،
00:01:29تحصل على تطبيق سطح مكتب واحد يحتوي على كل شيء هنا. سأقوم بثلاثة أشياء في هذا الفيديو.
00:01:36سأقوم باستنساخ صوت، وسأجعله يتحدث، ثم سأستخدم الإملاء داخل
00:01:41المحرر. بعد ذلك، سأوضح لك سبب كون تكامل الوكلاء رائعاً جداً، أو على الأقل
00:01:46سنتحدث عنه. إذا كنت تستمتع بأدوات البرمجة التي تسرع سير عملك، تأكد من
00:01:50الاشتراك. لدينا فيديوهات تصدر طوال الوقت. حسناً، الآن أنا أشغل هذا على جهاز Mac M4 الخاص بي.
00:01:55هذا هو VoiceBox. لدي بالفعل ملف تعريف صوتي جاهز، لكن التدفق كان بسيطاً جداً. الآن يمكنك
00:02:02تشغيل هذا باستخدام Docker، نعم، لكنني فعلت ذلك، واستغرق الأمر ما يقرب من 30 دقيقة لتشغيل الحاويات.
00:02:08لذا بالنسبة لهذا، اخترت بدلاً من ذلك الحصول على تطبيق سطح المكتب، الذي كان أسرع بكثير، وهو بصراحة جيد
00:02:13جداً. يمكنني تسمية الصوت هنا. يمكنني إضافة وصف وحتى إخباره بكيفية التصرف مع
00:02:19النماذج. ثم يمكنني إما تسجيل نفسي وأنا أتحدث أو تحميل ملف قصير ليقوم بتحليله أثناء أيضاً
00:02:26إسقاط نص ذلك الصوت. الآن سأكتب سطراً أريد استخدامه فعلياً. لذا
00:02:32ربما كمطور، يمنحني هذا تحكماً كاملاً في الذكاء الاصطناعي الصوتي دون تكاليف سحابية وكل تلك الأشياء المتعلقة بالخصوصية.
00:02:38سأختار ملف التعريف الصوتي الخاص بي. يمكنني اختيار النموذج الذي أريده والضغط على
00:02:44إنشاء (Generate). الآن سيتعين على التشغيل الأول لهذا تنزيل النموذج. لذا قد يستغرق الأمر
00:02:50بعض الوقت، ولكن بعد كل ذلك، وبعد أن قمنا بتشغيله، نحصل على أشكال موجية. دعونا نستمع.
00:02:57كمطور، يمنحني هذا تحكماً كاملاً في الذكاء الاصطناعي الصوتي دون تكاليف سحابية وكل تلك الأشياء
00:03:02المتعلقة بالخصوصية. تم توليد هذا الصوت محلياً من جهازي واستنسخت صوتي الخاص. لم تكن هناك علامة تبويب متصفح.
00:03:09لم أكن بحاجة إلى مفاتيح API، ولكن إليك الجزء الذي يجعلك تشعر أن هذا سير عمل حقيقي. الإملاء
00:03:16على مستوى النظام. يمكنني الضغط على اختصار عالمي ويمكنني قول كل ما أفكر فيه في تلك اللحظة. إذا كنت تحب
00:03:22العثور على أدوات وحيل البرمجة مثل هذه، تحقق من قناتنا. الآن يظهر النص مباشرة داخل المحرر الخاص بي.
00:03:29لذا، أعني، كان ذلك مفيداً جداً للملاحظات، التعليقات، أو أي شيء من هذا القبيل.
00:03:33لكن كل هذه اللحظات التي يكون فيها التحدث أسرع من الكتابة فعلياً، هذا أمر ضخم. هذا
00:03:38ليس فقط لتحدثك أنت إلى الكمبيوتر. يمكن لوكلائك أن يتحدثوا معك الآن.
00:03:43يمكن لـ Claude Code أو Cursor أو وكيلك المحلي الخاص تشغيل الكلام من خلال VoiceBox بدلاً من ذلك،
00:03:49بدلاً من مجرد وضعه في جهاز الطرفية (terminal) الخاص بك. نحن نحصل بالفعل على ملاحظات من ذكائنا الاصطناعي.
00:03:55لماذا لا نجعله يتحدث إلينا؟ الآن دعونا نقارن هذا بالأدوات التي نعرفها بالفعل.
00:03:59لأسباب واضحة، صحيح، لدينا Eleven Labs. Eleven Labs رائع. برافو. لقد أجريت مقارنات حول ذلك
00:04:05من قبل. إنه مستضاف. نحن نعلم أن الجودة مذهلة. ولكن مرة أخرى، صحيح، إنه يعتمد على السحابة. إنه
00:04:11يعتمد على الاشتراك. لذا نحن ندفع مقابل ذلك. ونحن نضع أشياءنا على السحابة.
00:04:16VoiceBox هو عكس ذلك تماماً. لماذا؟ حسناً، إنه محلي. إنه مجاني. إنه غير محدود. نحن
00:04:22نتحكم في كل تلك البيانات التي تدخل فيه. قد تظل Eleven Labs هي الأفضل إذا كنت تستخدمها طوال اليوم،
00:04:27لكن أعتقد أنني سأحتفظ بـ VoiceBox لأنني أحببت مدى سهولته. وبصراحة، يبدو جيداً جداً
00:04:33أيضاً. بالنسبة لنا كمطورين، ليست الأداة ذات المخرجات الأجمل هي الأفضل دائماً. نحن لا نهتم
00:04:38بذلك كثيراً في كثير من الأحيان. أحياناً تكون الأداة التي يمكنك التحكم فيها فعلياً. ثم هناك
00:04:43الجانب الكامل مفتوح المصدر. كان بإمكانك بالفعل استخدام أدوات مثل Piper وWhisper ومجموعة من النصوص البرمجية المنفصلة.
00:04:50ولكن مرة أخرى، الشيء الرئيسي هناك يا رفاق هو أنها كلها منفصلة، صحيح؟ لدينا أداة واحدة للنسخ (transcription)،
00:04:56وأخرى للاستنساخ، وأخرى لتحويل النص إلى كلام (TTS)، وأخرى لواجهة المستخدم، كل هذه الأشياء التي ندمجها معاً.
00:05:03VoiceBox يحزم سير العمل بأكمله في تطبيق استوديو واحد. المدخلات، المخرجات، التحرير، ملفات التعريف،
00:05:09التوثيق، تكامل الوكلاء، وحتى يمكنك استخدام خادم MCP. كما قلت،
00:05:14هذا يعني أن Claude أو Cursor يمكنهما استدعاء VoiceBox كأداة بدلاً من أن يرد وكيلك
00:05:20بالنص فقط. إنه الآن يتحدث إليك. ولكن هل تريد سماع نفسك تتحدث إليك؟ لا أعرف.
00:05:25ربما تغير الصوت لذلك. ولكن تخيل وكيل البرمجة الخاص بك يقول: فشل البناء. ثلاثة اختبارات
00:05:30كسرت وحدة المصادقة (auth module). هذا لا يبدو حقيقياً حتى تدرك عدد المرات في اليوم التي تحصل فيها بالفعل على
00:05:36ملاحظات من أدواتك. VoiceBox يعطي هذه التحديثات صوتاً حقيقياً.
00:05:42إذن لماذا أحببت هذا كثيراً مقارنة بالآخرين؟ حسناً، الخصوصية والتكلفة. بصراحة،
00:05:48هذه هي المكاسب الكبيرة حقاً، على الأقل بالنسبة لي. هذه مكاسب سهلة. بالنسبة للعينات الصوتية، الصوت،
00:05:53المحتوى الداخلي، أو أي شيء حساس حقاً، نحن نريد محلياً أولاً. إنه رائع.
00:05:57ثم هناك تكامل الوكيل، الذي لم أضعه في الاختبار الكامل هنا، لكن المطورين يتحدثون بالفعل
00:06:02عن دمجه في Claude Code، وCursor. VoiceBox يمنح تلك الأنظمة
00:06:08طبقة صوتية دون الحاجة إلى مزود كلام مستضاف. كان سير العمل أنيقاً جداً. أحب
00:06:14أنه كله في واجهة مستخدم يمكننا التحكم فيها. إنه سهل حقاً. وإذا كنت تستخدم أجهزة Apple Silicon،
00:06:18فإن الأداء المحلي خاصة هو أحد الأسباب التي جعلت هذا يبدو جيداً جداً. ولكن إليك
00:06:23الشيء الذي يجب وضعه في الاعتبار مع كل هذا. لقد صدر هذا العام. لا يزال مبكراً. لذا سيكون هناك
00:06:28مشاكل. سيواجه بعض المستخدمين نقاطاً صعبة إذا كنت تستخدم Windows، خاصة فيما يتعلق بـ
00:06:33اكتشاف وحدة معالجة الرسومات (GPU)، وإعداد النموذج، وعمليات التصدير. إذا حدث هذا، فقط أعد تشغيل التطبيق. لدي هذه المشكلة
00:06:39على جهاز Mac الخاص بي. إعادة تشغيله يحل هذا. الاتساق في النصوص الطويلة لا يزال بإمكانه التخلف عن 11 Labs.
00:06:46في التحكم في العاطفة، إنه يتحسن، لكن ذلك يعتمد على النموذج الذي تختاره. إذا اخترت
00:06:50Shatterbox TTS Turbo، فنحن عندئذٍ نمتلك تلك العواطف مدمجة.
00:06:55إذن هل يجب عليك تثبيت VoiceBox؟ بصراحة، كان الأمر سهلاً جداً. إنه يستحق التجربة بالتأكيد
00:07:00لأنه يزيل الكثير من الاحتكاك الذي نواجهه من سير العمل الذي نقوم بتركيبه معاً
00:07:04فقط. القيمة الرئيسية ليست فقط جودة الصوت. بل هي حقاً التحكم
00:07:09الذي مُنحنا إياه هنا. إنه التحكم في البيانات، والتحكم في التكاليف، والتحكم في التكامل. هذا هو السبب
00:07:15الذي يجعل كل هذا مهماً حقاً. الآن، البدء كان بسيطاً جداً. يمكن لأي شخص القيام به. اذهب إلى
00:07:20موقع VoiceBox الإلكتروني أو إصدارات GitHub، وقم بتنزيل المثبت لمنصتك، وقم بتشغيل التطبيق،
00:07:25ثم اسحب النماذج المحلية التي تحتاجها. لكن الفكرة الأساسية بأكملها هنا قوية حقاً،
00:07:30وهي مفيدة بالفعل بما يكفي للتثبيت. إذا كنت تستمتع بأدوات برمجة مثل هذه،
00:07:35تأكد من الاشتراك في قناة BetterStack. سنراكم في فيديو آخر.

Key Takeaway

يوفر VoiceBox بديلاً محلياً مجانياً وغير محدود لخدمات الصوت السحابية، حيث يدمج استنساخ الأصوات والإملاء وتكامل الوكلاء في تطبيق استوديو واحد يضمن الخصوصية والتحكم الكامل في البيانات.

Highlights

  • يُعد VoiceBox استوديو صوتياً محلياً مفتوح المصدر يعمل على جهاز المستخدم مباشرة دون الحاجة لاشتراكات أو قيود على عدد الأحرف.

  • يدعم التطبيق استنساخ الأصوات، وتحويل النص إلى كلام، والإملاء الصوتي على مستوى النظام باستخدام Whisper.

  • يوفر VoiceBox واجهة برمجية REST API محلية ودعماً لبروتوكول MCP، مما يتيح لوكلاء البرمجة مثل Claude Code وCursor التحدث مباشرة مع المستخدم.

  • يعمل التطبيق على أجهزة Apple Silicon بكفاءة عالية، مما يجعله بديلاً محلياً مستقراً لخدمات السحابة مثل Eleven Labs.

  • يتجاوز VoiceBox حلول التجزئة البرمجية من خلال دمج الاستنساخ والتحرير والتوثيق في تطبيق سطح مكتب واحد.

Timeline

مفهوم وخصائص VoiceBox

  • يُشبه VoiceBox أداة Olama ولكن لنماذج الذكاء الاصطناعي الصوتي.
  • يُلغي التطبيق حاجة المستخدم للاعتمادات المالية أو الاشتراكات السحابية.
  • يجمع التطبيق أدوات الاستنساخ والإملاء والتحرير متعدد المسارات في واجهة موحدة.

يعمل VoiceBox كبيئة محلية بالكامل للذكاء الاصطناعي الصوتي، مما يمنح المستخدمين خصوصية كاملة وتحكماً لا توفره البدائل السحابية. من خلال توحيد وظائف مثل Whisper للاستماع وPiper للتحويل الصوتي في مكان واحد، يتم التخلص من تعقيد إدارة الأدوات المنفصلة.

التجربة العملية وتكامل الوكلاء

  • يمكن استنساخ الأصوات محلياً عبر تسجيل صوت المستخدم أو تحميل ملفات صوتية قصيرة.
  • يتيح الاختصار العالمي للإملاء إدخال النصوص مباشرة إلى المحرر الصوتي في أي وقت.
  • يمكن ربط وكلاء البرمجة بـ VoiceBox لتلقي ملاحظات صوتية بدلاً من الاكتفاء بالنصوص في الطرفية.

تتم عملية الاستنساخ محلياً بالكامل دون الحاجة لمفاتيح API أو متصفح، مما يجعل سير العمل أسرع للمطورين. بالإضافة إلى ذلك، يغير تكامل MCP طريقة التفاعل مع أدوات البرمجة، حيث تُحول الأخطاء البرمجية إلى تنبيهات صوتية فورية.

المقارنة مع البدائل والقيود الحالية

  • يتفوق VoiceBox على Eleven Labs في الخصوصية والتكلفة، رغم أن الأخير قد يظل متفوقاً في جودة الإنتاج الصوتي العام.
  • تتطلب النسخة الحالية من التطبيق إعادة التشغيل في حال حدوث مشاكل في اكتشاف وحدة معالجة الرسومات (GPU) على أنظمة Windows.
  • يعتبر استقرار التحكم في العاطفة والاتساق في النصوص الطويلة مجالاً للتحسين المستمر في الإصدارات المستقبلية.

رغم حداثة الأداة، إلا أنها توفر توازناً عملياً بين الجودة والتحكم للمطورين الذين يفضلون الخصوصية. يوصى باستخدام التطبيق بشكل أساسي لتقليل الاحتكاك في سير العمل البرمجي، مع مراعاة أن الأداء يعتمد بشكل كبير على النموذج المختار وقدرات الجهاز المحلي.

Community Posts

View all posts