Transcript
00:00:00يقولون إن هذا هو “أولاما” الخاص بالذكاء الاصطناعي الصوتي. فهو يستنسخ الأصوات، ويولد الكلام، ويملي في أي تطبيق،
00:00:07ويتحدث مع الوكلاء بأصوات تمتلكها فعلياً. هذا هو VoiceBox، وهذا ما يقوله
00:00:13هنا تماماً. إنه مجاني وبديل محلي لـ 11 Labs، وبصراحة، كان هذا مذهلاً.
00:00:19لديه حوالي 30,000 نجمة على GitHub. يعمل محلياً، وفي الـ 60 ثانية القادمة،
00:00:24سأعرض لك استنساخ الصوت محلياً، وتوليد الكلام، والإملاء داخل محرر النصوص.
00:00:29ما مدى فائدة هذا بالنسبة لنا، وما مدى سهولة البدء به في المقام الأول؟ نحن على وشك معرفة ذلك.
00:00:39الآن، VoiceBox هو استوديو صوتي محلي مفتوح المصدر للذكاء الاصطناعي. الطريقة البسيطة للتفكير في الأمر هي هذه.
00:00:46Olama مخصص لنماذج النصوص المحلية. وVoiceBox يحاول أن يكون كذلك للصوت. لذا فهو ليس مجرد تحويل نص إلى كلام.
00:00:54إنه يقوم باستنساخ الصوت، والإملاء على مستوى النظام، والتحرير الإبداعي، بل ويحتوي حتى على قصص و
00:01:00جداول زمنية، ويتصل بوكلاء الذكاء الاصطناعي. لذا فهذا يمنحنا تحكماً حقيقياً وحتى المزيد من الخصوصية.
00:01:06أريد بناء أشياء دون أن أسأل، كم عدد الاعتمادات التي استخدمتها للتو لاختبار هذا؟ VoiceBox
00:01:12لا يسأل عن ذلك، لأن VoiceBox يعمل على جهازنا. لذا لا يوجد اشتراك. ولا توجد
00:01:17حدود للأحرف. بالإضافة إلى ذلك، فهو يجمع بين الاستنساخ، والإملاء المدعوم بـ Whisper، ومحرر متعدد المسارات،
00:01:23وتطبيق سطح مكتب، ودعم MCP، وواجهة REST API محلية. فبدلاً من خمس أدوات منفصلة،
00:01:29تحصل على تطبيق سطح مكتب واحد يحتوي على كل شيء هنا. سأقوم بثلاثة أشياء في هذا الفيديو.
00:01:36سأقوم باستنساخ صوت، وسأجعله يتحدث، ثم سأستخدم الإملاء داخل
00:01:41المحرر. بعد ذلك، سأوضح لك سبب كون تكامل الوكلاء رائعاً جداً، أو على الأقل
00:01:46سنتحدث عنه. إذا كنت تستمتع بأدوات البرمجة التي تسرع سير عملك، تأكد من
00:01:50الاشتراك. لدينا فيديوهات تصدر طوال الوقت. حسناً، الآن أنا أشغل هذا على جهاز Mac M4 الخاص بي.
00:01:55هذا هو VoiceBox. لدي بالفعل ملف تعريف صوتي جاهز، لكن التدفق كان بسيطاً جداً. الآن يمكنك
00:02:02تشغيل هذا باستخدام Docker، نعم، لكنني فعلت ذلك، واستغرق الأمر ما يقرب من 30 دقيقة لتشغيل الحاويات.
00:02:08لذا بالنسبة لهذا، اخترت بدلاً من ذلك الحصول على تطبيق سطح المكتب، الذي كان أسرع بكثير، وهو بصراحة جيد
00:02:13جداً. يمكنني تسمية الصوت هنا. يمكنني إضافة وصف وحتى إخباره بكيفية التصرف مع
00:02:19النماذج. ثم يمكنني إما تسجيل نفسي وأنا أتحدث أو تحميل ملف قصير ليقوم بتحليله أثناء أيضاً
00:02:26إسقاط نص ذلك الصوت. الآن سأكتب سطراً أريد استخدامه فعلياً. لذا
00:02:32ربما كمطور، يمنحني هذا تحكماً كاملاً في الذكاء الاصطناعي الصوتي دون تكاليف سحابية وكل تلك الأشياء المتعلقة بالخصوصية.
00:02:38سأختار ملف التعريف الصوتي الخاص بي. يمكنني اختيار النموذج الذي أريده والضغط على
00:02:44إنشاء (Generate). الآن سيتعين على التشغيل الأول لهذا تنزيل النموذج. لذا قد يستغرق الأمر
00:02:50بعض الوقت، ولكن بعد كل ذلك، وبعد أن قمنا بتشغيله، نحصل على أشكال موجية. دعونا نستمع.
00:02:57كمطور، يمنحني هذا تحكماً كاملاً في الذكاء الاصطناعي الصوتي دون تكاليف سحابية وكل تلك الأشياء
00:03:02المتعلقة بالخصوصية. تم توليد هذا الصوت محلياً من جهازي واستنسخت صوتي الخاص. لم تكن هناك علامة تبويب متصفح.
00:03:09لم أكن بحاجة إلى مفاتيح API، ولكن إليك الجزء الذي يجعلك تشعر أن هذا سير عمل حقيقي. الإملاء
00:03:16على مستوى النظام. يمكنني الضغط على اختصار عالمي ويمكنني قول كل ما أفكر فيه في تلك اللحظة. إذا كنت تحب
00:03:22العثور على أدوات وحيل البرمجة مثل هذه، تحقق من قناتنا. الآن يظهر النص مباشرة داخل المحرر الخاص بي.
00:03:29لذا، أعني، كان ذلك مفيداً جداً للملاحظات، التعليقات، أو أي شيء من هذا القبيل.
00:03:33لكن كل هذه اللحظات التي يكون فيها التحدث أسرع من الكتابة فعلياً، هذا أمر ضخم. هذا
00:03:38ليس فقط لتحدثك أنت إلى الكمبيوتر. يمكن لوكلائك أن يتحدثوا معك الآن.
00:03:43يمكن لـ Claude Code أو Cursor أو وكيلك المحلي الخاص تشغيل الكلام من خلال VoiceBox بدلاً من ذلك،
00:03:49بدلاً من مجرد وضعه في جهاز الطرفية (terminal) الخاص بك. نحن نحصل بالفعل على ملاحظات من ذكائنا الاصطناعي.
00:03:55لماذا لا نجعله يتحدث إلينا؟ الآن دعونا نقارن هذا بالأدوات التي نعرفها بالفعل.
00:03:59لأسباب واضحة، صحيح، لدينا Eleven Labs. Eleven Labs رائع. برافو. لقد أجريت مقارنات حول ذلك
00:04:05من قبل. إنه مستضاف. نحن نعلم أن الجودة مذهلة. ولكن مرة أخرى، صحيح، إنه يعتمد على السحابة. إنه
00:04:11يعتمد على الاشتراك. لذا نحن ندفع مقابل ذلك. ونحن نضع أشياءنا على السحابة.
00:04:16VoiceBox هو عكس ذلك تماماً. لماذا؟ حسناً، إنه محلي. إنه مجاني. إنه غير محدود. نحن
00:04:22نتحكم في كل تلك البيانات التي تدخل فيه. قد تظل Eleven Labs هي الأفضل إذا كنت تستخدمها طوال اليوم،
00:04:27لكن أعتقد أنني سأحتفظ بـ VoiceBox لأنني أحببت مدى سهولته. وبصراحة، يبدو جيداً جداً
00:04:33أيضاً. بالنسبة لنا كمطورين، ليست الأداة ذات المخرجات الأجمل هي الأفضل دائماً. نحن لا نهتم
00:04:38بذلك كثيراً في كثير من الأحيان. أحياناً تكون الأداة التي يمكنك التحكم فيها فعلياً. ثم هناك
00:04:43الجانب الكامل مفتوح المصدر. كان بإمكانك بالفعل استخدام أدوات مثل Piper وWhisper ومجموعة من النصوص البرمجية المنفصلة.
00:04:50ولكن مرة أخرى، الشيء الرئيسي هناك يا رفاق هو أنها كلها منفصلة، صحيح؟ لدينا أداة واحدة للنسخ (transcription)،
00:04:56وأخرى للاستنساخ، وأخرى لتحويل النص إلى كلام (TTS)، وأخرى لواجهة المستخدم، كل هذه الأشياء التي ندمجها معاً.
00:05:03VoiceBox يحزم سير العمل بأكمله في تطبيق استوديو واحد. المدخلات، المخرجات، التحرير، ملفات التعريف،
00:05:09التوثيق، تكامل الوكلاء، وحتى يمكنك استخدام خادم MCP. كما قلت،
00:05:14هذا يعني أن Claude أو Cursor يمكنهما استدعاء VoiceBox كأداة بدلاً من أن يرد وكيلك
00:05:20بالنص فقط. إنه الآن يتحدث إليك. ولكن هل تريد سماع نفسك تتحدث إليك؟ لا أعرف.
00:05:25ربما تغير الصوت لذلك. ولكن تخيل وكيل البرمجة الخاص بك يقول: فشل البناء. ثلاثة اختبارات
00:05:30كسرت وحدة المصادقة (auth module). هذا لا يبدو حقيقياً حتى تدرك عدد المرات في اليوم التي تحصل فيها بالفعل على
00:05:36ملاحظات من أدواتك. VoiceBox يعطي هذه التحديثات صوتاً حقيقياً.
00:05:42إذن لماذا أحببت هذا كثيراً مقارنة بالآخرين؟ حسناً، الخصوصية والتكلفة. بصراحة،
00:05:48هذه هي المكاسب الكبيرة حقاً، على الأقل بالنسبة لي. هذه مكاسب سهلة. بالنسبة للعينات الصوتية، الصوت،
00:05:53المحتوى الداخلي، أو أي شيء حساس حقاً، نحن نريد محلياً أولاً. إنه رائع.
00:05:57ثم هناك تكامل الوكيل، الذي لم أضعه في الاختبار الكامل هنا، لكن المطورين يتحدثون بالفعل
00:06:02عن دمجه في Claude Code، وCursor. VoiceBox يمنح تلك الأنظمة
00:06:08طبقة صوتية دون الحاجة إلى مزود كلام مستضاف. كان سير العمل أنيقاً جداً. أحب
00:06:14أنه كله في واجهة مستخدم يمكننا التحكم فيها. إنه سهل حقاً. وإذا كنت تستخدم أجهزة Apple Silicon،
00:06:18فإن الأداء المحلي خاصة هو أحد الأسباب التي جعلت هذا يبدو جيداً جداً. ولكن إليك
00:06:23الشيء الذي يجب وضعه في الاعتبار مع كل هذا. لقد صدر هذا العام. لا يزال مبكراً. لذا سيكون هناك
00:06:28مشاكل. سيواجه بعض المستخدمين نقاطاً صعبة إذا كنت تستخدم Windows، خاصة فيما يتعلق بـ
00:06:33اكتشاف وحدة معالجة الرسومات (GPU)، وإعداد النموذج، وعمليات التصدير. إذا حدث هذا، فقط أعد تشغيل التطبيق. لدي هذه المشكلة
00:06:39على جهاز Mac الخاص بي. إعادة تشغيله يحل هذا. الاتساق في النصوص الطويلة لا يزال بإمكانه التخلف عن 11 Labs.
00:06:46في التحكم في العاطفة، إنه يتحسن، لكن ذلك يعتمد على النموذج الذي تختاره. إذا اخترت
00:06:50Shatterbox TTS Turbo، فنحن عندئذٍ نمتلك تلك العواطف مدمجة.
00:06:55إذن هل يجب عليك تثبيت VoiceBox؟ بصراحة، كان الأمر سهلاً جداً. إنه يستحق التجربة بالتأكيد
00:07:00لأنه يزيل الكثير من الاحتكاك الذي نواجهه من سير العمل الذي نقوم بتركيبه معاً
00:07:04فقط. القيمة الرئيسية ليست فقط جودة الصوت. بل هي حقاً التحكم
00:07:09الذي مُنحنا إياه هنا. إنه التحكم في البيانات، والتحكم في التكاليف، والتحكم في التكامل. هذا هو السبب
00:07:15الذي يجعل كل هذا مهماً حقاً. الآن، البدء كان بسيطاً جداً. يمكن لأي شخص القيام به. اذهب إلى
00:07:20موقع VoiceBox الإلكتروني أو إصدارات GitHub، وقم بتنزيل المثبت لمنصتك، وقم بتشغيل التطبيق،
00:07:25ثم اسحب النماذج المحلية التي تحتاجها. لكن الفكرة الأساسية بأكملها هنا قوية حقاً،
00:07:30وهي مفيدة بالفعل بما يكفي للتثبيت. إذا كنت تستمتع بأدوات برمجة مثل هذه،
00:07:35تأكد من الاشتراك في قناة BetterStack. سنراكم في فيديو آخر.