هذه الأداة مفتوحة المصدر بديل Vapi للذكاء الاصطناعي الصوتي (Dograh)
BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology
Transcript
00:00:00لقد قمت للتو ببناء وكيل ذكاء اصطناعي صوتي، وهو يعمل، ثم تظهر الفاتورة وتدفع مقابل نموذج اللغة الكبير و
00:00:05الصوت والمكالمة الهاتفية، ثم رسوم منصة إضافية فوق ذلك، وهذا ليس الجزء الأسوأ حتى.
00:00:10الجزء الأسوأ هو أنك لا تزال لا تملك النظام حقاً. اليوم سأعرض لكم دوجرا (Dogra)
00:00:16وهو بديل مفتوح المصدر لـ Vapi يمكنك استضافته ذاتياً وفحصه والتحكم فيه.
00:00:26يمكن أن يبدو الذكاء الاصطناعي الصوتي في الوقت الحاضر بسيطاً نوعاً ما من الخارج، إجراء مكالمة هاتفية، تحويل الكلام إلى نص
00:00:33إرساله إلى نموذج اللغة الكبير، تحويل الإجابة مرة أخرى إلى كلام، وقد تم الأمر. هذا سهل، أليس كذلك؟ حسناً، كما يعلم أي منا
00:00:39ممن جربوا هذا، ليس حقاً، لأن المكالمات الحقيقية فوضوية. يقاطع الناس، ويصمت الناس، و
00:00:46سيغيرون المواضيع، ويمكنهم طرح أسئلة غريبة حقاً. يحتاج وكيلك إلى استدعاء واجهات برمجة التطبيقات، وعندما
00:00:53يتعطل الأمر، تحتاج إلى معرفة السبب. هذا هو المكان الذي تصبح فيه معظم مشاريع الذكاء الاصطناعي الصوتي مصدر إزعاج. الوكيل الصوتي
00:00:59ليس مجرد ChatGPT برقم هاتف، إنه نظام حي مع مجموعة من الأجزاء المتحركة، صحيح؟
00:01:06أي تحويل الكلام إلى نص، ونموذج اللغة، وتحويل النص إلى كلام، والحالة، واستدعاء الأدوات، وعدد كبير من الأشياء الأخرى. أنت تفهم، هناك
00:01:12الكثير من الأجزاء المتحركة التي لا نراها تحدث فعلياً، وعندما تفشل المكالمة، يعطي البوت
00:01:17إجابة سيئة، لا يكفي أن نعرف فقط، هل كان السبب هو المطالبة (Prompt)؟ هل كان النموذج؟ ما هو السبب؟ لماذا فشل؟ وهذا هو
00:01:23المكان الذي يأتي فيه دوجرا. إذا كنت تستمتع بأدوات البرمجة التي تسرع سير عملك، تأكد من الاشتراك، فلدينا
00:01:29فيديوهات تصدر طوال الوقت. حسناً، الآن دعونا نلقي نظرة على هذا من الناحية العملية، سأبدأ محلياً
00:01:34لأنه إذا كانت الأداة تقول إنها مصممة للمطورين، أريد رؤية دوكر (Docker) قبل أي شيء آخر. كان هذا فائق السهولة
00:01:39للإعداد، سأقوم بنسخه من GitHub، وسأنتقل إلى المجلد، ثم علي فقط
00:01:44تشغيل docker compose up، وهذا بسيط بما يكفي وسهل بما يكفي لنا. بمجرد تشغيل الحاويات، يمكننا
00:01:50القفز إلى واجهة مستخدم دوجرا. الآن سأقوم ببناء وكيل بسيط لتأهيل العملاء المحتملين، فماذا أعني بذلك؟
00:01:57سيتصل شخص ما، ويسأل الوكيل عما يريدون بناءه، ثم يسأل عن الشركة،
00:02:03الحجم، الميزانية، أشياء صغيرة مثل هذه. سيقوم بعد ذلك باستدعاء أداة واجهة برمجة تطبيقات لإنشاء أو تحديث عميل محتمل في نظام إدارة علاقات العملاء، إذا
00:02:11قمنا بتضمين ذلك، وربما يمكنني حتى القول إنه إذا تم تأهيل العميل المحتمل، فإنه يحوله إلى إنسان. لذا أضيف
00:02:18عقدة مطالبة، ثم خطوة تأهيل، ثم استدعاء أداة واجهة برمجة تطبيقات، ثم يمكنني إضافة فرع وتحويل.
00:02:28لا يوجد كود تنسيق مخصص حتى الآن، وهذا هو نوع الهدف هنا.
00:02:32يبدو هذا مثل لوحة رسم بدون كود، ولكن للمطورين، والقيمة ليست عدم وجود كود، القيمة ليست إهدار
00:02:39الكود في محاولة ربط كل شيء معاً. الآن دعونا نحاول إجراء مكالمة اختبار هنا: مرحباً، هذه سارة من
00:02:46المكالمات الواردة، هل لا تزال هناك؟ نحن نبحث عن وكيل هاتف ذكاء اصطناعي لطلبات العروض التوضيحية الواردة، هذا
00:02:55رائع، يمكنني بالتأكيد مساعدتك في ذلك. للتأكد من ربطك بالحل المناسب، هل يمكن
00:03:00أن تخبرني قليلاً عن ما تتطلع لتحقيقه باستخدام وكيل هاتف ذكاء اصطناعي لطلباتك الواردة
00:03:05للعروض التوضيحية، لنقل حوالي 20,000 دقيقة؟ شكراً لمشاركة ذلك، وما هو حجم شركتك
00:03:11ومجال عملها؟ الآن يمكننا رؤية النص هنا، يمكننا رؤية التتبع، يمكننا رؤية استدعاء الأداة
00:03:18الذي حدث بالفعل، ويمكننا رؤية تغيرات الحالة، بالإضافة إلى وجود التسجيل هنا الذي أردته في
00:03:24المقام الأول، وهذا ما أريده كمطور، ليس فقط أن البوت عمل، بل أريد أن أعرف لماذا عمل
00:03:31عندما يفشل، أريد دليلاً على حدوث ذلك بالفعل. فما هو دوجرا؟ يبدو أن دوجرا يمنحنا
00:03:37ثلاثة أشياء مختلفة من كل هذا. نحصل على وكيل صوتي، ومنشئ سير عمل مرئي في طبقة المنصة
00:03:44التي يتعين عليك عادةً بناؤها بنفسك. المحرك الصوتي هو الجزء الذي يربط المتصل ومزود الهاتف
00:03:50وتحويل الكلام إلى نص، ونموذج اللغة، وتحويل النص إلى كلام، وهذا ما يجعل المكالمة تحدث فعلياً.
00:03:57منشئ سير العمل هو المكان الذي تصمم فيه منطق هذا النظام بأكمله، فبدلاً من برمجة كل
00:04:03مطالبة وفرع واستدعاء واجهة برمجة تطبيقات وتحويل يدوياً، يمكنك تخطيط التدفق بصرياً. لذا فهذا مكسب كبير هنا، أحب هذه النوعية
00:04:09من الخرائط، اسأل هذا السؤال، انتظر الإجابة، هذا هو نوع ما نقوم بتخطيطه هنا. يمكنني استدعاء
00:04:15واجهة برمجة التطبيقات، فرع هنا، تحويل هناك، يجب أن يكون هذا النوع من المنطق سهل التغيير. ثم لكل هذا، هناك
00:04:21طبقة المنصة: الاختبار، التتبع، التسجيلات، التحليلات، تلك هي الأشياء المملة التي يحتاجها كل مشروع صوتي جاد
00:04:28في النهاية. مع كل هذا، يمكنك إحضار مزوديك الخاصين، ونموذج لغتك الخاص، وتحويل النص إلى كلام الخاص بك
00:04:34لأن دوجرا مفتوح المصدر، يمكنك فحص الكود وتغيير كيفية عمله واستضافته ذاتياً. اعتباراً من وقت تسجيل هذا الفيديو،
00:04:41نجوم GitHub منخفضة، لذا فهذا اكتشاف جديد جداً وجدته، ولكنه بصراحة اكتشاف رائع.
00:04:47الآن دعونا نقارن دوجرا بأشياء أخرى لدينا بالفعل هنا. لديك ثلاث طرق رئيسية لبناء
00:04:51وكلاء صوتيين. أولاً هي المنصات المستضافة: Vapi، Bland، Retell، هذه جيدة عندما تريد التحرك بسرعة و
00:04:58لا تريد تشغيل البنية التحتية، تحصل على لوحات تحكم نظيفة، وواجهات برمجة تطبيقات، وأدوات اختبار نصوص، كل ذلك مفيد
00:05:04حقاً، ولكنك تبدأ في فقدان السيطرة، أليس كذلك؟ إذا غيرت المنصة الأسعار، فأنت تتعامل مع
00:05:10ذلك، إذا غيرت المنصة الحدود، تتعامل مع ذلك، أليس كذلك؟ إذا كنت بحاجة إلى نشر مخصص أو أي شيء من هذا القبيل،
00:05:17مرة أخرى قد تصطدم بحائط. الأدوات المستضافة سريعة رغم ذلك، لذا أعتقد أن هذا مكسب. لديك بعض من هذه
00:05:23الأطر الخام، مثل... صادفت PipeCap أو Coze، LiveKit أعتقد أنها واحدة منها.
00:05:30هذه تمنحك تحكماً أكبر بكثير، يمكنك بناء أي شيء تقريباً، ولكنك الآن تبني كل شيء
00:05:36حول إطار العمل هذا، بدون واجهة مستخدم أو محرر سير عمل. لذا فهذه مقايضة كبيرة باستخدام أشياء كهذه.
00:05:42الآن دوجرا لا يزال جديداً جداً، لكنه موجود هنا، وأعتقد أن رهانهم بسيط نوعاً ما: ماذا لو كان بإمكانك
00:05:49استخدام منشئ وكيل صوتي مرئي دون التخلي عن الاستضافة الذاتية، واختيار مزود، والتتبع، و
00:05:56التحكم؟ هذا ما يبدو عليه الأمر. اكتب الكود حيث يهم الكود، استخدم المنشئ حيث يهم تدفقك،
00:06:02افحص وقت التشغيل عندما تتعطل الأمور، واستبدل المزودين عندما تتغير التكاليف. تمنحنا الاستضافة الذاتية قدراً كبيراً من التحكم
00:06:09وهو أمر ضخم. Vapi، Bland، Retell هي الأفضل للنشر المستضاف السريع، لكن المقايضة هي
00:06:16حبس التكلفة وتحكم أقل. إذا كنت تستمتع بأدوات برمجة كهذه، تأكد من الاشتراك في قناة Better Stack.
00:06:22سنراك في فيديو آخر.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video