هذه الأداة مفتوحة المصدر بديل Vapi للذكاء الاصطناعي الصوتي (Dograh)

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00لقد قمت للتو ببناء وكيل ذكاء اصطناعي صوتي، وهو يعمل، ثم تظهر الفاتورة وتدفع مقابل نموذج اللغة الكبير و
00:00:05الصوت والمكالمة الهاتفية، ثم رسوم منصة إضافية فوق ذلك، وهذا ليس الجزء الأسوأ حتى.
00:00:10الجزء الأسوأ هو أنك لا تزال لا تملك النظام حقاً. اليوم سأعرض لكم دوجرا (Dogra)
00:00:16وهو بديل مفتوح المصدر لـ Vapi يمكنك استضافته ذاتياً وفحصه والتحكم فيه.
00:00:26يمكن أن يبدو الذكاء الاصطناعي الصوتي في الوقت الحاضر بسيطاً نوعاً ما من الخارج، إجراء مكالمة هاتفية، تحويل الكلام إلى نص
00:00:33إرساله إلى نموذج اللغة الكبير، تحويل الإجابة مرة أخرى إلى كلام، وقد تم الأمر. هذا سهل، أليس كذلك؟ حسناً، كما يعلم أي منا
00:00:39ممن جربوا هذا، ليس حقاً، لأن المكالمات الحقيقية فوضوية. يقاطع الناس، ويصمت الناس، و
00:00:46سيغيرون المواضيع، ويمكنهم طرح أسئلة غريبة حقاً. يحتاج وكيلك إلى استدعاء واجهات برمجة التطبيقات، وعندما
00:00:53يتعطل الأمر، تحتاج إلى معرفة السبب. هذا هو المكان الذي تصبح فيه معظم مشاريع الذكاء الاصطناعي الصوتي مصدر إزعاج. الوكيل الصوتي
00:00:59ليس مجرد ChatGPT برقم هاتف، إنه نظام حي مع مجموعة من الأجزاء المتحركة، صحيح؟
00:01:06أي تحويل الكلام إلى نص، ونموذج اللغة، وتحويل النص إلى كلام، والحالة، واستدعاء الأدوات، وعدد كبير من الأشياء الأخرى. أنت تفهم، هناك
00:01:12الكثير من الأجزاء المتحركة التي لا نراها تحدث فعلياً، وعندما تفشل المكالمة، يعطي البوت
00:01:17إجابة سيئة، لا يكفي أن نعرف فقط، هل كان السبب هو المطالبة (Prompt)؟ هل كان النموذج؟ ما هو السبب؟ لماذا فشل؟ وهذا هو
00:01:23المكان الذي يأتي فيه دوجرا. إذا كنت تستمتع بأدوات البرمجة التي تسرع سير عملك، تأكد من الاشتراك، فلدينا
00:01:29فيديوهات تصدر طوال الوقت. حسناً، الآن دعونا نلقي نظرة على هذا من الناحية العملية، سأبدأ محلياً
00:01:34لأنه إذا كانت الأداة تقول إنها مصممة للمطورين، أريد رؤية دوكر (Docker) قبل أي شيء آخر. كان هذا فائق السهولة
00:01:39للإعداد، سأقوم بنسخه من GitHub، وسأنتقل إلى المجلد، ثم علي فقط
00:01:44تشغيل docker compose up، وهذا بسيط بما يكفي وسهل بما يكفي لنا. بمجرد تشغيل الحاويات، يمكننا
00:01:50القفز إلى واجهة مستخدم دوجرا. الآن سأقوم ببناء وكيل بسيط لتأهيل العملاء المحتملين، فماذا أعني بذلك؟
00:01:57سيتصل شخص ما، ويسأل الوكيل عما يريدون بناءه، ثم يسأل عن الشركة،
00:02:03الحجم، الميزانية، أشياء صغيرة مثل هذه. سيقوم بعد ذلك باستدعاء أداة واجهة برمجة تطبيقات لإنشاء أو تحديث عميل محتمل في نظام إدارة علاقات العملاء، إذا
00:02:11قمنا بتضمين ذلك، وربما يمكنني حتى القول إنه إذا تم تأهيل العميل المحتمل، فإنه يحوله إلى إنسان. لذا أضيف
00:02:18عقدة مطالبة، ثم خطوة تأهيل، ثم استدعاء أداة واجهة برمجة تطبيقات، ثم يمكنني إضافة فرع وتحويل.
00:02:28لا يوجد كود تنسيق مخصص حتى الآن، وهذا هو نوع الهدف هنا.
00:02:32يبدو هذا مثل لوحة رسم بدون كود، ولكن للمطورين، والقيمة ليست عدم وجود كود، القيمة ليست إهدار
00:02:39الكود في محاولة ربط كل شيء معاً. الآن دعونا نحاول إجراء مكالمة اختبار هنا: مرحباً، هذه سارة من
00:02:46المكالمات الواردة، هل لا تزال هناك؟ نحن نبحث عن وكيل هاتف ذكاء اصطناعي لطلبات العروض التوضيحية الواردة، هذا
00:02:55رائع، يمكنني بالتأكيد مساعدتك في ذلك. للتأكد من ربطك بالحل المناسب، هل يمكن
00:03:00أن تخبرني قليلاً عن ما تتطلع لتحقيقه باستخدام وكيل هاتف ذكاء اصطناعي لطلباتك الواردة
00:03:05للعروض التوضيحية، لنقل حوالي 20,000 دقيقة؟ شكراً لمشاركة ذلك، وما هو حجم شركتك
00:03:11ومجال عملها؟ الآن يمكننا رؤية النص هنا، يمكننا رؤية التتبع، يمكننا رؤية استدعاء الأداة
00:03:18الذي حدث بالفعل، ويمكننا رؤية تغيرات الحالة، بالإضافة إلى وجود التسجيل هنا الذي أردته في
00:03:24المقام الأول، وهذا ما أريده كمطور، ليس فقط أن البوت عمل، بل أريد أن أعرف لماذا عمل
00:03:31عندما يفشل، أريد دليلاً على حدوث ذلك بالفعل. فما هو دوجرا؟ يبدو أن دوجرا يمنحنا
00:03:37ثلاثة أشياء مختلفة من كل هذا. نحصل على وكيل صوتي، ومنشئ سير عمل مرئي في طبقة المنصة
00:03:44التي يتعين عليك عادةً بناؤها بنفسك. المحرك الصوتي هو الجزء الذي يربط المتصل ومزود الهاتف
00:03:50وتحويل الكلام إلى نص، ونموذج اللغة، وتحويل النص إلى كلام، وهذا ما يجعل المكالمة تحدث فعلياً.
00:03:57منشئ سير العمل هو المكان الذي تصمم فيه منطق هذا النظام بأكمله، فبدلاً من برمجة كل
00:04:03مطالبة وفرع واستدعاء واجهة برمجة تطبيقات وتحويل يدوياً، يمكنك تخطيط التدفق بصرياً. لذا فهذا مكسب كبير هنا، أحب هذه النوعية
00:04:09من الخرائط، اسأل هذا السؤال، انتظر الإجابة، هذا هو نوع ما نقوم بتخطيطه هنا. يمكنني استدعاء
00:04:15واجهة برمجة التطبيقات، فرع هنا، تحويل هناك، يجب أن يكون هذا النوع من المنطق سهل التغيير. ثم لكل هذا، هناك
00:04:21طبقة المنصة: الاختبار، التتبع، التسجيلات، التحليلات، تلك هي الأشياء المملة التي يحتاجها كل مشروع صوتي جاد
00:04:28في النهاية. مع كل هذا، يمكنك إحضار مزوديك الخاصين، ونموذج لغتك الخاص، وتحويل النص إلى كلام الخاص بك
00:04:34لأن دوجرا مفتوح المصدر، يمكنك فحص الكود وتغيير كيفية عمله واستضافته ذاتياً. اعتباراً من وقت تسجيل هذا الفيديو،
00:04:41نجوم GitHub منخفضة، لذا فهذا اكتشاف جديد جداً وجدته، ولكنه بصراحة اكتشاف رائع.
00:04:47الآن دعونا نقارن دوجرا بأشياء أخرى لدينا بالفعل هنا. لديك ثلاث طرق رئيسية لبناء
00:04:51وكلاء صوتيين. أولاً هي المنصات المستضافة: Vapi، Bland، Retell، هذه جيدة عندما تريد التحرك بسرعة و
00:04:58لا تريد تشغيل البنية التحتية، تحصل على لوحات تحكم نظيفة، وواجهات برمجة تطبيقات، وأدوات اختبار نصوص، كل ذلك مفيد
00:05:04حقاً، ولكنك تبدأ في فقدان السيطرة، أليس كذلك؟ إذا غيرت المنصة الأسعار، فأنت تتعامل مع
00:05:10ذلك، إذا غيرت المنصة الحدود، تتعامل مع ذلك، أليس كذلك؟ إذا كنت بحاجة إلى نشر مخصص أو أي شيء من هذا القبيل،
00:05:17مرة أخرى قد تصطدم بحائط. الأدوات المستضافة سريعة رغم ذلك، لذا أعتقد أن هذا مكسب. لديك بعض من هذه
00:05:23الأطر الخام، مثل... صادفت PipeCap أو Coze، LiveKit أعتقد أنها واحدة منها.
00:05:30هذه تمنحك تحكماً أكبر بكثير، يمكنك بناء أي شيء تقريباً، ولكنك الآن تبني كل شيء
00:05:36حول إطار العمل هذا، بدون واجهة مستخدم أو محرر سير عمل. لذا فهذه مقايضة كبيرة باستخدام أشياء كهذه.
00:05:42الآن دوجرا لا يزال جديداً جداً، لكنه موجود هنا، وأعتقد أن رهانهم بسيط نوعاً ما: ماذا لو كان بإمكانك
00:05:49استخدام منشئ وكيل صوتي مرئي دون التخلي عن الاستضافة الذاتية، واختيار مزود، والتتبع، و
00:05:56التحكم؟ هذا ما يبدو عليه الأمر. اكتب الكود حيث يهم الكود، استخدم المنشئ حيث يهم تدفقك،
00:06:02افحص وقت التشغيل عندما تتعطل الأمور، واستبدل المزودين عندما تتغير التكاليف. تمنحنا الاستضافة الذاتية قدراً كبيراً من التحكم
00:06:09وهو أمر ضخم. Vapi، Bland، Retell هي الأفضل للنشر المستضاف السريع، لكن المقايضة هي
00:06:16حبس التكلفة وتحكم أقل. إذا كنت تستمتع بأدوات برمجة كهذه، تأكد من الاشتراك في قناة Better Stack.
00:06:22سنراك في فيديو آخر.

Key Takeaway

توفر دوجرا (Dogra) بديلاً مفتوح المصدر وقابلاً للاستضافة الذاتية لمنصات الذكاء الاصطناعي الصوتي، مما يمنح المطورين تحكماً كاملاً في البنية التحتية وتكاليف التشغيل دون التضحية بواجهة تصميم سير العمل المرئية.

Highlights

  • تعتبر دوجرا (Dogra) منصة مفتوحة المصدر لاستضافة وكلاء الذكاء الاصطناعي الصوتي ذاتياً.

  • تتكون المنصة من محرك صوتي، ومنشئ سير عمل مرئي، وطبقة منصة للتحليلات والتتبع.

  • يتيح استخدام دوجرا للمطورين اختيار مزودي الخدمات، ونماذج اللغات، وتقنيات تحويل النص إلى كلام الخاصة بهم.

  • يمكن للمطورين إعداد المنصة محلياً باستخدام Docker عبر أمر docker compose up.

  • يوفر النظام أدوات مدمجة لاختبار المكالمات، وتتبع مسار الحوار، واستدعاء واجهات برمجة التطبيقات، وسجلات التسجيل.

  • تتجاوز دوجرا مشكلة التبعية للمنصات المغلقة مثل Vapi أو Bland التي تفرض قيوداً على التكاليف والتحكم.

Timeline

مشكلات أنظمة الذكاء الاصطناعي الصوتي الحالية

  • تعد معظم مشاريع الذكاء الاصطناعي الصوتي أنظمة معقدة تتجاوز مجرد ربط ChatGPT برقم هاتف.
  • تتسبب الفجوات في تحويل الكلام إلى نص أو نموذج اللغة أو استدعاء الأدوات في فشل المكالمات.
  • تفتقر المنصات المغلقة إلى الشفافية في تحديد أسباب فشل البوت أثناء المكالمات الفعلية.

تتطلب المكالمات الهاتفية الحقيقية معالجة دقيقة للمقاطعات، فترات الصمت، وتغير المواضيع. النظام الحي يحتاج إلى تنسيق بين تحويل الكلام إلى نص، نموذج اللغة الكبير، تحويل النص إلى كلام، والحالة. يصعب تشخيص أسباب فشل البوت في المنصات الحالية لعدم القدرة على الوصول إلى تفاصيل التتبع والمطالبات والنموذج المستخدم.

إعداد واستخدام دوجرا لبناء وكلاء الصوت

  • يتم إعداد بيئة التطوير محلياً عبر حاويات Docker لضمان سرعة البدء.
  • يستخدم منشئ سير العمل المرئي لتصميم منطق المكالمة دون كتابة كود تنسيق معقد.
  • يوفر النظام إمكانية إضافة عقد للمطالبة، وفروع للحوار، واستدعاء واجهات برمجة التطبيقات ضمن واجهة رسم واحدة.

تتطلب عملية بناء وكيل تأهيل عملاء محتملين تحديد خطوات للمطالبة، استدعاء أدوات واجهة برمجة التطبيقات لإدارة علاقات العملاء، والتحويل إلى إنسان عند التأهيل. تتيح المنصة للمطور رؤية النص، تتبع سير المكالمة، استدعاءات الأدوات، وتغيرات الحالة، مما يوفر أدلة عملية عند حدوث أي خطأ في البوت.

هيكلية دوجرا والمقارنة مع البدائل

  • تتكون دوجرا من محرك صوتي، ومنشئ سير عمل مرئي، وطبقة منصة تشمل الاختبار والتتبع.
  • تتميز المنصة بكونها مفتوحة المصدر مما يتيح فحص الكود وتغيير آلية عمل النظام.
  • تعتبر المنصات المستضافة مثل Vapi أو Bland أسرع في النشر لكنها تفرض قيوداً على التكلفة والتحكم.
  • تسمح دوجرا بالتحكم الكامل في المزودين ونماذج اللغات المستخدمة.

تقسم دوجرا النظام إلى محرك يربط المزودين، ومنشئ مرئي يخطط المنطق، وطبقة منصة توفر الاختبار والتحليلات المملة الضرورية للمشاريع الجادة. تختلف هذه الأدوات عن الأطر الخام مثل LiveKit التي تفتقر إلى واجهة مستخدم، وعن المنصات المستضافة التي تحبس المستخدم ضمن هيكل تكاليفها الخاص.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video