كيف خفضت تكاليف وكيل الذكاء الاصطناعي بنسبة 70% بتغيير واحد (Manifest)

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00هذا هو Manifest. انتقلت لاستخدامه خلال عطلة نهاية الأسبوع وانخفضت تكاليف الرموز (tokens) الخاصة بي بنسبة 70%.
00:00:05نفس الوكيل، نفس المهام، مجرد توجيه أفضل. إذا كنت تبني وكلاء ذكاء اصطناعي، فهناك احتمال كبير
00:00:11أنك تدفع أكثر بكثير مما ينبغي. فمعظم الطلبات لا تحتاج إلى GPT-4-0 أو Claude Opus،
00:00:17ولكن هذا بالضبط ما يتم استخدامه على أي حال. لذا ينتهي الأمر بوكيلك باستخدام نماذج باهظة الثمن
00:00:22لأشياء أساسية مثل التصنيف، والتوجيه، والتلخيص، وهكذا تصبح فاتورتك بهدوء
00:00:27أعلى بثلاث إلى خمس مرات مما ينبغي. فكيف يعمل Manifest أساساً؟ دعونا نكتشف ذلك.
00:00:37إليك أين تكمن المشكلة. الوكلاء لا يكتفون بإجراء بضع مكالمات، بل يجرون آلافاً منها.
00:00:44ومعظم تلك المكالمات بسيطة للغاية. اختيار أداة، تلخيص جزء من النص، تصنيف المدخلات. ولكن إذا
00:00:50تم توجيه كل شيء إلى أفضل نموذج، فأنت تدفع ثمناً باهظاً مقابل عمل أساسي نوعاً ما. لذا يمكنك
00:00:57محاولة إصلاح ذلك، أعتقد عن طريق كتابة منطق توجيه، والآن أصبح كود برمجتك مليئاً بجميع عبارات
00:01:02if-else التي تتعطل بمجرد تغيير مطالباتك (prompts). حسناً، نعم، يمكننا فقط استخدام OpenRouter،
00:01:08بالتأكيد، ولكن هناك رسوم مقابل ذلك. ثم إن مطالباتك تغادر جهازك بالفعل. أعتقد أن هناك
00:01:13أيضاً شيئاً يسمى Lite LLM يمكنك تجربته، وهو قوي، لكن لا يزال يتعين عليك إدارة التوجيه
00:01:18يدوياً. لذا فإن المشكلة الحقيقية ليست في الوصول إلى النماذج، بل في اختيار النموذج المناسب في كل مرة.
00:01:25وهذا، أيها السيدات والسادة، هو ما يفعله Manifest. إنه يجلس بين وكيلك ونماذجك.
00:01:31أنت ترسل طلباً واحداً، وهو يقوم بتقييمه عبر 23 بعداً، ويوجهه إلى أرخص نموذج
00:01:36يمكنه التعامل معه. لا توجد عمليات إعادة كتابة، بل نقطة نهاية واحدة فقط. إذا كنت تستمتع بأدوات البرمجة والنصائح
00:01:41مثل هذه، تأكد من الاشتراك. لدينا فيديوهات تصدر طوال الوقت. حسناً، رائع. الآن دعوني أريكم.
00:01:47نفس الوكيل، نفس المهمة. أقوم بتشغيل Manifest باستخدام Docker هنا، أمر curl بسيط، Docker Compose up،
00:01:55والآن أوجه نقطة نهاية OpenAI الخاصة بي إليه. هذا هو التغيير الوحيد هنا. الآن يمكنني ربط نماذج مختلفة
00:02:01هنا، كما ترون، Anthropic، OpenAI، Ollama. اخترت OpenAI، ووضعت مفتاحي، وربطت
00:02:08Ollama بحيث يمكنه التنقل بين الاثنين. والآن سنقوم بتشغيل سكربت بايثون هذا. يمكنكم رؤية أنني أستخدم
00:02:12مفتاح Manifest API هنا. هذا هو المفتاح الوحيد الذي نحتاجه لأن Manifest لديه المفاتيح الأخرى، حسناً؟
00:02:18لذا عندما نشغل هذا، يبدأ الوكيل بالعمل. وبدلاً من إرسال كل شيء إلى نموذج
00:02:24باهظ الثمن، يتخذ Manifest قراراً. هذا الطلب بسيط. وجهه إلى خيار أرخص. الآن عُد إلى هنا. لوحة التحكم الخاصة بنا
00:02:31تتحدث في الوقت الفعلي، وتظهر لنا استخدام الرموز، والتكلفة لكل وكيل، وتتبع الميزانية. الرقم الرئيسي
00:02:38يمكن أن يتغير، لكنه يمكن أن يكون أرخص بنسبة تصل إلى 70%. نفس المخرجات، تكلفة أقل، ولأن
00:02:44هذا يعمل محلياً، مطالباتك لا تغادر جهازك فقط ليتم توجيهها. لم يستغرق هذا الكثير من
00:02:50الوقت أو الموارد، لذا فهو شيء يستحق الدمج في سير عملك، خاصة إذا كنت
00:02:55تبني وتستخدم الذكاء الاصطناعي. حسناً، فما الذي يحدث هنا فعلياً؟ يمكنك التفكير في Manifest كـ
00:03:00وحدة تحكم، أليس كذلك؟ يرسل وكيلك طلباً واحداً، يقرر Manifest إلى أين يجب أن يذهب فعلياً،
00:03:07لذا يمكن أن يكون نموذج API، يمكن أن يكون اشتراكاً، نموذجاً محلياً، Llama أو Llama CPP.
00:03:14إنه يدعم مئات النماذج عبر أطنان من المزودين، ولكن إليك الجزء المهم في
00:03:19كل هذا. إنه لا يستدعي نموذج لغة آخر (LLM) ليقرر. سيكون ذلك غير منطقي، فسيكون
00:03:25بطيئاً ومكلفاً. بدلاً من ذلك، يستخدم تقييماً حتمياً (deterministic scoring)، لذا يحدث التوجيه في أقل من مللي ثانية.
00:03:32لا يوجد تأخير مضاف لأي من هذا. Manifest يجلس فقط في المنتصف، ويتخذ قرارات أفضل،
00:03:38وهو مصمم بوضوح للوكلاء. إضافات استدعاء مفتوحة، تتبع متعدد الوكلاء، لدينا تلك، وحتى
00:03:44لدينا إمكانية الملاحظة (observability) مدمجة. أكبر التوفيرات لا تأتي من المطالبات الصعبة. بل تأتي من كل
00:03:50المطالبات الصغيرة. حقاً مجرد المكالمات المملة التي يجريها وكلاؤنا باستمرار. حسناً، لذا سريعاً، كيف يختلف هذا
00:03:56عن الأدوات التي نعرفها بالفعل، لذا سأقارن هذا سريعاً؟ ذكرت
00:04:01OpenRouter سابقاً. لذا OpenRouter يمنحك نقطة نهاية سحابية واحدة، لكن حركة مرور بياناتك لا تزال تغادر
00:04:06نظامك. Manifest يمكن تشغيله بالكامل ذاتياً. ثم لدينا الأداة التي ذكرتها وهي Lite LLM. هذا يمنحك
00:04:13واجهة موحدة، ولكن التوجيه لا يزال شيئاً يجب عليك التحكم فيه يدوياً. Manifest يتعامل مع
00:04:19التوجيه تلقائياً. هناك أيضاً ذكاء التوجيه. الآن، حيث يقوم Manifest بتقييم الطلبات عبر 23
00:04:25بعداً، هذا هو نسختهم من ذكاء التوجيه. الأشياء الأخرى مثل هذه تعتمد على التجاوز عند الفشل
00:04:31أو القواعد. ثم لدينا الاشتراكات. نعم. لذا بينما لا تدفع فعلياً مقابل Manifest، لا تزال
00:04:38تحتاج بوضوح إلى أشياء مثل مفتاح OpenAI أو Claude API، أليس كذلك؟ الآن، التركيز على الوكيل هو شيء
00:04:46يبرز فيه Manifest. إنه مصمم لسير عمل الوكلاء المتعددين. لذا الفرق بسيط.
00:04:51إذا كنت تريد الوصول، فاستخدم فقط OpenRouter، أليس كذلك؟ إذا كنت تريد التحكم، فهناك Lite LLM. ولكن إذا كانت
00:04:57مشكلتك هي التكلفة الناتجة عن الوكلاء، لأننا نجري كل هذه الاستدعاءات لـ API، فإن Manifest مصمم
00:05:03لذلك. هناك عدد لا يحصى من الأدوات لتقليل تكاليفك. أنت فقط بحاجة للعثور عليها، وهذه واحدة
00:05:08من الطرق. الآن، لنكن صادقين هنا، لأنه رائع، ولكن مع أداة ذكاء اصطناعي، ستحصل على بعض
00:05:14الأشياء التي قد تجعلك بصراحة تشعر بالحيرة. أولاً، الإيجابيات. حيث الأولى ستكون التوفير،
00:05:19خاصة مع توجيه الاشتراك. أنت تستخدم خططاً تدفع ثمنها بالفعل بدلاً من
00:05:26الدفع مقابل كل رمز مرة أخرى. ثم البدائل الاحتياطية (fallbacks)، أليس كذلك؟ إذا فشل شيء ما، يستمر وكيلك في العمل، وهو
00:05:33فوز كبير. ثم لدينا لوحة التحكم. لوحة التحكم رائعة لأنك تستطيع رؤية أين تذهب أموالك
00:05:38عبر نماذج مختلفة، لكل وكيل، لكل مهمة، كل ذلك في الوقت الفعلي. وهي تعمل مع العملاء الحاليين
00:05:45دون أي إعادة كتابة كبيرة. ولكن كما قلت، هناك أشياء نتوقع أن تكون في أداة كهذه.
00:05:50وأنت تعلم، هناك أشياء مثل أن تقييمك سيكون متحيزاً، أليس كذلك؟
00:05:56ذكاء اصطناعي. حسناً. لذا أحياناً يوجه إلى خيار أرخص مما تتوقع. يمكنك تجاوز ذلك، ولكن تحتاج إلى معرفة
00:06:02أن ذلك يحدث في الخلفية. الإعداد أيضاً ليس صفراً لأنك لا تزال تدير المفاتيح وتربط
00:06:07المزودين، لكنه كان بسيطاً جداً. ولا يزال المطورون يريدون المزيد من SDKs، والمزيد من خيارات التخزين، والمزيد من
00:06:13المميزات. لذا نعم، إنه رائع حقاً، لكنه لا يزال بنية تحتية. إنه ليس مثالياً. بعض الأشياء تحتاج
00:06:19إلى تعديل. إنه بالتأكيد يستحق العناء إذا كنت تشغل وكلاء كل يوم، أو إذا كان وكلاؤك يجرون الكثير من
00:06:25المكالمات الصغيرة. حتى لو كنت تهتم بالحفاظ على المطالبات محلية، فهذا رائع، ولكن ربما ليس إذا كنت
00:06:32تريد إعداداً صفرياً. في هذه الحالة، شيء مثل OpenRouter أبسط، ولكن بالنسبة لمعظمنا نحن المطورين الذين يبنون
00:06:38وكلاء، هذه واحدة من أسرع الطرق لتقليل تكلفتك لأنك لا تغير وكيلك. نحن نحتفظ بكل شيء.
00:06:44أنت فقط تغير كيفية توجيهها معاً. نفس المدخلات، نفس المخرجات، فاتورة أقل. وهذا هو
00:06:50المفتاح هنا. إذا كنت تستمتع بأدوات البرمجة والنصائح كهذه، تأكد من الاشتراك في قناة BetterStack.
00:06:54سنراكم في فيديو آخر.

Key Takeaway

يؤدي دمج أداة Manifest بين وكلاء الذكاء الاصطناعي ونماذج اللغة إلى خفض تكاليف التشغيل بنسبة 70% عبر التوجيه التلقائي للمهام البسيطة إلى النماذج الأقل تكلفة دون الحاجة لإعادة كتابة الكود البرمجي.

Highlights

  • يؤدي استخدام أداة Manifest إلى خفض تكاليف رموز نماذج الذكاء الاصطناعي بنسبة تصل إلى 70%.

  • تعتمد Manifest على تقييم حتمي (deterministic scoring) يوجه الطلبات إلى أرخص نموذج قادر على معالجتها في أقل من مللي ثانية.

  • يعمل Manifest كوكيل وسيط يقيّم الطلبات عبر 23 بعداً قبل توجيهها للنموذج المناسب.

  • تتيح هذه الأداة تشغيل الذكاء الاصطناعي محلياً، مما يمنع خروج المطالبات (prompts) من جهاز المستخدم.

  • توفر لوحة تحكم Manifest تتبعاً لحظياً لاستهلاك الرموز والتكاليف لكل وكيل ومهمة على حدة.

  • يدعم Manifest مئات النماذج عبر مزودين متعددين بما في ذلك OpenAI وAnthropic وOllama.

Timeline

مشكلة تكاليف الوكلاء

  • تستخدم معظم تطبيقات الوكلاء نماذج باهظة مثل GPT-4 أو Claude Opus في مهام بسيطة لا تتطلب هذا المستوى.
  • تتراوح فواتير الوكلاء الناتجة عن هذه الممارسات بين 3 إلى 5 أضعاف التكلفة الفعلية المطلوبة.
  • تؤدي كتابة منطق التوجيه اليدوي باستخدام عبارات if-else إلى تعقيد الكود وزيادة احتمالية تعطل العمل عند تغيير المطالبات.

يركز هذا القسم على التحدي المتمثل في توجيه كل المهام، بما فيها المهام الروتينية مثل التصنيف والتلخيص، إلى نماذج لغوية كبيرة ومكلفة. البدائل التقليدية مثل OpenRouter أو LiteLLM إما تفتقر للتحكم المحلي أو تتطلب إدارة يدوية معقدة للتوجيه.

آلية عمل Manifest

  • يعمل Manifest كطبقة وسيطة تتلقى طلباً واحداً وتوجهه لأرخص نموذج متاح بناءً على 23 معياراً تقييمياً.
  • يتم التوجيه باستخدام تقييم حتمي سريع جداً لا يضيف تأخيراً ملحوظاً على استجابة النظام.
  • يوفر Manifest إمكانية الربط مع نماذج سحابية ومحلية (مثل Llama) من خلال نقطة نهاية واحدة دون الحاجة لتغيير كود الوكيل الأصلي.

يتم إعداد Manifest عبر Docker وتوجيه نقطة نهاية OpenAI إليه ليقوم بمهمة المفاضلة بين النماذج. لا يستدعي Manifest نموذج لغة آخر لاتخاذ قرار التوجيه، مما يحافظ على سرعة التنفيذ ويقلل التكاليف بشكل مباشر.

مقارنة الأدوات وتقييم الأداء

  • يتميز Manifest عن OpenRouter بقدرته على التشغيل الذاتي المحلي، وعن LiteLLM بأتمتة التوجيه بالكامل.
  • تعد لوحة التحكم المدمجة ميزة جوهرية لتتبع النفقات حسب الوكيل والمهمة في الوقت الفعلي.
  • تتطلب الأداة إدارة يدوية لمفاتيح واجهات برمجة التطبيقات (API Keys) والربط الأولي، مما يتطلب بعض وقت الإعداد.

يوازن التحليل بين فوائد التوفير والتحكم وبين متطلبات البنية التحتية. يظل التحدي الأساسي هو الانحياز المحتمل في التقييم التلقائي، وهو ما يتطلب قدرة المستخدم على تجاوز التوجيه عند الضرورة.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video