وضع المستشار الجديد في Claude: نتائج أفضل + سعر أقل

العربيةDeutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

Computing/SoftwareManagementInternet Technology

Transcript

00:00:00أصدرت Anthropic للتو استراتيجية المستشار،

00:00:02والتي تتيح لنا ليس فقط الحصول على أداء أفضل

00:00:05من نماذج Anthropic الخاصة بنا، بل القيام بذلك بتكلفة أقل.

00:00:09وطريقة عملها بسيطة للغاية.

00:00:10فهي تربط نموذج Opus كمستشار

00:00:12مع نموذج Sonnet أو Haiku كمنفذ.

00:00:15لذا يقوم Opus بوضع الخطة

00:00:17بينما يقوم النموذج الأرخص بكل العمل.

00:00:19وهذا مشابه جداً لما نفعله عند استخدام Claude Code

00:00:22وجعل Opus يعمل في وضع التخطيط،

00:00:24ولكن مع تمرير التنفيذ الفعلي إلى Sonnet.

00:00:27الفرق هو أنه مع استراتيجية المستشار،

00:00:30يتم كل ذلك تلقائياً عبر واجهة برمجة التطبيقات (API).

00:00:32لذا فهذا مثالي إذا كنت تعمل على أشياء

00:00:34خارج نطاق Claude Code.

00:00:35فإذا كان لديك أي نوع من تطبيقات الويب

00:00:38التي تستخدم واجهات برمجة تطبيقات Anthropic في الخلفية،

00:00:41فهذا خيار بديهي تماماً.

00:00:42ستحصل على نتائج أكثر فعالية وبتكلفة أرخص.

00:00:46وهو في الواقع أكثر تطوراً قليلاً

00:00:48مما نفعله في Claude Code مع تخطيط Opus

00:00:50ثم تنفيذ Sonnet.

00:00:52لأن هذه العلاقة بين المستشار والمنفذ

00:00:55في حالة تغير مستمر وليست مجرد عملية لمرة واحدة

00:00:58حيث يقدم Opus النصيحة مرة واحدة ثم ينفذ Sonnet.

00:01:01بل هي في الواقع عملية ذهاب وإياب.

00:01:02كما هو مذكور هنا، عندما يواجه المنفذ،

00:01:04أي Sonnet أو Haiku، قراراً

00:01:06لا يمكنه حله بشكل معقول،

00:01:08فإنه يستشير Opus للحصول على التوجيه كمستشار.

00:01:11يمتلك Opus سياقاً كاملاً لما يفعله Sonnet.

00:01:15لذا فالأمر ليس مجرد وضع تخطيط

00:01:16حيث يعطيه استراتيجية واحدة ثم ينطلق.

00:01:19بل كما لو فعلت ذلك وحاول Sonnet التنفيذ.

00:01:22وعندما يواجه حجر عثرة، سيعود إلى Opus.

00:01:24لذا هناك تواصل مستمر بينهما.

00:01:26علاوة على ذلك، وللحفاظ على انخفاض التكاليف،

00:01:28لا يقوم Opus بأي استدعاءات للأدوات في أي وقت.

00:01:30استدعاءات الأدوات الوحيدة تتم بواسطة نموذج LLM الأصغر،

00:01:34وفي هذه الحالة، Sonnet أو Haiku.

00:01:35لكن Opus يحتفظ بهذا السياق المشترك الكامل.

00:01:39وكما ذكرت في المقدمة،

00:01:40هذا يمنحنا نتائج أفضل بتكلفة أقل.

00:01:43هنا نرى مقارنة بين Sonnet 3.5

00:01:46مع مستشار Opus مقابل Sonnet 3.5 وحده.

00:01:50سجل Sonnet درجة أعلى في SWE-bench بنسبة 74.8 مقابل 72.1،

00:01:55وكانت التكلفة أرخص.

00:01:56فقد بلغت التكلفة ما يزيد قليلاً عن 96 سنتاً لكل مهمة وكيل

00:02:00مقابل دولار و9 سنتات تقريباً، وهو فرق كبير.

00:02:03وترى نفس الشيء يحدث في اختبارات أخرى

00:02:06مثل Browse-Comp وTerminal-Bench.

00:02:0860.4 مقابل 58.1، وهو أرخص.

00:02:12كونه أرخص هو أمر رائع لأننا جميعاً نعرف

00:02:14أن واجهات برمجة تطبيقات Anthropic مذهلة،

00:02:16لكنها باهظة الثمن للغاية.

00:02:19وغالباً ما تشعر أنك تريد شيئاً

00:02:21ما بين Sonnet وOpus، لكنه غير موجود.

00:02:24لذا فهذا يمنحنا حلاً وسطاً

00:02:26من حيث أداء Sonnet وOpus،

00:02:28ولكن بتكلفة أرخص من Sonnet العادي.

00:02:31إذاً، ما الذي لا يحب في ذلك؟

00:02:32كما قلت سابقاً، هذا يتعلق بواجهة برمجة التطبيقات،

00:02:33وليس بالضرورة بـ Claude Code.

00:02:35لذا لاستخدام هذا، سيتعين عليك فقط تعديل الكود الخاص بك

00:02:38وكيفية إجراء مكالمات واجهة برمجة التطبيقات تلك.

00:02:41تحديداً، عليك تحديد النوع ليكون "advisor"،

00:02:45بالإضافة إلى الحد الأقصى للاستخدامات.

00:02:47والحد الأقصى للاستخدامات هو عدد المرات

00:02:48التي سيعود فيها إلى Opus

00:02:50للحصول على مشورة بشأن قضية معينة.

00:02:52باختصار، هذا تحديث مذهل.

00:02:54إذا كنت ممن يستخدمون واجهة برمجة تطبيقات Anthropic

00:02:56في مشاريع فعلية خارج نظام Claude Code،

00:03:00فإننا نحصل على نتائج أفضل بتكلفة أقل.

00:03:03لأنه كما تعلمون، غالباً ما يكون Opus مجرد مبالغة

00:03:06في الغالبية العظمى من الأشياء،

00:03:08ومع ذلك فأنت تريد أحياناً شيئاً أفضل قليلاً مع Sonnet.

00:03:10وها هو ذا، الحل الوسط المثالي.

Key Takeaway

تخفض استراتيجية المستشار الجديدة من Anthropic تكاليف التشغيل إلى 96 سنتاً لكل مهمة مع رفع الأداء بنسبة 2.7% عبر ربط ذكاء Opus بقدرة Sonnet على التنفيذ التلقائي.

Highlights

تربط استراتيجية المستشار (Advisor Strategy) نموذج Opus كعقل مدبر مع نماذج أرخص مثل Sonnet أو Haiku لتنفيذ المهام.

سجل نموذج Sonnet 3.5 مع مستشار Opus نتيجة 74.8 على مقياس SWE-bench مقارنة بـ 72.1 للنموذج المنفرد.

تنخفض تكلفة مهمة الوكيل الواحد إلى 96 سنتاً عند استخدام وضع المستشار مقابل 1.09 دولار عند استخدام Sonnet وحده.

تقتصر عملية استدعاء الأدوات (Tool calls) على النماذج الصغيرة فقط لتقليل استهلاك الموارد بينما يحتفظ Opus بالسياق الكامل.

يتطلب تفعيل الميزة عبر واجهة برمجة التطبيقات (API) تحديد النوع كـ "advisor" ووضع حد أقصى لعدد مرات الاستشارة.

تسمح الاستراتيجية بعملية ذهاب وإياب مستمرة حيث يعود النموذج المنفذ للمستشار عند مواجهة عقبات معقدة لا يمكنه حلها.

Timeline

آلية عمل استراتيجية المستشار والمنفذ

يعمل نموذج Opus كمخطط استراتيجي يضع خارطة الطريق للمهام المعقدة.
يتولى نموذج Sonnet أو Haiku مسؤولية التنفيذ الفعلي للخطوات المحددة.
يحدث تواصل مستمر بين النموذجين بدلاً من تقديم خطة لمرة واحدة فقط.
يعود النموذج المنفذ لاستشارة Opus تلقائياً عند مواجهة قرارات صعبة خارج قدراته.

تعتمد هذه الاستراتيجية على تقسيم العمل بين عقل مدبر وقوة تنفيذية، مما يماثل أسلوب العمل في Claude Code ولكن بشكل آلي بالكامل عبر API. يمتلك المستشار سياقاً كاملاً لكل ما يفعله المنفذ، مما يضمن دقة التوجيه. تبرز القيمة الحقيقية في قدرة المنفذ على طلب المساعدة في اللحظة التي يواجه فيها حجر عثرة، مما يمنع فشل المهمة.

تحليل كفاءة التكلفة ونتائج الاختبارات القياسية

يحقق نظام المستشار نتائج أعلى في اختبارات SWE-bench وBrowse-Comp وTerminal-Bench مقارنة بالنماذج المنفردة.
تتم عمليات استدعاء الأدوات بواسطة النماذج الأرخص حصراً لتوفير التكاليف.
توفر هذه الطريقة حلاً وسطاً يجمع بين ذكاء Opus وسعر أقل من تكلفة Sonnet التقليدي.
تصل دقة المهام في اختبار Browse-Comp إلى 60.4 مع تقليل الإنفاق المالي.

تظهر البيانات أن الجمع بين الطرازين يتفوق على استخدام Sonnet 3.5 بمفرده من حيث الدقة والسعر. يحل هذا الابتكار مشكلة التكلفة العالية لواجهات برمجة تطبيقات Anthropic التي كانت تمثل عائقاً للمطورين. يتم توجيه ميزانية الحوسبة نحو التفكير الاستراتيجي في Opus بينما تظل التكاليف التشغيلية منخفضة بفضل كفاءة النماذج الصغيرة في تنفيذ الأدوات.

متطلبات التنفيذ البرمجي عبر واجهة التطبيقات

يستلزم تفعيل الميزة تعديل كود طلبات واجهة برمجة التطبيقات لتشمل بارامترات المستشار.
يتحكم المطور في ميزانية التشغيل عبر تحديد معامل الحد الأقصى للاستخدامات (max_uses).
يناسب هذا الوضع تطبيقات الويب التي تعتمد على مهام وكلاء الذكاء الاصطناعي المعقدة.
يعالج وضع المستشار الفجوة بين النماذج المتوسطة والنماذج فائقة الذكاء دون هدر الموارد.

يتطلب الانتقال إلى هذا النظام إضافة تعريفات محددة في ملفات البرمجة، حيث يحدد المطور عدد المرات التي يسمح فيها للمنفذ بالعودة إلى Opus لطلب المشورة. يمنع هذا القيد الاستخدام المفرط للموارد ويحافظ على القدرة التنبؤية للتكاليف. تعد هذه الميزة مثالية للمشاريع التي تتطلب دقة Opus ولكنها لا تحتاج لكامل قوته في كل خطوة بسيطة من خطوات العمل.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video