شركة Anthropic تقضي تماماً على هياكل وكلاء الذكاء الاصطناعي الخاصة بك

العربيةDeutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português Русский 中文

Computing/SoftwareManagementInternet Technology

Transcript

00:00:00على مدى الأشهر القليلة الماضية، قمنا بتغطية العديد من أطر عمل البرمجة بالذكاء الاصطناعي بما في ذلك BMAD وGSD وSpeckit وSuperpowers،

00:00:08وبدأ الكثير منكم بالفعل في استخدامها. لكن شركة Anthropic أجرت للتو تجارب على نظامها الخاص،

00:00:14حيث قامت بإزالة المكونات واحداً تلو الآخر، وقياس ما يهم حقاً. وكانت نتيجتهم أن معظم ذلك أصبح الآن عبئاً زائداً.

00:00:17كل مكون في إطار العمل يجسد افتراضاً حول ما لا يستطيع النموذج فعله بمفرده، ومع Opus 4.6، أصبحت تلك الافتراضات قديمة.

00:00:25لقد راجعنا الأمر برمته وحددنا ما لا يزال مهماً، وما يمكنك الاستغناء عنه، وكيف يجب أن يبدو إعدادك الفعلي الآن.

00:00:32تلعب أنظمة الوكلاء دوراً مهماً في جعل الوكلاء يعملون بشكل أفضل بكثير على المدى الطويل.

00:00:37لقد أصدرت Anthropic بالفعل نظام وكلاء، قمنا بتغطيته بالتفصيل في فيديو سابق، وشرحنا كيفية إعداده واستخدامه.

00:00:43لقد قمنا أيضاً بتغطية أطر عمل أخرى في نفس السياق، وبينما تختلف تطبيقاتها، إلا أنها تحاول جميعاً القيام بنفس الشيء.

00:00:50لكن عندما تم إصدار أطر العمل هذه، لم تكن النماذج بنفس القدرة التي يتمتع بها Opus 4.6 الآن.

00:00:55على سبيل المثال، تركز أطر عمل مثل GSD على عزل السياق، لكن هذه ليست مشكلة مع Opus 4.6.

00:01:01ليس فقط بسبب نافذة السياق التي تبلغ مليون رمز، ولكن لسبب آخر سنتحدث عنه بعد قليل.

00:01:06لذلك، فإن الكثير من أطر العمل المنفذة سابقاً أصبحت الآن عبئاً على قدرات النموذج الجديد.

00:01:11أجرت Anthropic بالفعل تجارب لاختبار جوانب مختلفة من النظام، وإزالة كل جانب وقياس تأثيره.

00:01:17ومن نتائجهم، استنتجوا أن كل ما يحتاجه نظام الوكيل فعلياً هو وكلاء للتخطيط والتوليد والتقييم.

00:01:24أما البقية فهي مجرد طرق للقيام بالأشياء أصبحت عبئاً زائداً نظراً لمدى قدرة النماذج الآن.

00:01:29النظرية الأساسية هي أن كل مكون في نظام الوكيل، بغض النظر عن النظام الذي تستخدمه، يعتمد على نفس المبدأ.

00:01:35كل مكون يجسد افتراضاً حول ما يمكن للنموذج القيام به بمفرده.

00:01:38يجب اختبار هذه الافتراضات لأنها قد تكون غير صحيحة، وستصبح قديمة مع تحسن النموذج، وهذا ما فعلوه في المقال.

00:01:46لذلك، مع تطور النماذج، يجب أن يتطور نظامك أيضاً، وإذا كنت تعمل بنفس المبادئ الموضوعة قبل بضعة أشهر، فأنت لا تواكب التطور.

00:01:54التخطيط هو الخطوة الأولى التي تظل دون تغيير عبر كل إطار عمل، ولكن الطريقة التي تخطط بها يجب أن تتغير للنماذج الأكثر قدرة.

00:02:01كانت أنظمة Anthropic السابقة طويلة الأمد تتطلب من المستخدم تقديم مواصفات مفصلة مسبقاً.

00:02:06أطر عمل مثل BeMad وSpecKit تقوم حرفياً بتقسيم المهمة إلى أجزاء أصغر ومهام دقيقة تساعد وكيل الذاء الاصطناعي على تنفيذها بسهولة.

00:02:14ولم تكن هذه مجرد مهام صغيرة، بل كانت حرفياً خطوات مفصلة كان على الوكلاء اتباعها دون تفكير.

00:02:20هذا لأن النماذج في ذلك الوقت لم تكن قادرة بما يكفي وتحتاج إلى توجيه دقيق حتى تتمكن من الأداء بالطريقة التي تريدها.

00:02:27ولكن مع Opus 4.5 و4.6، تغير هذا الأمر.

00:02:30عندما اختبرت Anthropic هذا، وجدت أنه إذا حاول المخطط تحديد تفاصيل تقنية دقيقة مسبقاً، فإن خطأً واحداً سيؤدي إلى فشل متسلسل،

00:02:43مما يجعل من الصعب على الوكيل الانحراف وإصلاح المشكلات بمفرده. كان الأمر كله يعتمد على مدى جودة كتابة الخطة.

00:02:45لذلك، أصبح التخطيط الآن رفيع المستوى بدلاً من كونه تنفيذاً تقنياً مفصلاً.

00:02:50أصبح الوكلاء الآن أكثر ذكاءً بمفردهم وكل ما عليك فعله هو إخبارهم بالمخرجات المطلوبة.

00:02:55ويمكنهم تحديد المسار نحو ذلك بأنفسهم.

00:02:57مع هذا التحول، لم تعد أساليب التخطيط مثل تلك الموجودة في BeMad وSpecKit ذات أهمية كبيرة.

00:03:02يمكنك قصر BeMad على مرحلة التخطيط حتى توليد وثيقة متطلبات المنتج (PRD) دون الحاجة للدخول في عملية التقسيم التقني.

00:03:08كما ذكرنا من قبل، فإن توليد PRD باستخدام BeMad فعال لأن لديه وكلاء متخصصين لفهم متطلبات المنتج بشكل أفضل مما يفعله Claude بمفرده.

00:03:18هذا لأن هؤلاء الوكلاء لديهم سياق خارجي لمهام محددة أضافها المؤلف.

00:03:23بدلاً من ذلك، يمكنك استخدام جلسة الاستجواب من Superpowers لأنها كانت تهدف في الأصل لتحديد الحالات الاستثنائية،

00:03:32والتي يمكن أن تكون أكثر فعالية من توثيق المهام متعدد المستويات. لكن المشكلة الأساسية في التخطيط المفصل للغاية هي أنه يقيد الوكيل،

00:03:40ولا يترك مجالاً للذكاء الاصطناعي للاكتشاف وفهم الأمور بمفرده. قدمت Anthropic أيضاً مثالاً لخطة تم إنشاؤها بواسطة وكيل المخطط،

00:03:46والتي يمكنك استخدامها لإعداد وكيل المخطط الخاص بك. إنها توضح بوضوح أن الخطة يجب أن تتوسع في النطاق وتدفع حدود أي فكرة تطبيق تقدمها.

00:03:52الفكرة الأساسية هي إبقاء المشروع على مستوى المنتج، وليس على مستوى التنفيذ.

00:03:56هذا مهم لأنه إذا حاول التخطيط للتنفيذ داخل خطة المشروع، فإنه يصبح مركزاً جداً على التفاصيل التقنية وقد يفشل في تقديم منتج كامل.

00:04:06الآن قد تعتقد أن وضع الخطة الخاص بـ Claude يقوم بالفعل بتخطيط مماثل من خلال طرح الأسئلة وتقديم خطة مفصلة.

00:04:12ولكن هنا الفرق: على الرغم من أن Claude لديه وكيل تخطيط، إلا أنه لا يزال يركز بشدة على تفاصيل التنفيذ ولا يعمل حقاً على مستوى المنتج،

00:04:22وهو ما يتعارض مع نتائج Anthropic. بمجرد وضع هذا في مكانه، يمكنك ببساطة طلب من Claude استخدام الوكيل الذي أنشأته لتخطيط تطبيقك،

00:04:31وسيقوم بإنشاء خطة كاملة وتوثيقها في مجلدك أثناء تقدمه. تتضمن هذه الخطة تفصيلاً كاملاً للميزات على مستوى المنتج،

00:04:40ومع كل مرحلة، تتضمن قصص المستخدمين التي توضح شكل منظور المستخدم. يساعد هذا Claude على تنفيذ تدفقات العمل الصحيحة التي يتوقعها المستخدمون فعلياً.

00:04:44ولكن قبل أن نمضي قدماً، دعونا نستمع لراعينا، Minimax.

00:04:47إعداد وكلاء الذكاء الاصطناعي هو كابوس؛ مفاتيح API، إعدادات الخادم، Docker، وبعد كل ذلك، ينسى مساعدك كل شيء بمجرد إغلاق علامة التبويب.

00:04:56الحل هو MaxClaw، ذكاء اصطناعي مدعوم بالسحاب في متناول يدك.

00:04:59بدون إعداد وبدون صداع، يمكنك نشر OpenClaw الخاص بك.

00:05:02فقط اضغط على نشر، وستكون متاحاً في أقل من 10 ثوانٍ. إنه يبني مواقع الويب، يكتب الأكواد، يجري الأبحاث، ويؤتمت أعمالك المملة من خلال مطالبات نصية بسيطة.

00:05:12يتصل MaxClaw مباشرة بـ Telegram وSlack وDiscord والمزيد، مما يتيح لك أتمتة تدفقات العمل وتصفح الويب وحتى إنشاء صور أو فيديوهات، كل ذلك من دردشة بسيطة.

00:05:21إنه جزء من Minimax Agent، وهي مساحة عمل أصلية للذكاء الاصطناعي حيث يصبح الجميع مصممين للوكلاء.

00:05:27إنه يعمل على Mac وWindows، ومدعوم بـ M 2.7، الذي يضاهي Claude Opus 4.6 في Sweetbench.

00:05:33توقف عن الصراع مع الإعدادات المعقدة، دع MaxClaw يتولى الأمر، واضغط على الرابط في التعليق المثبت للبدء.

00:05:39الوكيل الذي يكتب الكود لا ينبغي أن يكون هو نفسه الذي يقيمه.

00:05:42هذه هي ثاني أكثر المشاكل شيوعاً، وعادة لا يتم مناقشتها كثيراً.

00:05:46التقييم الذاتي يمثل مشكلة لأنه إذا استخدمت نفس الوكيل الذي كتب الكود لتقييمه، فإنه يميل للرد بثقة كبيرة والثناء على عمله، حتى لو كانت الجودة دون المستوى.

00:05:56قد يكون من السهل إدارة هذا للمهام التي تحتوي على مقاييس كمية، مثل ما إذا كانت واجهات برمجة التطبيقات المنفذة تعمل بالفعل.

00:06:03لكن هذه المشكلة تصبح أكثر وضوحاً للمهام التي لا تحتوي على نتائج يمكن التحقق منها بوضوح.

00:06:08وأكبر مثال على ذلك هو واجهة المستخدم (UI).

00:06:10ما يشكل واجهة مستخدم جيدة هو أمر ذاتي، وقد لا يستوعب الذكاء الاصطناعي نواياك تماماً.

00:06:15قد يعتبر تنفيذه جيداً، حتى لو لم يستوفِ معاييرك.

00:06:19تم التعرف على هذه المشكلة بالفعل من قبل مبتكري أطر عمل متعددة، وقاموا بتنفيذ آليات التقييم الخاصة بهم لمعالجتها.

00:06:26تضمن جميع أطر العمل التي غطيناها، مثل GSD وBMAD وSuperpowers، ألا يقوم نفس الوكيل الذي كتب الكود بتقييم جودته.

00:06:34يعزز هذا النهج بشكل كبير من دقة وموثوقية تقييمات الوكيل.

00:06:39لذلك، سواء كنت تستخدم إطار عمل موجوداً أو تبني إطارك الخاص، فأنت بحاجة للتأكد من أن المقيم منفصل تماماً عن المنفذ.

00:06:47قبل أن يبدأ التنفيذ، يتفاوض كل من وكيل التوليد ووكيل التقييم على عقد، للاتفاق على ما يعنيه "إتمام" العمل.

00:06:54يساعد هذا لأن كلا الوكيلين يعرفان بوضوح ما يجب تحقيقه وما يجب التحقق منه.

00:06:58مع التخطيط رفيع المستوى، لا تزال هناك حاجة لخطوات قابلة للتنفيذ والتنفيذ.

00:07:02ولكن أثناء الاختبار مع النظام، حاولوا إزالة عقد العمل السريع (sprint).

00:07:06وجدوا أن Opus 4.5 كان أقل كفاءة في هذا السيناريو لأن المقيم كان لا يزال يتدخل لاكتشاف المشكلات.

00:07:12ولكن مع Opus 4.6، تحسنت قدرات النموذج لدرجة أن العقد لم يكن ضرورياً.

00:07:18كان وكيل التوليد قادراً بما يكفي للتعامل مع معظم العمل بمفرده.

00:07:22لذلك، بالنسبة للنماذج الأصغر مثل Sonnet أو Haiku، لا تزال بحاجة لتوثيق المهام.

00:07:27قم بتقسيمها بشكل صحيح إلى هياكل عمل سريعة واجعل كل وكيل يوافق على ما يبدو عليه "الاكتمال".

00:07:32ولكن مع النماذج الأكثر قدرة، يمكنك الاعتماد على Opus لتنفيذ الخطة رفيعة المستوى دون هذه الخطوات الإضافية.

00:07:38ذكرنا سابقاً أن هناك سبباً لأهمية عزل السياق.

00:07:42هذا لأن النماذج الأصغر تعاني من "قلق السياق"، وهي ظاهرة تفقد فيها النماذج ترابطها في المهام الطويلة مع امتلاء نافذة السياق.

00:07:51عندما يحدث هذا، فإنهم ينهون العمل قبل الأوان ويدعون أنهم نفذوا المهام بشكل صحيح، حتى عندما لا يكونون قد فعلوا ذلك.

00:07:57كان الحل الذي ساعد هو إعادة ضبط السياق، بمسح نوافذ السياق الخاصة بهم قبل بدء التنفيذ.

00:08:02بما أن السياق قد تم مسحه، فقد تمكنوا من الاعتماد على تفصيل للمهام موثق خارجياً، والذي استمر عبر عمليات إعادة ضبط السياق.

00:08:08لكن النماذج أظهرت الكثير من قلق السياق لدرجة أن الضغط وحده لم يكن كافياً.

00:08:13كانوا بحاجة لتدابير إضافية لمنع المشاكل في المهام الأطول.

00:08:17بدءاً من Opus 4.5، لم تعد النماذج تظهر هذا السلوك.

00:08:21يمكن لهؤلاء الوكلاء العمل بشكل مستمر عبر جلسة كاملة، والطريقة التي يتعامل بها Claude مع الضغط كافية لعملهم.

00:08:28لذلك، لم تعد عمليات إعادة ضبط السياق ضرورية، ولم تعد هناك حاجة لتفاصيل المهام المفصلة كما في BMAD وSpecKit، حيث يكفي التوجيه رفيع المستوى.

00:08:37وكيل التوليد هو المنفذ الرئيسي الذي يبني التطبيق ميزة تلو الأخرى.

00:08:42يأخذ المواصفات من الخطة وينفذها باستمرار، مع التكامل مع Git للتحكم في الإصدارات.

00:08:47يعمل المولد بالتنسيق مع وكيل التقييم.

00:08:50بعد بناء ميزة، يسلمها للاختبار ويتلقى ملاحظات لتحسين تنفيذه.

00:08:56يتم تنظيم سير عمله في عدة خطوات: فهم المهمة، تنفيذها، وتحسين التنفيذ.

00:09:02حتى داخل مرحلة التنفيذ، يتم تقسيم العمل إلى أربع مراحل فرعية تغطي جوانب مختلفة.

00:09:07يتبع اتجاه التصميم، ويتحقق من عمله، ثم يسلمه للمقيم.

00:09:11يخلق هذا نمطاً منظماً وخطوة بخطوة، مما يمكن الوكيل من تنفيذ تطبيق كامل بشكل مستقل ومنهجي.

00:09:18يعمل وكيل التقييم كخصم للمولد.

00:09:21مهمته هي ضمان تنفيذ التطبيق بشكل صحيح، ليس من خلال فحص عام "للبحث عن الأخطاء"، بل من خلال التعامل معه بنظرة نقدية تفترض وجود أخطاء.

00:09:30يمكنه استخدام أدوات مثل PlayWrite لاختبار التطبيق عبر محاكاة تفاعلات المستخدم، وتحديد الأخطاء بناءً على معايير محددة مسبقاً، وإرسال الملاحظات إلى المولد.

00:09:39من خلال قراءة الخطة، يكتسب المقيم فهماً واضحاً لما يجب أن يبدو عليه "الإتمام" ويتحقق من كل شيء بدقة قبل الموافقة عليه.

00:09:46كل إطار عمل لديه مدقق خاص به، لكن الأساليب تختلف بشكل كبير.

00:09:50يستخدم BMAD وكلاء متخصصين لمراجعة الكود وضمان الجودة (QA) يقومون بإنشاء وتشغيل الاختبارات، وتقييم الكود من زوايا متعددة.

00:09:57يستخدم GSD وكيلًا فرعيًا للتحقق يراجع التنفيذ مقابل الخطة الحالية ويصدر تقريراً توثيقياً.

00:10:04يعتمد Superpowers على وكلاء فرعيين جدد ويفرض التطوير الموجه بالاختبار (TDD) الصارم، حيث لا يمكن كتابة أي كود قبل حالات الاختبار.

00:10:10إذا حاول الوكيل تجاوز ذلك، يتم حظره.

00:10:13يعامل SpecKit المواصفات كمصدر للحقيقة ويسمح للوكيل بالتحقق من الكود مقابل التوثيق.

00:10:18لكن لا يقدم أي من أطر العمل هذه آلية تسجيل درجات بمستوى الصرامة الذي كانت تهدف إليه Anthropic.

00:10:24لذلك، فإن المقيم في نظام Anthropic هو الأقرب لفرض التنفيذ الصارم الخاص بـ Ralph Loop لـ Claude، مما يضمن قيام الوكيل بتقديم ما هو مطلوب بآلية تقييم متدرجة ومناسبة.

00:10:35أيضاً، إذا كنت تستمتع بمحتوانا، فكر في الضغط على زر الإعجاب، لأن ذلك يساعدنا على إنشاء المزيد من المحتوى كهذا والوصول إلى المزيد من الناس.

00:10:43ليس لدى الوكيل وسيلة ليعرف كيف يبدو المخرج الصحيح بالنسبة لك، خاصة في الحالات التي لا يكون فيها التنفيذ قابلاً للقياس الكمي.

00:10:49لذلك، تستخدم آليات تقييم متدرجة حتى يعرفوا كيف يبدو المخرج الصحيح بالنسبة لك.

00:10:54عندما قدمت Anthropic مثالاً لمقاييس التقييم للواجهة الأمامية، ذكروا أن الذكاء الاصطناعي يميل للتقارب نحو مخرجات مماثلة في معظم الأوقات.

00:11:02وضعوا أربعة معايير لتقييم كل من وكيل التوليد ووكيل التقييم.

00:11:06الأول هو جودة التصميم، حيث يتم توجيهه للتحقق مما إذا كان المجال متماسكاً أم مجرد مكونات منفصلة مجمعة معاً.

00:11:12ثم الأصالة، وهي من المعايير الرئيسية لأن الذكاء الاصطناعي يميل لافتراض نفس نمط التدرج الأرجواني والأبيض لمعظم واجهات المستخدم.

00:11:19هذا يتعارض مع كيفية تصميم البشر، لأن لكل خيار تصميمي لدى البشر غاية محددة، وهذا يجعل من السهل التعرف على الموقع عندما لا يبدو جيداً.

00:11:27والثالث هو الحرفة، وهي التفاصيل الصغيرة مثل الطباعة، اتساق التباعد، وتناغم الألوان، حيث تكون نسبة التباين متوازنة تقنياً بدلاً من إعطائها مظهراً أكثر إبداعاً.

00:11:37والأخير هو الوظيفية، لأنه من حيث واجهة المستخدم، يلعب كل مكون دوراً مرئياً في تعزيز تجربة المستخدم.

00:11:44يسجل Claude بالفعل درجات جيدة في الحرفة والوظيفية، لكن البقية هي أكثر الصعوبات شيوعاً، وتحتاج المطالبات إلى دفعه إلى أفضل قدراته من خلال التأكيد على أن أفضل تصميم يأتي من الجودة.

00:11:54لذلك، عندما تبني تطبيقك، يمكنك وضع معايير مماثلة لأي عدد تريده من الميزات، مثل بنية الكود، والواجهة الأمامية، وتدفقات مستخدم UX، والمزيد.

00:12:02اجعل لكل جزء مذكور في المعايير درجة مخصصة حتى يتمكن النموذج من تحديد أهميته بناءً على مدى جودة أدائه.

00:12:10يتم الرجوع لهذه الملفات في وكيل التقييم لأن وظيفة المقيم هي تسجيل الدرجات، لذا فهو يعرف المعيار الذي يجب اتباعه.

00:12:17بالنظر لكل ما غطيناه، قد تتساءل عما يجب عليك فعله الآن.

00:12:21إذا كنت تريد إطار عمل لتسهيل إعدادك، فاختر GSD، لأن GSD يستخدم بشكل أساسي حلقة المخطط والمولد والمقيم بشكل افتراضي، لكن مقيمه يطابق الكود فقط مع الخطط الموجودة ويعتمد على اختبار قبول المستخدم.

00:12:35إنه يستخدم آلية النجاح والفشل، وليس تنفيذاً بنقاط. لذلك، يمكنك أخذ أفضل أجزاء نظام Anthropic ودمجها مع GSD، على سبيل المثال تغيير وكيل التقييم ودمجه مع المعايير ليعرف الوكيل ماهية التنفيذ الصحيح.

00:12:49ولكن إذا كنت تريد استخدام نظام Anthropic وإعداده بنفسك، فيمكنك تنفيذه عن طريق إنشاء وكلاء بناءً على أدوارهم وجعلهم يعملون معاً باستخدام فرق الوكلاء.

00:12:58يمكنك استخدام أحد أعضاء فريق الوكلاء كمولد والآخر كمقيم.

00:13:03السبب في استخدام فرق الوكلاء هو قدرتهم على التواصل مع بعضهم البعض، بينما لا يستطيع الوكلاء الفرعيون ذلك وسيتعين عليهم الكتابة في وثيقة، مما يخلق عبئاً زائداً.

00:13:10لذلك، يقوم Claude بإنشاء المهام من الخطة رفيعة المستوى ويقوم بإنشاء كلا الوكيلين في نفس الوقت، حيث يقوم أحدهما بالتنفيذ بينما يقوم الآخر بتشغيل الاختبارات باستخدام Playwright MCP مع المتصفح، بانتظار التحديثات من المولد للبدء في عملية الاختبار.

00:13:24يستمر المقيم في التحقق من العمل وإبلاغ المولد بالمشكلات ويعملان بالتنسيق لتنفيذ التطبيق بالكامل بما يتوافق مع معاييرك.

00:13:33الآن جميع الوكلاء المستخدمين هنا بالإضافة لجميع الموارد متاحة في AI Labs Pro لهذا الفيديو ولجميع فيديوهاتنا السابقة حيث يمكنك تحميلها واستخدامها لمشاريعك الخاصة.

00:13:43إذا وجدت قيمة فيما نقدمه وتريد دعم القناة، فهذه هي أفضل طريقة للقيام بذلك. الرابط في الوصف.

00:13:48بهذا نصل لنهاية هذا الفيديو. إذا كنت ترغب في دعم القناة ومساعدتنا على الاستمرار في صنع فيديوهات كهذه، يمكنك القيام بذلك عبر زر شكراً أدناه.

00:13:57كما هو الحال دائماً، شكراً للمشاهدة وأراكم في الفيديو القادم.

Key Takeaway

يلغي نموذج Opus 4.6 الحاجة إلى أطر عمل الوكلاء المعقدة مثل BMAD وSpecKit من خلال استبدال التخطيط التقني التفصيلي بتوجيهات رفيعة المستوى وفصل صارم بين مهام التنفيذ والتقييم لضمان جودة المنتج النهائي.

Highlights

تعتمد فعالية نظام وكيل الذكاء الاصطناعي الآن على ثلاثة أدوار أساسية فقط: التخطيط والتوليد والتقييم، مع إلغاء المكونات الوسيطة الأخرى.

يقلل نموذج Opus 4.6 من الحاجة إلى تقسيم المهام تقنياً بشكل دقيق، حيث يتسبب التخطيط المفرط في حدوث فشل متسلسل عند وقوع خطأ تقني واحد.

تتطلب معايير واجهة المستخدم الناجحة في أنظمة الأنثروبيك أربعة مقاييس محددة: جودة التصميم، والأصالة، والحرفة التقنية، والوظيفية.

يقضي نموذج Opus 4.6 على ظاهرة "قلق السياق"، مما يسمح للوكلاء بالعمل المستمر عبر جلسات طويلة دون الحاجة لإعادة ضبط نافذة السياق يدوياً.

يحقق فصل وكيل التقييم عن وكيل التوليد دقة أعلى في النتائج، خاصة في المهام الذاتية مثل تصميم واجهات المستخدم التي تفتقر لمقاييس كمية واضحة.

يوفر استخدام "فرق الوكلاء" (Agent Teams) بدلاً من الوكلاء الفرعيين ميزة التواصل المباشر وتجنب العبء الزائد الناتج عن التوثيق الورقي بين الوكلاء.

Timeline

تقادم أطر عمل وكلاء الذكاء الاصطناعي التقليدية

تعتبر المكونات الإضافية في أطر العمل الحالية عبئاً زائداً لا يستفيد من قدرات النماذج الحديثة.
يجسد كل مكون في إطار العمل افتراضاً قديماً حول عجز النموذج عن أداء مهام معينة بمفرده.
تتمتع النماذج الجديدة بمساحة سياق تصل إلى مليون رمز مما يحل مشكلات عزل السياق التقليدية.

أظهرت تجارب شركة Anthropic أن معظم الهياكل التنظيمية للوكلاء المصممة قبل بضعة أشهر أصبحت تعيق الأداء بدلاً من تحسينه. تعتمد النظرية الأساسية على أن تحسن قدرات النماذج مثل Opus 4.6 يجعل الافتراضات البرمجية السابقة غير صحيحة. يجب أن يقتصر نظام الوكيل الفعال على التخطيط والتوليد والتقييم فقط لمواكبة هذا التطور.

التحول من التخطيط التنفيذي إلى التخطيط بمستوى المنتج

يؤدي تقسيم المهام إلى خطوات دقيقة جداً إلى فشل متسلسل في النظام عند حدوث أدنى خطأ تقني.
يتيح التخطيط رفيع المستوى للوكلاء الأذكياء تحديد المسار التقني بأنفسهم للوصول للمخرجات المطلوبة.
يركز وكيل التخطيط الفعال على قصص المستخدمين وتفاصيل الميزات بدلاً من كتابة الكود مباشرة.

كانت الأنظمة السابقة تتطلب مواصفات مفصلة لتعويض نقص ذكاء النماذج، لكن النماذج الحالية تعمل بشكل أفضل عند منحها حرية الاكتشاف. يسمح التخطيط بمستوى المنتج (Product-level planning) بتوسيع نطاق المشروع ودفع حدود الأفكار دون الانغماس في التفاصيل التي قد تسبب تعثر الوكيل. يمكن دمج أدوات مثل BeMad لإنشاء وثائق متطلبات المنتج (PRD) مع ترك التنفيذ الفعلي لذكاء النموذج.

ضرورة فصل التقييم عن التنفيذ

يميل الوكيل الذي يكتب الكود إلى الثناء على عمله حتى لو كانت الجودة دون المستوى المطلوب.
يضمن استقلال وكيل التقييم مراجعة نقدية وموضوعية للمخرجات خاصة في المهام الذاتية كواجهات المستخدم.
يتفاوض وكيل التوليد ووكيل التقييم على عقد عمل يحدد بوضوح معايير اكتمال المهمة قبل البدء.

يمثل التقييم الذاتي مشكلة كبرى لأن النماذج ترد بثقة مفرطة حول جودة إنتاجها. يتم حل هذه المعضلة في أطر عمل مثل GSD وSuperpowers من خلال تعيين مقيم منفصل تماماً عن المنفذ. في النماذج الأقل قدرة مثل Sonnet، يظل توثيق المهام وعقود العمل السريع (sprint contracts) ضرورياً، بينما يمكن لـ Opus التعامل مع الخطة دون هذه القيود الإضافية.

علاج قلق السياق ودور وكيل التوليد

تخلصت النماذج بدءاً من Opus 4.5 من ظاهرة إنهاء المهام قبل الأوان بسبب امتلاء نافذة السياق.
يعمل وكيل التوليد كمنفذ رئيسي يبني التطبيق ميزة تلو الأخرى مع التكامل مع نظام Git.
ينقسم سير عمل التوليد إلى مراحل تشمل فهم المهمة والتنفيذ وتحسين النتائج بناءً على الملاحظات.

كانت النماذج الأصغر تعاني من فقدان الترابط في المهام الطويلة، وهو ما كان يتطلب حلولاً معقدة مثل إعادة ضبط السياق يدوياً. يوفر Opus 4.6 استقراراً يسمح للوكيل بالعمل المستمر عبر جلسة كاملة دون فقدان التركيز. يتبع المولد نمطاً منظماً يتضمن اتباع اتجاهات التصميم والتحقق الذاتي قبل تسليم العمل للمقيم.

آليات التقييم المتدرجة ومعايير التصميم

يستخدم وكيل التقييم أدوات مثل Playwright لمحاكاة تفاعلات المستخدم وتحديد الأخطاء بدقة.
تتغلب معايير الأصالة على ميل الذكاء الاصطناعي لإنتاج تصاميم مكررة تعتمد على أنماط الألوان التقليدية.
يساعد نظام تسجيل الدرجات المخصص لكل ميزة النموذج على تحديد أولويات التحسين بناءً على الأداء.

يعمل المقيم كخصم للمولد بنظرة نقدية تفترض وجود أخطاء دائماً لضمان أعلى جودة. تضع Anthropic معايير دقيقة تشمل الحرفة التقنية مثل تناسق التباعد وتناغم الألوان، وهي جوانب يتفوق فيها Claude بالفعل. من خلال تخصيص درجات لكل معيار، يصبح بإمكان النظام تقييم بنية الكود وتدفقات تجربة المستخدم بشكل منهجي.

التطبيق العملي واستخدام فرق الوكلاء

يعتبر إطار عمل GSD الخيار الأنسب حالياً لدمج نظام التخطيط والتوليد والتقييم بشكل افتراضي.
يتفوق تواصل "فرق الوكلاء" المباشر على استخدام الوكلاء الفرعيين الذين يحتاجون لتبادل الوثائق.
يمكن تحسين وكيل التقييم في GSD من خلال دمج آليات تسجيل الدرجات المتقدمة من Anthropic.

للحصول على أفضل النتائج، يُنصح بدمج نقاط القوة من نظام Anthropic مع أطر عمل مرنة مثل GSD. استخدام فرق الوكلاء يقلل من العبء الزائد ويسمح بالتعاون الفوري، حيث يقوم أحد الوكلاء بالبناء بينما يقوم الآخر بتشغيل اختبارات آلية. يضمن هذا التنسيق تنفيذ تطبيقات كاملة تتوافق مع المعايير البشرية المعقدة.

Community Posts

إعادة هيكلة الوكيل لعصر Claude 4: التخلي عن التقسيم المعقد وتنفيذ حلقة الوكلاء الثلاثة عبر الكود

makedreamقبل ٢٢ يومًا4320

Write about this video