انسَ مقارنة كودكس وClaude Code، Goal Buddy يحل مشاكل كليهما أخيراً

AAI LABS
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00هذا غاري الحلزون وقد وجد فجوة في السوق لإنشاء منصة مواعدة للحلزونات
00:00:04ولكن بما أنه بطيء جداً، فهو يريد من Claude Code التعامل مع مهامه طويلة الأمد بشكل مستقل
00:00:09لحسن حظه، أصبحت الوكلاء بارعين جداً في المهام طويلة الأمد، وClaude Code لديه
00:00:13أمر “الهدف” (goal) الذي يبقي الوكيل يعمل حتى تكتمل المهمة، ولكن خلال
00:00:18اختبارنا، وجدنا الكثير من المشاكل مع أمر الهدف، وبما أن غاري مر مؤخراً بـ
00:00:22طلاق ونريد أن يكون سعيداً، فقد وجدنا هذه الأداة مفتوحة المصدر التي تصلح المشكلة فعلياً
00:00:28وهي لا تعمل فقط مع Claude Code بل مع Codex أيضاً، ناشرةً الحب تماماً مثل والدتك التي
00:00:32أنا متأكد أنها تحبك بقدر حبها لشقيقك الموظف، لقد أصدر Claude Code سابقاً أمراً يسمى
00:00:38goal الذي يبقي الوكيل يعمل حتى يتم استيفاء شرط معين، لم نغطِ هذا الأمر في
00:00:42قناتنا ولكن ربما تعرفه مسبقاً، قبل هذا كان هناك إضافة تسمى Ralph Wiggum
00:00:47حققت الكثير من الانتشار وكانت تقوم بنفس الشيء تقريباً، استخدمت خطافات (hooks) لتغذية الطلب
00:00:52مرة أخرى إلى Claude Code حتى يتم استيفاء الشرط فعلياً، ولكن المشكلة أن هذه الشروط يجب أن تكون
00:00:57مطابقة تماماً لأن حلقة Ralph تستخدم برنامج شيل (shell script) للتحقق من الشرط حرفياً مثل
00:01:02حارس المطار الذي لا يسمح لك بالمرور لأن بخاخ الجسم الرجالي الخاص بك يتجاوز حد الأمتعة
00:01:06أمر الهدف يعمل بشكل مختلف، فهو يأخذ الشرط والمحادثة حتى الآن ويقدمها
00:01:11إلى نموذج صغير وهو Haiku، وهذا النموذج يقيم بذكاء ما إذا كانت المهمة قد اكتملت أم لا
00:01:17يعيد قرار “نعم” أو “لا”، و”لا” تعني أن على Claude الاستمرار في تكرار نفس المهمة، تماماً كما عندما
00:01:22يطلب منك مديرك تحسين تجربة المستخدم لأنه لا يجد زراً على الصفحة، لذا فإن هذا يجعل
00:01:27التقييم ذاتياً، وبالنسبة للأشياء التي لا يمكننا قياسها بمفردها، فهذا تحسن حقيقي
00:01:32يعمل الهدف بشكل جيد للكثير من المهام ولكنه لا يزال يعاني من الكثير من المشاكل، المشكلة الأولى هي أنه
00:01:37لا يستخدم أي قاعدة معرفية أو نظام ملفات يتتبع تقدم المهمة، وبما أنه
00:01:42لا يفعل ذلك، فإن المصدر الوحيد للحقيقة للوكيل يصبح سياق المحادثة، قد يزعجك هذا
00:01:47لأنه كان والدك هو من كتب ثروة العملات المشفرة على ملاحظة لاصقة سقطت من الثلاجة في
00:01:522017. بمجرد انتهاء الجلسة لأي سبب من الأسباب ولم يكتمل الهدف، يمكنك بالتأكيد استئنافه باستخدام
00:01:58أمر الاستئناف في Claude، لن يضيع الهدف ولكن الطريقة الوحيدة التي يعرف بها المكان الذي توقف عنده هي
00:02:03سياق المحادثة، وبما أن هذا الأمر مخصص للمهام طويلة الأمد وليس البسيطة، فقد تصبح الأمور
00:02:08فوضوية في المنتصف، وبالطبع مع تشغيل الهدف لساعات، يصبح تضخم السياق والوصول إلى الضغط
00:02:13مشكلة حقيقية في مرحلة ما، بعد الضغط، تصبح مخرجات الوكيل أسوأ
00:02:18سيبدأ في التصرف مثل جدتي التي بدأت بسبب الخرف تنسى اسم
00:02:22هذه القناة، أحتاج منكم يا رفاق مشاهدة الفيديو الأخير لأجلها، مشكلة أخرى هي أنه لا
00:02:27يقسم المهام إلى مهام أصغر، بدلاً من ذلك يستخدم الوكيل الرئيسي فقط ويقوم بتقسيم المهمة
00:02:32بمفرده بالطريقة التي يعمل بها Claude Code عادةً، لذا لا توجد خطة منظمة وقد يفقد الوكيل تتبع
00:02:37ما تبقى القيام به، ورغم أن هذا قد يعمل بشكل جيد في بعض الحالات، إلا أن تعريفاً غير واضح
00:02:42لما يبدو عليه الانتهاء للوكلاء ليس أبداً الشيء الصحيح، يعتمد الهدف كلياً على
00:02:47النموذج لتقييم الاكتمال، لذا قد لا يكون فعالاً كما في بعض الحالات، إنه أفضل من
00:02:52كون Ralph Wiggum صارماً تماماً باستخدام النصوص البرمجية، ولكن على الأقل يجب أن يكون هناك مقياس
00:02:56يخبر الوكيل بما قد يبدو عليه الانتهاء، تماماً مثل مصور حفل زفافك الذي استمر في قول
00:03:01لقطة أخرى حتى انتهى الحدث بأكمله، هذا هو المكان الذي يقصر فيه الهدف، وهذه الأشياء
00:03:05قد لا تبدو ذات أهمية، ولكن عند وضعها في سير عمل ثقيل حقيقي يمكن أن تجلب بعض المشاكل الخطيرة
00:03:10الآن، Goal Buddy هي أداة تم بناؤها بغرض واحد وهو جعل أمر الهدف يعمل فعلياً
00:03:16بالطريقة التي ينبغي أن يعمل بها، إنها تحل كل المشاكل التي تحدثنا عنها للتو، ولكنها لا تحصل على الكثير من
00:03:20الاهتمام الذي تستحقه نظراً لمدى فائدتها، إنها مثل جليسة الأطفال الجذابة، باستثناء أنها بدلاً من مغازلتك
00:03:25فهي تقوم فقط بجليسة مهامك طويلة الأمد، لا يحفظ Goal حالة العمل
00:03:30محلياً، لذا تقوم هذه الأداة بإصلاح ذلك وتجبر الهدف فعلياً على قراءة وتحديث الحالة المحلية بدلاً من الاعتماد على
00:03:36سجل المحادثات، كما أنها تنتهي بدليل بحيث يعرف الوكيل فعلياً ما يبدو عليه الانتهاء قبل
00:03:42أن يبدأ، ولتتبع التقدم تتضمن أيضاً لوحة تحكم كاملة حيث يمكنك مشاهدة
00:03:46وكيلك يعمل أثناء عمله، وللتعامل مع كل هذا تم بناؤها بناءً على ثلاثة وكلاء وهم
00:03:51الكشاف (scout)، والعامل (worker)، والقاضي (judge)، باختصار فريق شركة ناشئة من نوع Y Combinator، حيث يقوم أحدهم بكل العمل، وواحد
00:03:56يراقبه وهو يفعل ذلك، وواحد يحكم عليهما، التثبيت على تويتر سهل ومباشر، فقط
00:04:01انسخ أمر التثبيت والصقه في مجلد مشروعك، سيتم تثبيته كإضافة
00:04:06متاحة لكل من Claude Code وCodex، بمجرد بدء جلسة جديدة يمكنك رؤية الأمر
00:04:10المتاح للاستخدام، لذا فإن هؤلاء الوكلاء الثلاثة لكل منهم دور محدد بدقة ومستوى وصول، وبما أن هذه
00:04:16الأداة مصممة لـ Codex أيضاً، يتم تحديد الوكلاء في TOML بدلاً من Markdown القياسي، الـ
00:04:21وكيل الأول هو القاضي الذي يمتلك حق القراءة فقط، وهو يحلل بشك القرارات الصعبة مثل النطاق المحفوف بالمخاطر
00:04:26والمصادر المتناقضة وغيرها من الأنماط للتأكد من اكتمال المهمة بأمان، تعليماته
00:04:31تحظر التعديل لأنه موجود فقط لإصدار الأحكام لا شيء آخر، ونظراً لأن
00:04:36مهمته بالغة الأهمية، فقد تم ضبط تفكير هذا الوكيل على أعلى مستوى بحيث يتم اتخاذ القرارات بشكل صحيح
00:04:42إنه تماماً مثلما كنت تؤلف تلك الرسالة الواحدة لسحقك لمدة أربع ساعات متواصلة في
00:04:47منتصف الليل، بعد انتهاء العمل يعيد هيكل JSON مع القرارات المعتمدة و
00:04:52المرفوضة جنباً إلى جنب مع المنطق، الكشاف هو وكيل آخر للقراءة فقط يقوم بتعيين مهمة نشطة
00:04:57ويقوم بإنشاء إيصال أدلة مضغوط لها، وبما أن وظيفته هي مجرد التحقق من حالة المهمة
00:05:02يتم الاحتفاظ بجهد تفكيره منخفضاً، تماماً مثل حارس نادي التعري المفضل لديك، فهو لا يهتم حقاً
00:05:07كثيراً بذلك، ثم هناك وكيل العامل، الوحيد الذي يمتلك حق التحرير، إنه يقوم بالعمل الفعلي و
00:05:12يُسمح له فقط بتنفيذ مهمة واحدة في كل مرة، هناك أيضاً دور مدير المشروع الذي هو الخيط الرئيسي الذي
00:05:17ينسق سير العمل، إنه يتصرف مثل مدير مشروع فعلي يقوم بأقل قدر ممكن من العمل
00:05:22إنه السلطة الوحيدة التي يمكنها فعلياً وضع علامة على المهمة كمكتملة، يبدأ سير العمل الأساسي بالتعبير عن
00:05:27نية المهمة بكلمات مناسبة وليس بشكل غامض بالطريقة التي نقوم بها نحن البشر عادةً، ولكن بطريقة
00:05:33يمكن للوكيل فهمها بشكل صحيح، ثم يتم تعريف الأوراكل، الأوراكل هي أساساً إشارة
00:05:38قابلة للملاحظة تحدد النتيجة، وهي ما يتكرر النظام ضده لمعرفة ما إذا كان يمكن
00:05:43وضع علامة على المهمة كمكتملة أم لا، يمكن أن يكون أي شيء، مجموعة اختبار، تجول في المتصفح، أي مقاييس قطع أثرية أو الكود
00:05:49الذي يحول ميكروويفي إلى آلة زمن، لأن لماذا لا، وكلاء الذكاء الاصطناعي يقومون بأي شيء في هذه المرحلة
00:05:54ثم الخطوة التالية هي السطح، فهو يكسر المهمة إلى خطوات قابلة للتنفيذ، ينشئ لوحة التحكم ويعين
00:06:00المهام في تنسيق مرئي، القطعة الأخيرة هي مدير المشروع، إنه المدير في هذه الحالة ويحافظ على تشغيل الهدف
00:06:06حتى يقوم التدقيق النهائي بوضع علامة على الهدف كمستوفى، لاستخدام Goal Buddy، أنت فقط تشغل أمر إعداد الهدف
00:06:11هذا هو الأمر الذي يهيئ سير العمل وتحدد الهدف الذي تريده أن يحققه، هو
00:06:16يضمن أولاً تثبيت الوكلاء وجاهزيتهم للاستخدام، ثم يبدأ سير العمل ولكن على عكس
00:06:21أمر الهدف الأصلي، إنه واعي بذاته للغاية ويقوم أولاً بإزالة غموضه الخاص عن طريق طرح
00:06:27أسئلة عليك حتى تتمكن من تحديد التنفيذ بوضوح، وتماماً مثل زوجتك المشككة
00:06:32سيستمر في طرح الأسئلة حتى يفهم الخطوة الأولى، يركز على إنشاء ملفات الهدف، ويضع
00:06:38الطلب الأصلي مع إجاباتنا ثم يعينه للهدف المناسب في لغة
00:06:43يفهمها الوكيل، يحتوي على ملخص لجميع المعلومات ثم يحدد الأوراكل
00:06:48وهو أهم جزء، الأوراكل لهذه المهمة مباشر، يجب أن تجتاز جميع الاختبارات مع
00:06:53سلوك مناسب، هذا النوع من الأهداف محدد لأنه يمكن تقييمه
00:06:57برمجياً على عكس قصة الغطاء الخاصة بك الليلة الماضية التي لم تكن زوجتك تشتريها تماماً، يكسر Goal Buddy سير العمل بأكمله
00:07:03إلى مهام صغيرة قابلة للتنفيذ، تسمى هذه شرائح، ولكن على عكس العالم الحقيقي الحجم لا يهم هنا
00:07:08لأن شريحة صغيرة لا تعني مهمة صغيرة، بل تعني شيئاً آمناً ويمكن التحقق منه بسهولة
00:07:14ويمكن تشغيله بشكل فردي، هو يحدد صراحة حجم الشريحة الآمن في المستند أيضاً، وينشئ
00:07:19ملف state.yaml الذي يتتبع المشروع والمهام ويحدد كيف ستبدو حلقة مدير المشروع، يتكون state.yaml من
00:07:26جميع الأهداف والقواعد مع تقسيم جميع المهام حسب معرفاتها والوكيل المعين، يحتوي على
00:07:31حقل لتتبع المهمة النشطة أيضاً، ويذكر لوحة التحكم المرتبطة، يسرد جميع المهام المطلوب تنفيذها
00:07:36والمهام قيد التنفيذ، في حالتنا، الكشاف قيد التنفيذ حالياً ويقوم بتعيين جميع
00:07:42الملفات ونقاط النهاية، لذا لبدء الحلقة أنت فقط تنسخ هذا الأمر وتشغله، إنه يوجه Claude إلى
00:07:47تحديد هدف القيام بكل شيء في ملف goal.md، من هناك سيلتقط أول مهمة نشطة
00:07:52مثل الملك ثم ينادي وكلائه التابعين لأدائها، بمجرد أن يكمل الكشاف
00:07:58العمل، يقوم بتحديث ملف التقدم بجميع نتائجه ويوثقها في دليل منفصل
00:08:03كما يقوم بتحديث اللوحة من نشطة إلى مكتملة، ثم تلتقط الحلقة المهمة التالية وتضع علامة عليها
00:08:08كنشطة وتبدأ وكيل القاضي، يقوم القاضي بمراجعة النتائج بشكل نقدي ويرتب التقرير
00:08:13في أقل عدد ممكن من الشرائح الرأسية، وهو تقسيم المهمة للعامل لتنفيذها
00:08:18بشكل مستقل، ثم يقوم بتحديث عدد الشرائح وتحديث ملف الحالة وفقاً لذلك، كل مهمة
00:08:22تسرد صراحة الملفات المسموح بها، وكيفية التحقق منها، ومتى يجب التوقف، هذه هي الطريقة التي يحدد بها كل شريحة
00:08:28بحيث يكون للوكلاء مخرجات متوقعة واضحة وعمليات فحص وجميع التفاصيل اللازمة، ثم واحداً تلو الآخر يقوم
00:08:33بتهيئة وكيل العامل ويبدأ بالشريحة الأولى، يمكن تتبع تقدم كل وكيل
00:08:39باستخدام لوحة التحكم، ستعرف ما تفعله كل مهمة، أي وكيل نشط، ما هي المهام الموجودة في قائمة الانتظار
00:08:44وأيها مكتملة، حتى لا تضطر إلى مراقبة الأشياء بنفسك ويمكنك فعلياً منح أطفالك
00:08:48الوقت الذي يحتاجونه، بمجرد اكتمال جميع المهام، يقوم بإجراء التدقيق الأخير كمدير مشروع
00:08:53للتأكد من إجراء جميع الاختبارات بشكل صحيح، بمجرد الانتهاء من التدقيق، يضع علامة على مهمة التدقيق النهائي الخاصة بوكيل القاضي
00:08:58كمكتملة، ثم يضع علامة على الهدف كمكتمل، بعد هذا عليك أن تبدأ
00:09:03الصلوات وتأمل ألا يكون هؤلاء الوكلاء قد هلوسوا، بشكل عام، عمل هذا بشكل جيد جداً نظراً لـ
00:09:09تعقيد وحجم التطبيق الذي قدمناه له، ولكننا نعتقد أن موازاة أكثر فعالية يمكن
00:09:13إضافتها لأنه قام بكل شيء بالتسلسل، تعامل مع مهمة واحدة في كل مرة ولم يستفد من
00:09:18قدرات الموازاة في Claude Code على الإطلاق، كان داريو سيصاب بخيبة أمل حقاً لرؤية هذا
00:09:23ولكن نظراً لمدى جودة تخطيطه لسير العمل، فقد عمل بشكل جيد جداً، أيضاً إذا كنت تستمتع بمحتوانا
00:09:28فكر في الضغط على زر الضجيج (hype) لأنه يساعدنا على إنشاء المزيد من المحتوى مثل هذا والوصول إلى المزيد من
00:09:33الناس، أردنا أيضاً اختبار GoldBuddy على شيء أكثر عمومية مثل تصميم واجهة مستخدم لنرى كيف
00:09:38يتعامل مع المهام التي لا يمكن تقييمها برمجياً، كان الاختبار السابق على سير عمل محدد بـ
00:09:44معايير تمرير وفشل واضحة، ولكن تماماً مثل حصولك على قصة شعر جديدة من حلاقك، بعض المهام
00:09:49فقط ليس لديها ذلك، لذا أعطينا أولاً أمر الهدف المعتاد طلباً غامضاً، قام بتهيئة مهام الهدف
00:09:54واستشار المستشار وأعطى موقعاً إلكترونياً في أي وقت من الأوقات، ولكونه كسولاً قام فقط بإنشاء صفحة HTML بسيطة
00:10:00ولم يذهب لأي إطار عمل، لكن صفحة الهبوط لم تبدُ سيئة، لذا أعطينا نفس الطلب تماماً لـ
00:10:05Goal Buddy أيضاً، بمجرد أن بدأ، اتبع نفس سير العمل وقدم جلسة أسئلة مماثلة
00:10:10لتوضيح النية معنا، هنا طلب Goal Buddy مجموعة التكنولوجيا أيضاً، عادةً
00:10:14كنت سأسمي هذا تقبيلاً ولكن بما أنني أتعامل مع وكيل الذكاء الاصطناعي الخاص بي بجدية، سأسميه كوني دقيقاً، وبالمثل
00:10:20أنشأ اللوحة وملف goal.md وترجم طلبنا الأصلي إلى هدف مناسب، كما
00:10:26حدد الأوراكل بشكل صحيح، ولكن الأوراكل في المهمة السابقة كان بسيطاً، كان يحتاج فقط إلى اجتياز جميع
00:10:31الاختبارات، هذه كان لديها أهداف مختلفة، حدد المهمة على أنها كاملة عندما يكون خادم التطوير قيد التشغيل و
00:10:36تؤكد تجولات المتصفح أن جميع الأقسام تعمل كما هو محدد، هكذا قام بتحويل
00:10:41مهمة غير قابلة للقياس إلى شيء قابل للقياس، كما أنشأ state.yaml مرة أخرى مع قواعد الأوراكل
00:10:47والوكلاء وجميع المهام المدرجة وبدأ العمل بنفس الطريقة، استغرق وقتاً أطول
00:10:52من أمر الهدف العادي ولكنه انتهى بتنفيذ التطبيق بشكل صحيح، لن تكون هذه
00:10:57مشكلة لغاري الحلزون، ولكن يجب عليك القيام ببعض تمارين الضغط في هذه الأثناء، أستطيع أن أرى أنك أصبحت سميناً
00:11:02بالمقارنة، كان أداء الموقع الإلكتروني بأكمله أفضل بكثير مما أنشأه أمر الهدف البسيط
00:11:07إذا كنت ترغب فعلياً في أن تكون مؤسس شركة SaaS للذكاء الاصطناعي بين الشركات (B2B) الذي يحب البناء بدلاً من مجرد مشاهدة البرامج التعليمية
00:11:12إذن يجب أن تكون AI Labs Pro، ستحصل فعلياً على مهووسين متشابهين في التفكير مثل فريقنا هناك مع
00:11:17موارد من مقاطع الفيديو والكثير من الأشياء الجيدة الأخرى أيضاً، سيكون الرابط في الوصف و
00:11:22يمكنك التحقق من ذلك، هذا يوصلنا إلى نهاية هذا الفيديو، إذا كنت ترغب في دعم القناة
00:11:27ومساعدتنا في الاستمرار في صنع مقاطع فيديو مثل هذه، يمكنك القيام بذلك باستخدام زر شكراً (super thanks) أدناه، كالعادة
00:11:32شكراً للمشاهدة وسأراكم في الفيديو التالي

Key Takeaway

تتجاوز أداة Goal Buddy قيود أمر الهدف الأصلي في Claude Code وCodex عبر تقديم نظام إدارة مهام محلي يحفظ الحالة، يقسم العمل إلى شرائح، ويستخدم وكلاء متخصصين لضمان تنفيذ المهام طويلة الأمد بنجاح.

Highlights

  • يعاني أمر الهدف (goal) في Claude Code من ضعف تتبع الحالة، حيث يعتمد كلياً على سياق المحادثة الذي قد يؤدي إلى تضخم السياق وتدهور مخرجات الوكيل.

  • تفتقر مهام Claude Code طويلة الأمد إلى التقسيم المنظم للمهام، مما يجعل الوكيل الرئيسي يفقد المسار عند العمل لفترات طويلة.

  • تحل أداة Goal Buddy مشاكل التتبع من خلال حفظ حالة العمل محلياً في ملف state.yaml واستخدام ثلاثة وكلاء متخصصين: الكشاف، والعامل، والقاضي.

  • يستخدم Goal Buddy نظاماً يعتمد على الأوراكل (Oracle) لتحديد معايير اكتمال المهمة بدقة، مما يحول المهام الغامضة إلى أهداف قابلة للقياس برمجياً.

  • يتم تنفيذ العمل في Goal Buddy عبر تقسيم المهمة إلى شرائح (slices) آمنة، حيث يقوم وكيل القاضي بمراجعة النتائج بشكل نقدي لضمان جودة المخرجات.

Timeline

مشاكل أمر الهدف (goal) في Claude Code

  • يفتقر أمر الهدف في Claude Code إلى نظام ملفات خارجي لتتبع التقدم، مما يجعل سياق المحادثة المصدر الوحيد للحقيقة.
  • يؤدي تشغيل الوكيل لساعات طويلة إلى تضخم السياق، مما يقلل من جودة استجابات النموذج بمرور الوقت.
  • يعتمد تقييم اكتمال المهمة كلياً على نموذج Haiku الذي يعيد قرارات “نعم” أو “لا” بناءً على تقييم ذاتي.

يعمل أمر الهدف الحالي في Claude Code على إبقاء الوكيل نشطاً حتى استيفاء شرط معين، لكنه يواجه صعوبات تقنية عند التعامل مع مهام معقدة وطويلة. يعاني الوكيل من فقدان التوجيه نظراً لعدم وجود هيكل منظم للمهام، كما أن الاعتماد على ذاكرة المحادثة فقط يسبب انخفاضاً في الأداء بعد فترة من التشغيل. هذا الأسلوب لا يماثل دقة الأدوات التي تستخدم نصوصاً برمجية صارمة مثل إضافات Ralph Wiggum القديمة، لكنه يعاني من فجوة في قياس النجاح النهائي.

آلية عمل Goal Buddy

  • تعتمد أداة Goal Buddy على ثلاثة وكلاء: الكشاف (scout)، والعامل (worker)، والقاضي (judge) لتنظيم سير العمل.
  • تحفظ الأداة حالة العمل محلياً في ملف state.yaml بدلاً من الاعتماد على سجل المحادثات.
  • يتحكم مدير المشروع في سير العمل ويضمن عدم وضع علامة “مكتمل” على المهمة إلا بعد التدقيق النهائي.

تتمتع Goal Buddy ببنية تشبه فرق الشركات الناشئة، حيث يقوم الكشاف بتعيين المهام، والعامل بالتنفيذ، والقاضي بالمراجعة والتقييم. يتم تثبيت الأداة كإضافة تدعم Claude Code وCodex، وتعتمد على تنسيق TOML لتحديد أدوار الوكلاء. يضمن وجود هذه الأدوار المتخصصة وجود إشراف دائم يمنع التدهور في مخرجات العمل ويحافظ على تتبع دقيق للمهام المتبقية.

تنفيذ المهام باستخدام Goal Buddy

  • تطلب الأداة توضيحاً للهدف عبر سلسلة من الأسئلة قبل بدء التنفيذ لضمان فهم النوايا بوضوح.
  • يتم تحويل الأهداف إلى مقاييس قابلة للقياس عبر الأوراكل، مثل اجتياز اختبارات برمجية محددة.
  • يتم تقسيم العمل إلى شرائح (slices) صغيرة وقابلة للتحقق بشكل فردي، مما يسهل مراقبة التقدم عبر لوحة تحكم مخصصة.

تبدأ عملية التشغيل بتهيئة ملفات المشروع وتحديد الأوراكل، وهو معيار النجاح الذي يتكرر النظام ضده. يضمن نظام الشرائح أن كل مهمة صغيرة هي وحدة مستقلة وآمنة، مما يسمح للوكيل بتحديث الحالة المحلية باستمرار. توفر لوحة التحكم المرئية متابعة حية لحالة المهام، الوكيل النشط، والمهام المكتملة دون الحاجة لتدخل بشري مستمر.

اختبار الفعالية في المهام غير القابلة للقياس

  • أظهرت الاختبارات نجاح الأداة في مهام تصميم واجهة المستخدم التي لا تملك معايير تمرير أو فشل واضحة.
  • استطاعت Goal Buddy تحويل المتطلبات الغامضة إلى أهداف قابلة للقياس عبر تعريف الأوراكل بناءً على سلوك المتصفح.
  • تفوق أداء المهام التي نفذتها Goal Buddy من حيث الجودة على تنفيذ أمر الهدف التقليدي في المهام العامة.

تم اختبار الأداة عبر طلب تصميم موقع إلكتروني دون تحديد إطار عمل معين، مما يجعله مهمة غير قابلة للقياس البرمجي التقليدي. نجحت Goal Buddy في توضيح المتطلبات عبر طرح أسئلة دقيقة، ثم تحديد أهداف قابلة للتحقق مثل عمل خادم التطوير وتأكيد وظائف المتصفح. أثبت هذا أن الأداة فعالة حتى في السيناريوهات الإبداعية أو العامة، وليس فقط في المهام التقنية البحتة.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video