انسَ مقارنة كودكس وClaude Code، Goal Buddy يحل مشاكل كليهما أخيراً
AAI LABS
Computing/SoftwareSmall Business/StartupsInternet Technology
Transcript
00:00:00هذا غاري الحلزون وقد وجد فجوة في السوق لإنشاء منصة مواعدة للحلزونات
00:00:04ولكن بما أنه بطيء جداً، فهو يريد من Claude Code التعامل مع مهامه طويلة الأمد بشكل مستقل
00:00:09لحسن حظه، أصبحت الوكلاء بارعين جداً في المهام طويلة الأمد، وClaude Code لديه
00:00:13أمر “الهدف” (goal) الذي يبقي الوكيل يعمل حتى تكتمل المهمة، ولكن خلال
00:00:18اختبارنا، وجدنا الكثير من المشاكل مع أمر الهدف، وبما أن غاري مر مؤخراً بـ
00:00:22طلاق ونريد أن يكون سعيداً، فقد وجدنا هذه الأداة مفتوحة المصدر التي تصلح المشكلة فعلياً
00:00:28وهي لا تعمل فقط مع Claude Code بل مع Codex أيضاً، ناشرةً الحب تماماً مثل والدتك التي
00:00:32أنا متأكد أنها تحبك بقدر حبها لشقيقك الموظف، لقد أصدر Claude Code سابقاً أمراً يسمى
00:00:38goal الذي يبقي الوكيل يعمل حتى يتم استيفاء شرط معين، لم نغطِ هذا الأمر في
00:00:42قناتنا ولكن ربما تعرفه مسبقاً، قبل هذا كان هناك إضافة تسمى Ralph Wiggum
00:00:47حققت الكثير من الانتشار وكانت تقوم بنفس الشيء تقريباً، استخدمت خطافات (hooks) لتغذية الطلب
00:00:52مرة أخرى إلى Claude Code حتى يتم استيفاء الشرط فعلياً، ولكن المشكلة أن هذه الشروط يجب أن تكون
00:00:57مطابقة تماماً لأن حلقة Ralph تستخدم برنامج شيل (shell script) للتحقق من الشرط حرفياً مثل
00:01:02حارس المطار الذي لا يسمح لك بالمرور لأن بخاخ الجسم الرجالي الخاص بك يتجاوز حد الأمتعة
00:01:06أمر الهدف يعمل بشكل مختلف، فهو يأخذ الشرط والمحادثة حتى الآن ويقدمها
00:01:11إلى نموذج صغير وهو Haiku، وهذا النموذج يقيم بذكاء ما إذا كانت المهمة قد اكتملت أم لا
00:01:17يعيد قرار “نعم” أو “لا”، و”لا” تعني أن على Claude الاستمرار في تكرار نفس المهمة، تماماً كما عندما
00:01:22يطلب منك مديرك تحسين تجربة المستخدم لأنه لا يجد زراً على الصفحة، لذا فإن هذا يجعل
00:01:27التقييم ذاتياً، وبالنسبة للأشياء التي لا يمكننا قياسها بمفردها، فهذا تحسن حقيقي
00:01:32يعمل الهدف بشكل جيد للكثير من المهام ولكنه لا يزال يعاني من الكثير من المشاكل، المشكلة الأولى هي أنه
00:01:37لا يستخدم أي قاعدة معرفية أو نظام ملفات يتتبع تقدم المهمة، وبما أنه
00:01:42لا يفعل ذلك، فإن المصدر الوحيد للحقيقة للوكيل يصبح سياق المحادثة، قد يزعجك هذا
00:01:47لأنه كان والدك هو من كتب ثروة العملات المشفرة على ملاحظة لاصقة سقطت من الثلاجة في
00:01:522017. بمجرد انتهاء الجلسة لأي سبب من الأسباب ولم يكتمل الهدف، يمكنك بالتأكيد استئنافه باستخدام
00:01:58أمر الاستئناف في Claude، لن يضيع الهدف ولكن الطريقة الوحيدة التي يعرف بها المكان الذي توقف عنده هي
00:02:03سياق المحادثة، وبما أن هذا الأمر مخصص للمهام طويلة الأمد وليس البسيطة، فقد تصبح الأمور
00:02:08فوضوية في المنتصف، وبالطبع مع تشغيل الهدف لساعات، يصبح تضخم السياق والوصول إلى الضغط
00:02:13مشكلة حقيقية في مرحلة ما، بعد الضغط، تصبح مخرجات الوكيل أسوأ
00:02:18سيبدأ في التصرف مثل جدتي التي بدأت بسبب الخرف تنسى اسم
00:02:22هذه القناة، أحتاج منكم يا رفاق مشاهدة الفيديو الأخير لأجلها، مشكلة أخرى هي أنه لا
00:02:27يقسم المهام إلى مهام أصغر، بدلاً من ذلك يستخدم الوكيل الرئيسي فقط ويقوم بتقسيم المهمة
00:02:32بمفرده بالطريقة التي يعمل بها Claude Code عادةً، لذا لا توجد خطة منظمة وقد يفقد الوكيل تتبع
00:02:37ما تبقى القيام به، ورغم أن هذا قد يعمل بشكل جيد في بعض الحالات، إلا أن تعريفاً غير واضح
00:02:42لما يبدو عليه الانتهاء للوكلاء ليس أبداً الشيء الصحيح، يعتمد الهدف كلياً على
00:02:47النموذج لتقييم الاكتمال، لذا قد لا يكون فعالاً كما في بعض الحالات، إنه أفضل من
00:02:52كون Ralph Wiggum صارماً تماماً باستخدام النصوص البرمجية، ولكن على الأقل يجب أن يكون هناك مقياس
00:02:56يخبر الوكيل بما قد يبدو عليه الانتهاء، تماماً مثل مصور حفل زفافك الذي استمر في قول
00:03:01لقطة أخرى حتى انتهى الحدث بأكمله، هذا هو المكان الذي يقصر فيه الهدف، وهذه الأشياء
00:03:05قد لا تبدو ذات أهمية، ولكن عند وضعها في سير عمل ثقيل حقيقي يمكن أن تجلب بعض المشاكل الخطيرة
00:03:10الآن، Goal Buddy هي أداة تم بناؤها بغرض واحد وهو جعل أمر الهدف يعمل فعلياً
00:03:16بالطريقة التي ينبغي أن يعمل بها، إنها تحل كل المشاكل التي تحدثنا عنها للتو، ولكنها لا تحصل على الكثير من
00:03:20الاهتمام الذي تستحقه نظراً لمدى فائدتها، إنها مثل جليسة الأطفال الجذابة، باستثناء أنها بدلاً من مغازلتك
00:03:25فهي تقوم فقط بجليسة مهامك طويلة الأمد، لا يحفظ Goal حالة العمل
00:03:30محلياً، لذا تقوم هذه الأداة بإصلاح ذلك وتجبر الهدف فعلياً على قراءة وتحديث الحالة المحلية بدلاً من الاعتماد على
00:03:36سجل المحادثات، كما أنها تنتهي بدليل بحيث يعرف الوكيل فعلياً ما يبدو عليه الانتهاء قبل
00:03:42أن يبدأ، ولتتبع التقدم تتضمن أيضاً لوحة تحكم كاملة حيث يمكنك مشاهدة
00:03:46وكيلك يعمل أثناء عمله، وللتعامل مع كل هذا تم بناؤها بناءً على ثلاثة وكلاء وهم
00:03:51الكشاف (scout)، والعامل (worker)، والقاضي (judge)، باختصار فريق شركة ناشئة من نوع Y Combinator، حيث يقوم أحدهم بكل العمل، وواحد
00:03:56يراقبه وهو يفعل ذلك، وواحد يحكم عليهما، التثبيت على تويتر سهل ومباشر، فقط
00:04:01انسخ أمر التثبيت والصقه في مجلد مشروعك، سيتم تثبيته كإضافة
00:04:06متاحة لكل من Claude Code وCodex، بمجرد بدء جلسة جديدة يمكنك رؤية الأمر
00:04:10المتاح للاستخدام، لذا فإن هؤلاء الوكلاء الثلاثة لكل منهم دور محدد بدقة ومستوى وصول، وبما أن هذه
00:04:16الأداة مصممة لـ Codex أيضاً، يتم تحديد الوكلاء في TOML بدلاً من Markdown القياسي، الـ
00:04:21وكيل الأول هو القاضي الذي يمتلك حق القراءة فقط، وهو يحلل بشك القرارات الصعبة مثل النطاق المحفوف بالمخاطر
00:04:26والمصادر المتناقضة وغيرها من الأنماط للتأكد من اكتمال المهمة بأمان، تعليماته
00:04:31تحظر التعديل لأنه موجود فقط لإصدار الأحكام لا شيء آخر، ونظراً لأن
00:04:36مهمته بالغة الأهمية، فقد تم ضبط تفكير هذا الوكيل على أعلى مستوى بحيث يتم اتخاذ القرارات بشكل صحيح
00:04:42إنه تماماً مثلما كنت تؤلف تلك الرسالة الواحدة لسحقك لمدة أربع ساعات متواصلة في
00:04:47منتصف الليل، بعد انتهاء العمل يعيد هيكل JSON مع القرارات المعتمدة و
00:04:52المرفوضة جنباً إلى جنب مع المنطق، الكشاف هو وكيل آخر للقراءة فقط يقوم بتعيين مهمة نشطة
00:04:57ويقوم بإنشاء إيصال أدلة مضغوط لها، وبما أن وظيفته هي مجرد التحقق من حالة المهمة
00:05:02يتم الاحتفاظ بجهد تفكيره منخفضاً، تماماً مثل حارس نادي التعري المفضل لديك، فهو لا يهتم حقاً
00:05:07كثيراً بذلك، ثم هناك وكيل العامل، الوحيد الذي يمتلك حق التحرير، إنه يقوم بالعمل الفعلي و
00:05:12يُسمح له فقط بتنفيذ مهمة واحدة في كل مرة، هناك أيضاً دور مدير المشروع الذي هو الخيط الرئيسي الذي
00:05:17ينسق سير العمل، إنه يتصرف مثل مدير مشروع فعلي يقوم بأقل قدر ممكن من العمل
00:05:22إنه السلطة الوحيدة التي يمكنها فعلياً وضع علامة على المهمة كمكتملة، يبدأ سير العمل الأساسي بالتعبير عن
00:05:27نية المهمة بكلمات مناسبة وليس بشكل غامض بالطريقة التي نقوم بها نحن البشر عادةً، ولكن بطريقة
00:05:33يمكن للوكيل فهمها بشكل صحيح، ثم يتم تعريف الأوراكل، الأوراكل هي أساساً إشارة
00:05:38قابلة للملاحظة تحدد النتيجة، وهي ما يتكرر النظام ضده لمعرفة ما إذا كان يمكن
00:05:43وضع علامة على المهمة كمكتملة أم لا، يمكن أن يكون أي شيء، مجموعة اختبار، تجول في المتصفح، أي مقاييس قطع أثرية أو الكود
00:05:49الذي يحول ميكروويفي إلى آلة زمن، لأن لماذا لا، وكلاء الذكاء الاصطناعي يقومون بأي شيء في هذه المرحلة
00:05:54ثم الخطوة التالية هي السطح، فهو يكسر المهمة إلى خطوات قابلة للتنفيذ، ينشئ لوحة التحكم ويعين
00:06:00المهام في تنسيق مرئي، القطعة الأخيرة هي مدير المشروع، إنه المدير في هذه الحالة ويحافظ على تشغيل الهدف
00:06:06حتى يقوم التدقيق النهائي بوضع علامة على الهدف كمستوفى، لاستخدام Goal Buddy، أنت فقط تشغل أمر إعداد الهدف
00:06:11هذا هو الأمر الذي يهيئ سير العمل وتحدد الهدف الذي تريده أن يحققه، هو
00:06:16يضمن أولاً تثبيت الوكلاء وجاهزيتهم للاستخدام، ثم يبدأ سير العمل ولكن على عكس
00:06:21أمر الهدف الأصلي، إنه واعي بذاته للغاية ويقوم أولاً بإزالة غموضه الخاص عن طريق طرح
00:06:27أسئلة عليك حتى تتمكن من تحديد التنفيذ بوضوح، وتماماً مثل زوجتك المشككة
00:06:32سيستمر في طرح الأسئلة حتى يفهم الخطوة الأولى، يركز على إنشاء ملفات الهدف، ويضع
00:06:38الطلب الأصلي مع إجاباتنا ثم يعينه للهدف المناسب في لغة
00:06:43يفهمها الوكيل، يحتوي على ملخص لجميع المعلومات ثم يحدد الأوراكل
00:06:48وهو أهم جزء، الأوراكل لهذه المهمة مباشر، يجب أن تجتاز جميع الاختبارات مع
00:06:53سلوك مناسب، هذا النوع من الأهداف محدد لأنه يمكن تقييمه
00:06:57برمجياً على عكس قصة الغطاء الخاصة بك الليلة الماضية التي لم تكن زوجتك تشتريها تماماً، يكسر Goal Buddy سير العمل بأكمله
00:07:03إلى مهام صغيرة قابلة للتنفيذ، تسمى هذه شرائح، ولكن على عكس العالم الحقيقي الحجم لا يهم هنا
00:07:08لأن شريحة صغيرة لا تعني مهمة صغيرة، بل تعني شيئاً آمناً ويمكن التحقق منه بسهولة
00:07:14ويمكن تشغيله بشكل فردي، هو يحدد صراحة حجم الشريحة الآمن في المستند أيضاً، وينشئ
00:07:19ملف state.yaml الذي يتتبع المشروع والمهام ويحدد كيف ستبدو حلقة مدير المشروع، يتكون state.yaml من
00:07:26جميع الأهداف والقواعد مع تقسيم جميع المهام حسب معرفاتها والوكيل المعين، يحتوي على
00:07:31حقل لتتبع المهمة النشطة أيضاً، ويذكر لوحة التحكم المرتبطة، يسرد جميع المهام المطلوب تنفيذها
00:07:36والمهام قيد التنفيذ، في حالتنا، الكشاف قيد التنفيذ حالياً ويقوم بتعيين جميع
00:07:42الملفات ونقاط النهاية، لذا لبدء الحلقة أنت فقط تنسخ هذا الأمر وتشغله، إنه يوجه Claude إلى
00:07:47تحديد هدف القيام بكل شيء في ملف goal.md، من هناك سيلتقط أول مهمة نشطة
00:07:52مثل الملك ثم ينادي وكلائه التابعين لأدائها، بمجرد أن يكمل الكشاف
00:07:58العمل، يقوم بتحديث ملف التقدم بجميع نتائجه ويوثقها في دليل منفصل
00:08:03كما يقوم بتحديث اللوحة من نشطة إلى مكتملة، ثم تلتقط الحلقة المهمة التالية وتضع علامة عليها
00:08:08كنشطة وتبدأ وكيل القاضي، يقوم القاضي بمراجعة النتائج بشكل نقدي ويرتب التقرير
00:08:13في أقل عدد ممكن من الشرائح الرأسية، وهو تقسيم المهمة للعامل لتنفيذها
00:08:18بشكل مستقل، ثم يقوم بتحديث عدد الشرائح وتحديث ملف الحالة وفقاً لذلك، كل مهمة
00:08:22تسرد صراحة الملفات المسموح بها، وكيفية التحقق منها، ومتى يجب التوقف، هذه هي الطريقة التي يحدد بها كل شريحة
00:08:28بحيث يكون للوكلاء مخرجات متوقعة واضحة وعمليات فحص وجميع التفاصيل اللازمة، ثم واحداً تلو الآخر يقوم
00:08:33بتهيئة وكيل العامل ويبدأ بالشريحة الأولى، يمكن تتبع تقدم كل وكيل
00:08:39باستخدام لوحة التحكم، ستعرف ما تفعله كل مهمة، أي وكيل نشط، ما هي المهام الموجودة في قائمة الانتظار
00:08:44وأيها مكتملة، حتى لا تضطر إلى مراقبة الأشياء بنفسك ويمكنك فعلياً منح أطفالك
00:08:48الوقت الذي يحتاجونه، بمجرد اكتمال جميع المهام، يقوم بإجراء التدقيق الأخير كمدير مشروع
00:08:53للتأكد من إجراء جميع الاختبارات بشكل صحيح، بمجرد الانتهاء من التدقيق، يضع علامة على مهمة التدقيق النهائي الخاصة بوكيل القاضي
00:08:58كمكتملة، ثم يضع علامة على الهدف كمكتمل، بعد هذا عليك أن تبدأ
00:09:03الصلوات وتأمل ألا يكون هؤلاء الوكلاء قد هلوسوا، بشكل عام، عمل هذا بشكل جيد جداً نظراً لـ
00:09:09تعقيد وحجم التطبيق الذي قدمناه له، ولكننا نعتقد أن موازاة أكثر فعالية يمكن
00:09:13إضافتها لأنه قام بكل شيء بالتسلسل، تعامل مع مهمة واحدة في كل مرة ولم يستفد من
00:09:18قدرات الموازاة في Claude Code على الإطلاق، كان داريو سيصاب بخيبة أمل حقاً لرؤية هذا
00:09:23ولكن نظراً لمدى جودة تخطيطه لسير العمل، فقد عمل بشكل جيد جداً، أيضاً إذا كنت تستمتع بمحتوانا
00:09:28فكر في الضغط على زر الضجيج (hype) لأنه يساعدنا على إنشاء المزيد من المحتوى مثل هذا والوصول إلى المزيد من
00:09:33الناس، أردنا أيضاً اختبار GoldBuddy على شيء أكثر عمومية مثل تصميم واجهة مستخدم لنرى كيف
00:09:38يتعامل مع المهام التي لا يمكن تقييمها برمجياً، كان الاختبار السابق على سير عمل محدد بـ
00:09:44معايير تمرير وفشل واضحة، ولكن تماماً مثل حصولك على قصة شعر جديدة من حلاقك، بعض المهام
00:09:49فقط ليس لديها ذلك، لذا أعطينا أولاً أمر الهدف المعتاد طلباً غامضاً، قام بتهيئة مهام الهدف
00:09:54واستشار المستشار وأعطى موقعاً إلكترونياً في أي وقت من الأوقات، ولكونه كسولاً قام فقط بإنشاء صفحة HTML بسيطة
00:10:00ولم يذهب لأي إطار عمل، لكن صفحة الهبوط لم تبدُ سيئة، لذا أعطينا نفس الطلب تماماً لـ
00:10:05Goal Buddy أيضاً، بمجرد أن بدأ، اتبع نفس سير العمل وقدم جلسة أسئلة مماثلة
00:10:10لتوضيح النية معنا، هنا طلب Goal Buddy مجموعة التكنولوجيا أيضاً، عادةً
00:10:14كنت سأسمي هذا تقبيلاً ولكن بما أنني أتعامل مع وكيل الذكاء الاصطناعي الخاص بي بجدية، سأسميه كوني دقيقاً، وبالمثل
00:10:20أنشأ اللوحة وملف goal.md وترجم طلبنا الأصلي إلى هدف مناسب، كما
00:10:26حدد الأوراكل بشكل صحيح، ولكن الأوراكل في المهمة السابقة كان بسيطاً، كان يحتاج فقط إلى اجتياز جميع
00:10:31الاختبارات، هذه كان لديها أهداف مختلفة، حدد المهمة على أنها كاملة عندما يكون خادم التطوير قيد التشغيل و
00:10:36تؤكد تجولات المتصفح أن جميع الأقسام تعمل كما هو محدد، هكذا قام بتحويل
00:10:41مهمة غير قابلة للقياس إلى شيء قابل للقياس، كما أنشأ state.yaml مرة أخرى مع قواعد الأوراكل
00:10:47والوكلاء وجميع المهام المدرجة وبدأ العمل بنفس الطريقة، استغرق وقتاً أطول
00:10:52من أمر الهدف العادي ولكنه انتهى بتنفيذ التطبيق بشكل صحيح، لن تكون هذه
00:10:57مشكلة لغاري الحلزون، ولكن يجب عليك القيام ببعض تمارين الضغط في هذه الأثناء، أستطيع أن أرى أنك أصبحت سميناً
00:11:02بالمقارنة، كان أداء الموقع الإلكتروني بأكمله أفضل بكثير مما أنشأه أمر الهدف البسيط
00:11:07إذا كنت ترغب فعلياً في أن تكون مؤسس شركة SaaS للذكاء الاصطناعي بين الشركات (B2B) الذي يحب البناء بدلاً من مجرد مشاهدة البرامج التعليمية
00:11:12إذن يجب أن تكون AI Labs Pro، ستحصل فعلياً على مهووسين متشابهين في التفكير مثل فريقنا هناك مع
00:11:17موارد من مقاطع الفيديو والكثير من الأشياء الجيدة الأخرى أيضاً، سيكون الرابط في الوصف و
00:11:22يمكنك التحقق من ذلك، هذا يوصلنا إلى نهاية هذا الفيديو، إذا كنت ترغب في دعم القناة
00:11:27ومساعدتنا في الاستمرار في صنع مقاطع فيديو مثل هذه، يمكنك القيام بذلك باستخدام زر شكراً (super thanks) أدناه، كالعادة
00:11:32شكراً للمشاهدة وسأراكم في الفيديو التالي
Community Posts
No posts yet. Be the first to write about this video!
Write about this video