Transcript
00:00:00أطلقت أنثروبيك للتو نموذج كلود أوبوس 4.8 اليوم.
00:00:02لذا في هذا الفيديو، سأستعرض معكم بسرعة كبيرة
00:00:05ما الذي تغير وما الذي تحتاجون إلى الانتباه إليه
00:00:08في هذا النموذج الجديد كلياً.
00:00:09فلننتقل مباشرة إلى نتائج القياس (Benchmarks).
00:00:12لدينا هنا نموذج أوبوس 4.8 المظلل
00:00:14ومقارنة بـ أوبوس 4.7، وGPT 5.5، وGemini 3.1 Pro،
00:00:20يتفوق أوبوس تقريباً على الجميع في كل فئة
00:00:24باستثناء البرمجة الطرفية (Agentic Terminal Coding)،
00:00:26وهي اختبار Terminal Bench 2.1.
00:00:28هناك، حصل على 74.6،
00:00:30وهي قفزة هائلة مقارنة بـ أوبوس 4.7،
00:00:34لكنه لا يزال يتأخر عن GPT 5.5.
00:00:37لكن في كل شيء آخر، مثل اختبار SWE Bench Pro،
00:00:40والاستدلال متعدد التخصصات، واستخدام الحاسوب الوكيل،
00:00:42والعمل المعرفي، وكذلك التحليل المالي الوكيل،
00:00:45إنه يتصدر بقية المنافسين.
00:00:47الآن، نحن جميعاً نأخذ نتائج القياس بحذر شديد
00:00:49في هذه المرحلة، لكن من الجيد رؤية هذه القفزات الكبيرة
00:00:53مقارنة بما أعلنوه مع أوبوس 4.7،
00:00:56منذ وقت ليس ببعيد.
00:00:57أعني، لقد مر بضعة أشهر فقط،
00:00:58منذ إطلاق 4.7 وها نحن بالفعل نحصل على 4.8
00:01:01ونرتفع من 64 إلى 69 في البرمجة الوكيلة.
00:01:04حقاً، هذا أمر رائع.
00:01:05الآن، أحد التحسينات الكبيرة في 4.8 مقارنة بـ 4.7،
00:01:08وفقاً لأنثروبيك، هو مستوى الصدق (Honesty).
00:01:11وبالصدق، نعني أن نموذج الذكاء الاصطناعي هذا،
00:01:14عندما تطلب منه القيام بشيء،
00:01:15إذا لم يستطع القيام به أو إذا لم ينجزه،
00:01:18سيخبرك بذلك بالفعل.
00:01:19هذا أمر مهم للغاية
00:01:20إذا كنت قد استخدمت هذه النماذج على الإطلاق
00:01:22خلال السنوات القليلة الماضية،
00:01:22حيث تطلب منه القيام بشيء مثل،
00:01:24مرحباً، ألقِ نظرة على هذا النص الطويل جداً
00:01:27وقم بقراءته فعلياً وأخبرني بما فعلته.
00:01:29وعندما تنظر إلى مخرجاته
00:01:31وتسأله عن التفاصيل،
00:01:32سيقول شيئاً مثل،
00:01:33حسناً، لقد قمت بتلخيصه نوعاً ما.
00:01:35لم أقرأه بالكامل.
00:01:35هذه مشكلة كبيرة حقاً.
00:01:37وإذا كنت تستخدم الذكاء الاصطناعي لأي عمل حقيقي،
00:01:40أنت تعلم مدى أهمية إنشاء كل هذه الاختبارات،
00:01:42للتأكد فعلياً من أنه يقوم بما يقول إنه يفعله.
00:01:46لكن أنثروبيك تقول،
00:01:47مرحباً، قد لا تكون هذه مشكلة كبيرة مع 4.8
00:01:50مقارنة ببعض النماذج السابقة.
00:01:51وبالتحديد، يقولون،
00:01:52وفقاً لتقييماتهم،
00:01:54والتي يمكنك الاطلاع عليها داخل بطاقة النظام الخاصة بهم،
00:01:56والتي يبلغ طولها حوالي 250 صفحة،
00:01:59يقولون إن أوبوس 4.8
00:02:01أقل عرضة بأربع مرات من سابقه
00:02:04لترك عيوب في الكود الذي كتبه دون ملاحظتها.
00:02:07مرة أخرى، سيكون أكثر صدقاً بكثير
00:02:09بشأن ما لا يعمل وما يعمل،
00:02:12ولن يحاول التلاعب بك.
00:02:13كما أنهم يقيمون أن 4.8 لديه معدلات سلوك غير متوافق
00:02:16مثل الخداع أو التعاون مع سوء الاستخدام
00:02:18وهي أقل بكثير من أوبوس 4.7
00:02:21وتشبه نموذج ميثوس (Mythos).
00:02:24ويمكنك رؤية هذا السلوك غير المتوافق هنا
00:02:25حيث كان لدى أوبوس 4.7 وخاصة سونيت 4.6
00:02:28بعض هذه الميول،
00:02:31ولا نرى ذلك كثيراً مع ميثوس
00:02:33أو أوبوس 4.8.
00:02:35الآن، بعيداً عن النموذج نفسه،
00:02:36هناك المزيد من التحديثات التي قدمتها أنثروبيك.
00:02:39الأول هو سير العمل الديناميكي (Dynamic Workflows).
00:02:41الآن، سير العمل الديناميكي يشبه الأهداف.
00:02:43الفكرة هي أنه يمكننا الآن وضع كود كلود
00:02:45على مهمة معقدة للغاية،
00:02:47وسيعمل عليها بمرور الوقت،
00:02:50مما يؤدي إلى إنتاج عشرات إلى مئات من الوكلاء المتوازيين
00:02:52في جلسة واحدة
00:02:53للتأكد من إنجاز العمل فعلياً.
00:02:56كما تعلمون جيداً، هناك الكثير من المشاكل
00:02:57التي حتى لو قمت بها في وضع التخطيط
00:02:59وقسمتها إلى مجموعة من المهام
00:03:00فهي أكبر بكثير مما يستطيع كود كلود التعامل معه دفعة واحدة.
00:03:03سير العمل الديناميكي هذا هو الحل لتلك المشكلة،
00:03:05وسأقوم بعمل تحليل عميق
00:03:06حول سير العمل الديناميكي قريباً جداً.
00:03:09ولكن إذا كنت ترغب في تجربته اليوم،
00:03:11هناك خياران حقيقيان.
00:03:12الأول هو استخدام لغة بسيطة
00:03:13والقول، مرحباً، كلود، أنشئ سير عمل ديناميكي،
00:03:15أو قم بتشغيل إعداد كلود كود الجديد
00:03:18المسمى UltraCode.
00:03:20تغيير كبير آخر في Claude.ai،
00:03:22وهو روبوت الدردشة الفعلي و Cowork،
00:03:24هذا ليس هو الحال حقاً مع الكود،
00:03:26هو أن لديهم الآن المزيد من عناصر التحكم
00:03:27عندما يتعلق الأمر باختيار مقدار الجهد
00:03:30الذي يبذله كلود في الرد، صحيح؟
00:03:31لقد كان لدينا هذا مع كود كلود لفترة
00:03:33مع مستويات مثل عالٍ مقابل عالٍ جداً مقابل أقصى.
00:03:35حسناً، أصبح ذلك الآن متاحاً داخل أشياء
00:03:36مثل Claude.ai و Cowork.
00:03:38وأخيراً، إذا كنت شخصاً
00:03:39يستخدم واجهة برمجة تطبيقات الرسائل (Messages API)،
00:03:41فهي تقبل الآن إدخالات النظام داخل مصفوفة الرسائل.
00:03:44هذا أمر رائع حقاً
00:03:45لأنه يمكنك تحديث تعليمات كلود في منتصف المهمة.
00:03:47هذا مشابه نوعاً ما لـ Codex
00:03:50ومثل ميزة التوجيه (Steer)
00:03:51مقابل ميزة الانتظار (Queue)
00:03:52عندما تعطيها مطالبة إضافية.
00:03:54ومن الجدير بالذكر أن أوبوس يفتقر افتراضياً إلى جهد عالٍ،
00:03:57وليس عالٍ جداً.
00:03:59تذكر مع أوبوس 4.7
00:04:00عندما عرضوا لنا ذلك الرسم البياني،
00:04:01كانوا يخبروننا،
00:04:03مرحباً، عالٍ جداً هو المكان الذي تريد الوصول إليه.
00:04:05لذا فقط افهم أن 4.8 هو على مستوى عالٍ
00:04:07ولا يزال لديك مستويان فوق ذلك يمكنك الذهاب إليهما
00:04:09إذا كنت ترغب في الحصول على القليل من الجهد الإضافي
00:04:11من هذا النموذج الجديد.
00:04:12وفي حال كنت تتساءل عن استخدام الرموز (Tokens)،
00:04:14لقد قاموا بزيادة حدود المعدل في كود كلود
00:04:16لاستيعاب استخدام الرموز الأعلى
00:04:18لمستويات الجهد الأعلى،
00:04:20وهو أمر رائع حقاً.
00:04:21هذه هي نظرتك العامة والسريعة
00:04:22على نموذج كلود أوبوس 4.8 الجديد كلياً.
00:04:24تذكر، له نفس التسعير تماماً
00:04:25مثل أوبوس 4.7،
00:04:26لذا أنت لا تدفع أي شيء إضافي
00:04:28مقابل هذه القوة الجديدة أيضاً.
00:04:29وكما هو الحال دائماً، أخبروني بما فكرتم فيه.
00:04:31تأكدوا من الاطلاع على Chase AI Plus
00:04:33في التعليق المثبت
00:04:34إذا كنت ترغب في الحصول على
00:04:35دورتي التعليمية حول كلود كود (Claude Code Masterclass)
00:04:36وسأراكم لاحقاً.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video