أنثروبيك تطلق قنبلة Opus 4.8 المدوية

CChase AI
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00أطلقت أنثروبيك للتو نموذج كلود أوبوس 4.8 اليوم.
00:00:02لذا في هذا الفيديو، سأستعرض معكم بسرعة كبيرة
00:00:05ما الذي تغير وما الذي تحتاجون إلى الانتباه إليه
00:00:08في هذا النموذج الجديد كلياً.
00:00:09فلننتقل مباشرة إلى نتائج القياس (Benchmarks).
00:00:12لدينا هنا نموذج أوبوس 4.8 المظلل
00:00:14ومقارنة بـ أوبوس 4.7، وGPT 5.5، وGemini 3.1 Pro،
00:00:20يتفوق أوبوس تقريباً على الجميع في كل فئة
00:00:24باستثناء البرمجة الطرفية (Agentic Terminal Coding)،
00:00:26وهي اختبار Terminal Bench 2.1.
00:00:28هناك، حصل على 74.6،
00:00:30وهي قفزة هائلة مقارنة بـ أوبوس 4.7،
00:00:34لكنه لا يزال يتأخر عن GPT 5.5.
00:00:37لكن في كل شيء آخر، مثل اختبار SWE Bench Pro،
00:00:40والاستدلال متعدد التخصصات، واستخدام الحاسوب الوكيل،
00:00:42والعمل المعرفي، وكذلك التحليل المالي الوكيل،
00:00:45إنه يتصدر بقية المنافسين.
00:00:47الآن، نحن جميعاً نأخذ نتائج القياس بحذر شديد
00:00:49في هذه المرحلة، لكن من الجيد رؤية هذه القفزات الكبيرة
00:00:53مقارنة بما أعلنوه مع أوبوس 4.7،
00:00:56منذ وقت ليس ببعيد.
00:00:57أعني، لقد مر بضعة أشهر فقط،
00:00:58منذ إطلاق 4.7 وها نحن بالفعل نحصل على 4.8
00:01:01ونرتفع من 64 إلى 69 في البرمجة الوكيلة.
00:01:04حقاً، هذا أمر رائع.
00:01:05الآن، أحد التحسينات الكبيرة في 4.8 مقارنة بـ 4.7،
00:01:08وفقاً لأنثروبيك، هو مستوى الصدق (Honesty).
00:01:11وبالصدق، نعني أن نموذج الذكاء الاصطناعي هذا،
00:01:14عندما تطلب منه القيام بشيء،
00:01:15إذا لم يستطع القيام به أو إذا لم ينجزه،
00:01:18سيخبرك بذلك بالفعل.
00:01:19هذا أمر مهم للغاية
00:01:20إذا كنت قد استخدمت هذه النماذج على الإطلاق
00:01:22خلال السنوات القليلة الماضية،
00:01:22حيث تطلب منه القيام بشيء مثل،
00:01:24مرحباً، ألقِ نظرة على هذا النص الطويل جداً
00:01:27وقم بقراءته فعلياً وأخبرني بما فعلته.
00:01:29وعندما تنظر إلى مخرجاته
00:01:31وتسأله عن التفاصيل،
00:01:32سيقول شيئاً مثل،
00:01:33حسناً، لقد قمت بتلخيصه نوعاً ما.
00:01:35لم أقرأه بالكامل.
00:01:35هذه مشكلة كبيرة حقاً.
00:01:37وإذا كنت تستخدم الذكاء الاصطناعي لأي عمل حقيقي،
00:01:40أنت تعلم مدى أهمية إنشاء كل هذه الاختبارات،
00:01:42للتأكد فعلياً من أنه يقوم بما يقول إنه يفعله.
00:01:46لكن أنثروبيك تقول،
00:01:47مرحباً، قد لا تكون هذه مشكلة كبيرة مع 4.8
00:01:50مقارنة ببعض النماذج السابقة.
00:01:51وبالتحديد، يقولون،
00:01:52وفقاً لتقييماتهم،
00:01:54والتي يمكنك الاطلاع عليها داخل بطاقة النظام الخاصة بهم،
00:01:56والتي يبلغ طولها حوالي 250 صفحة،
00:01:59يقولون إن أوبوس 4.8
00:02:01أقل عرضة بأربع مرات من سابقه
00:02:04لترك عيوب في الكود الذي كتبه دون ملاحظتها.
00:02:07مرة أخرى، سيكون أكثر صدقاً بكثير
00:02:09بشأن ما لا يعمل وما يعمل،
00:02:12ولن يحاول التلاعب بك.
00:02:13كما أنهم يقيمون أن 4.8 لديه معدلات سلوك غير متوافق
00:02:16مثل الخداع أو التعاون مع سوء الاستخدام
00:02:18وهي أقل بكثير من أوبوس 4.7
00:02:21وتشبه نموذج ميثوس (Mythos).
00:02:24ويمكنك رؤية هذا السلوك غير المتوافق هنا
00:02:25حيث كان لدى أوبوس 4.7 وخاصة سونيت 4.6
00:02:28بعض هذه الميول،
00:02:31ولا نرى ذلك كثيراً مع ميثوس
00:02:33أو أوبوس 4.8.
00:02:35الآن، بعيداً عن النموذج نفسه،
00:02:36هناك المزيد من التحديثات التي قدمتها أنثروبيك.
00:02:39الأول هو سير العمل الديناميكي (Dynamic Workflows).
00:02:41الآن، سير العمل الديناميكي يشبه الأهداف.
00:02:43الفكرة هي أنه يمكننا الآن وضع كود كلود
00:02:45على مهمة معقدة للغاية،
00:02:47وسيعمل عليها بمرور الوقت،
00:02:50مما يؤدي إلى إنتاج عشرات إلى مئات من الوكلاء المتوازيين
00:02:52في جلسة واحدة
00:02:53للتأكد من إنجاز العمل فعلياً.
00:02:56كما تعلمون جيداً، هناك الكثير من المشاكل
00:02:57التي حتى لو قمت بها في وضع التخطيط
00:02:59وقسمتها إلى مجموعة من المهام
00:03:00فهي أكبر بكثير مما يستطيع كود كلود التعامل معه دفعة واحدة.
00:03:03سير العمل الديناميكي هذا هو الحل لتلك المشكلة،
00:03:05وسأقوم بعمل تحليل عميق
00:03:06حول سير العمل الديناميكي قريباً جداً.
00:03:09ولكن إذا كنت ترغب في تجربته اليوم،
00:03:11هناك خياران حقيقيان.
00:03:12الأول هو استخدام لغة بسيطة
00:03:13والقول، مرحباً، كلود، أنشئ سير عمل ديناميكي،
00:03:15أو قم بتشغيل إعداد كلود كود الجديد
00:03:18المسمى UltraCode.
00:03:20تغيير كبير آخر في Claude.ai،
00:03:22وهو روبوت الدردشة الفعلي و Cowork،
00:03:24هذا ليس هو الحال حقاً مع الكود،
00:03:26هو أن لديهم الآن المزيد من عناصر التحكم
00:03:27عندما يتعلق الأمر باختيار مقدار الجهد
00:03:30الذي يبذله كلود في الرد، صحيح؟
00:03:31لقد كان لدينا هذا مع كود كلود لفترة
00:03:33مع مستويات مثل عالٍ مقابل عالٍ جداً مقابل أقصى.
00:03:35حسناً، أصبح ذلك الآن متاحاً داخل أشياء
00:03:36مثل Claude.ai و Cowork.
00:03:38وأخيراً، إذا كنت شخصاً
00:03:39يستخدم واجهة برمجة تطبيقات الرسائل (Messages API)،
00:03:41فهي تقبل الآن إدخالات النظام داخل مصفوفة الرسائل.
00:03:44هذا أمر رائع حقاً
00:03:45لأنه يمكنك تحديث تعليمات كلود في منتصف المهمة.
00:03:47هذا مشابه نوعاً ما لـ Codex
00:03:50ومثل ميزة التوجيه (Steer)
00:03:51مقابل ميزة الانتظار (Queue)
00:03:52عندما تعطيها مطالبة إضافية.
00:03:54ومن الجدير بالذكر أن أوبوس يفتقر افتراضياً إلى جهد عالٍ،
00:03:57وليس عالٍ جداً.
00:03:59تذكر مع أوبوس 4.7
00:04:00عندما عرضوا لنا ذلك الرسم البياني،
00:04:01كانوا يخبروننا،
00:04:03مرحباً، عالٍ جداً هو المكان الذي تريد الوصول إليه.
00:04:05لذا فقط افهم أن 4.8 هو على مستوى عالٍ
00:04:07ولا يزال لديك مستويان فوق ذلك يمكنك الذهاب إليهما
00:04:09إذا كنت ترغب في الحصول على القليل من الجهد الإضافي
00:04:11من هذا النموذج الجديد.
00:04:12وفي حال كنت تتساءل عن استخدام الرموز (Tokens)،
00:04:14لقد قاموا بزيادة حدود المعدل في كود كلود
00:04:16لاستيعاب استخدام الرموز الأعلى
00:04:18لمستويات الجهد الأعلى،
00:04:20وهو أمر رائع حقاً.
00:04:21هذه هي نظرتك العامة والسريعة
00:04:22على نموذج كلود أوبوس 4.8 الجديد كلياً.
00:04:24تذكر، له نفس التسعير تماماً
00:04:25مثل أوبوس 4.7،
00:04:26لذا أنت لا تدفع أي شيء إضافي
00:04:28مقابل هذه القوة الجديدة أيضاً.
00:04:29وكما هو الحال دائماً، أخبروني بما فكرتم فيه.
00:04:31تأكدوا من الاطلاع على Chase AI Plus
00:04:33في التعليق المثبت
00:04:34إذا كنت ترغب في الحصول على
00:04:35دورتي التعليمية حول كلود كود (Claude Code Masterclass)
00:04:36وسأراكم لاحقاً.

Key Takeaway

يقدم نموذج كلود أوبوس 4.8 تحسينات ملموسة في الصدق والقدرات البرمجية، مدعوماً بميزة سير العمل الديناميكي التي تزيد من كفاءة تنفيذ المهام المعقدة دون زيادة في التكلفة.

Highlights

  • نموذج كلود أوبوس 4.8 يتفوق على النماذج المنافسة في اختبارات الاستدلال والتحليل المالي والعمل المعرفي.

  • ارتفعت درجة أوبوس 4.8 في اختبار البرمجة الوكيلة إلى 69 نقطة، وهو تقدم عن الدرجة السابقة البالغة 64 نقطة في نموذج 4.7.

  • ينخفض احتمال ترك عيوب في الكود المكتوب بمقدار 4 مرات في أوبوس 4.8 مقارنة بالإصدار السابق.

  • يدعم نموذج 4.8 ميزة سير العمل الديناميكي التي تتيح تشغيل عشرات إلى مئات الوكلاء المتوازيين لتنفيذ المهام المعقدة.

  • يقبل الإصدار الجديد إدخالات النظام (System Prompts) مباشرة داخل مصفوفة الرسائل في واجهة برمجة تطبيقات الرسائل.

  • حافظت أنثروبيك على نفس هيكل التسعير الخاص بنموذج أوبوس 4.7 في الإصدار الجديد 4.8.

Timeline

تقييم أداء نموذج أوبوس 4.8

  • يتصدر أوبوس 4.8 معظم اختبارات القياس مقارنة بـ GPT 5.5 وGemini 3.1 Pro.
  • سجل النموذج 74.6 في اختبار Terminal Bench 2.1.
  • قفزت قدرات البرمجة الوكيلة من 64 إلى 69 نقطة خلال بضعة أشهر.

يستعرض هذا القسم مقارنة الأداء بين أوبوس 4.8 والنماذج المنافسة. رغم تفوقه في معظم الفئات مثل SWE Bench Pro والتحليل المالي، إلا أنه لا يزال يحتل المرتبة الثانية بعد GPT 5.5 في اختبار البرمجة الطرفية.

تحسين مستويات الصدق والموثوقية

  • يركز الإصدار 4.8 على زيادة مستوى الصدق عند تنفيذ المهام.
  • يقلل النموذج من ميل الذكاء الاصطناعي للتلاعب أو ادعاء إتمام مهام لم ينفذها.
  • تتقارب معدلات السلوك غير المتوافق في 4.8 مع نموذج ميثوس.

يركز التحديث على معالجة المشكلات المتعلقة بعدم دقة تنفيذ التعليمات، مثل الادعاء بقراءة نصوص طويلة دون مراجعتها فعلياً. تشير بطاقة النظام إلى انخفاض احتمالية ترك أخطاء في الكود بمقدار أربعة أضعاف.

ميزات سير العمل والتحكم

  • تسمح ميزة سير العمل الديناميكي بمعالجة المهام المعقدة عبر وكلاء متوازيين.
  • تتوفر مستويات تحكم في جهد النموذج داخل Claude.ai وCowork.
  • تتيح واجهة برمجة تطبيقات الرسائل الآن تحديث تعليمات النظام في منتصف جلسة العمل.

توفر الميزات الجديدة أدوات للتعامل مع المشاريع البرمجية الكبيرة من خلال تقسيم المهام بمرونة. كما تم تحسين إدارة الموارد وزيادة حدود المعدل لاستيعاب متطلبات الجهد العالي، مع الحفاظ على تسعير ثابت.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video