أنثروبيك تطلق Claude Opus 4.7 والفرق شاسع جداً

CChase AI
Computing/SoftwareBusiness NewsConsumer ElectronicsInternet Technology

Transcript

00:00:00لقد صدر Opus 4.7 للتو، وبناءً على الأرقام،
00:00:04فهذا تحديث هائل. لذا دعونا نبدأ. أولاً وقبل كل شيء،
00:00:08اختبارات الأداء. يظهر نموذج Mythos هنا على اليمين،
00:00:12فقط ليشوقنا بشأن أشياء موجودة بالفعل.
00:00:15لكن ما أريد التركيز عليه حقاً هو 4.7 مقابل 4.6 لأننا لا نعرف
00:00:20متى سيكون Mythos متاحاً، وبناءً على الأرقام،
00:00:23هذه قفزة صلبة جداً للأمام، خاصة في مجالات مثل البرمجة.
00:00:28إذا نظرنا إلى البرمجة الوكيلية (agentic coding)، نرى قفزة من 53 إلى 64،
00:00:32ومن 80 إلى 87،
00:00:34ثم من 65 إلى 69 في الاختبارات الثلاثة الكبرى وهي SWE-bench
00:00:39و SWE-bench Verified و Terminal Bench 2.0.
00:00:42الأماكن الوحيدة التي نرى فيها اختبارات Opus 4.7
00:00:46ليست في الصدارة فوق جميع النماذج الأخرى،
00:00:49باستثناء Mythos، هي البحث الوكيلي حيث ننظر إلى GPT 5.4.
00:00:54حيث حقق 89.3 مقابل Opus 4.7،
00:00:57الذي انخفض بشكل غريب مقارنة بـ 4.6، وكما تعلمون،
00:01:01عندما ترى أشياء كهذه،
00:01:02حيث يعرضون اختبارات أداء انخفضت عن Opus 4.6،
00:01:06تتساءل عما إذا كانوا قد وضعوها هكذا عمداً. وكأنهم يقولون: "لا،
00:01:08هذه الاختبارات حقيقية يا رفاق. لن نكذب بشأن هذا. انظروا،
00:01:11انظروا لهذا الشيء". مّم،
00:01:12لكن 5.4 متفوق في البحث الوكيلي وأيضاً في منطق
00:01:17مستوى الدراسات العليا. الآن، مجال آخر نرى فيه تحسناً هائلاً هو المنطق البصري.
00:01:21حيث قفزنا من 69 إلى 82،
00:01:25وقد يكون لذلك علاقة بحقيقة أن هذا النموذج يتمتع برؤية
00:01:29أفضل بكثير.
00:01:29فهم يخبروننا أن الصور التي تضعها في Opus 4.7 أصبحت الآن
00:01:34بثلاثة أضعاف الدقة، وهذا أمر ضخم.
00:01:36إذا كنت تقوم بأي شيء يتعلق بالرسوم البيانية أو النصوص الصغيرة،
00:01:38ونرى تلك الأرقام نفسها تنعكس هنا في هذه الرسوم البيانية.
00:01:42تحسينات في العمل المعرفي، الرؤية، وقفزة هائلة في تحليل الوثائق،
00:01:46من 57.1 إلى 80.6، وهي ميزة كبيرة.
00:01:50إذا كنت ممن يستخدمون أدوات مثل CoWork،
00:01:52وتستخدم هذا في بيئة مكتبية وكل ما تفعله طوال اليوم هو تزويده
00:01:55بالوثائق. كما أن المنطق في السياق الطويل أمر كبير أيضاً.
00:01:57نحن نتحدث باستمرار في هذه القناة عن تلف السياق وفكرة أننا بحاجة
00:02:02للتركيز جداً على إدارة الجلسة. لا أعتقد أن ذلك يتغير أبداً. أعني،
00:02:07الارتفاع من 71 إلى 75 أمر رائع.
00:02:09لا أعتقد أنه يجب عليك تغيير مدى صرامتك في مسح الذاكرة (IE) كلما وصلت
00:02:13إلى 20% أو 25% من نافذة السياق، يجب عليك المسح، لكن هذا تحسن.
00:02:17نحن نحب رؤية هذا. وهذا الجزء مثير للاهتمام أيضاً.
00:02:19اختبار البرمجة هذا المتعلق بالوسائط المتعددة. فهم يبرمجون،
00:02:22ولكن هذا يشمل أيضاً أشياء حيث يزودونه بسياق يحتوي على
00:02:25صور. ولا أعتقد أن هذا مفاجئ.
00:02:28وأعتقد أن الكثير من ذلك يعود إلى دقة الوضوح.
00:02:30والآن بعيداً عن النموذج نفسه، تم إجراء بعض التحديثات الإضافية.
00:02:32أكبرها هو المزيد من التحكم في الجهد. الآن هناك مستوى "X high" (مرتفع جداً)،
00:02:37ربما استلهموا ذلك من OpenAI، وهو يقع بين المرتفع والأقصى.
00:02:40وعلاوة على ذلك، برمجية Cloud Code أصبحت الآن تعمل افتراضياً على المستوى المرتفع جداً.
00:02:44أعتقد أن هذا ربما جاء رداً على ادعاء الكثيرين بأن Opus 4.6
00:02:48قد تم إضعافه. ثم خرج بوريس شيرني، مبتكر Opus، حسناً، ليس مبتكر Opus،
00:02:52بل مبتكر Cloud Code، وقال:
00:02:54في الواقع، لقد نقلنا مستوى المنطق الافتراضي، مستوى الجهد الافتراضي،
00:02:58إلى المتوسط. لذا فإن حقيقة إصدارهم للمستوى المرتفع جداً،
00:03:01أعتقد أنها استجابة لذلك لجعله "أفضل" بين قوسين
00:03:05ومحاولة بذل جهد أكبر دون دفع الناس للمستوى الأقصى لأن الأمر سينقلب للجهة الأخرى
00:03:10ويشتكي الجميع من نفاذ حصص الاستخدام الخاصة بهم. وتذكروا،
00:03:12إذا أردت تغيير ذلك،
00:03:13كل ما عليك فعله هو كتابة effort/ ثم تحديد مستواك.
00:03:16الدقة الأعلى متوفرة أيضاً عبر واجهة برمجة التطبيقات (API).
00:03:19وقد أطلقوا أيضاً أمر ultra review/ الجديد.
00:03:24حيث يحصل على جلسة مراجعة مخصصة فوق ذلك.
00:03:28لقد قاموا بتوسيع الوضع التلقائي (auto mode) أيضاً. وإذا كنت لا تعرفه،
00:03:31فهو ببساطة بديل لتجاوز الأذونات بشكل خطير. الآن،
00:03:34هناك شيء واحد يلاحظونه هنا وهو أن Opus 4.7 سيستهلك رموزاً (tokens) أكثر
00:03:39مما كان يستهلكه 4.6.
00:03:40لقد صرحوا بوضوح أن Opus 4.7 يستخدم محلل رموز (tokenizer) محدثاً ويحسن طريقة
00:03:45معالجته للنصوص، ولكن ذلك يزيد من كمية الرموز في المدخلات،
00:03:50بنسبة 1 إلى 1.35 مرة تقريباً، حسب نوع المحتوى.
00:03:54وثانياً، Opus 4.7 يفكر أكثر في مستويات الجهد العالية.
00:03:58لذا تذكر ذلك لأنهم يضبطون الجهد الافتراضي على المستوى المرتفع جداً
00:04:03بينما كان سابقاً على المتوسط، كما أن Opus 4.7 يستهلك رموزاً أكثر.
00:04:07لذا إذا كنت تستخدم المستوى المتوسط طوال الوقت،
00:04:09ولم تغيره أبداً وكنت تصل بالفعل لمعدلات الاستخدام أو حدود الاستخدام في
00:04:134.6، فكن حذراً من هذا. واعلم أنك قد تواجه بالتأكيد مشكلات في الاستخدام.
00:04:18إذا كنت ممن يواجهون ذلك بالفعل،
00:04:19لأن الاستهلاك الآن سيكون أكبر للرموز.
00:04:21المثير للاهتمام أيضاً هو أنهم قاموا بإزالة التفكير الممتد (extended thinking).
00:04:25وإذا أردت قراءة المزيد والحصول على تعمق في عملية الانتقال هذه،
00:04:28فقد نشروا دليلاً كاملاً في الوثائق التقنية.
00:04:30بشكل عام، يبدو هذا تحديثاً قوياً حقاً.
00:04:32وأنا متحمس للبدء في تجربته بنفسي.

Key Takeaway

يقدم تحديث Opus 4.7 قفزة نوعية في البرمجة الوكيلية وتحليل الوثائق مع زيادة دقة الصور بمقدار 3 أضعاف، رغم زيادة استهلاك الرموز بنسبة تصل إلى 35%.

Highlights

يقفز أداء البرمجة الوكيلية في نموذج Opus 4.7 من 53 إلى 64 في اختبار SWE-bench ومن 80 إلى 87 في SWE-bench Verified.

تزداد دقة معالجة الصور في النسخة الجديدة بمقدار ثلاثة أضعاف مقارنة بالإصدار السابق.

يتحسن تحليل الوثائق بشكل كبير حيث ارتفعت النتيجة من 57.1 إلى 80.6.

يرتفع استهلاك الرموز (tokens) في Opus 4.7 بنسبة تتراوح بين 1 إلى 1.35 مرة بسبب التحديثات في محلل الرموز.

يتضمن التحديث مستوى جديداً للتحكم في الجهد يسمى X high يقع بين المستويين المرتفع والأقصى.

يتفوق GPT 5.4 على Opus 4.7 في مجالي البحث الوكيلي ومنطق مستوى الدراسات العليا بنتيجة 89.3.

Timeline

مقارنة أداء البرمجة والمنطق

  • يحقق Opus 4.7 قفزة صلبة في اختبارات البرمجة SWE-bench و Terminal Bench 2.0.
  • يسجل النموذج 69 نقطة في اختبار Terminal Bench 2.0 مقارنة بـ 65 نقطة للإصدار السابق.
  • يتفوق المنافس GPT 5.4 في اختبارات البحث الوكيلي والمنطق المتقدم للدراسات العليا.

تظهر الأرقام تحسناً مستمراً في قدرات البرمجة الوكيلية، حيث تم تسجيل قفزات واضحة في جميع الاختبارات الكبرى. يلاحظ وجود انخفاض طفيف وغريب في نتائج البحث الوكيلي مقارنة بنسخة 4.6، مما يعزز مصداقية بيانات الاختبار المعلنة. يبقى المنافس GPT 5.4 متصدراً في مجالات المنطق الأكاديمي عالي المستوى.

تطوير الرؤية وتحليل الوثائق

  • يرتفع مستوى المنطق البصري من 69 إلى 82 بفضل زيادة دقة وضوح الصور.
  • يتحسن تحليل الوثائق والبيانات المكتبية بنسبة تتجاوز 23%.
  • تصل دقة معالجة النصوص الصغيرة والرسوم البيانية إلى ثلاثة أضعاف المستويات السابقة.

يعود التحسن في المنطق البصري مباشرة إلى قدرة النموذج على معالجة الصور بدقة أعلى بثلاث مرات، مما يفيد في قراءة الرسوم البيانية المعقدة. تظهر النتائج فعالية كبرى في البيئات المكتبية التي تعتمد على تزويد النموذج بوثائق كثيفة لتحليلها. يتحسن المنطق في السياق الطويل ليصل إلى 75 نقطة، مما يقلل من مشكلات تلف السياق في الجلسات الممتدة.

مستويات الجهد واستهلاك الرموز

  • يعتمد برمجية Cloud Code مستوى الجهد X high كخيار افتراضي جديد.
  • يستهلك Opus 4.7 مدخلات أكثر بنسبة 1.35 مرة بسبب تحديث محلل الرموز.
  • يتيح أمر ultra review/ جلسات مراجعة مخصصة لزيادة دقة المخرجات.

تمت إضافة مستوى جهد مرتفع جداً كحل وسط لتجنب استنفاد حصص الاستخدام بسرعة مع الحفاظ على جودة المنطق. يؤدي الانتقال من مستوى الجهد المتوسط إلى المرتفع جداً افتراضياً، مع تغيير محلل الرموز، إلى زيادة ملموسة في استهلاك الرصيد. تمت إزالة خاصية التفكير الممتد في هذا الإصدار مع توفير دليل تقني كامل لعملية الانتقال عبر واجهة برمجة التطبيقات.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video