00:00:00لقد صدر Opus 4.7 للتو، وبناءً على الأرقام،
00:00:04فهذا تحديث هائل. لذا دعونا نبدأ. أولاً وقبل كل شيء،
00:00:08اختبارات الأداء. يظهر نموذج Mythos هنا على اليمين،
00:00:12فقط ليشوقنا بشأن أشياء موجودة بالفعل.
00:00:15لكن ما أريد التركيز عليه حقاً هو 4.7 مقابل 4.6 لأننا لا نعرف
00:00:20متى سيكون Mythos متاحاً، وبناءً على الأرقام،
00:00:23هذه قفزة صلبة جداً للأمام، خاصة في مجالات مثل البرمجة.
00:00:28إذا نظرنا إلى البرمجة الوكيلية (agentic coding)، نرى قفزة من 53 إلى 64،
00:00:32ومن 80 إلى 87،
00:00:34ثم من 65 إلى 69 في الاختبارات الثلاثة الكبرى وهي SWE-bench
00:00:39و SWE-bench Verified و Terminal Bench 2.0.
00:00:42الأماكن الوحيدة التي نرى فيها اختبارات Opus 4.7
00:00:46ليست في الصدارة فوق جميع النماذج الأخرى،
00:00:49باستثناء Mythos، هي البحث الوكيلي حيث ننظر إلى GPT 5.4.
00:00:54حيث حقق 89.3 مقابل Opus 4.7،
00:00:57الذي انخفض بشكل غريب مقارنة بـ 4.6، وكما تعلمون،
00:01:01عندما ترى أشياء كهذه،
00:01:02حيث يعرضون اختبارات أداء انخفضت عن Opus 4.6،
00:01:06تتساءل عما إذا كانوا قد وضعوها هكذا عمداً. وكأنهم يقولون: "لا،
00:01:08هذه الاختبارات حقيقية يا رفاق. لن نكذب بشأن هذا. انظروا،
00:01:11انظروا لهذا الشيء". مّم،
00:01:12لكن 5.4 متفوق في البحث الوكيلي وأيضاً في منطق
00:01:17مستوى الدراسات العليا. الآن، مجال آخر نرى فيه تحسناً هائلاً هو المنطق البصري.
00:01:21حيث قفزنا من 69 إلى 82،
00:01:25وقد يكون لذلك علاقة بحقيقة أن هذا النموذج يتمتع برؤية
00:01:29أفضل بكثير.
00:01:29فهم يخبروننا أن الصور التي تضعها في Opus 4.7 أصبحت الآن
00:01:34بثلاثة أضعاف الدقة، وهذا أمر ضخم.
00:01:36إذا كنت تقوم بأي شيء يتعلق بالرسوم البيانية أو النصوص الصغيرة،
00:01:38ونرى تلك الأرقام نفسها تنعكس هنا في هذه الرسوم البيانية.
00:01:42تحسينات في العمل المعرفي، الرؤية، وقفزة هائلة في تحليل الوثائق،
00:01:46من 57.1 إلى 80.6، وهي ميزة كبيرة.
00:01:50إذا كنت ممن يستخدمون أدوات مثل CoWork،
00:01:52وتستخدم هذا في بيئة مكتبية وكل ما تفعله طوال اليوم هو تزويده
00:01:55بالوثائق. كما أن المنطق في السياق الطويل أمر كبير أيضاً.
00:01:57نحن نتحدث باستمرار في هذه القناة عن تلف السياق وفكرة أننا بحاجة
00:02:02للتركيز جداً على إدارة الجلسة. لا أعتقد أن ذلك يتغير أبداً. أعني،
00:02:07الارتفاع من 71 إلى 75 أمر رائع.
00:02:09لا أعتقد أنه يجب عليك تغيير مدى صرامتك في مسح الذاكرة (IE) كلما وصلت
00:02:13إلى 20% أو 25% من نافذة السياق، يجب عليك المسح، لكن هذا تحسن.
00:02:17نحن نحب رؤية هذا. وهذا الجزء مثير للاهتمام أيضاً.
00:02:19اختبار البرمجة هذا المتعلق بالوسائط المتعددة. فهم يبرمجون،
00:02:22ولكن هذا يشمل أيضاً أشياء حيث يزودونه بسياق يحتوي على
00:02:25صور. ولا أعتقد أن هذا مفاجئ.
00:02:28وأعتقد أن الكثير من ذلك يعود إلى دقة الوضوح.
00:02:30والآن بعيداً عن النموذج نفسه، تم إجراء بعض التحديثات الإضافية.
00:02:32أكبرها هو المزيد من التحكم في الجهد. الآن هناك مستوى "X high" (مرتفع جداً)،
00:02:37ربما استلهموا ذلك من OpenAI، وهو يقع بين المرتفع والأقصى.
00:02:40وعلاوة على ذلك، برمجية Cloud Code أصبحت الآن تعمل افتراضياً على المستوى المرتفع جداً.
00:02:44أعتقد أن هذا ربما جاء رداً على ادعاء الكثيرين بأن Opus 4.6
00:02:48قد تم إضعافه. ثم خرج بوريس شيرني، مبتكر Opus، حسناً، ليس مبتكر Opus،
00:02:52بل مبتكر Cloud Code، وقال:
00:02:54في الواقع، لقد نقلنا مستوى المنطق الافتراضي، مستوى الجهد الافتراضي،
00:02:58إلى المتوسط. لذا فإن حقيقة إصدارهم للمستوى المرتفع جداً،
00:03:01أعتقد أنها استجابة لذلك لجعله "أفضل" بين قوسين
00:03:05ومحاولة بذل جهد أكبر دون دفع الناس للمستوى الأقصى لأن الأمر سينقلب للجهة الأخرى
00:03:10ويشتكي الجميع من نفاذ حصص الاستخدام الخاصة بهم. وتذكروا،
00:03:12إذا أردت تغيير ذلك،
00:03:13كل ما عليك فعله هو كتابة effort/ ثم تحديد مستواك.
00:03:16الدقة الأعلى متوفرة أيضاً عبر واجهة برمجة التطبيقات (API).
00:03:19وقد أطلقوا أيضاً أمر ultra review/ الجديد.
00:03:24حيث يحصل على جلسة مراجعة مخصصة فوق ذلك.
00:03:28لقد قاموا بتوسيع الوضع التلقائي (auto mode) أيضاً. وإذا كنت لا تعرفه،
00:03:31فهو ببساطة بديل لتجاوز الأذونات بشكل خطير. الآن،
00:03:34هناك شيء واحد يلاحظونه هنا وهو أن Opus 4.7 سيستهلك رموزاً (tokens) أكثر
00:03:39مما كان يستهلكه 4.6.
00:03:40لقد صرحوا بوضوح أن Opus 4.7 يستخدم محلل رموز (tokenizer) محدثاً ويحسن طريقة
00:03:45معالجته للنصوص، ولكن ذلك يزيد من كمية الرموز في المدخلات،
00:03:50بنسبة 1 إلى 1.35 مرة تقريباً، حسب نوع المحتوى.
00:03:54وثانياً، Opus 4.7 يفكر أكثر في مستويات الجهد العالية.
00:03:58لذا تذكر ذلك لأنهم يضبطون الجهد الافتراضي على المستوى المرتفع جداً
00:04:03بينما كان سابقاً على المتوسط، كما أن Opus 4.7 يستهلك رموزاً أكثر.
00:04:07لذا إذا كنت تستخدم المستوى المتوسط طوال الوقت،
00:04:09ولم تغيره أبداً وكنت تصل بالفعل لمعدلات الاستخدام أو حدود الاستخدام في
00:04:134.6، فكن حذراً من هذا. واعلم أنك قد تواجه بالتأكيد مشكلات في الاستخدام.
00:04:18إذا كنت ممن يواجهون ذلك بالفعل،
00:04:19لأن الاستهلاك الآن سيكون أكبر للرموز.
00:04:21المثير للاهتمام أيضاً هو أنهم قاموا بإزالة التفكير الممتد (extended thinking).
00:04:25وإذا أردت قراءة المزيد والحصول على تعمق في عملية الانتقال هذه،
00:04:28فقد نشروا دليلاً كاملاً في الوثائق التقنية.
00:04:30بشكل عام، يبدو هذا تحديثاً قوياً حقاً.
00:04:32وأنا متحمس للبدء في تجربته بنفسي.