Opus 4.7 مذهل (باستثناء استهلاك التوكنز)

BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00وصل الطراز الأفضل الجديد، Opus 4.7. يبدو في الواقع ترقية جيدة جدًا، ومن الواضح
00:00:05أنه أفضل في البرمجة ولكنه يتمتع أيضًا برؤية محسنة، وتحقق ذاتي، ومن المفترض
00:00:09أنه أفضل في صنع واجهات المستخدم لجعلها أكثر ذوقًا وإبداعًا.
00:00:12لكن الجانب السلبي هو أنه بينما لم تتغير التكلفة، تغيرت أداة التجزئة (tokenizer)، لذا فإن
00:00:17نفس مطالبة الإدخال بالضبط قد تستهلك الآن ما يصل إلى 35% أكثر من التوكنز، كما أنه يفكر أكثر
00:00:22وهذا يعني حرق المزيد من التوكنز. هناك بالتأكيد بعض التفاصيل المثيرة للاهتمام في هذا الإصدار
00:00:26وربما تغيير تريد إجراؤه على Claude Code الآن، لذا دعونا نبدأ لنرى ما هو
00:00:30الجديد ونختبره.
00:00:31الآن سأبدأ في الواقع بمقاييس الأداء (benchmarks) لأنني كذبت قليلاً سابقًا عندما قلت إن هذا
00:00:40هو الطراز الأفضل الجديد. إنه الأفضل المتاح للجمهور ولكن هذه المقاييس تشمل أيضًا
00:00:44Mythos، الطراز القوي جدًا لدرجة أننا غير مسموح لنا باستخدامه بعد.
00:00:47وفقًا لشركة Anthropic، يختبر Opus 4.7 في الواقع ضمانات سيبرانية جديدة لمنع الطلبات
00:00:52التي تشير إلى استخدامات محظورة أو عالية المخاطر في الأمن السيبراني، وما يتعلمونه من ذلك
00:00:56سيساعدهم في العمل على إصدار واسع لنماذج فئة Mythos، لذا نأمل في المستقبل
00:01:00أن أتمكن من صنع فيديو عن إصدار Mythos وكيف سيكون نهاية تطوير البرمجيات كما
00:01:03نعرفها. لذا اشترك إذا كنت لا تريد تفويت ذلك.
00:01:06في الوقت الحالي سأتجاهل Mythos وأركز على الطراز الذي يمكننا استخدامه فعليًا
00:01:10وهو Opus 4.7، وقد حقق هذا بالفعل مكاسب كبيرة في مقاييس الأداء.
00:01:13الآن لن أخوض في الكثير من التفاصيل حول هذه، ويمكنك إيقاف الشاشة مؤقتًا إذا أردت
00:01:16قراءة المقاييس الفردية. يمكنك أن ترى في مقاييس مثل SWE Bench Pro أنه حقق قفزة بنسبة 10%
00:01:21عن Opus 4.6 وفي النسخة الموثقة حقق 7%، وهذا النمط يستمر تقريبًا
00:01:26لبقية المقاييس باستثناء الأمن السيبراني حيث انخفض قليلاً، ويبدو أن الأمر
00:01:30مرتبط بالضمانات التي ذكرتها سابقًا، حيث يبدو أنهم يبقون
00:01:34هذه الدرجة منخفضة بشكل مصطنع لمحاولة إنقاذ العالم أو شيء من هذا القبيل.
00:01:37وجدت أيضًا مقياسًا مثيرًا للاهتمام حقًا في بطاقة النظام تلك حيث يبدو أن
00:01:40أداء السياق الطويل قد تدهور بشكل كبير مقارنة بـ Opus 4.6 عند استخدام
00:01:45اختبار "إبرة في كومة قش"، لذا أنا فضولي جدًا كيف سيؤثر ذلك على الاستخدام الفعلي
00:01:50بمرور الوقت. بعيدًا عن المقاييس، هناك أيضًا بعض التحسينات الملحوظة الأخرى التي قد
00:01:54تغير حتى طريقة استخدامك لـ Claude. الأول هو أنه أفضل في اتباع التعليمات
00:01:58مما يعني في الواقع أنك قد تحصل على نتائج غير متوقعة مع المطالبات التي استخدمتها بالفعل
00:02:01من قبل، حيث كانت النماذج القديمة تفسر التعليمات بشكل فضفاض أو تتخطى أجزاءً بينما Opus 4.7
00:02:07يركز حقًا على أخذ التعليمات حرفيًا، لذا قد تضطر فعليًا لإجراء بعض التعديلات
00:02:11على المطالبات. بعد ذلك، حصل على دعم محسن للوسائط المتعددة بحيث يمكنه قبول صور بدقة أعلى
00:02:16بثلاثة أضعاف النماذج القديمة، وهذا من شأنه أن يجعله أفضل في مهام مثل استخدام الكمبيوتر و
00:02:20استخراج البيانات. كما تحسن استخدامه للذاكرة، لذا يجب أن يكون Opus 4.7 أفضل في استخدام
00:02:25الذاكرة المعتمدة على نظام الملفات حيث يتذكر الملاحظات المهمة عبر جلسات عمل طويلة ومتعددة
00:02:30ويستخدمها للانتقال لمهام جديدة تتطلب سياقًا أقل نتيجة لذلك. لذا ربما
00:02:34سيوفر لي ذلك بعض التوكنز، وهو أمر مهم جدًا الآن لأن التغيير التالي يتعلق بأداة التجزئة
00:02:39والتفكير. يستخدم Opus 4.7 أداة تجزئة محدثة تحسن كيفية معالجة النموذج للنصوص
00:02:45ولكن هذا يعني أيضًا أن نفس مطالبة الإدخال يمكن أن تكلف ما يصل إلى 35% أكثر من التوكنز، وعندما
00:02:49تجمع هذا مع حقيقة أن Opus 4.7 يفكر أكثر بمستويات جهد أعلى، فإن هذا النموذج
00:02:54سيستهلك بالفعل كمية كبيرة من التوكنز. ولجعل الأمر أسوأ، هناك أيضًا مستوى
00:02:58جهد "فائق الارتفاع" جديد، وهو مضبوط كافتراضي في Claude Code، لذا أوصي بشدة
00:03:02بأن تذهب وتختبر مستويات الجهد المختلفة وتجد المستوى الذي يناسبك أكثر لترى
00:03:05ما إذا كان بإمكانك تقليل هذا المستوى دون ملاحظة تأثير. للمقارنة، فإن مستوى
00:03:09الجهد فائق الارتفاع الجديد يستخدم تقريبًا نفس كمية التوكنز التي استخدمها مستوى الجهد الأقصى في Opus 4.6
00:03:14ومستوى الجهد المرتفع في Opus 4.7 يتفوق في الواقع على مستوى الجهد الأقصى في Opus 4.6 مع
00:03:19استهلاك توكنز أقل. لذا إذا كنت مرتاحًا بالفعل لما كان لديك من قبل، سأستخدم ذلك الرسم البياني
00:03:24للمقارنة، لأنني أعلم بالنسبة لي أنني سأغير هذا على الأرجح لاستخدام مستوى الجهد المرتفع
00:03:27في معظم الحالات. ومع الانتهاء من ملخص الجديد، سأستهلك
00:03:31حصتي من الاستخدام وأختبر هذا. أول شيء سأتحقق منه هو هل هو أفضل في تصميم الواجهات
00:03:35لذا أعطيته مطالبة بسيطة جدًا لإنشاء موقع ويب لمقهى باستخدام ملف index.html فقط و
00:03:40أنا أستخدم مستوى الجهد الأقصى في جميع النماذج التي أختبرها، لذا سأجرب هذا
00:03:43في Opus 4.7 و4.6 وGemini 3.1 وGPT 5.4. هذه هي النتيجة التي حصلت عليها من Opus 4.7
00:03:51وأعتقد أنها تبدو جيدة جدًا، فهي تتمتع بطابع المقهى الجيد وقد استخدمت
00:03:55خطًا جميلاً، واختارت صورًا من Unsplash هنا. بشكل عام لا يمكنني الشكوى حقًا
00:03:59إنه موقع بسيط وجميل، به قسم للمنيو، وكل شيء متجاوب بالفعل وبشكل عام
00:04:04نعم أقول إنه يبدو جيدًا جدًا. إذا قارنا هذا بما قدمه لي Opus 4.6، يمكنك رؤية
00:04:09أنه اختار أسلوبًا مختلفًا قليلاً هنا، لكن لديه خطًا مشابهًا وقسم منيو مشابهًا
00:04:12وبشكل عام هو أسوأ قليلاً أود أن أقول، فقط لأنه لم يستخدم خلفية جميلة
00:04:16وهذا التدرج اللوني ليس جميلاً على الإطلاق، ولكن لا يزال لا يمكنني الشكوى
00:04:20كثيرًا، أود أن أقول إن Opus 4.7 أعلى من هذا بخطوة بسيطة فقط. Gemini 3.1 من ناحية
00:04:25أخرى أعتقد أنه أعطاني أفضل نتيجة، على الأقل هذه هي المفضلة لدي، لذا أخبروني
00:04:29في التعليقات أدناه ما هو رأيكم، لقد أحببت حقًا أن لديه هذه الخلفية التي لا
00:04:33تتحرك عند التمرير، أعتقد أنه قام بعمل جيد حقًا في قسم الصور هذا في قسم
00:04:36قصتنا، المنيو يبدو مشابهًا للآخرين ولكن مرة أخرى أعتقد أن هذا منسق
00:04:40بشكل جيد والأمر نفسه مع التذييل (footer)، لذا أعتقد أن 3.1 يفوز في هذه التجربة. أما
00:04:45المركز الأخير فهو بالتأكيد لـ GPT 5.4، هذا له مظهر وطابع GPT تمامًا
00:04:50فهو يحب هذه البطاقات التي لها تأثير غبش (blur) لطيف، وهو ببساطة ليس
00:04:55موقع مقهى جيد في رأيي، يبدو ككل تطبيقات GPT الأخرى التي رأيتها على الإطلاق، لذا
00:04:59Opus 4.7 جيد بالتأكيد في الواجهات وربما سيتعامل معها بشكل أفضل مع مزيد من
00:05:04التوجيه. في الوقت الحالي في حلبة التصميم، يتصدر Opus 4.6 في المواقع
00:05:09لذا أتوقع أن 4.7 سيأخذ مكانه. الآن من الواضح أن هذا الاختبار كان بسيطًا
00:05:13جدًا، لذا سأعطيهم جميعًا مهمة أكثر تقدمًا، يمكنك رؤية هنا في Claude Code
00:05:17مع Opus 4.6 أطلب لوحة معلومات لإدارة التمويل الشخصي تقدم
00:05:21نظرة عامة مفصلة عن الصحة المالية للفرد مع الكثير من الميزات التي وضعتها في
00:05:25المطالبة هنا، ولم أعطه أي إشارة إلى التقنيات (stack) التي يجب استخدامها
00:05:30هو سيختار كل ذلك ويبدأ من الصفر. أولاً لدينا نتيجة Opus 4.7 و
00:05:34قد فعل كل هذا في مطالبة واحدة في حوالي 20 دقيقة، وكان رد فعلي الأولي هو
00:05:39واو، هذا يبدو جيدًا حقًا، الواجهة نظيفة جدًا، وبها رسوم بيانية جميلة هنا وكل شيء
00:05:44منسق بلطافة، ويستخدم نظام ألوان جيد، وبصراحة لا يوجد الكثير
00:05:48مما قد أحسنه بنفسي، لقد قام بعمل رائع في جانب واجهة المستخدم
00:05:53كما أن لديه جميع الصفحات الفردية التي طلبتها، يمكننا رؤية جميع حساباتنا
00:05:57ويمكننا رؤية معاملاتنا وميزانياتنا، لا يمكننا فعليًا إضافة أي ميزانيات جديدة في
00:06:02الوقت الحالي يبدو أن هذه ليست ميزة مضافة، والأمر نفسه مع الأهداف ولكن يمكننا
00:06:05الإضافة إلى أهدافنا هنا والأرقام تزداد وهي تقوم بتحديث واجهة برمجة التطبيقات الخلفية
00:06:10التي بناها، والشيء نفسه ينطبق إذا أرسلنا أموالاً للناس أيضًا، لذا إذا
00:06:14اختبرت دفع اشتراك Claude Code الخاص بي هنا، فمن المفترض أن يتم الإرسال بنجاح ويمكنني
00:06:17رؤية أنه تم الإرسال وفي لوحة المعلومات تم تحديث صافي ثروتي بتلك المعاملة
00:06:22لذا كل شيء يعمل هناك وهو يستخدم قاعدة بيانات في الخلفية ولدينا أيضًا
00:06:26ظهور المعاملة في أحدث معاملاتنا. بالنظر في الكود الذي أنتجه، كل شيء
00:06:30يبدو جيدًا جدًا، لقد استخدم React وVite للواجهة الأمامية، وهو نفس الشيء الذي كنت
00:06:34سأفعله، واستخدم أيضًا React Router، ربما كنت سأستخدم TanStack ولكن لا يهم
00:06:38كلاهما خياران جيدان للغاية. في كل هذه يمكنك رؤية كل شيء منسق
00:06:42بترتيب، لدينا جميع مكونات الواجهة الفردية، وبشكل عام الواجهة الأمامية متقنة.
00:06:46المكان الذي سأخصم منه نقاطًا هو الواجهة الخلفية لأننا نستخدم
00:06:51سيرفر Express، لا يوجد خطأ في ذلك حقًا ولكنني كنت سأختار شيئًا
00:06:54مثل Bun ربما أو Hono نظرًا لمدى بساطة هذا التطبيق، وأيضًا الطريقة التي
00:06:59يخزن بها هذه البيانات كلها في الذاكرة، لذا إذا أغلقت خدمة الواجهة الخلفية الآن وبدأت
00:07:04تشغيلها مرة أخرى، سيقوم بتحميل البيانات من نص برمجي للبيانات الأولية (seed script) وهذه مجرد
00:07:08مصفوفات محلية، لم يكن لديه أي قاعدة بيانات لحفظ هذا. وبالانتقال لما أعطاني إياه Opus 4.6
00:07:13يجب أن أقول على الفور إن Opus 4.7 قام بالتأكيد بعمل أفضل عندما يتعلق الأمر بتصميم الواجهة
00:07:18هناك شيء ما في هذه الواجهة لا يعجبني تمامًا، لا أعرف ما إذا كان هناك
00:07:21الكثير من الحشو (padding) أو حقيقة أنها في الوضع الفاتح بينما كانت الأخرى
00:07:24في الوضع المظلم، أنا بالتأكيد أفضل نسخة Opus 4.7 بشكل عام، فهي تحتوي على مكونات مشابهة
00:07:29رغم ذلك، يمكنك رؤية أن لدينا البطاقات التي توضح صافي الثروة، ولدينا رسم بياني لاتجاه الثروة
00:07:33والمعاملات الأخيرة وأهدافنا المالية، ولدينا أيضًا الصفحات الفردية لتتبع
00:07:38هذه أيضًا. بجانب الواجهة يمكننا أيضًا اختبار بعض الميزات، لذا سأضيف معاملة
00:07:42جديدة هنا، ستكون بقيمة مائة وخمسين دولارًا للبقالة،
00:07:46يبدو أننا حصلنا على تحديث هنا وأيضًا في لوحة المعلومات تم تحديث صافي ثروتي
00:07:50لذا يبدو أنها تعمل هناك. أحد الأماكن التي قد يكون فيها Opus 4.6 قد تفوق على Opus
00:07:544.7 في المطالبة الواحدة هو أنه يمكنني إضافة حسابات هنا، لقد أضفت هذا الحساب للتو
00:07:58والشيء نفسه ينطبق على الأهداف والميزانية، لقد أضفت أيضًا ميزانية التعليم
00:08:03لذا يبدو أن Opus 4.6 أضاف ميزات أكثر بقليل، ولكن بصراحة
00:08:07طلبت للتو من Opus 4.7 إضافتها لي، فمن الواضح أنك في العادة لن تكتفي بمطالبة واحدة.
00:08:12بالنظر إلى الكود، سلك Opus 4.6 مسارًا مشابهًا مع تطبيق Vite React ولكن
00:08:16هناك شيء مثير للاهتمام لاحظته للتو وهو استخدامه لـ React 19 و React Router
00:08:20DOM 7، بينما استخدم Opus 4.7 نسخة React 18 وأيضًا React Router 6 رغم أنني
00:08:27متأكد أن Opus 4.7 لديه تاريخ انقطاع معرفي أحدث. بجانب ذلك، هناك فوز آخر لـ Opus 4.6 وهو
00:08:32أنه استخدم قاعدة بيانات للواجهة الخلفية لذا سيقوم بحفظ البيانات، يمكنك رؤية أنه يستخدم
00:08:36SQLite هنا ولدينا بعض قواعد البيانات، لذا هذا بالتأكيد فوز ولكن المكان الذي
00:08:40يخسر فيه هو أنه استخدم JavaScript على ما يبدو لكل هذا المشروع بينما استخدم Opus 4.7
00:08:45TypeScript بشكل صحيح. بعد ذلك لدينا نتيجة GPT 5.4 وبصراحة ليس لدي
00:08:50أي فكرة عما يفعله هنا، هذه ليست واجهة مستخدم قابلة للاستخدام، إنها تبدو سيئة جدًا في رأيي فكل شيء
00:08:55مزدحم للغاية، لا يعجبني الخط وأنا نعم لن أقضي
00:08:59الكثير من الوقت في هذا، هذا يبدو أسوأ بكثير من نتائج Claude، يمكنني التأكيد رغم ذلك
00:09:03أنه يعمل عندما نضيف بعض المال باستثناء أنه يقوم بتحديث الصفحة بالكامل أيضًا
00:09:07ولا يتحسن الأمر كثيرًا في الكود أيضًا، يبدو أن GPT 5.4 ببساطة لم يرغب في بدء
00:09:11مشروع كامل من هذا، لذا اكتفى بنهج بسيط جدًا حيث لدينا فقط
00:09:14ملف index.html وملف JavaScript والتنسيقات، وبالنسبة لقاعدة البيانات فهي أيضًا مجرد
00:09:19نص برمجي واحد لـ JavaScript، لا يستخدم قاعدة بيانات فعلية، بل يفعل كل شيء
00:09:23في الذاكرة مثل Opus 4.7، ومرة أخرى استخدم JavaScript لكل شيء بدلاً
00:09:28من TypeScript. أما بالنسبة لـ Gemini 3.1، سأكون صادقًا معكم، واجهت الكثير من المشاكل في محاولة
00:09:32تشغيل هذا التطبيق واضطررت فعليًا لإرسال عدة مطالبات متابعة لمجرد أنني كنت فضوليًا
00:09:36بشأن شكله الفعلي، وهو نوعًا ما يبدو تمامًا مثل نتيجة Opus 4.6، لا
00:09:41أعرف ما إذا كان لديهم نفس بيانات التدريب عندما كانوا يقومون بالواجهة ولكنها متشابهة جدًا
00:09:45ولا توجد أي من هذه الميزات تعمل فعليًا ولا يمكن النقر على أي من هذه التبويبات، Gemini 3.1
00:09:50ربما كان الأسوأ رغم أن 5.4 قريب منه، وذلك فقط بسبب الطريقة التي أنشأ بها
00:09:54التطبيق، سأقول إن Gemini 3.1 حاول في الواقع اتخاذ نهج جيد لهذا
00:09:59حيث اختار Next.js بدلاً من React Router وهو فكرة جيدة جدًا لأنه يعني أنه يمكنك
00:10:02استخدام مسارات خادم API وكان هذا تطبيقًا بسيطًا جدًا لذا لست معارضًا لفعل
00:10:07ذلك ولكن سأقول إنه استخدم Prisma بينما كنت سأفضل شيئًا مثل Drizzle.
00:10:10هذه الاختبارات فاجأتني بصراحة لأنني حتى الآن كنت مستخدمًا نهِمًا لـ Codex
00:10:15وقد ابتعدت عن Claude Code ولكن Opus 4.7 قد يعيدني إليه لأنه قدم
00:10:19تصميم واجهة جميلاً حقًا وبدا أن معظم التطبيق يعمل، من الواضح أن الأمر يعود
00:10:24لجودة المطالبات وأنا كنت أعطي مطالبة غامضة جدًا بشأن التقنيات، فعادة ما أطلب
00:10:28الأشياء المحددة التي أريدها ولكن مع ذلك أنا معجب جدًا بالنتيجة التي
00:10:32حصلنا عليها هنا. أنا فضولي لمعرفة رأيكم، ما هو طرازكم المفضل حاليًا؟ أخبروني
00:10:36في الوصف أدناه، واشتركوا هناك، وكما هو الحال دائمًا، أراكم في
00:10:49الفيديو القادم.

Key Takeaway

يقدم Opus 4.7 قفزة نوعية في تصميم واجهات المستخدم والبرمجة بـ TypeScript، لكنه يفرض تكلفة تشغيلية أعلى بنسبة 35% بسبب نظام التجزئة الجديد ومستويات التفكير العميقة.

Highlights

يستهلك طراز Opus 4.7 توكنز أكثر بنسبة تصل إلى 35% لنفس مدخلات الإصدارات السابقة نتيجة تحديث أداة التجزئة (tokenizer).

حقق الطراز قفزة أداء بنسبة 10% في مقياس SWE Bench Pro مقارنة بإصدار Opus 4.6.

يدعم المحرك الجديد صوراً بدقة أعلى بمقدار 3 أضعاف مما يحسن مهام استخراج البيانات واستخدام الكمبيوتر.

تراجع أداء السياق الطويل في اختبار (إبرة في كومة قش) بشكل ملحوظ مقارنة بالإصدار السابق 4.6.

يتفوق مستوى الجهد المرتفع (High effort) في Opus 4.7 على مستوى الجهد الأقصى في 4.6 مع استهلاك توكنز أقل.

Timeline

مواصفات Opus 4.7 وتحديات استهلاك التوكنز

  • يتميز الطراز الجديد بتحسن في البرمجة والرؤية والتحقق الذاتي من الأخطاء.
  • تتسبب أداة التجزئة المحدثة في زيادة استهلاك التوكنز بنسبة 35% لكل طلب.
  • تستخدم Anthropic طراز Opus 4.7 لاختبار ضمانات أمن سيبراني تمهد لإطلاق فئة Mythos الأقوى مستقبلاً.

يركز الإصدار الجديد على جودة المخرجات الإبداعية وواجهات المستخدم. تظل التكلفة الاسمية ثابتة لكن الاستهلاك الفعلي يرتفع بسبب طريقة معالجة النصوص ومستويات التفكير الإضافية. تعمل الشركة حالياً على تقييد ميزات الأمن السيبراني في هذا الطراز بشكل مصطنع لضمان السلامة قبل التوسع في نماذج أكثر تقدماً.

تحليل مقاييس الأداء وتدهور السياق الطويل

  • سجل الطراز تحسناً بنسبة 7% في النسخة الموثقة من مقاييس الأداء البرمجية.
  • يعاني Opus 4.7 من تدهور في استرجاع المعلومات ضمن السياقات الطويلة مقارنة بـ Opus 4.6.
  • يعتمد النموذج استجابة حرفية ودقيقة للتعليمات مما قد يتطلب تعديل المطالبات القديمة.

تظهر البيانات تفوقاً واضحاً في حل المهام البرمجية المعقدة، باستثناء اختبارات الأمن السيبراني التي انخفضت درجتها عمداً. يبرز تحسن كبير في الذاكرة المعتمدة على نظام الملفات، حيث يستطيع النموذج تذكر الملاحظات عبر جلسات طويلة. دقة اتباع التعليمات أصبحت أعلى، مما يعني أن النموذج لن يتجاهل أجزاء من الطلبات كما كانت تفعل النسخ السابقة.

إدارة مستويات الجهد وتكلفة التشغيل

  • يحتوي Claude Code الآن على مستوى جهد (فائق الارتفاع) كخيار افتراضي.
  • يعادل استهلاك التوكنز في مستوى الجهد المرتفع لـ 4.7 ما كان يستهلكه المستوى الأقصى في 4.6.
  • يؤدي الجمع بين التفكير العميق وأداة التجزئة الجديدة إلى حرق كميات ضخمة من التوكنز.

تتطلب الإدارة الفعالة للميزانية تجربة مستويات الجهد المختلفة لتقليل الاستهلاك دون فقدان الجودة. يُنصح بالتحول إلى مستوى الجهد المرتفع بدلاً من الفائق في معظم الحالات لتوفير التكاليف. الرسم البياني للمقارنة يثبت أن الكفاءة في مستويات الجهد المتوسطة لـ 4.7 تتجاوز قدرات النسخ السابقة بالكامل.

اختبارات تصميم واجهات المستخدم والمنافسة

  • يتفوق Gemini 3.1 في تنسيق الصور والخلفيات الثابتة للمواقع البسيطة.
  • يقدم Opus 4.7 واجهات بلمسة جمالية وتناسق ألوان أفضل من Opus 4.6 وGPT 5.4.
  • يحتل GPT 5.4 المركز الأخير في اختبارات التصميم بسبب المظهر المتكرر والنمطي للواجهات.

أظهرت تجربة إنشاء موقع مقهى بسيط أن Opus 4.7 يستخدم خطوطاً وتنسيقات أكثر ذوقاً من سلفه. رغم ذلك، حقق Gemini 3.1 نتيجة بصرية متفوقة بفضل توزيع العناصر في قسم 'قصتنا'. يعاني GPT 5.4 من ضعف في الهوية البصرية حيث تبدو جميع تطبيقاته متشابهة وتفتقر للإبداع التصميمي.

تطوير التطبيقات المعقدة وجودة الكود

  • بنى Opus 4.7 لوحة تحكم مالية كاملة باستخدام React وTypeScript في 20 دقيقة.
  • يتفوق Opus 4.6 في دمج قواعد بيانات SQLite وحفظ البيانات فعلياً في المطالبة الأولى.
  • فشل Gemini 3.1 وGPT 5.4 في تقديم تطبيقات برمجية متكاملة وقابلة للتشغيل من المرة الأولى.

عند اختبار بناء تطبيق إدارة مالية، أظهر Opus 4.7 احترافية عالية في الواجهة الأمامية (Frontend) وهيكلة TypeScript، لكنه اكتفى بتخزين البيانات في الذاكرة (In-memory). في المقابل، استخدم Opus 4.6 نسخة قديمة من React لكنه نجح في إنشاء قاعدة بيانات فعلية. أما المنافسون، فقد عانوا من مشاكل تقنية؛ GPT 5.4 قدم واجهة مزدحمة وغير قابلة للاستخدام، وGemini 3.1 فشل في تشغيل الوظائف الأساسية للتبويبات رغم اختياره لتقنية Next.js.

Community Posts

View all posts