قمت باختبار DeepSeek V4 مقابل Claude Code مقابل Codex

CChase AI
컴퓨터/소프트웨어AI/미래기술

Transcript

00:00:00في الأربع وعشرين ساعة الماضية، شهدنا تحديثات ضخمة
00:00:02على اثنين من أكبر نماذج الذكاء الاصطناعي في العالم.
00:00:04أولاً، حصلنا على إصدار GPT 5.5،
00:00:07الذي يتميز بنتائج اختبارات قياسية
00:00:10تتفوق على نموذج ميثوس الخاص بـ Claude.
00:00:12ثانياً، حصلنا على إصدار DeepSeek V4،
00:00:15وهو نموذج مفتوح المصدر والأوزان
00:00:18يمتلك نتائج قياسية تنافس هؤلاء الكبار في هذا المجال.
00:00:22إذن مع كل هذه النماذج الجديدة للاختيار من بينها،
00:00:24ما الذي يفترض بك، كمستخدم عادي، أن تفعله؟
00:00:27حسناً، سأساعدك اليوم في الإجابة على هذا السؤال
00:00:29حيث سأضع Opus 4.7 و GPT 5.5
00:00:33و DeepSeek V4 في مواجهة بعضهم البعض،
00:00:36حتى تتمكن من رؤية أيهم مناسب لك حقاً.
00:00:39والآن، قبل أن نبدأ اختبار المواجهة هذا
00:00:41بين GPT 5.5 داخل برنامج codecs،
00:00:45و DeepSeek V4 داخل برنامج open code،
00:00:47و Opus 4.7 داخل برنامج Claude code،
00:00:51دعونا نلقي نظرة سريعة على النتائج القياسية،
00:00:53خاصة هذين النموذجين الأحدث
00:00:54اللذين صدرا في الـ 24 ساعة الماضية.
00:00:56لنبدأ بالحديث عن التكلفة.
00:00:58الآن، DeepSeek V4، كما تعلمون،
00:01:00هو نموذج مفتوح المصدر والأوزان،
00:01:01لكن هذا لا يعني أنه يمكنك تشغيله على جهازك الخاص
00:01:04لأن هذا النموذج ضخم جداً.
00:01:05أنا أتحدث عن 1.6 تريليون معامل.
00:01:08أنت بحاجة إلى عتاد قوي جداً لتشغيله.
00:01:10لذا لا يزال علينا الدفع مقابل استخدامه.
00:01:11لا يزال يتعين علينا استخدام واجهة برمجة التطبيقات (API)،
00:01:13لكنه أرخص بكثير من المنافسين،
00:01:15أرخص بنحو ثماني مرات.
00:01:18ومن بين النماذج الثلاثة،
00:01:19يعد GPT 5.5 الجديد تماماً هو الأغلى سعراً،
00:01:22وهو أمر مفاجئ نوعاً ما لأنه بشكل عام،
00:01:24كانت شركة OpenAI أرخص من منافستها Anthropic.
00:01:28من حيث التكلفة التي ستتحملها
00:01:30لكل مليون رمز (token) من المخرجات.
00:01:32بالنسبة لـ GPT 5.5، ستكون التكلفة 30 دولاراً.
00:01:35بالنسبة لـ Anthropic، ستكون التكلفة 25 دولاراً.
00:01:38أما بالنسبة لـ DeepSeek، فستكون التكلفة 3.48 دولاراً.
00:01:41الآن، إذا كنا نتحدث عن رموز المدخلات،
00:01:44وهي جزء أصغر من الإجمالي،
00:01:46فإن GPT 5.5 و Opus 5.7 متطابقان.
00:01:49ستكون التكلفة 5 دولارات لكل مليون رمز مدخل.
00:01:53وبالنسبة لـ DeepSeek، فهي حوالي 1.70 دولار.
00:01:57إذن هو أرخص بكثير في المدخلات وأرخص بكثير في المخرجات.
00:02:01ومع ذلك، عندما يتعلق الأمر بـ 5.5،
00:02:03فهو أغلى بمرتين من 5.4.
00:02:06ومع ذلك، تدعي OpenAI أنه يستخدم رموزاً أقل بكثير
00:02:10بسبب قوته الكبيرة.
00:02:11لذا على الرغم من أنه ضعف سعر 5.4،
00:02:14إلا أنهم يقولون إنه من حيث استهلاك الرموز والتكلفة الفعلية،
00:02:17لنفس المهمة، ينتهي الأمر بأن يكون أغلى بنسبة 20%
00:02:20فقط عند انتهاء العمل بالكامل.
00:02:21لذا ضع ذلك في اعتبارك.
00:02:24لقد تحدثنا عن التكلفة، والآن لنتحدث عن النتائج القياسية.
00:02:25ما مدى جودة هذه النماذج على الورق؟
00:02:26أعلم أننا جميعاً اعتدنا نوعاً ما على النتائج القياسية.
00:02:27يجب أن نأخذها بحذر،
00:02:31ولكن لا يزال من المفيد إلقاء نظرة عليها،
00:02:32خاصة عندما ننظر إلى الأرقام
00:02:33التي أعلن عنها كل طرف لنفس الاختبار القياسي.
00:02:36كانت هناك ثلاثة اختبارات في فئة البرمجة
00:02:39أعلن عنها الأطراف الثلاثة جميعاً.
00:02:42وهي SWE bench verified، و SWE bench pro،
00:02:43و terminal bench 2.0.
00:02:46بالنسبة لـ SWE bench verified و SWE bench pro،
00:02:48كان Opus هو الفائز فيها.
00:02:50وفي اختبار terminal bench 2.0، كان GPT هو الفائز بوضوح بنتيجة 87.2،
00:02:52وهو بالمناسبة رقم أعلى
00:02:56مما أعلنته Anthropic لنموذج ميثوس.
00:02:59عذراً، أقصد ميثوس.
00:03:02وهذا أمر جنوني نوعاً ما.
00:03:03أنت تعلم، ذلك النموذج السري الذي لا يمكنهم إصداره،
00:03:05على ما يبدو أداؤه أسوأ في اختبار terminal bench 2 من GPT 5.5.
00:03:07الآن، يعد terminal bench 2.0 هو أكبر استثناء هنا.
00:03:10Opus 4.7 و V4 Pro متأخران كثيراً،
00:03:13لكن ألقِ نظرة على Opus 4.7 مقابل V4 Pro.
00:03:16الفرق أقل من نقطتين مع كونه أرخص بثماني مرات.
00:03:20وتشهد نفس القصة هنا
00:03:23مع اختبارات SWE bench verified و SWE bench pro.
00:03:24نعم، Opus يفوز.
00:03:26ولكن عندما نقارن المركز الثاني بالمركز الثالث
00:03:28والذي دائماً ما يكون V4،
00:03:31لا نجد تلك الفجوة الضخمة التي قد تتوقعها.
00:03:33أعني، خمس نقاط ليست شيئاً بسيطاً، كما تعلم،
00:03:36في SWE bench verified، النتيجة 85 مقابل 86.
00:03:38ولكن مرة أخرى، هو أرخص بثماني مرات ومفتوح المصدر.
00:03:41أنت تعلم، هناك بعض المقايضات الفعلية التي يمكننا القيام بها
00:03:45إذا لم نكن بحاجة إلى أقصى قوة.
00:03:46شيء آخر مثير للاهتمام للحديث عنه
00:03:49هو السياق الطويل حيث يكون أداء Opus 4.7 سيئاً جداً
00:03:51وفقاً للأرقام، بشكل أسوأ بكثير من 4.6،
00:03:55وهو أمر مذهل حقاً.
00:03:58وعندما نتحدث عن السياق الطويل
00:04:00حيث نحاول استرجاع الأشياء
00:04:01بين 500,000 رمز و مليون رمز،
00:04:034.7 في الواقع سيء للغاية.
00:04:06ويقدم أداءً أسوأ بكثير من DeepSeek و GPT 5.5.
00:04:08يمكنك إجراء نقاش كامل حول
00:04:12لماذا أنت حتى في نطاق 500,000 إلى مليون رمز؟
00:04:14في المقام الأول، كم عدد الأشخاص الذين يعملون هناك حقاً
00:04:17لأننا نواجه تدهوراً في السياق بغض النظر عما نفعله
00:04:20في تلك النقطة، وبغض النظر عن النموذج الذي تستخدمه.
00:04:22لكن من المثير للاهتمام أنه لأي سبب من الأسباب،
00:04:24لقد رأينا بعض التراجع
00:04:26عندما يتعلق الأمر بنماذج Anthropic.
00:04:27لكن الصورة الكبيرة، أعتقد أن النتيجة هي
00:04:29أن 5.5 قوي جداً.
00:04:32إنه يتفوق على Opus 4.7 في مقاييس معينة،
00:04:33ويخسر في مقاييس أخرى،
00:04:36لكنه نموذج قوي للغاية.
00:04:37وعلاوة على ذلك، حسناً، V4 Pro يتخلف
00:04:39بشكل عام.
00:04:42إنه في نطاق المنافسة مع كونه أرخص بكثير،
00:04:45وهو مرة أخرى خيار رائع لعميلك العادي.
00:04:48لأنه في الوقت الحالي يبدو أنه ليس لديك الكثير
00:04:52من الخيارات على جانب المصادر المفتوحة التي يمكن أن تنافس حقاً.
00:04:54والآن دعونا نقفز إلى اختبار المواجهة الفعلي
00:04:56بين هذه النماذج الثلاثة.
00:04:59ونحن نستخدم أداة ربط (harness) لكل نموذج من هذه النماذج.
00:05:00مع 5.5، سنستخدم codecs.
00:05:02مع Opus 4.7، سنستخدم Claude code.
00:05:04ومع DeepSeek V4 Pro، أنا أستخدم open code.
00:05:07وبالنسبة للاختبار الأول، ما سنفعله هو
00:05:10سنطلب منهم إنشاء محاكي طيران
00:05:11لنا باستخدام 3JS يعمل في المتصفح.
00:05:14يمكنك رؤية التوجيه هنا.
00:05:17أنا أقول، أريده أن يكون ممتعاً في الطيران.
00:05:18أريده أن يتمتع ببعض الثقل.
00:05:20أريد مرئيات قوية وأريد أن يستخدم أي
00:05:21هيكلية وأدوات يراها مناسبة.
00:05:25إذن الأمر واضح بما يكفي ليعرفوا ما يجب فعله،
00:05:27ومع ذلك هناك متسع كافٍ لنرى بعض الاختلاف
00:05:30بين النماذج.
00:05:33وبينما سننظر إلى ما يمكنهم
00:05:34فعله في محاولة واحدة، سنقوم بالعديد من التكرارات
00:05:36لهذا وسنقدم توجيهات متابعة.
00:05:38لأنه بقدر ما هو رائع أن نرى مدى جودة أدائه في محاولة واحدة،
00:05:40فإن هذا ليس ما نفعله حقاً في الحياة الواقعية، أليس كذلك؟
00:05:44أريد أن أرى كيف سيكون أداؤه عندما أعطيه توجيهات متابعة
00:05:46ومدى السرعة التي يستغرقها للوصول إلى شيء أحبه.
00:05:49وعندما نقارن هذه النماذج الثلاثة،
00:05:52هناك حقاً أربعة أشياء سأنظر إليها.
00:05:54سيكون الوقت.
00:05:55كم يستغرق بناؤه؟
00:05:57التكلفة، كم عدد الرموز التي نستخدمها؟
00:05:58الجودة، ما مدى جودته؟
00:06:01ثم الرابعة هي نوعاً ما الأجواء (vibes).
00:06:02وهذا يرتبط نوعاً ما بالجودة.
00:06:04إنه أمر شخصي للغاية.
00:06:06أيهم أحب أكثر حقاً؟
00:06:06وملاحظة أيضاً، كل النماذج، كل أدوات الربط الثلاث
00:06:09تستخدم أيضاً نفس المهارات تماماً.
00:06:11لذا لنبدأ مع DeepSeek والأسئلة التي يطرحها علينا.
00:06:13إنه يسأل عن نوع نموذج الطيران الذي نريده.
00:06:16لنختر محاكاة كاملة.
00:06:18إنه يوصي بالمحيطات والجزر للتضاريس.
00:06:20سوف نختار ذلك.
00:06:22لنرى كيف، ثم يسأل عن تفضيلات الكاميرا.
00:06:23لنقم بكليهما.
00:06:25لنرى ما إذا كان قادراً على منحنا تبديلاً
00:06:26لكل من منظور الشخص الأول ومنظور الشخص الثالث.
00:06:27سوف نختار تفضيلات الأدوات الموصى بها.
00:06:29وسنختار نموذجاً منخفض المضلعات (low poly)
00:06:32للطائرة والمرئيات نفسها.
00:06:33والآن ننتقل إلى codecs، نفس نوع الأسئلة.
00:06:35على الرغم من أنه يسألنا ثلاثة فقط.
00:06:38يقول ما نوع الطيران الذي يجب أن تحسنه هذه الخطة؟
00:06:40لنختر محاكاة قوية.
00:06:42ما هي التجربة القابلة للعب التي تهم أكثر للمتصفح؟
00:06:44لنقم بدورة إقلاع من الجزيرة.
00:06:48من المثير للاهتمام كيف أن لديهم جميعاً نفس الشيء.
00:06:50وما هي الكاميرا وعرض الطائرة؟
00:06:52سأقوم بعمل تبديل لهذا أيضاً.
00:06:54وبالنسبة لـ Claude code، سنقوم بدراسة تعلم المحاكاة
00:06:56لمدخلات المحيط والجزر.
00:06:58سنستخدم لوحة المفاتيح والماوس.
00:07:02لن يتركها تذهب للعمل.
00:07:04لذا وضع الخطة بشكل عام متشابه جداً بين الثلاثة.
00:07:05تقريباً نفس الأسئلة مثل:
00:07:09ما الذي تريده أن تكون عليه الفيزياء؟
00:07:11ما الذي تريده أن تكون عليه التضاريس؟
00:07:12ما الذي تريده أن تكون عليه زاوية الكاميرا؟
00:07:13لذا لا يوجد فرق كبير هناك.
00:07:15ولنرى ما الذي سيعودون به من حيث الخطة.
00:07:17حسناً، اكتملت الخطط الثلاث كلها.
00:07:19لذا دعونا نراجع كلاً منها بسرعة كبيرة
00:07:20ونرى بعض الاختلافات.
00:07:22أول واحد ننظر إليه هنا هو DeepSeek.
00:07:24وهو بسيط جداً من حيث الخطة التي يضعها.
00:07:26لذا فهو يعطينا هيكل المشروع
00:07:29ثم يتحدث بسرعة كبيرة عن فيزياء الطيران،
00:07:31والبيئة، والكاميرا، وتراكب شاشة العرض (HUD)،
00:07:33ومجرد بضع نقاط أساسية.
00:07:35من ناحية أخرى، عندما ننظر إلى 5.5 داخل codecs،
00:07:37'لأنه ملخص، وتغييرات رئيسية،
00:07:40يدخل في تفاصيل التنفيذ، وخطة الاختبار،
00:07:43بالإضافة إلى الافتراضات
00:07:46بالإضافة إلى الافتراضات
00:07:47التي توضح كل ذلك لنا.
00:07:49ثم لدينا خطة "Claude Code"، التي استغرقت أطول وقت.
00:07:50استغرقت حوالي خمس دقائق، لكنها الأكثر شمولاً على الإطلاق
00:07:53لأنها تحتوي على السياق، والمكدس.
00:07:55يتحدث التخطيط عن نموذج الطيران.
00:07:57إنه يدخل في تفاصيل لحظات الطيران المختلفة،
00:08:00يتحدث عن التوقف (stall)، مثل جرس التحذير من التوقف.
00:08:02إنه يدخل في تفاصيل دقيقة للغاية.
00:08:03يتناول أدوات التحكم، والعالم، والتعديلات،
00:08:06الطائرة الفعلية التي سنستخدمها، والأداء،
00:08:08ويستمر في ذلك دون توقف.
00:08:10لذا فهو مفصل للغاية.
00:08:11الآن سنجعل الثلاثة ينفذون خطتهم،
00:08:14وسنرى كيف تبدو النتيجة النهائية.
00:08:15لذا كان "GPT 5.5" داخل "Codecs" هو الأول في الانتهاء.
00:08:19دعونا نرى كيف يبدو الأمر.
00:08:20إليكم محاكي الطيران الذي حصلنا عليه.
00:08:22لدينا بعض السحب في السماء.
00:08:26لدينا ما يشبه مؤشر زاوية الهجوم (AOA) هناك.
00:08:31لدينا سرعتنا في الأسفل،
00:08:34ودعونا نرى ما إذا كان بإمكاننا حقاً إقلاع
00:08:35هذا الشيء عن الأرض.
00:08:36سألاحظ أنه لا يوجد شيء مثل مدرج طيران.
00:08:38إنه مجرد عشب عادي.
00:08:39وبدلاً من ذلك كان من المفترض أن تكون شيئاً كجزيرة.
00:08:42على الرغم من أنه عندما تبدأ الكاميرا في التخبط،
00:08:45يمكنك رؤية المدرج في الأسفل لثانية واحدة.
00:08:48حسناً، نحن نتوقف عن الطيران ونحن فقط،
00:08:50لا يمكننا حتى الإقلاع عن الأرض، أليس كذلك؟
00:08:51لذا فإن هذا في الواقع صعب قليلاً،
00:08:54إنه في الواقع نوعاً ما صعب.
00:08:55لذا ما سأفعله هو أنني سأعطيه
00:09:00مطلباً ثانياً أطلب منه جعل الطيران أسهل قليلاً
00:09:03لأن لديه الكثير من الأمور هنا،
00:09:05لكن هذا صعب.
00:09:06لذا كتبت: إنه صعب حقاً في الطيران.
00:09:08هل يمكننا جعل استخدامه أسهل؟
00:09:10أي أسلوب بسيط (arcade) أكثر قليلاً.
00:09:12وأيضاً الرسوميات تحتاج إلى بعض التحسين.
00:09:15دعونا نرى كيف سيفعل ذلك.
00:09:16ملاحظة: استغرق "5.5" حوالي سبع دقائق
00:09:21لإنشاء تلك المحاولة الأولى لنا.
00:09:23واستغرق 63,000 رمزاً (token).
00:09:26حسناً، لقد قال إنه جعل الطيران أسهل قليلاً
00:09:28وقام بتحديث الرسوميات.
00:09:29دعونا نرى كيف تبدو المحاولة الثانية.
00:09:32إليكم ما حصلنا عليه.
00:09:32الرسوميات تبدو أفضل بالتأكيد،
00:09:34لكن دعونا نرى ما إذا كان بإمكاننا حقاً الإقلاع من المدرج
00:09:36هذه المرة.
00:09:37حسناً، الخانق عند مئة بالمئة،
00:09:4150، 60، سبعة.
00:09:43ما هي سرعة الدوران لطائرة سيسنا؟
00:09:46حسناً، 70، 80، 90.
00:09:49يجب أن نكون قادرين على الإقلاع عن الأرض الآن.
00:09:51حسناً، الطريق الخطأ.
00:09:53هيا، أقلع عن الأرض، أقلع عن الأرض.
00:09:56لا، ربما سيؤدي هذا إلى توقفي عن الطيران، أليس كذلك؟
00:09:58نعم، توقف (stall).
00:09:59حسناً، هذا لا يزال يحتاج إلى بعض العمل.
00:10:02لذا دعونا نعطي "Codex" محاولة أخرى.
00:10:05دعونا نعطي "5.5" فرصة أخرى
00:10:07لجعل هذا قابلاً للعب حقاً.
00:10:08لذا أخبرته أنني لا أستطيع حتى إخراج الطائرة
00:10:10عن الأرض والدخول في حالة الطيران.
00:10:11نحن بالتأكيد بحاجة لجعل الإقلاع سهلاً
00:10:12والطيران فعلياً بهذا الشيء.
00:10:14حسناً، إنه يقول إنه أصلح مشكلة الإقلاع.
00:10:16على ما يبدو أن المكابح كانت مغلقة من قبل.
00:10:19لا أعرف ما إذا كان هذا هو سبب عدم قدرتنا على القيام بذلك.
00:10:21أوه، لم يقم بضبطها تلقائياً للإقلاع.
00:10:24الموازن (flaps)، نعم، هذا كان،
00:10:25كان لدينا هذا على وضع المحاكاة الفائق.
00:10:29لكن إليكم المحاولة رقم ثلاثة لمحاكي الطيران الخاص بنا.
00:10:32دعونا نرى كيف سنفعل.
00:10:34إذن، هل يمكننا الإقلاع عن الأرض؟
00:10:36أوه، نحن نقفز على المدرج
00:10:37هذه المرة بشيء ما.
00:10:38حسناً رائع، لقد أقلعنا عن الأرض.
00:10:41نحن نتحرك فعلياً.
00:10:44دعونا نرى ما إذا كان بإمكاننا الوصول إلى إحدى هذه الحلقات.
00:10:45أعني، الرسوميات ليست سيئة للغاية، كما تعلم،
00:10:49لشيء تم إنشاؤه في أقل من 10 دقائق.
00:10:52يبدو دقيقاً جداً من حيث، كما تعلم،
00:10:56إنه يعطيني معدل الصعود أو الهبوط الخاص بي، كما تعلم،
00:10:59قدم في الدقيقة في الأسفل،
00:11:00ارتفاعي الفعلي، العقد، الاتجاه، الارتفاع فوق سطح الأرض (AGL).
00:11:04لذا فهو متطور نسبياً
00:11:06من حيث تتبع كل شيء.
00:11:08أعني، هذا المؤشر الصغير في المقدمة،
00:11:10أعني، يبدو وكأنه مؤشر زاوية الهجوم، كما تعلم،
00:11:13وهو أمر رائع.
00:11:14لذا هناك بعض الأشياء الجيدة التي تحدث.
00:11:18أدوات التحكم الفعلية تبدو غير دقيقة قليلاً.
00:11:21كما ترى، لا أستطيع التحكم في هذا على الإطلاق،
00:11:23لكن بشكل عام، ليس سيئاً.
00:11:25كما تعلم، يمكننا نوعاً ما أن نصطدم بهذا
00:11:27ونرى ما سيحدث عند، كما تعلم، 18,000 قدم في الدقيقة.
00:11:31لكن نعم، كما تعلم، مقابل 66,000 رمز (token)،
00:11:36حوالي 10 دقائق، 15 دقيقة أو نحو ذلك، تقريباً،
00:11:40كما تعلم، مع الأخذ والرد،
00:11:41لا أعتقد أن هذا سيئ على الإطلاق.
00:11:42الآن دعونا نلقي نظرة على "DeepSeek".
00:11:44استغرق الأمر حوالي 10 دقائق للقيام بذلك.
00:11:46ومن حيث الرموز، 63,000 و 44 سنتاً.
00:11:51إذن 44 سنتاً، 10 دقائق.
00:11:53وهنا ما خرج به "DeepSeek" لنا.
00:11:56ليس لدي أي فكرة.
00:12:00عما أنظر إليه.
00:12:03من المفترض أن يكون هذا منظور الشخص الثالث.
00:12:06من المفترض أن يكون هذا قمرة القيادة.
00:12:07ومن الواضح أن محاولتنا الأولى مع "DeepSeek"
00:12:11كانت كارثة أخرى.
00:12:13لذا أخبر "DeepSeek" أن المحاكي عبارة عن فوضى عارمة.
00:12:16الرسوميات مليئة بالأخطاء تماماً
00:12:17ولا أستطيع قيادة أي شيء.
00:12:20يرجى الإصلاح.
00:12:21وإليكم كيف تبدو محاولتنا الثانية.
00:12:24لا أزال ليس لدي أي فكرة.
00:12:26ليس لدي أي أدنى فكرة.
00:12:28عما هو "DeepSeek" بحق الجحيم.
00:12:30أوه، مهلاً، هناك طائرة.
00:12:32أوه، هناك شيء ما.
00:12:33أنا، نعم، هذا، هذا وحشي.
00:12:38ولأكون صادقاً، أشعر أنه حتى لو أعطيته طلباً آخر
00:12:42للقيام بذلك، سأحتاج إلى أن أكون محددًا جداً جداً
00:12:44حول ما نحاول القيام به، وهو مرة أخرى،
00:12:47يقل كثيراً عما فعلناه مع "Codex".
00:12:49لقد كانت، كما تعلم، أوامر برمجية (prompts) باهتة نوعاً ما.
00:12:51لقد كنت قادراً على الحصول على شيء قريب على الأقل،
00:12:53حتى في المحاولة الأولى.
00:12:54من الواضح أنه يكافح تماماً
00:12:57مع الرسوميات.
00:12:58نحن فقط، لا أعرف حتى كيف أصف هذا،
00:13:01لكن مهلاً، كان رخيصاً للغاية.
00:13:03الآن دعونا نلقي نظرة على ما كان "Claude Code"
00:13:07قادراً على تقديمه لنا كمرجع.
00:13:09استغرق الأمر 13 دقيقة لتنفيذ الخطة فعلياً.
00:13:12الخطة نفسها استغرقت خمس دقائق.
00:13:13لذا دعونا نقول 20 دقيقة للوصول إلى المحاولة الأولى.
00:13:17وبالنسبة لإجمالي الرموز (tokens)،
00:13:19هذه المحاولة استغرقت حوالي 15% زائد الـ 5% قبل الخطة.
00:13:22لذا نحن نتطلع إلى، حسناً، عذراً،
00:13:24نحن نتطلع إلى 11% سياق زائد 5% قبلها.
00:13:28إذن لنقل 20 دقيقة، 150,000 رمز لـ "Claude Code"،
00:13:33وهو بالتأكيد الأكثر تكلفة
00:13:34والأبطأ من بينهم جميعاً.
00:13:36وهنا محاولة "Claude Code" لهذا الأمر.
00:13:39لأي سبب من الأسباب، نحن في الجو على الفور.
00:13:43نحن نتوقف عن الطيران.
00:13:44نحن في طيران بالأجهزة (IFR).
00:13:45لا أعرف ما الذي يحدث.
00:13:48نحن على وشك تحطيم شيء ما.
00:13:50هل يمكننا إنقاذ هذا؟
00:13:51هل يمكننا الخروج من هذا الغوص؟
00:13:53لا، نحن نتوقف عن الطيران، لا، نحن انتهينا.
00:13:54حسناً، هذا مثير للاهتمام.
00:13:56مرة أخرى، إنه يقذفنا فوراً في الهواء.
00:14:00نحن في السحب.
00:14:02نحن نتوقف عن الطيران.
00:14:03لا أعرف ما الذي يحدث.
00:14:05نحن بحاجة، نحن بحاجة إلى محاولة ثانية.
00:14:08لذا كتبت: عند التحميل، يتم إلقائي فوراً في الهواء.
00:14:11من الصعب التحكم فيها.
00:14:12أريد أن أبدأ على المدرج وأريد أن يكون الطيران أسهل.
00:14:15أوه، وبالمناسبة، قم بتحسين تلك الرسوميات أيضاً.
00:14:17لذا استغرق الأمر حوالي أربع دقائق، لكنه أجرى بعض التغييرات.
00:14:20سوف نبدأ على المدرج.
00:14:22لقد قام بتغيير التروس.
00:14:23لذا الآن هي تروس ثلاثية العجلات وبعض الأشياء الأخرى.
00:14:24دعونا نرى كيف تبدو.
00:14:26حسناً، ها هي.
00:14:27مرة أخرى، يتم إلقاؤنا فوراً في بنك من الضباب.
00:14:29أحاول التحكم في هذا الشيء.
00:14:31وأنا فقط، نعم، لا توجد سيطرة على هذا على الإطلاق.
00:14:33حسناً، نحن سوف نعطي،
00:14:34نحن سوف نعطي "Claude Code" فرصة أخرى هنا.
00:14:37لذا أخبرته أنها لا تزال تقذفني فوراً
00:14:39في السماء.
00:14:40قلت، دعونا نذهب مع طابع أكثر بساطة (arcade)
00:14:42في أدوات التحكم.
00:14:43أعتقد أنه كان ينبغي علينا فعل ذلك
00:14:44مع الأوامر الأولية للثلاثة.
00:14:46أعتقد أن السعي وراء محاكاة واقعية،
00:14:50إنه حقاً يكافح لـ،
00:14:53أعتقد أن القيام بذلك بطريقة لا تزال سهلة الاستخدام.
00:14:57أعتقد أنه ربما يقوم بعمل جيد تحت الغطاء
00:14:59من حيث، حسناً، زاوية الهجوم.
00:15:01حسناً، أنت تتوقف عن الطيران عند هذا، كما تعلم،
00:15:02الزاوية مقابل السرعة وكل ذلك.
00:15:04ولكن في الواقع معالجة هذا من الكمبيوتر
00:15:07هي في الأساس مستحيلة.
00:15:09على الرغم من أنني أعتقد أن أشياء الضباب غريبة حقاً.
00:15:12لذا دعونا نرى ما إذا كان بعد الجولة الثانية من الأوامر
00:15:15قادراً على القيام بعمل أفضل قليلاً
00:15:16لأن "GPT 5.5" قام بعمل أفضل بكثير، بكثير.
00:15:20لذا أجرى "Claude Code" بعض التغييرات الأخرى،
00:15:22جعلها أكثر سهولة في الاستخدام.
00:15:23ودعونا نرى ما إذا كنت لا أزال أذهب
00:15:24في هذه المرة، ما زلت أسعى للحصول على رخصة الطيران الآلي.
00:15:26أجل، ما زلنا مستمرين.
00:15:28ما زلنا نسعى للحصول على رخصة الطيران الآلي.
00:15:30نحن هنا، لكن كما تعلم، يمكنني رؤية ذلك نوعاً ما.
00:15:33يمكنني التحقق من لوحة أجهزة الطيران الخاصة بي.
00:15:35حسناً، نحن نغادر المدرج.
00:15:37نعم، حسناً.
00:15:42هل يمكنني... لماذا توجد شجرة في المدرج؟
00:15:44أحاول الصعود للأعلى.
00:15:46هل يمكنني الارتفاع؟
00:15:47هل يمكنني تعديل زاوية الميل؟
00:15:49انقر على اللوحة لتثبيت مؤشر الماوس، ماذا؟
00:15:53أوه، نحن في الجو.
00:15:54لا، لا، لقد تحطمنا.
00:15:57لذا نعم، أعتقد أن هذه النتيجة واضحة جداً.
00:16:02GPT 5.5 هو الفائز بلا شك، في رأيي.
00:16:06جاء Claude Code في المركز الثاني.
00:16:08أود أن أمنحه المركز الثاني.
00:16:10بالتأكيد، لقد عانى كثيراً
00:16:13حتى مع الأوامر التي قدمناها له.
00:16:14لنكن صادقين، لم نعطه أوامر جيدة.
00:16:16أعتقد أنه مع المزيد من الوقت وأوامر أفضل،
00:16:19وبضع محاولات ذهاب وإياب إضافية،
00:16:20كنا سنصل به إلى النتيجة التي نريدها.
00:16:21على الأقل كان لديه طائرة، وكان لديه مدرج.
00:16:25كانت هناك أشجار على المدرج،
00:16:26لكن كانت لديه الأشياء الفعلية التي احتجناها
00:16:29مقارنة بـ DeepSeek مع OpenCODE.
00:16:32لم تكن لدي أدنى فكرة عما كان يحدث هناك.
00:16:34كانت فوضى عارمة.
00:16:35أشعر أنني كنت سأضطر للبدء من جديد
00:16:36من البداية، وكأنني أعطيه أمراً محدداً جداً.
00:16:38لم يكن الأمر قريباً حتى من كونه قابلاً للتعامل معه،
00:16:39لكن GPT 5.5 منذ البداية، كما تعلم،
00:16:42كانت الأوامر غامضة بعض الشيء.
00:16:44أعتقد أنه قدم أداءً جيداً حقاً.
00:16:45استخدم 5.5 أيضاً ما مجموعه 66 ألف رمز (Token).
00:16:48ننظر هنا إلى Opus معاً،
00:16:52حوالي 200,000 رمز.
00:16:53أي ربع عدد الرموز، وأساساً ربع التكلفة.
00:16:56وكان أسرع قليلاً.
00:16:58أعني، في هذه المرحلة، لا يهمني حتى
00:16:59كيف استغرق OpenCODE وقتاً أطول من GPT 5.5 أيضاً.
00:17:03لقد كان سيئاً ببساطة، لنكن صادقين، لقد كان سيئاً للغاية.
00:17:07الآن دعونا ننتقل إلى الاختبار رقم اثنين.
00:17:10في هذه المرة، سنطلب منهم
00:17:12إنشاء صفحة هبوط تستعرض عمل WebGPU المعتمد على التظليل (Shader)
00:17:16باستخدام 3JS.
00:17:18الآن، أعمال تظليل WebGPU هي نوع الأشياء التي تراها
00:17:21على مواقع الجوائز.
00:17:23أتحدث عن مواقع مثل Igloo، هذا النوع من الأشياء،
00:17:26رسومات متطورة للغاية.
00:17:28تبدو وكأنها لعبة فيديو.
00:17:29إنها تستخدم بشكل أساسي بطاقة الرسوميات في جهاز الكمبيوتر الخاص بك
00:17:32لتقديم كل هذه الأشياء.
00:17:34الآن، لا أتوقع من أي منهم أن يحصل على أي شيء يقترب حتى
00:17:37مما نراه هنا، لكني أريد أن أرى ما يمكنهم فعله
00:17:40باستخدام تقنية التظليل بشكل أساسي.
00:17:42هذا بالتأكيد خطوة أعلى من صفحة الهبوط
00:17:45التقليدية الخاصة بـ SaaS.
00:17:46أريد أن أرى ما يمكنهم فعله ودفعهم
00:17:48إلى الحدود القصوى في عالم تصميم الويب.
00:17:50الآن، لقد منحتهم جميعاً مهارة تشرح بالفعل
00:17:53كيفية القيام بهذا النوع من الأشياء.
00:17:55لذا ليس الأمر وكأنهم في الظلام تماماً
00:17:57ولا يوجد لأحدهم ميزة على الآخر.
00:18:00الشيء الوحيد الذي أخبرتهم به هو أنني أريدها أن تبدو عصرية
00:18:02ومذهلة بصرياً، شيئاً قد تراه في جوائز التصميم
00:18:05وأن يتم الاستخدام الذكي لمعالجة الـ GPU.
00:18:08لذا يمكنهم اختيار أي هيكل برمجي ومشروع
00:18:10يفضلونه واستخدام حكم جيد في مفهوم الصفحة الرئيسية،
00:18:13واجهة المستخدم والتفاعلات.
00:18:15وكما في الاختبار الأول، جميعهم في وضع التخطيط.
00:18:17إذاً دعونا نبدأ.
00:18:18حسناً، لقد أنهوا جميعاً خطتهم، ومن المضحك أن
00:18:21أياً منهم لم يطرح عليّ أي أسئلة،
00:18:22على الرغم من أننا وضعناهم في وضع التخطيط.
00:18:24إذاً دعونا نلقي نظرة على GPT 5.5 أولاً.
00:18:28إنه يخبرنا أنه سيقوم بعمل صفحة رئيسية تفاعلية
00:18:30كاملة المساحة تعتمد على GPU.
00:18:32المفهوم سيكون عبارة عن مجال إشارة حي
00:18:34مع شيء يشبه الجسيمات الكثيفة.
00:18:36سنرى كيف سيبدو ذلك في النهاية.
00:18:38وبشكل عام، إنها صفحة هبوط بأسلوب بسيط ومميز.
00:18:41مشهد WebGPU تفاعلي بالكامل
00:18:43مع محاكاة حوسبة تتفاعل مع مؤشر الماوس.
00:18:46حسناً، بالنسبة لـ DeepSeek، إنها خطة قصيرة ولطيفة،
00:18:50تماما كما رأينا مع محاكي الطيران.
00:18:53نأمل أن نحصل على نتيجة أفضل هذه المرة،
00:18:54لكنها قسم رئيسي مع 75,000 جسيم معالج بواسطة الـ GPU.
00:18:58أخمن أن جميعهم سيختارون
00:19:01نوعاً ما من سمات الجسيمات في الصفحة الرئيسية.
00:19:04لذا سيكون هناك تفاعل مع الماوس.
00:19:08سيكون هناك تهيئة لمرة واحدة.
00:19:10وبعد ذلك يجب أن نرى أشياء مثل التوهج (Bloom)،
00:19:13الانحراف اللوني، وتأثير التعتيم المخصص وبعض حبيبات الفيلم.
00:19:16سنرى كيف سيبدو ذلك في النهاية.
00:19:19ثم لدينا خطة Opus 4.7 مرة أخرى،
00:19:21تذهب لشيء الجسيمات مع التوهج
00:19:23وستكون تفاعلية مع الماوس.
00:19:25سنرى ما إذا كان أي من هذه يبدو مختلفاً بالفعل
00:19:27لأنه في الظاهر، تبدو خططهم متشابهة جداً.
00:19:29إذاً الأول الذي انتهى كان 5.5.
00:19:32استغرق الأمر حوالي ست دقائق.
00:19:34وفيما يتعلق بالرموز، استخدمنا 107 ألف.
00:19:37دعونا نرى ما قام ببنائه لنا.
00:19:40وها هو ما أنشأه لنا.
00:19:42الآن، هذا مشرق للغاية.
00:19:45لذا من الصعب حتى رؤية الجسيمات الفعلية،
00:19:47لكنك تعلم، بينما نقوم بالتمرير لأعلى ولأسفل،
00:19:50هناك رسوم متحركة تحدث في الخلفية
00:19:52بالإضافة إلى، كما تعلم، بعض تغييرات الألوان الدقيقة.
00:19:56يبدو أنه في الوقت الحالي من المفترض أن يكون الماوس الخاص بنا
00:20:00يجذب الجسيمات.
00:20:01ولدينا، سأنقل هذا إلى هنا.
00:20:03لقد قدم بعض الخيارات مثل الطرد مقابل الانجراف.
00:20:08لكن مرة أخرى، من الصعب رؤية ذلك
00:20:11بسبب مدى سطوعه.
00:20:12لذلك أخبرته أنه من الصعب رؤية الجسيمات
00:20:14بسبب السطوع.
00:20:14كما أنها تستهلك الكثير من تقنية الصفحة الرئيسية.
00:20:16إذاً هل يمكننا تقليل السطوع قليلاً
00:20:18وأيضاً دفعه إلى اليمين أكثر قليلاً؟
00:20:20لأنه في الوقت الحالي هو قوي بشكل طاغٍ.
00:20:23لا يمكنك حتى قراءة النص الموجود هنا على اليسار
00:20:25بسبب مدى سطوع هذه الجسيمات.
00:20:27وها هو التحديث بعد الجولة الثانية.
00:20:30إنه أفضل قليلاً.
00:20:31إنه ليس طاغياً ويترك بعض المساحة للنص.
00:20:35على الرغم من أنني سأقول إنه يبدو ضبابياً تقريباً،
00:20:39لكنك تعلم، ليس سيئاً.
00:20:41إنه وضع يهدف للقيام بما أخبرناه به
00:20:44بالنظر إلى المشكلة الغامضة نوعاً ما.
00:20:46لذا أنا لست مبهوراً بالتصميم الذي توصل إليه،
00:20:49لكنني لست منزعجاً منه أيضاً.
00:20:51الآن دعونا نلقي نظرة على Claude Code
00:20:52لأنه بينما كنا نقوم بكل هذا،
00:20:55DeepSeek لا يزال هنا في الخنادق
00:20:57يحاول معرفة ذلك.
00:20:58وها هو ما قدمه لنا Claude Code.
00:21:01تقريباً لا شيء.
00:21:06لست متأكداً مما إذا كان يقول الخلفية،
00:21:10أعتقد أن الخلفية بأكملها من المفترض أن تكون
00:21:14WebGL، هذا ما أفترضه.
00:21:19إنها متواضعة جداً،
00:21:21وهو ما أعتقد أنه شيء يمكنك القيام به تماماً.
00:21:24أعني، على الشاشة لا يبدو،
00:21:25يبدو رائعاً نوعاً ما، لكن لأكون صادقاً،
00:21:28كنت أبحث عن شيء أكثر إبهاراً.
00:21:31لذا في المحاولة الثانية،
00:21:31عندما أخبرته أن يجعله أكثر إبهاراً،
00:21:34لم يكن هناك فرق كبير.
00:21:35على الرغم من أنه دقيق للغاية.
00:21:38هناك نوع من حبيبات الفيلم،
00:21:40تقريباً مثل هذا الضباب الذي ينتقل من الأسفل إلى الأعلى.
00:21:43لذا فهو شيء دقيق جداً.
00:21:45ويمكنك أن ترى هنا في الأسفل،
00:21:47إنه يتتبع عدد الإطارات في الثانية.
00:21:49إنه يستخدم 250,000 جسيم.
00:21:51لذا، أعني أنه يبدو رائعاً بصدق.
00:21:54إنه ليس مبهراً جداً.
00:21:56لذا فهو بالتأكيد مسألة ذوق.
00:21:58إجمالي الرموز في جانب Claude Code كان حوالي 175,000،
00:22:01واستغرق وقتاً أطول قليلاً من 5.5 داخل Codex.
00:22:05الآن دعونا نلقي نظرة على DeepSeek،
00:22:07الذي استهلك 116,000 رمز حتى الآن.
00:22:10لقد استغرق أطول وقت أيضاً،
00:22:12لكن إجمالي التكاليف نتحدث مرة أخرى، أقل من دولار.
00:22:15وها هو ما قدمه لنا.
00:22:17لذا فهو نوع من مجال الجسيمات
00:22:21الذي يتبع الماوس الخاص بي نوعاً ما.
00:22:25مثير للاهتمام.
00:22:27أعتقد أنه قد يسبب لك نوبة صرع.
00:22:29بصراحة، بخلاف ذلك، إنه ممل جداً.
00:22:35التدفق، كما تعلم، الأشعة السينية هنا تغير الألوان نوعاً ما،
00:22:39لكن نعم، قام بإنشاء هذا الشيء تقريباً.
00:22:43بعد إخبار DeepSeek بالقيام بجولة أخرى،
00:22:45عاد بهذا،
00:22:46حيث أصبح الآن يحتوي على شيء يشبه المنظر الجانبي الغريب.
00:22:49هناك بعض الأشياء الزرقاء التي تحدث في الخلفية.
00:22:53والآن هذا الشيء الذي يشبه جسماً طائراً (UFO)،
00:22:55والذي يستجيب لنوع من الماوس الخاص بك،
00:22:58لكن نعم، إنه شيء ما.
00:23:02وبشكل عام، كان عدد الرموز من DeepSeek 130 ألف رمز
00:23:05بتكلفة 1.43 دولار.
00:23:08لذا بعد كل تلك الاختبارات، إلى أين يوصلنا ذلك حقاً؟
00:23:13إذاً الآن دعونا نتحدث عن النتائج النهائية.
00:23:15عندما يتعلق الأمر بالاختبار رقم واحد،
00:23:16الذي كان محاكي الطيران، الفائز واضح.
00:23:18كان ذلك GPT 5.5 داخل Codex.
00:23:21كان أسرع من Opus 4.7 داخل Claude Code.
00:23:25كان أيضاً أسرع وكانت النتيجة النهائية هي الأفضل بفارق كبير.
00:23:29أداء DeepSeek كان فظيعاً في محاكي الطيران.
00:23:32لم يكن قريباً حتى مما كنا نحاول القيام به.
00:23:34كنت سأضطر للاستمرار في توجيهه،
00:23:35وتوجيهه، وتوجيهه حتى يقترب
00:23:38من الجولة الأولى لـ 5.5 و Opus 4.7 و Claude Code
00:23:43الذي كان، إيه، لم يكن مروعاً.
00:23:46لأنه حقاً لم يعمل في البداية،
00:23:48ولكن بعد بضع أوامر، يمكنك القول،
00:23:50تمكنا من الوصول به إلى مستوى يعادل
00:23:52ما كان يفعله GPT 5.5.
00:23:54كان ذلك سيتطلب المزيد من المطالبات.
00:23:55كان سيستغرق المزيد من الوقت
00:23:57وسيكون في نهاية المطاف أكثر تكلفة.
00:23:59إذن، الفائز بوضوح هو 5.5.
00:24:01أما فيما يتعلق بصفحة هبوط Web GPU،
00:24:03مرة أخرى، عانى DeepSeek هنا.
00:24:04لم أكن من المعجبين بذلك.
00:24:06لا أعرف حقاً ما الذي يفترض أن يكون عليه هذا.
00:24:08بالتأكيد، لم أعطه مطالبة جيدة جداً،
00:24:10ولكن هل هذا ما سنحصل عليه
00:24:13كنتيجة أساسية متوسطة؟
00:24:16إذا لم أقم بضبط DeepSeek جيداً
00:24:19وأجبره حقاً على فعل شيء ما، فأعتقد ذلك.
00:24:22الآن، عندما نقارن Opus و 5.5،
00:24:24كنت سأختار Opus 4.7 و Claude Code
00:24:27بناءً على كيفية تعامله مع Web GPU.
00:24:29أعتقد أن الأمر يتعلق بنوع من الذوق الشخصي.
00:24:31نعم، يمكنك القول إن 5.5 كانت أكثر إبهاراً،
00:24:35لكنني اعتقدت أنها كانت قبيحة نوعاً ما.
00:24:37مرة أخرى، في جميع هذه الاختبارات، أبقينا المطالبات غامضة
00:24:41لنرى أي مسار ستتخذه.
00:24:43لذا سأعطي الأفضلية لـ Opus هنا،
00:24:46على الرغم من أنها كانت أكثر تكلفة
00:24:48كما أنها استغرقت وقتاً أطول قليلاً.
00:24:50لذا لو تم إعطاؤهم مطالبة أكثر دقة
00:24:55وكانت محددة جداً بشأن ما تريد القيام به،
00:24:57فإن 5.5 فعلت ما أردنا منها القيام به.
00:24:59لقد أنشأت صفحة هبوط لـ Web GPU.
00:25:02لقد اعتقدت فقط أنها قبيحة.
00:25:04لذا فقد أكملت المهمة.
00:25:06لكنني لا أعتقد أنها أكملتها بنفس جودة Opus.
00:25:08الآن، من منظور أوسع، ماذا يعني
00:25:09إذا أخذنا كل ذلك بعين الاعتبار؟
00:25:11حسناً، أعتقد أنها أخبار رائعة
00:25:13لأي شخص يستخدم أدوات الوكلاء (Agent decoders).
00:25:16لدينا خيارات، أليس كذلك؟
00:25:18يمكنك استخدام Opus و Claude Code،
00:25:20أو يمكنك استخدام GPT 5.5 و Codecs.
00:25:23لن تخطئ في اختيار أي منهما.
00:25:25أعتقد أنها مسألة تفضيل شخصي بحتة في هذه المرحلة.
00:25:28وأفضل جزء هو إذا اخترت طريق Claude Code،
00:25:31فإن معظم ما تتعلمه ينطبق على Codecs.
00:25:33وإذا اخترت طريق Codecs،
00:25:34فإن معظم ما تتعلمه ينطبق على Claude Code.
00:25:37لذا لا أعتقد حقاً بوجود قيود للبائع بمعنى،
00:25:40أوه، لقد تعلمت فقط عن Claude Code.
00:25:42لذا لا يمكنني الانتقال إلى Codecs أو العكس.
00:25:44هذا ليس صحيحاً على الإطلاق.
00:25:45إذا كنت تفعل هذا بالطريقة الصحيحة،
00:25:46فإن ما تتعلمه حقاً هو أساسيات الذكاء الاصطناعي
00:25:48وكيفية بناء الأشياء.
00:25:49وهذا ينطبق على كليهما.
00:25:51وكلما زادت المنافسة،
00:25:53كان ذلك أفضل لنا، كمستهلكين.
00:25:54أما بالنسبة لـ DeepSeek، فـ، لا أعلم.
00:25:59لم أكن منبهراً جداً.
00:26:00قد يكون هذا موقفاً حيث، حسناً،
00:26:02ربما يكون DeepSeek منطقياً إذا كنا نقوم بمهام أبسط
00:26:04حيث لا نحتاج إلى قوة نموذج مثل Opus،
00:26:06أو لا نحتاج إلى قوة نموذج مثل GPT 5.5.
00:26:10لأن تذكروا، نحن نتحدث عن شيء
00:26:11أرخص بثماني مرات.
00:26:13ولكن من الواضح أن هذا أمر يجب أن نأخذه في الاعتبار.
00:26:16ولكن هل كان أسوأ بثماني مرات؟
00:26:19ربما، وربما لا.
00:26:21من الصعب في الواقع، كما تعلم،
00:26:23توضيح ذلك وقياسه.
00:26:24ولكن من الواضح أن هذا شيء يجب أن نأخذه بعين الاعتبار.
00:26:27لذا، كما تعلمون، لا أعتقد أنه يشكل منافسة حقيقية
00:26:30بصراحة مع 4.7 أو 5.5.
00:26:33لكنني أعتقد أنه إذا كنت تقوم بمهام أبسط
00:26:35وكنت واعياً جداً بعدد الرموز (tokens) والتكلفة،
00:26:38فربما يكون DeepSeek منطقياً بالنسبة لك.
00:26:41هذا كل ما لدي لكم اليوم.
00:26:42آمل أن يكون هذا قد سلط الضوء على هذه النماذج الثلاثة
00:26:45وكيف تقارن ببعضها البعض.
00:26:47أعتقد أنه وقت رائع لنكون في هذا المجال.
00:26:49المزيد من المنافسة أفضل للجميع.
00:26:51وكما هو الحال دائماً، إذا كنت تريد الحصول على
00:26:53دورة Claude Code Masterclass،
00:26:55تأكد من زيارة Chase AI Plus.
00:26:56يوجد رابط لذلك في الوصف.
00:26:58وأراكم لاحقاً.

Key Takeaway

بينما يوفر DeepSeek V4 تكلفة منخفضة تصل إلى ثمن المنافسين، يظل GPT 5.5 هو الخيار الأكثر كفاءة وموثوقية في مهام البرمجة المعقدة، متفوقاً على Claude Code في سرعة التنفيذ وجودة النتائج النهائية.

Highlights

  • GPT 5.5 يكلف 30 دولاراً لكل مليون رمز من المخرجات، بينما تبلغ تكلفة Anthropic 25 دولاراً، ويصل DeepSeek V4 إلى 3.48 دولاراً فقط.

  • يتفوق GPT 5.5 في اختبار Terminal Bench 2.0 بنتيجة 87.2، متجاوزاً أداء نموذج ميثوس السري.

  • يُعد DeepSeek V4 نموذجاً مفتوح المصدر يتطلب عتاداً قوياً بـ 1.6 تريليون معامل، مما يجعله غير قابل للتشغيل محلياً على الأجهزة العادية رغم كونه أرخص بثماني مرات.

  • أثبت GPT 5.5 تفوقه في بناء محاكي طيران عبر إنشاء نموذج قابل للتشغيل بدقة عالية مقارنة بمحاولات DeepSeek و Claude Code التي واجهت صعوبات فنية.

  • استهلك GPT 5.5 حوالي 66 ألف رمز (Token) لبناء محاكي الطيران، في حين تطلب Claude Code نحو 200 ألف رمز، مما يجعله أكثر تكلفة وبطئاً في هذه المهمة.

Timeline

مقارنة التكاليف والأداء التقني

  • يعد DeepSeek V4 أرخص النماذج بنسبة 800% تقريباً مقارنة بـ GPT 5.5 و Opus 4.7.
  • يصل سعر مخرجات GPT 5.5 إلى 30 دولاراً لكل مليون رمز، وهو الأغلى بين الثلاثة.
  • تتصدر نماذج Anthropic اختبارات SWE Bench بينما يسيطر GPT 5.5 على اختبار Terminal Bench 2.0.

تتناول هذه المرحلة الفوارق المالية والتقنية بين أحدث إصدارات الذكاء الاصطناعي. يبرز التباين الكبير في التكاليف بين النماذج الضخمة مثل GPT 5.5 والنماذج مفتوحة الأوزان مثل DeepSeek. على الرغم من أن DeepSeek يحتاج إلى عتاد ضخم لتشغيله، إلا أن استخدام واجهة برمجة التطبيقات الخاصة به يوفر وفراً كبيراً للمستخدمين. يتم تحليل الأداء الورقي عبر اختبارات قياسية مثل Terminal Bench 2.0 و SWE Bench.

اختبار بناء محاكي الطيران

  • نجح GPT 5.5 في إنشاء محاكي طيران وظيفي بأقل عدد من المحاولات.
  • عانت نماذج DeepSeek من أخطاء جسيمة في الرسوميات وعدم القدرة على تنفيذ المهام المطلوبة.
  • قدم Claude Code نتائج مقبولة لكنه استغرق وقتاً أطول واستهلك موارد برمجية أكبر.

يتم وضع النماذج في اختبار عملي لبناء محاكي طيران باستخدام 3JS. يظهر GPT 5.5 كفاءة عالية في فهم التعليمات وتوليد كود قابل للتنفيذ، بينما تعثر DeepSeek في توليد عناصر بصرية متسقة. يظهر Claude Code قدرة على الشمولية في الخطة لكنه يواجه صعوبات في تنفيذ فيزياء الطيران الأولية في محاولاته الأولى.

اختبار صفحة هبوط WebGPU

  • تطلب تنفيذ صفحة هبوط WebGPU تفاعلية استخداماً كثيفاً لبطاقة الرسوميات (GPU).
  • قدم GPT 5.5 واجهة بصرية براقة لكنها تفتقر أحياناً إلى التوازن البصري.
  • أظهر Claude Code دقة عالية في التفاصيل الرسومية وحبيبات الفيلم رغم كونه أقل إبهاراً من GPT 5.5.

ينتقل الاختبار إلى تصميم صفحات الويب المتقدمة. يعتمد التقييم على قدرة النماذج على دمج تأثيرات التظليل المتقدمة. يميل الأداء هنا نحو التفضيل الشخصي، حيث قدم كل نموذج رؤية مختلفة للجسيمات والتفاعل مع الماوس، مع تفوق طفيف لـ Claude Code في دقة التنفيذ الفني مقابل GPT 5.5 في سرعة البناء.

الاستنتاجات النهائية وتوصيات الاستخدام

  • يظل GPT 5.5 الخيار الأمثل للمهام المعقدة التي تتطلب سرعة وجودة تنفيذ.
  • يمكن اعتبار DeepSeek خياراً منطقياً للمهام البسيطة جداً التي تتطلب ترشيد التكاليف.
  • لا يمثل الانتقال بين Claude Code و Codecs قيوداً تقنية كبيرة نظراً لتشابه أساسيات العمل.

تخلص هذه المرحلة إلى أن المنافسة القوية بين النماذج تصب في صالح المستهلك. يُنصح باستخدام GPT 5.5 للمشاريع التي تتطلب أداءً عالياً، بينما يُترك DeepSeek للمهام ذات الميزانية المحدودة والتعقيد المنخفض. يتم التأكيد على أن المهارات المكتسبة في أدوات الوكلاء قابلة للنقل بين مختلف المنصات.

Community Posts

View all posts