Gemini 3.5 Flash مجرد... لا بأس به

BBetter Stack
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00أطلقت جوجل للتو Gemini 3.5 flash وهم يطلقون ادعاءات جريئة جدًا.
00:00:04أداء رائد بأربعة أضعاف السرعة، وغالبًا بأقل من نصف التكلفة.
00:00:09كل هذا يبدو مذهلاً، لكن الواقع أسوأ بكثير مما تعلنه جوجل.
00:00:12وهذا كان نصف ما أطلقوه فقط. لقد أطلقوا أيضًا Anti-Gravity 2، وهو
00:00:16تطبيق الوكيل المستقل الجديد الخاص بهم، وهو في الأساس ردهم على Codex، بالإضافة إلى
00:00:20Anti-Gravity CLI، الذي يحل محل Gemini CLI فعليًا، لذا فهذه إضافة أخرى لقائمة “قتلتهم جوجل”.
00:00:30لنبدأ بإحصائيات العنوان الرئيسية. يحتوي هذا النموذج على نافذة سياق بمليون رمز (token)، و64,000
00:00:34رمز للمخرجات، ويقبل النصوص والصور والفيديو والصوت وملفات PDF كمدخلات. لطالما كانت جوجل
00:00:39جيدة جدًا في هذه النماذج متعددة الوسائط.
00:00:42أما بالنسبة للأداء الفعلي، فإن مقاييس جوجل الخاصة تضع هذا النموذج في مستوى GPT 5.5
00:00:46فيما يتعلق بالبرمجة، حيث يتأخر بنسبة قليلة فقط في SWBench Pro وTerminal
00:00:50Bench، وفي الواقع هو يتفوق على Opus 4.7 في Terminal Bench بنحو 10%، لكن Claude
00:00:56Opus يستعيد توازنه في SWBench Pro متفوقًا على Gemini بنحو 10% أيضًا.
00:01:01بالنسبة لسير عمل الوكلاء (agentic workflows)، يتفوق هذا النموذج في مقاييس MCP وToolathon
00:01:06وبشكل عام، هذه المقاييس ليست نتائج سيئة، لكن كل هذا وفقًا لجوجل.
00:01:11إذا نظرنا بدلاً من ذلك إلى مقاييس طرف ثالث، مثل Artificial Analysis، فالأداء ليس
00:01:15رائعًا. مؤشر البرمجة الخاص بهم يمنح Gemini 3.5 flash درجة 45، وهو في الواقع أقل من نماذج
00:01:21مثل Kimi K2.6 ولا يتفوق حتى على Gemini 3.1 Pro رغم أنه في جميع مقاييسهم الخاصة
00:01:27كان متقدمًا في كل شيء. إنه في الواقع متقدم ببضع نقاط فقط عن Gemini 3 flash
00:01:31أيضًا.
00:01:32تتحسن القصة قليلاً عند النظر إلى أداء الوكلاء. لقد حقق
00:01:35قفزة جيدة عن Gemini 3.1 Pro، ونعم، هو تقنيًا ينافس النماذج الرائدة.
00:01:41النماذج الرائدة.
00:01:42بالنظر إلى مقاييسنا، يبدو أن 75% منكم ممن يشاهدون هذا غير مشتركين
00:01:45لذا سأطلب منكم بلطف القيام بذلك. يرجى الاشتراك.
00:01:48الميزة الرئيسية الوحيدة لهذا النموذج هي سرعته بلا شك. لقد حصلوا على 278 رمزًا في
00:01:53الثانية من هذا النموذج، وهو ما يتفوق بشكل هائل على Opus 4.7 وGPT 5.5 وحتى نماذج
00:01:59مثل Haiku والنماذج مفتوحة المصدر من OpenAI. لذا عندما يتعلق الأمر بالذكاء مقابل السرعة،
00:02:04هذا النموذج هو الأفضل بالتأكيد.
00:02:06بشكل عام، إنها مجموعة مختلطة من النتائج. إنه ليس أفضل نموذج وليس الأسوأ،
00:02:10لكنه سريع جدًا حقًا، ولم أكن لأمانع هذه النتائج لو كان سعره نصف
00:02:14تكلفة النماذج الأخرى، لكن هنا تبدأ الأمور في الانهيار.
00:02:18سعر هذا النموذج هو 1.50 دولار لمليون رمز مدخل و9 دولارات لمليون رمز مخرج،
00:02:23وهو في الواقع أغلى بثلاث مرات من Gemini 3 flash، لكنه لا يزال أرخص بكثير من
00:02:27نماذج مثل Opus 4.7 وGPT 5.5، على الورق على الأقل.
00:02:32عند تشغيل مقاييسهم فعليًا، وجدت Artificial Analysis أن Gemini 3.5 flash
00:02:36كلف 1,552 دولارًا لتشغيل مؤشر الذكاء، وهو في الواقع أغلى بـ 5.5 مرة
00:02:42من Gemini 3 flash و75% أغلى من Gemini 3.1 Pro. والأسوأ من ذلك
00:02:48هو أن هذا أغلى من GPT 5.5 عند مستوى الاستدلال العالي، الذي يتفوق بشكل هائل على flash
00:02:54فيما يتعلق بأداء البرمجة، وفي الواقع سأقوم بتمييز كل نموذج في هذا
00:02:57الرسم البياني الذي يعد أرخص ويتفوق على flash في أداء البرمجة. إنه لا يبدو
00:03:02جيدًا على الإطلاق وبالتأكيد ليس بنصف التكلفة كما ادعى تسويقهم.
00:03:06بالتعمق أكثر في هذا، يبدو أن مشكلة هذا النموذج هي أنه على الرغم من سرعته،
00:03:10فهو يستهلك الكثير من الرموز. في تقييمات الوكلاء، بلغ متوسطه 49 دورة لكل مهمة، وهو واحد
00:03:15من أعلى المستويات لأي نموذج قاموا باختباره. إنه يحب حقًا حرق
00:03:19رموز المدخلات الخاصة بك. لذا بشكل عام، لست متأكدًا حقًا من أين يضعنا هذا. هذا النموذج
00:03:23مجرد “متوسط” (meh). السرعة رائعة جدًا، لذا إذا كنت تقدر ذلك فوق كل شيء آخر، فربما
00:03:28هذا هو النموذج المناسب للاستخدام. الأمر نفسه إذا كنت تريد قدرات ممتازة متعددة الوسائط، لكن
00:03:33أداء البرمجة ليس كافيًا بالنسبة لي حتى لأفكر في اختبار هذا لفترة زمنية
00:03:37أطول مما قمت به في هذا الفيديو. لذا دعونا ننتقل للحديث عن
00:03:41الإعلان الكبير الآخر وهو Anti-Gravity 2 وCLI الجديد.
00:03:44هل هذا هو Anti-Gravity 2؟ لحظة، لا، عذراً، هذا t3 code. ربما هذا؟ لا، هذا
00:03:50codecs. ماذا عن هذا؟ لا، هذا cursor. هذا هو في الواقع Anti-Gravity 2 وأعتقد
00:03:55أنكم تفهمون وجهة نظري. في الأساس، كل هذه التطبيقات بدأت تبدو متشابهة. جزء مضحك
00:03:59من أحد عروضنا التوضيحية هو عندما يحاول المطور إنشاء مشروع جديد ويمكنك فقط
00:04:03رؤية مجلد codecs هناك. لذا بصراحة، لن أقضي الكثير من الوقت في استعراض
00:04:07هذا التطبيق. إنه بالضبط نفس كل التطبيقات الأخرى. لدينا محادثاتنا على
00:04:11اليسار، ولدينا مشاريعنا، ولدينا مهام مجدولة، وهنا يمكنك النقر فوق أي من
00:04:15هذه الملفات إذا كنت تريد رؤية عرض الاختلافات (diff view). الشيء الوحيد الذي يجب ملاحظته هو أن هذا ليس
00:04:18IDE Anti-Gravity بعد الآن. هذا مجرد تطبيق مستقل تمامًا. ما تراه
00:04:22هو ما تحصل عليه. لقد جربت في الواقع بضعة مطالبات اختبارية هنا. أحدها
00:04:26كان إنشاء لوحة معلومات كاملة للتمويل الشخصي، والآخر كان أبسط بكثير
00:04:30فقط لاختبار واجهة المستخدم لكيفية بناء موقع مقهى في ملف index.html واحد.
00:04:35هذه هي نتيجة مطالبة المقهى البسيطة جدًا، ويجب أن أقول إنني أحب حقًا
00:04:39الموقع الذي بناه هنا، لذا يبدو أن 3.5 flash جيد جدًا في تصميم واجهة المستخدم.
00:04:44سأقول إن هذا الموقع جيد جدًا بشكل عام. لا يزال لديه القليل من الطابع
00:04:48الذي توحي به الذكاء الاصطناعي. أعتقد أن السبب في الغالب هو أسلوب البطاقات والتدرجات اللونية الذي يبدو أن الذكاء الاصطناعي يحبه في الوقت الحالي، ولكن
00:04:53الموقع عملي جدًا ويبدو كما كنت أتوقع أن يكون. للسياق، هذا
00:04:58ما أعطاني إياه Opus 4.7 عندما أعطيته نفس المطالبة تمامًا، وأعتقد أن Gemini 3.5
00:05:03flash يتفوق في هذا، ولكن من الواضح أن هذا مجرد اختبار لمرة واحدة. أما بالنسبة للمطالبة الأكثر تعقيدًا
00:05:07بشأن لوحة معلومات التمويل، فهي تطبيق متكامل وقد نجح في جعل
00:05:11التطبيق يعمل، لكنني بالتأكيد لا أحب تصميم واجهة المستخدم. ليس سيئًا ولكنه ببساطة
00:05:16لديه هذا المظهر والملمس الذي تم تصميمه بواسطة الذكاء الاصطناعي، وأيضًا خصم نقاط لتسمية هذا
00:05:20باسم “Aura Wealth”. عندما تقارن ذلك بما أعطاني إياه Opus 4.7، فهو عالم من الاختلاف.
00:05:25Opus 4.7 هنا يبدو لطيفًا حقًا، وبصراحة ليس لدي الكثير من الملاحظات حول كيف
00:05:29سأغير واجهة المستخدم هذه. لقد قضى Opus في الواقع 20 دقيقة على تلك المطالبة بينما استغرق Gemini
00:05:33خمس دقائق، لذا نعم، هو بالتأكيد أسرع ولكنه كان بإمكانه استخدام الـ 15 دقيقة الإضافية لـ
00:05:38جعله يبدو أفضل. بالانتقال من ذلك، حصلنا أيضًا على Anti-Gravity CLI وهذا من المحتمل
00:05:42أن يغضب بعض الناس لأنهم سيغلقون Gemini CLI فعليًا، ولن
00:05:46تتمكن من استخدامه بعد 18 يونيو من هذا العام، وCLI الجديد هو في الأساس نفسه في
00:05:51الوقت الحالي باستثناء أنه تمت إعادة كتابته بلغة Go وهو مغلق المصدر الآن، وهو أمر مزعج
00:05:56ولم أقم بتثبيت هذا في الواقع لأنه مرة أخرى هو مجرد Claude code ولكن لـ Gemini
00:06:00لا يوجد شيء جديد لأعرضه لكم. لتلخيص كل أفكاري حول هذا إذن، في الوقت الحالي 3.5
00:06:05flash جيد للوكلاء لكنه مكلف وضعيف جدًا في البرمجة ليكون الحزمة الكاملة
00:06:10لذا آمل أن نرى المزيد من Gemini 3.5 Pro الذي سيأتي على ما يبدو الشهر القادم
00:06:15لكن في الوقت الحالي يبدو أن جوجل لن تكون الرائدة في البرمجة ولأكون
00:06:19صادقًا معكم، لا أعتقد حقًا أنهم بحاجة إلى ذلك. يبدو أن سوق جوجل هو أكثر
00:06:23للشخص العادي الذي يبني هذا في كل تجاربك مثل Gmail وSearch وWorkspace
00:06:28وAndroid وكل شيء آخر، لذا ربما لا يكون المطورون هم التركيز الأساسي. اسمحوا لي
00:06:33أن أعرف رأيكم في التعليقات بالأسفل، وأثناء تواجدكم هناك، اشتركوا، وكما هو الحال دائمًا،
00:06:36أراكم في المقطع القادم.

Key Takeaway

رغم سرعة Gemini 3.5 Flash الفائقة في معالجة البيانات، إلا أن تكلفته العالية في الاستدلال وضعف أدائه البرمجي مقارنة بالمنافسين تجعل قيمته السوقية متوسطة الأداء.

Highlights

  • يوفر نموذج Gemini 3.5 Flash سرعة تصل إلى 278 رمزًا في الثانية، مما يتفوق على نماذج Opus 4.7 وGPT 5.5.

  • يصل سعر استخدام النموذج إلى 1.50 دولار لكل مليون رمز مدخل و9 دولارات لكل مليون رمز مخرج، وهو أغلى بمقدار 5.5 مرة من Gemini 3 Flash في اختبارات الاستدلال.

  • يستهلك النموذج في المتوسط 49 دورة لكل مهمة وكيل، مما يؤدي إلى استهلاك مرتفع لرموز المدخلات.

  • يتضمن التحديث الجديد تطبيق Anti-Gravity 2 المستقل، الذي يعتمد على واجهة مشابهة لتطبيقات مثل Claude Code وCursor.

  • يؤدي إطلاق Anti-Gravity CLI إلى إيقاف دعم Gemini CLI الحالي اعتبارًا من 18 يونيو 2026.

Timeline

أداء ومواصفات Gemini 3.5 Flash

  • يحتوي النموذج على نافذة سياق تصل إلى مليون رمز و64,000 رمز للمخرجات.
  • يتفوق النموذج في مقاييس سرعة الوكلاء مثل MCP وToolathon.
  • تظهر مؤشرات طرف ثالث مثل Artificial Analysis أن أداء البرمجة للنموذج لا يتجاوز درجة 45.

يتميز النموذج بقدرات متعددة الوسائط تشمل النصوص والصور والفيديو والصوت وملفات PDF. بينما تضع مقاييس جوجل الخاصة النموذج في مستوى منافس لـ GPT 5.5، تشير تقييمات خارجية إلى تراجع أدائه في البرمجة عن نماذج مثل Kimi K2.6.

تحليل التكلفة والكفاءة التشغيلية

  • يتصدر النموذج فئة الذكاء مقابل السرعة بـ 278 رمزًا في الثانية.
  • تتجاوز تكلفة تشغيل مؤشر الذكاء لهذا النموذج 1,552 دولارًا، وهو أعلى بنسبة 75% من تكلفة Gemini 3.1 Pro.
  • يؤدي استهلاك الرموز المرتفع إلى تقليل الجدوى الاقتصادية للمهام البرمجية المعقدة.

تتعارض مزاعم جوجل بشأن خفض التكلفة إلى النصف مع نتائج الاختبارات الفعلية التي وجدت أن النموذج أغلى من المنافسين في سيناريوهات الاستدلال العالي. يستهلك النموذج كميات كبيرة من الرموز في دورات الوكيل، مما يقلل من جاذبيته للمطورين الذين يبحثون عن كفاءة التكلفة.

تطبيقات Anti-Gravity وواجهة المستخدم

  • يعد Anti-Gravity 2 تطبيقًا مستقلًا تمامًا وليس مجرد إضافة لبيئة تطوير IDE.
  • يتفوق النموذج في تصميم واجهات المستخدم البسيطة لكنه يفتقر إلى العمق في التطبيقات البرمجية المتكاملة.
  • يتم إعادة كتابة Anti-Gravity CLI بلغة Go مع تحويله إلى نظام مغلق المصدر.

تجربة إنشاء لوحة معلومات مالية أظهرت تفوق نماذج أخرى مثل Opus 4.7 في جودة التصميم والمنطق البرمجي مقارنة بـ Gemini 3.5 Flash. التحديثات الجديدة تتضمن إنهاء دعم Gemini CLI القديم في منتصف يونيو 2026.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video