كيف يقترب أداء هذا النموذج من Opus؟

BBetter Stack
컴퓨터/소프트웨어창업/스타트업AI/미래기술

Transcript

00:00:00أطلقت Minimax لتوها نموذج M2.5، وهو نموذج برمجي يكاد يتفوق على Claude Opus 4.6، ولكن بتكلفة تعادل العشر فقط.
00:00:07تم إطلاقه منذ أيام قليلة، وهو مفتوح الأوزان، ويحتوي على 230 مليار معلمة، ومصمم خصيصاً لمهام الوكلاء الذكيين.
00:00:14إذا كنت تبني وكلاء ذكاء اصطناعي، أو مساعدين برمجيين، أو أدوات أتمتة، فهذا النموذج سيغير تكاليفك بين عشية وضحاها.
00:00:19والأمر المذهل لا يقتصر فقط على نتائج الاختبارات، بل يشمل السعر أيضاً.
00:00:23نحن ننشر فيديوهات باستمرار، لذا تأكدوا من الاشتراك.
00:00:31نموذج Minimax M2.5 هو نموذج “خليط من الخبراء” (MoE) بإجمالي 230 مليار معلمة، لكن 10 مليارات منها فقط تكون نشطة أثناء التشغيل.
00:00:39بذلك تحصل على نموذج ضخم دون الحاجة لدفع تكلفة تشغيله بالكامل في كل مرة.
00:00:43إنه مصمم لمهام التطوير الواقعية، باستخدام Python و Java و Rust، وإعادة هيكلة الملفات المتعددة، واستدعاء الأدوات، وحتى أتمتة Word و Excel.
00:00:53يوجد إصداران منه: النسخة القياسية (Standard) بسرعة 50 رمزاً في الثانية، ونسخة البرق (Lightning) بسرعة 100 رمز في الثانية.
00:01:01النموذج متعدد اللغات، وأوزانه مفتوحة بالكامل على منصة Hugging Face.
00:01:05هذا يعني أنه يمكنك ضبطه بدقة، وتشغيله محلياً، وتجنب الارتباط بمزود واحد، وهنا تصبح الأمور مثيرة للاهتمام بالنسبة للوكلاء.
00:01:12قمت بتجربة نفس الأمر (Prompt) على كل من Opus و Minimax لبناء لوحة “كانبان” كاملة.
00:01:18لم يكن طلباً معقداً للغاية، بل كان كافياً لاختبار قدرتهما على البناء ورؤية الفرق بينهما.
00:01:23وضعت نص الأمر الذي استخدمته في الوصف إذا أردتم الاطلاع عليه، لكن أولاً سننظر إلى نسخة Opus التي استغرقت حوالي 4 دقائق للتنفيذ.
00:01:31حصلنا على ما كنا نتوقعه، لم أضطر لإعطائه أوامر إضافية، وكانت هذه هي النتيجة النهائية.
00:01:37كل شيء هنا يسير بسلاسة تامة، ويعمل بشكل جيد جداً، كما أن واجهة المستخدم تبدو جيدة كبداية.
00:01:44خاصية السحب والإفلات تعمل كما يجب، وتحرير المهام يعمل أيضاً بشكل صحيح. أعجبتني هذه التسمية الصغيرة للمجلد الصحيح، وكيف تتغير عند سحبها. هذه لمسة إضافية رائعة.
00:01:55بشكل عام، أدى Opus عملاً ممتازاً، وهذا ما كنت أتوقعه فعلياً.
00:02:00الآن ننتقل إلى Minimax. استغرق الأمر حوالي 8 دقائق للانتهاء، ربما لأنني قمت باستيراده إلى Cursor بدلاً من تشغيله على موقعهم، لكنني أردت تجربته في Cursor.
00:02:10رغم أنه استغرق وقتاً أطول، إلا أنه كلف عُشر السعر فقط، لذا لن أجادل في ذلك.
00:02:14إجمالاً، أدى عملاً جيداً جداً من أمر واحد فقط. واجهة المستخدم تفتقر لبعض اللمسات مقارنة بـ Opus، لكننا لا نزال نملك نفس الوظائف.
00:02:22يمكنني إنشاء المهام وسحبها وإفلاتها في العمود الصحيح، فكل ذلك يعمل بشكل رائع.
00:02:27الشيء الوحيد الذي لم يفعله هو إضافة تلك التسمية الصغيرة التي أعجبتني على كل بطاقة كما فعل Opus.
00:02:33نقطة أخرى لم يصب فيها هي القدرة على تحرير وصف المربع.
00:02:38إذا حاولت تعديل الوصف، كما ترون هنا، لا يتغير شيء.
00:02:42لذا سأحتاج لتشغيله مرة ثانية لجعله يقوم بما هو مطلوب بالضبط.
00:02:48وهذا لا يزال مقبولاً، لأن التكلفة مجدداً هي العُشر فقط.
00:02:51دعونا نتحدث عما يهم المطورين فعلاً. يستخدم M2.5 التعلم المعزز لتفكيك المهام.
00:02:58لذا فهو يحلل المشكلات بشكل أفضل، مما يؤدي إلى تقليل استدعاءات الأدوات بنسبة 20% وتقليل هدر الرموز (Tokens) بنسبة 5%.
00:03:06إذا سبق لك بناء وكلاء ذكاء اصطناعي، فأنت تعلم أن استدعاءات الأدوات هي النقطة التي تبدأ عندها التكاليف بالارتفاع وقد تؤدي إلى فوضى.
00:03:13كما أنه يتعامل مع تعديلات الملفات المتعددة، ودورات التشغيل وتصحيح الأخطاء، والتبديل بين الأدوات دون أن ينهار الأداء.
00:03:21وفي اختبارات البحث، يقلل النموذج من جولات البحث بنسبة 20% مقارنة بالإصدار السابق M2.1.
00:03:27ويدعم التخزين المؤقت (Caching) أيضاً، مما يعني أن الاستعلامات المتكررة قد تكلف أقل بمرور الوقت.
00:03:32يمكنك دمجه مباشرة مع Llama، أو المجموعات المحلية، أو أتمتة GitHub، أو خطوط أنابيب CI الخاصة بك.
00:03:37الآن بالنسبة لنتائج الاختبارات، أليس كذلك؟ أنا أقارنه بـ Opus هنا.
00:03:40حسناً، في اختبار SWE-bench Verified، سجل M2.5 أكثر من 80%.
00:03:45بينما سجل Claude Opus 4.6 نسبة أعلى قليلاً تتجاوز 80% أيضاً. الفجوة هنا صغيرة جداً.
00:03:52وفي اختبار multi-SWE-bench، سجل أكثر من 51% متفوقاً على النماذج المفتوحة الأخرى.
00:03:58وفي اختبار DROID، تفوق بالفعل على Opus بنسبة 0.2% فقط. لذا فالأمر يعتمد على جانب المقارنة.
00:04:05أما السرعة، فهو أسرع بنسبة 37% من نموذجهم السابق. ومع ذلك استغرق 8 دقائق هنا.
00:04:11يتمتع Opus 4.6 بمتوسط سرعة أعلى قليلاً، لكنهما يتساويان عند تشغيله بالتنسيق الصحيح.
00:04:18ماذا يعني كل هذا بالنسبة لك؟ حسناً، قد يعني عدة أمور.
00:04:20قد يعني محاولات إعادة أقل، وعمليات CI أنظف، واستهلاكاً أقل للرموز، والمزيد من طلبات السحب (PRs) المقبولة.
00:04:26وفي أداء المهام المعتمدة على الوكلاء الذكيين، فإنه يضاهي مستويات GPT-5 أو Gemini 3 Pro،
00:04:32ولكن مع أوزان مفتوحة. والآن لنتحدث عن الجزء الذي يغير قواعد اللعبة حقاً،
00:04:37وهو السعر، حتى لو استغرق وقتاً أطول.
00:04:40تبلغ تكلفة نسخة M2.5 Standard حوالي 0.15 دولار لكل مليون رمز مدخل، و1.20 دولار لكل مليون رمز مخرج.
00:04:47أما نسخة Lightning فتكلف ضعف ذلك؛ أي 0.30 دولار للمدخلات و2.40 دولار للمخرجات.
00:04:53تشغيل نسخة Lightning بسرعة 100 رمز في الثانية لمدة ساعة يكلف حوالي دولار واحد.
00:04:56وإذا استخدمت النسخة القياسية، وهو ما فعلته هنا، فستكلف حوالي 30 سنتاً في الساعة.
00:05:00الآن قارن ذلك بـ Claude Opus 4.6. فرق شاسع.
00:05:045 دولارات لكل مليون رمز مدخل، و25 دولاراً لكل مليون رمز مخرج.
00:05:09لكل مهمة برمجية، تبلغ التكلفة حوالي 10% من تكلفة Opus، بفضل الكفاءة وعدد أقل من استدعاءات الأدوات.
00:05:15هناك أيضاً فئة مجانية لواجهة البرمجيات (API) متاحة الآن. أنا قمت بالدفع مقابل التجربة،
00:05:20ولكن لديهم ذلك الخيار. وهنا تبدأ الجدوى الاقتصادية في التحول فعلياً.
00:05:24فهل يجب عليك الانتقال من Opus 4.6؟ حسناً، من حيث الأداء فهما متطابقان تقريباً.
00:05:30استغرق وقتاً أطول قليلاً، أليس كذلك؟ كنت أستخدم النسخة القياسية وليس Lightning، لكنهما متماثلان نوعاً ما.
00:05:34وقت إنجاز المهام هو نفسه تقريباً، وعمق الاستنتاج كان قابلاً للمقارنة.
00:05:39أما من حيث التكلفة، فهو أرخص بكثير. لذا القرار لك.
00:05:43كما أنه يستخدم استدعاءات أدوات أقل بنسبة 20% ولا يهدر تلك الرموز، كما ذكرت سابقاً.
00:05:47ومن ناحية المرونة، فأوزانه مفتوحة. يمكنك نشره محلياً، مما يعني إمكانية ضبطه بدقة.
00:05:52ولا يزال Opus يتمتع بأفضلية في المستويات العليا جداً من الذكاء الفائق.
00:05:57لذا، يظل هذا هو النموذج المتميز الذي نعمل معه حالياً.
00:06:00وهنا يكمن سبب أهمية هذا الأمر، لأنه يمكنك الآن تشغيل الوكلاء على نطاق واسع دون عبء التكلفة.
00:06:05بما أن M2.5 حقق نسبة فوز 59% في اختبارات الوكلاء المتقدمة، يمكنك بناء بوتات برمجية ذاتية العمل،
00:06:12وتشغيل وكلاء برمجة مستمرين، وأتمتة سير العمل في الشركات. ليس مثالياً تماماً،
00:06:17لكنه جيد جداً بناءً على ما رأيناه هنا. والسعر سيسمح لك بالتجربة والاختبار بشكل كامل.
00:06:22كما أن Minimax تصدر تحديثاتها بسرعة، وتتطور خلال أسابيع بدلاً من شهور.
00:06:27تكاملات Ollama و GitHub بدأت تتسارع بالفعل.
00:06:32يوفر Minimax M2.5 أداءً برمجياً بمستوى Opus وبسعر اقتصادي مع أوزان مفتوحة.
00:06:38هذا المزيج نادر، ولكن في عام 2026 من يدري ما الذي سنراه. يمكنكم تجربته مجاناً عبر Minimax أو تشغيله على Ollama أو استخدام واجهة البرمجيات كما فعلت.
00:06:43هل سيكون هذا هو النموذج الافتراضي الجديد لوكلاء التطوير؟ سنرى كيف ستسير الأمور.
00:06:48نراكم في فيديو آخر.

Key Takeaway

يمثل نموذج Minimax M2.5 ثورة في اقتصاديات الذكاء الاصطناعي لعام 2026، حيث يوفر قوة معالجة برمجية بمستوى النماذج الرائدة مع مرونة الأوزان المفتوحة وتوفير هائل في التكاليف.

Highlights

نموذج Minimax M2.5 يقدم أداءً يقارب Claude Opus 4.6 ولكن بعُشر التكلفة فقط.

النموذج يعتمد على بنية "خليط من الخبراء" (MoE) بـ 230 مليار معلمة، منها 10 مليارات نشطة فقط.

يتميز النموذج بكونه مفتوح الأوزان، مما يسمح للمطورين بتشغيله محلياً وضبطه بدقة على منصات مثل Hugging Face.

تفوق M2.5 في اختبارات برمجية مثل DROID وسجل نتائج قوية جداً في SWE-bench تتجاوز 80%.

يستخدم التعلم المعزز لتقليل استدعاءات الأدوات بنسبة 20%، مما يزيد من كفاءة الوكلاء الذكيين.

تكلفة نسخة Standard تبلغ 0.15 دولار لكل مليون رمز مدخل، مقارنة بـ 5 دولارات في Opus 4.6.

يدعم النموذج لغات برمجة متعددة مثل Python و Java و Rust وأتمتة المهام المعقدة في Excel و Word.

Timeline

مقدمة عن نموذج Minimax M2.5 ومميزاته الأساسية

يستعرض المتحدث إطلاق شركة Minimax لنموذجها الجديد M2.5 الذي يستهدف منافسة Claude Opus 4.6 بشكل مباشر. يوضح الفيديو أن هذا النموذج موجه خصيصاً لبناء الوكلاء الذكيين ومساعدي البرمجة وأدوات الأتمتة المتقدمة. تبرز أهمية هذا الإطلاق في كونه نموذجاً مفتوح الأوزان ويحتوي على 230 مليار معلمة، مما يجعله متاحاً للتطوير المخصص. يشير المحلل إلى أن هذا النموذج سيغير قواعد اللعبة من حيث التكلفة للمطورين والشركات الناشئة. كما يحث المتابعين على الاشتراك لمتابعة التحديثات المستمرة في هذا المجال التقني المتسارع.

التفاصيل التقنية وبنية "خليط من الخبراء"

يشرح هذا القسم البنية التقنية لنموذج M2.5 التي تعتمد على تقنية "خليط من الخبراء" (MoE). على الرغم من ضخامة النموذج، إلا أن 10 مليارات معلمة فقط تعمل أثناء التشغيل، مما يقلل من استهلاك الموارد. النموذج مصمم للتعامل مع لغات برمجة واقعية مثل Rust و Java و Python، بالإضافة إلى القدرة على إعادة هيكلة الملفات. يتوفر النموذج بإصدارين هما Standard بسرعة 50 رمزاً في الثانية و Lightning بسرعة 100 رمز في الثانية. يؤكد المتحدث على ميزة توفره على منصة Hugging Face، مما يمنح المطورين حرية التشغيل المحلي وتجنب الاحتكار.

مقارنة عملية في بناء لوحة كانبان

يقوم المتحدث بإجراء تجربة عملية لمقارنة أداء النموذج الجديد مع Claude Opus في بناء تطبيق لوحة "كانبان". استغرق Opus حوالي 4 دقائق وأنتج واجهة مستخدم مصقولة مع ميزات دقيقة مثل التسميات التلقائية. في المقابل، استغرق M2.5 حوالي 8 دقائق وأنتج واجهة وظيفية جيدة جداً ولكنها تفتقر لبعض اللمسات الجمالية وتعديل الأوصاف. يبرر المحلل هذا البطء والفرق البسيط في الجودة بأن تكلفة M2.5 كانت عُشر تكلفة Opus فقط. هذه التجربة تثبت أن النموذج قادر على تنفيذ مهام برمجية معقدة من أمر واحد بنجاح كبير.

كفاءة الوكلاء الذكيين وتحليل الأداء البرمجي

يتناول هذا الجزء كيفية استخدام M2.5 للتعلم المعزز لتفكيك المهام البرمجية وتحليل المشكلات المعقدة. يؤدي هذا النهج إلى تقليل استدعاءات الأدوات بنسبة 20% وتقليل هدر الرموز (Tokens) بنسبة 5%. يشير المتحدث إلى أن هذه الكفاءة حاسمة لبناء وكلاء ذكاء اصطناعي مستقرين وتجنب الفوضى التقنية والتكاليف المرتفعة. كما يدعم النموذج تقنيات التخزين المؤقت (Caching) والتكامل مع أدوات مثل GitHub و CI pipelines. النموذج يظهر قدرة فائقة على التعامل مع تعديلات الملفات المتعددة دون انهيار في مستوى الأداء.

نتائج الاختبارات المعيارية والمقارنات العالمية

يستعرض الفيديو لغة الأرقام والاختبارات المعيارية حيث سجل M2.5 أكثر من 80% في اختبار SWE-bench Verified. يقترب النموذج بشكل مذهل من نتائج Claude Opus 4.6، بل ويتفوق عليه في اختبار DROID بنسبة طفيفة. يذكر المتحدث أن أداء النموذج في مهام الوكلاء يضاهي مستويات نماذج عملاقة مثل GPT-5 و Gemini 3 Pro. تكمن الأهمية هنا في الحصول على هذا المستوى من الذكاء الفائق في نموذج مفتوح الأوزان. توضح الإحصائيات أيضاً أن M2.5 أسرع بنسبة 37% من الإصدار السابق M2.1.

اقتصاديات النموذج وخاتمة التحليل

يركز القسم الأخير على الفجوة السعرية الهائلة، حيث تكلف النسخة القياسية من M2.5 حوالي 15 سنتاً فقط لكل مليون رمز مدخل. بالمقارنة، يطلب Opus 5 دولارات لنفس الكمية، مما يجعل M2.5 خياراً اقتصادياً بامتياز للمشاريع الضخمة. يخلص المتحدث إلى أن M2.5 يوفر مرونة لا تضاهى بفضل إمكانية النشر المحلي والضبط الدقيق (Fine-tuning). ورغم أن Opus لا يزال يحتفظ ببعض المزايا في الذكاء الفائق، إلا أن M2.5 هو الخيار الأمثل لتشغيل الوكلاء على نطاق واسع. ينهي الفيديو بدعوة لتجربة النموذج عبر واجهة البرمجيات المجانية أو منصة Ollama.

Community Posts

View all posts