مجرد ضجة مؤقتة أم ثورة حقيقية؟ | تحليل عميق

MMaximilian Schwarzmüller
Computing/SoftwareBusiness NewsInternet Technology

Transcript

00:00:00قبل بضع ساعات، كان هناك إعلان كبير جدًا. أو ربما ضجة إعلامية كبيرة. لا
00:00:06نعرف بعد، وبالتأكيد لا يمكنني استبعاد جانب الضجة. ضجة بلا فائدة. ولكن إذا كان
00:00:13هذا صحيحًا، فهو بالفعل إعلان ضخم. لأن ألكسندر ويدين، الذي لم أكن أعرفه وربما
00:00:20لم تكونوا تعرفونه أيضًا، أعلن عن "sub-q"، وهي اختصار لشبه تربيغي، وهو طفرة كبرى في ذكاء
00:00:28النماذج اللغوية الكبيرة. وما أعلنه هنا هو نوع جديد تمامًا من النماذج اللغوية الكبيرة التي تتفوق في
00:00:36مهام السياق الطويل دون أن تفقد — على الأقل هذا ما يزعمه — دون أن تفقد "الذكاء"
00:00:45— بين قوسين، النماذج تولد رموزًا وهذا ما يمنحها ذكاءها في النهاية — أي
00:00:52دون خسارة الذكاء الذي اعتدتم عليه من النماذج الرائدة الحالية مثل Opus 4.7 و GPT 5.5 وما إلى ذلك.
00:00:59الآن، ما ذكره في منشور الإعلان على منصة X — وهناك
00:01:04أيضًا منشور إعلان تقني يحتوي على تفاصيل أكثر سنلقي نظرة عليه
00:01:08لأننا سنغوص بعمق في هذه الحلقة والفيديو هنا — ما يعلنه هنا هو نموذج
00:01:16أسرع بكثير عند إجراء الاستدلال في مهام سياق المليون رمز، وبتكلفة أقل بكثير. خمسة بالمئة
00:01:26فقط مما يكلفه Opus. كما يعد بأن نموذجهم الأولي سيكون بنطاق سياق
00:01:35يصل إلى 12 مليون رمز، وتوضيحًا لأهمية هذا الرقم، فهذا يعني أنه يمكنك وضع مشاريع برمجية كاملة،
00:01:42مشاريع ضخمة، داخل نطاق السياق هذا. يمكنك وضع مستندات قانونية ضخمة متعددة هناك،
00:01:49وهذا بالطبع هو السبب في أن نماذج كهذه، إذا كانت موجودة وتعمل، ستكون مفيدة للغاية وتغير قواعد اللعبة
00:01:57تمامًا. لا توجد طريقة أخرى لوصف الأمر. إذا كانت تعمل — ليس لدينا الكثير من التفاصيل بعد،
00:02:02وسأعود إلى ذلك لاحقًا — ولكن إذا كانت تعمل، فهذا يعني بالطبع أن كل الحلول البديلة التي
00:02:08نستخدمها حاليًا، مثل الوكلاء الفرعيين وتقنية RAG وما إلى ذلك، والتي تعد كلها حلولًا مؤقتة لمشكلة أن
00:02:15النموذج يرى فقط جزءًا صغيرًا من الشيء الذي ينبغي أن يراه. فإذا كنت تعمل على مشروع برمجية،
00:02:22فالنماذج الرائدة الحالية لا يمكنها رؤية كامل المشروع البرمجي، اعتمادًا على حجمه.
00:02:28لا يمكنها تحميل المشروع بالكامل. لذلك إذا طلبت منها تغيير شيء ما، فعليك أن تأمل
00:02:33أن يجد النموذج الأجزاء الصحيحة في مشروعك البرمجي لإجراء التغيير الذي تطلبه منه.
00:02:40وهذا بالطبع يصبح مشكلة أكبر فأكبر كلما زاد حجم المشروع أو زاد
00:02:45حجم المستندات التي تريد من النموذج العمل عليها. لذا، إذا كان لديك نموذج يمكنه استخدام
00:02:52سياق يبلغ 12 مليون رمز بشكل موثوق وبجودة عالية، فإن ذلك سيغير قواعد اللعبة بكل تأكيد.
00:02:59وبالحديث عن تغيير قواعد اللعبة، سنغوص بعمق في هذا الفيديو وسأفعل ذلك في جميع دوراتي. لذا
00:03:06إذا كنتم مهتمين بمهارات عملية لاستخدام أدوات مثل Claude Code و Codex ومهام الذكاء الاصطناعي الأخرى،
00:03:13أو البرمجة، أو الجمع بين كل ذلك، فقد تستحق دوراتي إلقاء نظرة عليها. إنها عملية،
00:03:19وتطبيقية، وعميقة، ويمكنكم الحصول على الدورات الفردية أو العضوية
00:03:24التي تتيح لكم الوصول إلى جميع الدورات بسعر شهري أو سنوي واحد. الروابط في الأسفل.
00:03:31دعونا الآن نغوص بعمق أكبر. وكما ذكرت، هناك منشور إعلان يحتوي على
00:03:36بعض التفاصيل التقنية، ولكن ل نكن واضحين للغاية، ليست كثيرة. هناك الكثير من المعلومات المفقودة،
00:03:43وليس لدينا الكثير من الاختبارات المرجعية. تحديدًا، لقد نشروا ثلاثة
00:03:49اختبارات فقط. اختبار Ruler المرجعي الذي يختبر سلوكيات الاسترجاع والاستدلال بما يتجاوز مجرد
00:03:56البحث البسيط عن إبرة في كومة قش، بما في ذلك الاسترجاع متعدد الخطوات، والتجميع، وتتبع المتغيرات، والتصفية
00:04:01المنتقاة. إذن، هذا اختبار مرجعي يتعلق بالكامل بقدرة النموذج على إيجاد قطع متعددة
00:04:06من المعلومات ذات الصلة من نطاق سياق كبير نسبيًا. 128,000 رمز. لذا فهو ليس كبيرًا
00:04:15جداً، وليس قريباً حتى من الـ 12 مليوناً التي وعدوا بها، لكنه أيضاً ليس مجرد 5 آلاف أو نحو ذلك.
00:04:22إذن هذا اختبار يختبر مدى قدرة النموذج على إيجاد وجمع أجزاء مختلفة من
00:04:28نطاق سياق كبير نوعًا ما أو قاعدة مستندات. وهنا، يأتي نموذجهم في نفس مستوى
00:04:36نموذج OPUS 4.6. في ذلك المنشور، ذكروا أيضًا اختبارًا مرجعيًا آخر، وهو MRCRv2، والذي يتعلق أيضًا
00:04:45بمهام استرجاع السياق الطويل حيث يقع نموذجهم في نطاق، كما صرحوا، OPUS 4.6. رغم أنه،
00:04:53أجل، يقع في النطاق إذا نظرت إلى النتائج الأخرى هنا، لكنه بالتأكيد أسوأ.
00:05:00وهو أمر مثير للاهتمام بالطبع بما أن جوهر فكرتهم بأكملها هو استرجاع السياق الطويل هنا. ولكن
00:05:07مرة أخرى، بالطبع، يمكنك أيضًا المحاججة بأنه بالنسبة لحالات استخدام نطاق السياق الطويل للغاية،
00:05:15فإن النماذج الأخرى لا يمكن استخدامها على الإطلاق، بينما قد يمنحك نموذجهم نتائج جيدة جدًا،
00:05:22وهو ما قد يكون أفضل من لا شيء. وبالطبع، يمكن لنموذجهم بالتأكيد أن يتحسن بمرور الوقت. لذا
00:05:29لن أعتبر هذا علامة سيئة للغاية بالنسبة للنموذج الأولي. إنه مجرد أمر يستحق الملاحظة. وبالطبع،
00:05:35تجدر الإشارة أيضًا إلى أنه أفضل بكثير من Gemini 3.1 Pro، على سبيل المثال، أو OPUS 4.7 في هذا الجدول.
00:05:43لقد نشروا أيضًا اختبارًا مرجعيًا واحدًا وجدته مثيرًا للاهتمام، وهو يتعلق بالمهام المرتبطة بالبرمجة.
00:05:49الآن، سأقول إنني لست معجبًا كبيرًا بكل هذه الاختبارات المرجعية. نعلم جميعًا
00:05:56أنه يمكن التلاعب بها نوعًا ما، على الأقل بالعديد منها، ويمكن تحسين النماذج أو ضبطها بدقة
00:06:05عمدًا أو دون قصد لأداء جيد في الاختبارات المرجعية. وقد شهدنا الكثير من هذه الحالات في الماضي،
00:06:12ومع ذلك، فهي تعطينا شيئًا لننظر إليه. وأجد اختبار هندسة البرمجيات هذا
00:06:20مثيرًا للاهتمام، لأننا نرى هنا أن نموذجهم يقع تقريبًا في نطاق نماذج
00:06:27OPUS. وهذا بالطبع يوضح أنه ليس قادرًا فقط على العثور على المعلومات في نطاقات
00:06:36السياق الطويل، في الكثير من المستندات والمشاريع البرمجية الضخمة، بل إنه قادر أيضًا على القيام بشيء مفيد بها،
00:06:42وأنه قادر على توليد كود مفيد وجيد كنتيجة لذكائه وللبيانات التي
00:06:50يمكنه استرجاعها في نطاقات السياق الطويلة هذه، إذا جاز التعبير. فالأمر لا يقتصر على الاسترجاع فقط،
00:06:54بل يتعلق أيضًا بالقيام بأشياء مفيدة. ويبدو أنه جيد في ذلك. ولكن كما ذكرت، هذا كل
00:07:00ما لدينا. لم نحصل على أي تحليلات عميقة أخرى أو تفاصيل تقنية. لا توجد بطاقة نموذج بعد. وبالتالي،
00:07:09كل ما نملكه هو وصف، بشكل أساسي، لكيفية استخدام نموذجهم للانتباه المتناثر بدلاً من الانتباه
00:07:16المكثف لإنجاح مهام السياق الطويل هذه أو لجعل النموذج يعمل بكفاءة
00:07:22في سيناريوهات نطاقات السياق الطويل، وكيف يحقق النموذج تسارعه وكفاءة تكلفته،
00:07:29لأنه أسرع وأرخص، أليس كذلك؟ هذا ما أعلنوه. فلنلقِ نظرة على
00:07:37الانتباه المكثف مقابل المتناثر لفهم ما يحدث هنا. الآن، الانتباه المكثف هو
00:07:45ما لديكم في النماذج الرائدة الحالية. نماذج GPD 5.5 و Opus 4.7 وجميع النماذج الأخرى،
00:07:52كلها نماذج مكثفة، وهو ما يعني أساسًا أنه لكل رمز جديد، لنقل الرمز D،
00:07:58من أجل توليد هذا الرمز، يجب تقييم جميع الرموز الأخرى ويجب تقييم الروابط بين
00:08:08هذه الرموز لأن الفكرة بأكملها في النماذج اللغوية الكبيرة هي أنك
00:08:13تشتق رمزًا مستقبليًا، قد يكون كلمة كاملة أو جزءًا من كلمة، بناءً على ما جاء قبل
00:08:20هذا الرمز. فإذا كان لديك، على سبيل المثال، جملة مثل "يمكن إنهاء العقد في أي..."
00:08:28فإن الكلمة التالية بعد ذلك هي ما تريد توقعه. ربما تكون قد سألت النموذج: "مرحبًا،
00:08:35متى يمكنني إنهاء عقدي؟" وربما أدرجت ذلك العقد كملف PDF أو كنص
00:08:42ساده داخل موجّهك أيضًا. لذا فإن الموجّه الذي يسبق هذه الجملة، والتي يقوم النموذج
00:08:48بتوليدها كمخرج، هو سؤالك وربما بعض السياق الآخر. كالعقد، على
00:08:57سبيل المثال، أليس كذلك؟ هذه هي الطريقة التي نستخدم بها النماذج حاليًا. ومن أجل إنتاج هذا الرمز هنا،
00:09:03ومن أجل إنتاج كل رمز سبقه، قام النموذج أساسًا بإلقاء نظرة على
00:09:10المحادثة بأكملها، وكل الرموز الموجودة فيها. هذا هو سؤالك وأي سياق إضافي
00:09:16وضعته هناك. وقام بتقسيم ذلك إلى رموز متعددة ثم دمج كل هذه الرموز أو
00:09:23حساب الأوزان في النهاية بناءً على جميع تركيبات الرموز السابقة. فمثلاً،
00:09:30إذا كانت هذه هي محادثتنا بأكملها، وهي قصيرة عمدًا بالطبع كمثال، فإن هذه
00:09:38هي الطريقة التي تم بها تقسيمها إلى رموز لنماذج GPT-5، على سبيل المثال. فبعض الرموز هي
00:09:46مجرد كلمة أو كلمة يسبقها مسافة فارغة. وبعض الرموز مجرد رموز خاصة.
00:09:51ومن أجل توليد الرمز التالي، يتم دمج جميع الرموز السابقة في النهاية مع
00:09:58بعضها البعض لفهم المعنى في النهاية. لأنه بالطبع، لعلامة الاستفهام معنى وتأثير
00:10:05مختلفان تمامًا على الرمز المستقبلي، اعتمادًا على ما جاء قبل علامة
00:10:11الاستفهام تلك. لذلك يتم دمج علامة الاستفهام مع جميع الرموز السابقة. ومزيج
00:10:17كل هذه التوليفات في النهاية، هو ما يُستخدم لاشتقاق هذا الرمز النهائي. هذا على
00:10:22مستوى عالٍ جدًا، هو كيف يمكنك التفكير في الانتباه المكثف وكيفية عمله. الآن، بطبيعة الحال،
00:10:29هذا غير فعال للغاية، ولكنه أفضل ما لدينا حاليًا، على الأقل عندما يتعلق الأمر
00:10:36بالذكاء وجودة المخرجات. ولكنه تربيعي لأنه عبارة عن n مضروبة في n،
00:10:44مما يعني أنه من أجل اشتقاق رمز جديد، يتعين علينا دمج جميع الرموز السابقة. هناك
00:10:49آليات تحسين مثل تخزين KV المؤقت، والذي يقوم في النهاية بتخزين نتائج الأوزان المحسوبة
00:10:56التي تم حسابها في الماضي. بحيث لا تضطر مع كل رمز جديد إلى إعادة حساب
00:11:01كل التركيبات السابقة، ولكن لا يزال يتعين عليك حساب هذا الرمز الجديد بمقارنته بجميع
00:11:08الأوزان السابقة المخزنة مؤقتًا. لذا ينتهي بك المطاف في تلك الحالة التربيعية هنا. وهذا بالطبع
00:11:16غير فعال وبطيء، ولهذا السبب فإن النماذج الرائدة الحالية متعطشة جدًا لقوة الحوسبة،
00:11:24وبطيئة، خاصة عندما تدخل في مناطق نطاق السياق الأعلى، ولهذا توجد
00:11:31حدود صارمة للغاية لحجم نطاق السياق. وبما أن الأمر تربيعي بالطبع، فإن نطاق سياق
00:11:38بحجم 12 مليون رمز يكاد يكون من المستحيل حسابه. سيستغرق الأمر دهرًا، ووقت الحوسبة ليس سوى
00:11:46بعد واحد، فالذاكرة التي يجب حجزها هي بعد آخر. هذا هو باختصار كيفية عمل النماذج المكثفة
00:11:54وما هي حدودها. الآن، النهج المعاكس أو البديل المستخدم من قبل هذا
00:12:00النموذج الجديد، نموذج sub q الذي تم الإعلان عنه بالأمس، هو استخدام الانتباه المتناثر. الآن،
00:12:06كيف يعمل الانتباه المتناثر؟ الفكرة في الانتباه المتناثر هي أنه لحساب رمز
00:12:14جديد، أنت لا تنظر إلى جميع الرموز السابقة، وليس لديك تركيبات لكل الرموز
00:12:20السابقة، بل فقط لعدد قليل من الرموز المختارة. على سبيل المثال، إذا كنت تريد اشتقاق الرمز D هنا،
00:12:28قد تنظر فقط إلى B و C، ولكن ليس إلى A. بالطبع، السؤال الأكبر حينها هو،
00:12:33كيف تقرر أي الرموز السابقة يجب النظر إليها أو أي الرموز السابقة مثيرة للاهتمام
00:12:40لإنتاج هذا الرمز الجديد. وهناك مناهج مختلفة تم استخدامها في الماضي لأن
00:12:46هذا النموذج الجديد ليس أول نموذج انتباه متناثر. ولكن السبب في عدم
00:12:52انتشارها حقًا حتى الآن هو وجود قيود جادة عليها. على سبيل المثال، إحدى الطرق هي استخدام
00:12:59منهج النافذة المحلية. الآن، ماذا يعني ذلك؟ هذا يعني أنه لإنتاج رمز جديد،
00:13:06لنقل الرمز رقم خمسة، الرمز الخامس في تسلسل، فإننا نلقي نظرة على، لنقل،
00:13:13الرمزين اللذين قبله مباشرة فقط. أي ثلاثة وأربعة، على سبيل المثال. إذن لديك نافذة منزلقة من الرموز
00:13:22وتنظر دائمًا فقط إلى الرموز التي تسبق الرمز الذي توشك على توليده مباشرة. الآن،
00:13:27كما يمكنك أن تتخيل، فإن هذا ينطوي على قيود جدية لأنه إذا كنت أنظر فقط إلى آخر
00:13:33بضعة رموز، وإذا كنت، على سبيل المثال، أتساءل متى يمكن إنهاء العقد، فإن المعلومات
00:13:39قد تكون هنا في السياق الإضافي الذي مررته في الموجّه، ولكنها ليست جزءًا من تلك النافذة المحلية
00:13:45إذا كانت النافذة المحلية تقتصر على الرموز القليلة الأخيرة فقط، على سبيل المثال. لذا فإن الرمز التالي الذي يوشك
00:13:50توقعه ليس لديه أي فكرة عما كان قبله في ذلك السياق. لذا فهذا غير مفيد. يمكنك الحصول على
00:13:55نطاق سياق غير محدود بهذا المنهج، لكن كل هذا السياق لن يهم. وهذا قيد واضح.
00:14:01منهج آخر هو ما يسمى بمنهج الرمز العالمي. هنا، الفكرة هي أن يكون
00:14:09لديك رمز ملخص عالمي. على مستوى عالٍ، يمكنك التفكير في هذا كرمز خاص يأتي
00:14:16في بداية تسلسل الرموز، يتم إدراجه في بداية تسلسل الرموز
00:14:20بواسطة النموذج، إن صح التعبير، والذي يلخص الرموز التي تأتي بعده. هذه هي طريقة التفكير في الأمر.
00:14:27ثم لتوقع الرمز التالي، يتم أخذ هذا الرمز العالمي في الاعتبار. الآن، قد يعمل هذا
00:14:34بشكل جيد للغاية إذا عدنا إلى هذا المثال هنا مع النص القانوني الذي ربما مررته للنموذج
00:14:40في موجّهك. إذا كان ذلك الملخص الذي تم توليده هنا لمحادثتك، إذا كان يتضمن
00:14:46شروط إنهاء العقد، على سبيل المثال، فيمكن بالطبع توقع هذا الرمز التالي بشكل جيد للغاية
00:14:53بناءً على ذلك الملخص. ولكن إذا لم يحالفك الحظ ولم يتضمن الملخص هذه التفاصيل،
00:15:00حينها سينتهي حظك وستعود إلى الحالة التي تكون فيها المعلومات مفقودة تمامًا.
00:15:04لذا يمكن لمنهج الرمز العالمي أن يعمل، ولكن بالطبع كلما زاد طول نطاق سياقك،
00:15:12كلما أصبح الملخص أكثر عمومية. من السهل تخيل ذلك. إذا كان لديك
00:15:16مستند PDF مكون من مئة صفحة وأردت تلخيصه في جملة أو جملتين، فسيكون غير
00:15:22محدد بدقة، أليس كذلك؟ لذلك بالطبع، توقع الرمز التالي بناءً على هذا الملخص لن يعمل حقًا.
00:15:29الآن، منهج آخر سيكون استخدام موجّه مسارات (Router)، وهو أن يكون لديك مثل شبكة عصبية
00:15:37إضافية. أي أن يكون لديك نموذجان، بشكل أساسي نموذجك اللغوي الكبير، وثم يكون لديك نموذج
00:15:43توجيه إضافي. ونموذج التوجيه هذا يلقي نظرة على الموجّه المقدم من المستخدم أو على سياق
00:15:51الرمز التالي المراد توليده ثم يوجه هذا الرمز، إن صح التعبير، إلى الرموز الأخرى التي يراها
00:15:59ذات صلة. ولكن هذا يعني بالطبع أن لديك الآن نموذج توجيه، يحتاج بطريقة ما إلى
00:16:04متابعة جميع الرموز الأخرى التي تأتي بعده. لذا فمن المحتمل أن يعود هذا إلى منطقة الانتباه
00:16:10التربيعي أو أن يكون غير محدد بدقة وتعتمد عليه. لذا فأنت إما تعود
00:16:17إلى التعقيد التربيعي ولا تكسب الكثير مقارنة بالنموذج المكثف، أو لا تفعل
00:16:23ذلك ومن المحتمل أن تواجه بعض الخسارة لأن الموجّه ليس جيدًا جدًا. لذا تمامًا كما هو الحال مع
00:16:30الملخص، ستأمل أن يقوم الموجّه بعمل جيد وينشط الرموز الصحيحة
00:16:37لتوقع الرمز التالي. ولهذا السبب يعد الانتباه المتناثر مثيرًا للاهتمام ولكنه لم ينتشر
00:16:46حقًا حتى الآن لأن كل هذه المناهج المختلفة تنطوي على مقايضات جوهرية وحتى هذه النقطة،
00:16:54على حد علمي، لم يكن هناك نموذج انتباه متناثر من شأنه إنتاج
00:17:00جودة مساوية ومقارنة بالنماذج المكثفة الرائدة الحالية وقادر على العمل عبر نطاق
00:17:07سياق ضخم. وهم يعدون بتغيير هذا مع نموذجهم الجديد. ففي منشور الإعلان هذا،
00:17:14يذكرون أن نموذجهم يقوم باختيار يعتمد على المحتوى. لكل استعلام، يختار النموذج أي
00:17:22أجزاء من التسلسل تستحق الانتباه إليها ويحسب الانتباه بدقة على تلك المواضع فقط. لذا
00:17:28في النهاية، نعود إلى منهج التوجيه هذا لكنهم يعدون هنا نوعًا ما، ويذكرون هنا،
00:17:35أن آليتهم تبدو فعالة للغاية لتنشيط الرموز الصحيحة لتوقع
00:17:43الرمز التالي. يذكرون أن الانتباه المكثف يفترض أن كل زوج قد يهم، لذا فهو يقيّم
00:17:49جميع الأزواج. عمليًا، لا يهم أي منها تقريبًا. ونهج SSA، الذي يرمز إلى الانتباه الانتقائي شبه التربيعي،
00:17:55وهو منهجهم، يزيل هذا الافتراض. إنه لا يقرب الانتباه تقريبًا. بل يقصر
00:18:01الانتباه على المواضع التي تحمل إشارة فعلية ويتخطى الباقي. هذا هو منهجهم.
00:18:08إنهم يقومون بتوجيه يعتمد على المحتوى لتنشيط الرموز الصحيحة أو استخدام الرموز الصحيحة لـ
00:18:14توقع الرمز التالي وهذا ما يمنحهم دفعة الكفاءة هذه. وعلينا أن نرى بعد
00:18:21مدى جودة عمل هذا فعليًا لأننا، كما ذكرنا، لدينا مجموعة فرعية محدودة جدًا من الاختبارات المرجعية هنا.
00:18:30وليس هناك الكثير غيرها أو لا توجد اختبارات مرجعية أخرى. ليس لدينا بطاقة نموذج. ليس لدينا تفاصيل حول كيفية عمل
00:18:36اختيارهم المعتمد على المحتوى بدقة، وبالتالي لدينا الكثير من علامات الاستفهام هنا.
00:18:42وإذا كان هناك شيء واحد تعلمناه بالتأكيد على مدار الأشهر والسنوات الماضية
00:18:49هو أن الذكاء الاصطناعي أداة مفيدة بالطبع وأنا أستخدمه كل يوم. وربما تستخدمونه كل يوم وأنتم
00:18:57أدوات مثل codecs أو cloud code مفيدة للغاية. ليس لدي أدنى شك في ذلك وهذا هو
00:19:04خبرتي معها ولكننا تعلمنا أيضًا أننا في مجال يمتلئ بالكثير من الضجيج الإعلامي. نحن في
00:19:10فترة انتقالية. كل شيء يتغير أو الكثير يتغير حاليًا وبالتالي بالطبع هناك
00:19:16الكثير من الوعود في كل مكان ولا تتحقق جميع الوعود أو تتجسد فعليًا لتصبح
00:19:26شيئًا مفيدًا. أقصد، خذوا النماذج من Meta على سبيل المثال والتي كانت نماذج مكثفة. نماذج Llama 4
00:19:35كانت لها أرقام اختبارات مرجعية مذهلة ولكنها لم تكن بهذا القدر من الروعة. لذا هناك الكثير من الأمثلة المضخمة إعلاميًا
00:19:42وهذا مجرد مثال واحد بالطبع. هناك العديد من الأمثلة المماثلة. يستحق الأمر بالتأكيد
00:19:49توخي الحذر ولكن إذا نشروا هذه النماذج ويمكنكم التقديم للحصول على وصول مبكر الآن،
00:19:56لقد فعلت ذلك لكني لم أحصل على الوصول بعد. إذا كانت هذه النماذج ترقى بالفعل إلى مستوى وعودها، وإذا كانت مفيدة
00:20:05وذكية عبر أحجام نطاقات سياق ضخمة، فإن ذلك بالطبع سيغير الكثير. سيساعد ذلك في
00:20:13حل قيود الحوسبة التي نواجهها حاليًا لأنه لا يوجد حتى ما يقرب من قوة حوسبة كافية
00:20:19في العالم. نحن بحاجة إلى المزيد من مراكز البيانات والشرائح والكهرباء وكل شيء. لذا فإن وجود نموذج
00:20:25أكثر كفاءة بكثير سيساعد في ذلك. حسنًا، ربما سنستخدمه بكثافة أكبر لدرجة أن
00:20:33المشكلة ستظل كما هي، لكن مع ذلك سيمكن بالتأكيد من استخدام أوسع نطاقًا حاليًا. وبالطبع سيفتح
00:20:40آفاقًا جديدة لحالات الاستخدام. سيجعل من الممكن ببساطة حشر مشروع برمجي كامل
00:20:45هناك والعمل بناءً عليه. لذا فإن كل هذه الحلول البديلة التي نستخدمها حاليًا ستختفي. لن
00:20:52نحتاج بالضرورة إلى وكلاء فرعيين. ولن نحتاج إلى أنظمة RAG إذا نجح ذلك. لكن هذه تبقى "لو"
00:21:00بالتأكيد وعلينا أن نرى بعد ما إذا كان ذلك سيرقى إلى مستوى الوعود الكبيرة التي يقطعونها. وإذا نجح الأمر،
00:21:07فقد أسسوا بالتأكيد شركة بمليارات أو مئات المليارات أو ترليونات الدولارات هناك.

Key Takeaway

يمثل نموذج Sub-q تحولاً تقنياً من الانتباه المكثف التربيعي إلى الانتباه الانتقائي شبه التربيعي، مما يتيح معالجة سياق يصل إلى 12 مليون رمز بتكلفة تشغيل تبلغ 5% فقط من النماذج الحالية.

Highlights

  • أعلن ألكسندر ويدين عن نموذج Sub-q، وهو نموذج لغوي كبير يعتمد على الانتباه الانتقائي شبه التربيعي (SSA) لمعالجة سياق يصل إلى 12 مليون رمز.

  • يعد النموذج بتكلفة استدلال تعادل 5% فقط من تكلفة نموذج Opus 4.7 مع سرعة أكبر في معالجة مهام السياق الطويل.

  • يعمل النموذج عبر تقنية الانتباه المتناثر بدلاً من الانتباه المكثف التربيعي المستخدم في النماذج الرائدة الحالية مثل GPT-5.5 وOpus 4.7.

  • تظهر الاختبارات المرجعية الأولية للنموذج أداءً مماثلاً لنماذج Opus في مهام الاسترجاع البرمجي وتحديد المعلومات في نطاق سياق كبير.

  • تسمح القدرة على معالجة 12 مليون رمز بتحميل مشاريع برمجية كاملة أو وثائق قانونية ضخمة مباشرة داخل نافذة السياق، مما يلغي الحاجة لتقنيات RAG والوكلاء الفرعيين.

Timeline

إعلان نموذج Sub-q وقدرات السياق الطويل

  • أعلن ألكسندر ويدين عن نموذج Sub-q الجديد بقدرة سياق تصل إلى 12 مليون رمز.
  • يعد النموذج بكفاءة أعلى وتكلفة استدلال أقل بمقدار 95% مقارنة بنموذج Opus 4.7.
  • يسمح نطاق السياق الضخم بتحميل مشاريع برمجية ومستندات قانونية كاملة للعمل عليها مباشرة.

يركز الإعلان على تجاوز قيود النماذج اللغوية الحالية في معالجة السياق الطويل. إذا أثبت النموذج كفاءته، فإنه سيغير قواعد اللعبة من خلال القضاء على الحاجة إلى تقنيات مثل RAG والوكلاء الفرعيين التي تستخدم حالياً لتجاوز ضيق نافذة السياق.

التحليل التقني والاختبارات المرجعية المتاحة

  • تم نشر ثلاث نتائج اختبارات مرجعية فقط، وهي Ruler وMRCRv2 واختبار هندسة البرمجيات.
  • يتوافق أداء النموذج في الاختبارات المرجعية الحالية مع نطاق نماذج Opus 4.6.
  • تفتقر الإعلانات الحالية إلى بطاقة نموذج تفصيلية أو تحليلات تقنية عميقة حول آلية عمل النموذج.

على الرغم من الوعود الكبيرة، لا يزال الغموض يحيط بالنموذج بسبب ندرة البيانات التقنية. تظهر النتائج قدرة النموذج على توليد كود برمجي مفيد واسترجاع المعلومات، لكن الاختبارات الحالية محدودة النطاق ولا تغطي كامل إمكانيات السياق الموعودة بـ 12 مليون رمز.

آلية عمل الانتباه المكثف مقابل الانتباه المتناثر

  • تعتمد النماذج الرائدة الحالية على الانتباه المكثف التربيعي الذي يربط كل رمز بجميع الرموز السابقة.
  • يعاني الانتباه المكثف من بطء شديد وتكلفة حوسبة عالية جداً عند زيادة طول السياق.
  • يستخدم نموذج Sub-q الانتباه المتناثر، حيث يختار فقط الرموز الأكثر صلة لتوليد الرمز التالي.

يشرح القسم الاختلافات الجوهرية بين معماريات النماذج. بينما يستهلك الانتباه المكثف موارد ضخمة بسبب تعقيده التربيعي، يحاول الانتباه المتناثر تقليل هذا التعقيد. يواجه الانتباه المتناثر تحديات تاريخية في الحفاظ على الجودة، وهو ما يحاول نموذج Sub-q معالجته عبر اختيار يعتمد على المحتوى.

الآفاق المستقبلية ومخاطر الضجيج الإعلامي

  • يستخدم النموذج آلية اختيار تعتمد على المحتوى لتحديد الرموز ذات الصلة فقط وتجاهل الباقي.
  • يجب توخي الحذر من الوعود الإعلامية في مجال الذكاء الاصطناعي نظراً لتاريخ النماذج المضخمة التي لم ترقَ للأداء الموعود.
  • نجاح هذا النموذج قد يحل قيود الحوسبة العالمية عبر تقليل الطلب على موارد مراكز البيانات للعمليات المعقدة.

يركز الجزء الأخير على تقييم مصداقية الإعلان. بالرغم من أن الآلية التقنية تبدو واعدة، إلا أن التجربة العملية هي المحك الحقيقي. إذا نجح النموذج، فإنه سيمثل ثورة في كفاءة الطاقة والحوسبة، مما سيفتح آفاقاً جديدة للاستخدام في مشاريع برمجية ضخمة.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video