Log in to leave a comment
No posts yet
لقد انتهى عصر الانبهار بمجرد تشغيل عروض تجريبية للذكاء الاصطناعي في المتصفح. في عام 2026 الحالي، تواجه الشركات حاجزاً ضخماً بين تكاليف واجهة برمجة تطبيقات (API) السحابية المتصاعدة وسيادة البيانات. السؤال الآن بسيط: كيف يمكن دمج نموذج يحتوي على 1.6B معامل (parameter) في خدمة فعلية باستهلاك ذاكرة يقل عن 1 جيجابايت؟ الإجابة تكمن في الجمع بين Liquid Foundation Model (LFM) 2.5 وتقنية WebGPU.
تؤدي بنية "ترانسفورمرز" (Transformers) القياسية إلى انفجار في حجم الحسابات بشكل تربيعي (
) مع زيادة طول التسلسل. في المقابل، تحرر نموذج LFM 2.5 من هذه القيود عبر إدخال عامل المدخلات الخطية المتغيرة (Linear Input-Varying - LIV). يظهر النظام الخطي الذي يتم فيه إنشاء الأوزان ديناميكياً بناءً على إشارة الإدخال (
) قمة الكفاءة الحسابية.
الأرقام تثبت الأداء الفعلي. في بيئة AMD Ryzen AI 9 HX 370، يضخ نموذج LFM 2.5-1.2B ما يصل إلى 116 توكن في الثانية. هذا أسرع بمرتين من نموذج Qwen 3.5 المنافس في بيئات CPU. بالطبع، هناك مقايضة؛ فبينما تكون طريقة LIV عالية الكفاءة للغاية، إلا أنها قد تظهر أخطاءً طفيفة جداً مقارنة بنماذج الانتباه الذاتي العالمي (Global Self-Attention) عند محاولة فهم العلاقات المكانية الدقيقة داخل الصور المعقدة للغاية.
عند النشر في المتصفح، لا يعد اختيار WebGPU خياراً بل ضرورة. من خلال نقل الحسابات الثقيلة إلى وحدة معالجة الرسومات (GPU)، يتم تحقيق سرعات كانت ممكنة سابقاً فقط في الأجهزة من فئة الخوادم على أجهزة المستخدمين.
| الجهاز والعتاد | الإطار البرمجي | سرعة فك التشفير (Decode) | استهلاك الذاكرة |
|---|---|---|---|
| Qualcomm Snapdragon X Elite | NexaML (NPU) | 63 tok/s | 0.9 GB |
| Samsung Galaxy S25 Ultra | llama.cpp (Q4_0) | 70 tok/s | 719 MB |
| NVIDIA RTX 4090 (Desktop) | vLLM (Offline) | 7,214 tok/s | 24 GB |
نماذج الرؤية على الأجهزة (On-device vision models) حساسة للدقة. يستخدم LFM 2.5-VL تقنية التبليط (Tiling) لتقسيم الصور إلى أجزاء بحجم 512x512. النقطة المهمة هنا ليست مجرد القص، بل يجب دمجها مع تشفير الصور المصغرة (Thumbnail Encoding) الذي يوفر رؤية منخفضة الدقة للصورة الكاملة. عند دمج التبليط 3x3 مع السياق العالمي، سجلت دقة الاستنتاج المكاني 80.17%، وهو رقم هائل مقارنة بطريقة تغيير الحجم الواحدة (54.08%).
لا يمكن تنزيل نموذج يتجاوز حجمه 1 جيجابايت في كل مرة. استخدم Origin Private File System (OPFS). اعتباراً من عام 2026، يعد هذا البديل الأمثل لإدارة الملفات الكبيرة التي تزيد عن 2 جيجابايت بسرعات أصلية (Native). بالإضافة إلى ذلك، من خلال التخزين عبر IndexedDB بتنسيق ArrayBuffer الذي تستخدمه وحدة معالجة الرسومات، يمكنك التخلص تماماً من عبء التسلسل (Serialization overhead).
إذا كنت قلقاً بشأن تسرب النموذج، فطبق تقنية ConvShatter. تعتمد هذه الطريقة على فصل النواة الأساسية عن النواة المشتركة وحقن نوى تمويهية لا معنى لها. من خلال تخزين الحد الأدنى فقط من المعاملات اللازمة لاستعادة النموذج في بيئة التنفيذ الموثوقة (TEE) للجهاز، وإعادة بناء الطبقات المشفرة فقط في وقت الاستنتاج، يمكنك منع انكشاف الأوزان الأصلية من المصدر.
تتجلى قدرة المعالجة المحلية لـ LFM 2.5-VL في المجالات الطبية. بعد إدخال نظام إدارة مخزون غرف العمليات في الوقت الفعلي، انخفضت النفايات بنسبة 97.3%. نظراً لأن جميع عمليات المعالجة تتم محلياً، فمن السهل اجتياز لوائح حماية البيانات الشخصية الصارمة مثل HIPAA.
قبل البدء، تحقق من النقاط الأخيرة: هل تم وضع سياسة تبليط للمعالجة عالية الدقة؟ هل يتوفر دعم WebGPU وذاكرة VRAM بسعة 2 جيجابايت على الأقل؟ وهل قمت بإعداد تحسين WASM ونماذج تكميم Q4_0 للبيئات التي لا تدعم تسريع GPU؟
في النهاية، تعتمد مرونة التشغيل على مدى تقليل الاعتماد على السحابة. بعد إتمام التدريب على 28 تريليون توكن، أصبح LFM 2.5 جاهزاً الآن لإجراء استنتاجات من فئة المؤسسات داخل متصفحك. التفوق التقني سيتحدد بمدى مهارتك في تحسين هذا النموذج المحلي.