أفضل أداة ذكاء اصطناعي للحصول على مخرجات حتمية وموثوقة (Interfaze)

BBetter Stack
Computing/SoftwareSmall Business/StartupsInternet Technology

Transcript

00:00:00هل تعرف ما الذي يزعجني حقًا عند استخدام نموذج ذكاء اصطناعي؟
00:00:04الهلوسة والمخرجات غير الحتمية.
00:00:07لكن هناك نموذج جديد يسمى Interphase يهدف إلى حل هذه المشكلات.
00:00:12لقد أطلقت Interphase للتو نموذجها التجريبي للمعاينة المبكرة،
00:00:16وقد جربته، وأعتقد أنه رائع حقًا.
00:00:18لذا في فيديو اليوم، سنلقي نظرة على Interphase،
00:00:21ونرى كيف يعمل، وسأقوم بإجراء بعض الاختبارات الممتعة به،
00:00:25بما في ذلك مهمة سأحاول فيها فك رموز وثائق الأجسام الطائرة المجهولة التي رُفعت عنها السرية مؤخرًا
00:00:31والتي نشرها البنتاغون، لنرى ما إذا كان بإمكاننا حل بعض الألغاز معًا.
00:00:36سيكون الأمر ممتعًا للغاية، لذا دعونا نبدأ.
00:00:42إذن ما هو Interphase بالضبط وكيف يختلف عن النماذج الأخرى؟
00:00:47حسنًا، معظم النماذج التي نستخدمها، مثل GPT-4 أو Gemini، هي محولات أحادية الكتلة.
00:00:53إنها نماذج عامة، وعندما تعطيها مستندًا،
00:00:57يحاول النموذج الضخم بأكمله تخمين الكلمة التالية.
00:01:00تتبع Interphase نهجًا مختلفًا تمامًا.
00:01:03إنه يستخدم بنية هجينة.
00:01:05داخل Interphase، توجد مجموعة من المشفرات الخاصة بكل مهمة.
00:01:10فكر فيها كخبراء مصغرين.
00:01:12هناك شبكة عصبية تلافيفية متخصصة،
00:01:15خصيصًا للرؤية والتعرف الضوئي على الحروف (OCR)،
00:01:18ومكدس شبكة عصبية عميقة للصوت والكلام.
00:01:23لذا بدلاً من مطالبة عقل عملاق بقراءة صورة،
00:01:26يقوم Interphase بتسليم تلك الصورة إلى الشبكة العصبية التلافيفية أولاً،
00:01:30ثم تقوم الشبكة بالعمل الشاق.
00:01:32إنها تحدد الأشكال، وكتل النصوص، والإحداثيات،
00:01:35ثم تسلم تلك البيانات المهيكلة إلى “منسق المحول” (Transformer orchestrator)
00:01:40لتحويلها إلى لغة بشرية.
00:01:42أطلق فريق Interphase في الواقع معيارًا جديدًا يسمى SOB،
00:01:46أو معيار المخرجات المهيكلة.
00:01:48وكيف يعمل هو أننا عادة نقيس ما إذا كان النموذج يمكنه إخراج JSON صالح،
00:01:53لكن SOB يقيس ما إذا كان المحتوى داخل ذلك JSON صحيحًا بالفعل.
00:01:58في اختباراتهم، يتفوق Interphase Beta على نماذج مثل Gemini 3 Flash
00:02:03و GPT 5.4 Mini في المهام الحتمية،
00:02:07أشياء مثل استخراج البيانات من الرسوم البيانية المعقدة أو النسخ متعدد اللغات.
00:02:12وهذا يمثل ارتياحًا كبيرًا لأنني أعلم أنني لست الوحيد الذي يشعر بالإحباط
00:02:17عندما ينسى النموذج التنسيق ببساطة.
00:02:19تطلب JSON، وتسع مرات من أصل عشر، يكون الأمر جيدًا،
00:02:23ولكن بعد ذلك تأتي تلك المرة التي يقرر فيها إضافة جملة تمهيدية مفيدة
00:02:28أو يتخطى قوس الإغلاق تمامًا،
00:02:31وهذا التناقض يقتل خط أنابيب الإنتاج.
00:02:35لذا يتعامل Interphase مع هذا بشكل مختلف لأن المخرجات المهيكلة ليست فكرة لاحقة.
00:02:39إنها مدمجة في كيفية رؤية النموذج ومعالجته للمهمة منذ البداية.
00:02:45وبسبب استخدام Interphase لتلك المشفرات الخاصة بكل مهمة،
00:02:48فإنه جيد جدًا في كشط الويب أيضًا.
00:02:51إنه يعامل صفحة الويب كخريطة مهيكلة،
00:02:53مما يمكنه من سحب بيانات نظيفة من الفوضى دون أن يضيع في الكود المصدري.
00:02:59وشيء آخر يبرز حقًا عن النماذج الأخرى هو “حواجز الحماية” (guardrails) القابلة للتعديل.
00:03:05عادةً ما تكون مرشحات الأمان مثل صندوق أسود.
00:03:08إما أنها قيد التشغيل أو الإيقاف،
00:03:09وغالباً ما ترفض الكثير من الطلبات الصالحة تمامًا.
00:03:13لكن Interphase يتيح لك تعديلها بدقة.
00:03:16يمكنك ضبط الحساسية بناءً على حالة الاستخدام الخاصة بك.
00:03:20لذا إذا كنت تحلل صورة ورأى النموذج شيئًا غير لائق أو ما شابه،
00:03:24فإنه لا يتوقف فقط ويعطيك استجابة محجوبة.
00:03:28يمكنك تهيئته ليظل مفيدًا مع الاستمرار في اتباع متطلبات الأمان المفضلة لديك.
00:03:33لذا كل هذا يبدو رائعًا،
00:03:35ولكن دعونا نجربه ونرى كيف يعمل.
00:03:38وشيء رائع آخر هو أنه يمكنك البدء بحساب مجاني،
00:03:41وستحصل على رصيد مجاني بقيمة 20 دولارًا.
00:03:44وتسعيرهم، أعتقد أنه 1.50 دولار لكل مليون رمز (tokens).
00:03:49لذا هذا كثير.
00:03:51إنه رخيص جدًا في الواقع.
00:03:52لذا يمكنك تجربة مجموعة من التجارب على المستوى المجاني.
00:03:56إذن أول شيء رائع لاحظته في لوحة تحكم Interphase هو أن لدينا “منشئ مطالبات النظام” (system prompt builder) هنا،
00:04:02حيث يمكننا اختيار نوع المعلمات التي نريدها لمهمتنا المحددة.
00:04:07ثم يعطينا مخرجات كود برمجي يمكننا نسخه ولصقه.
00:04:11وهنا يمكننا تجربة أحد حواجز الحماية.
00:04:13لذا دعونا نرى ماذا يحدث إذا قمنا بتفعيل جميع حواجز الحماية.
00:04:16لديه هذا النموذج للمطالبة.
00:04:18أخبرني كيف أصنع قنبلة.
00:04:21وبعد بضع ثوانٍ، نعم، نرى أن هذا طلب غير آمن.
00:04:24لذا فإن حواجز الحماية تعمل بشكل مثالي.
00:04:27وشيء رائع آخر هو أنه يمكننا تعديل درجة الحرارة (temperature)،
00:04:29و top P وعدد الرموز الأقصى للإكمال (max completion tokens) لمهمتك المطلوبة أيضًا.
00:04:35إذن دعونا الآن نجرب بحثًا بسيطًا على الويب.
00:04:37لهذا المثال، سأبحث فقط عن أحدث المقالات التي تذكر أحدث شرائح NVIDIA على الويب.
00:04:45دعونا نرى كيف يعمل.
00:04:47وكما ترون، فإنه يعطيني مخرجات JSON مهيكلة مع العناوين.
00:04:53وإذا نقرنا على هذا الزر هنا، فإنه يوسع المخرجات.
00:04:57ويمكننا أن نرى أنها مهيكلة بشكل جيد للغاية.
00:04:59ولكن إذا كان هذا مفصلاً للغاية، يمكننا فقط النقر للعودة إلى المخرجات النموذجية.
00:05:04وهذا يعطينا الشيء الدقيق الذي طلبناه، والذي كان مثل أهم ثلاثة عناوين لهذه المهمة.
00:05:10ومرة أخرى، أحب أن كل شيء يتم إخراجه بتنسيق JSON.
00:05:14لذلك فأنت تعرف دائمًا ما ستحصل عليه.
00:05:16لا يوجد تخمين لما ستعطيك إياه المخرجات غير الحتمية.
00:05:21وأعتقد أن هذا مفيد حقًا للمطورين على وجه التحديد،
00:05:24لأننا في كثير من الأحيان نعرف التنسيق الذي نريد الحصول عليه ولا شيء غيره.
00:05:29ونريد فقط الالتزام بهذا التنسيق الواحد.
00:05:31حسنًا، دعونا الآن نجرب شيئًا مثيرًا حقًا.
00:05:34تدعي Interface أن لديها نتائج OCR عالية جدًا.
00:05:38لذا سأضع هذا في التحدي النهائي.
00:05:41كما تعلمون، قام البنتاغون مؤخرًا برفع السرية عن وثائق الأجسام الطائرة المجهولة.
00:05:47وقد دخلت إلى صفحتهم.
00:05:49وكما ترون، بعض الصفحات، بعض الوثائق، انظروا إلى ذلك.
00:05:53واو، من الصعب جدًا قراءتها.
00:05:55حتى بالنسبة لي، انظر إلى هذا النص الأبيض على الخلفية السوداء.
00:05:59لا أستطيع حتى قراءتها بدون OCR.
00:06:02لذا سيكون من المثير للاهتمام معرفة ما إذا كان بإمكانه تحليل هذه الصفحات بالفعل.
00:06:07ثم سأختار مثالاً آخر.
00:06:10هذا يحتوي على ملاحظة مكتوبة بخط اليد عليه.
00:06:12لذا سيكون هذا مثالنا الثاني.
00:06:15حسنًا، دعونا نطلب منه قراءة هذا المستند واستخراج كل النص الموجود فيه.
00:06:22حسنًا، أرى أنه يعيد نوعًا ما من JSON.
00:06:25وإذا قمت بتوسيعه، فهناك المزيد من البيانات.
00:06:29وإذا تعمقنا أكثر، يمكنك أن ترى أن هناك بالفعل معلومات حول جميع “صناديق التحديد” (bounding boxes) ومكان وجودها تحديدًا في الصفحة.
00:06:38لكن هذا شيء مفقود من نظام لوحة التحكم بأكمله الذي لديهم هنا.
00:06:43لا توجد طريقة لمعاينة هذا بالفعل.
00:06:46لذا قمت ببرمجة صفحة HTML صغيرة تتيح لي معاينة هذه المستندات ونسخ مخرجات JSON الموسعة التي يعطيني إياها Interphase.
00:06:56ثم يمكنني تغذيتها في صفحة الويب هذه.
00:06:59وسوف تعرض بصريًا جميع مربعات النصوص مع النص وكل شيء.
00:07:03لذا سأضيف رابطًا إلى المستودع (repo) حتى تتمكن من تنزيل هذا المشروع بنفسك إذا كنت ترغب في تجربته أيضًا.
00:07:09حسنًا، هذا هو التطبيق.
00:07:10وهنا يمكننا رؤية مربعات النصوص، وكل مربع نص له أيضًا درجة ثقة.
00:07:17وإذا كانت درجة الثقة أعلى من 70%، فسيظهر باللون الأخضر.
00:07:20وإذا لم تكن كذلك، فسيظهر باللون الأصفر.
00:07:23وإذا كانت منخفضة جدًا، فسيظهر باللون الأحمر.
00:07:26وبالطبع، كلمة “UFO” في القسم 1 لها ثقة عالية لأنه من السهل قراءتها.
00:07:32لكن دعونا الآن نتحقق من هذه الصفحة.
00:07:34واو.
00:07:34حتى Interphase واجه صعوبة في فك رموز كل شيء في هذه الصفحة.
00:07:40لكن دعونا ننظر إليها.
00:07:41دعونا نرى أحد المربعات الخضراء.
00:07:44لا.
00:07:45هذا لا يزال كلامًا غير مفهوم.
00:07:48فطائر (Flapjacks).
00:07:48حسنًا، نعم.
00:07:49لذا “فطائر طائرة”، والتي، لذا من المحتمل أنها “التي تكون رقيقة ومستديرة”.
00:07:57رقيقة ومستديرة.
00:07:57لقد حصل على ذلك بشكل صحيح.
00:07:59ثم، نعم، لم يستطع فك رموز الباقي.
00:08:02لذا يمكنك أن ترى أن Interphase يعاني حقًا مع بعض المناطق.
00:08:07لكنني أعتقد أنه قام بعمل جيد جدًا.
00:08:09مثل، بالنظر إلى مثل هذه الوثيقة القديمة التي يصعب على الإنسان قراءتها، أشعر أنها مثيرة للإعجاب للغاية.
00:08:19لدي مثال آخر، يحتوي بالفعل على ملاحظة مكتوبة بخط اليد.
00:08:25لذا دعونا نرى ما سنحصل عليه من ذلك.
00:08:29فيدرالية، حسناً، هذه بوضوح “مكتب التحقيقات”، أعتقد.
00:08:35لذا هذا مثير للاهتمام.
00:08:36يمكننا بالفعل فك رموز شيء هنا.
00:08:39ظننته بالونًا، لكنه اتجه في اتجاه محدد، محدد عند...
00:08:48ولا أعرف ما هذا.
00:08:50لكن يمكننا أن نرى أن هذه الملاحظة لها علاقة، أعتقد، بشاهد عيان يحاول شرح ما رآه.
00:09:02يصعد تدريجيًا، متبعًا مسارًا.
00:09:05مشابه لمسار رصاصة.
00:09:09واو، حسنًا، لذا نحن نحصل على بعض أشياء الأجسام الطائرة هنا، في الواقع.
00:09:14انخفضت في المسافة للرياضيات.
00:09:18نعم، لا أعرف ما إذا كان هذا صحيحًا، ولكن أحسنت، أحسنت.
00:09:23أعني، أنا مندهش.
00:09:25أعتقد أن هذا الـ OCR قام بعمل أفضل مني كإنسان، لذا جيد جدًا.
00:09:34وها هو مثال آخر لنص يسهل قراءته.
00:09:40ويمكننا رؤية ذلك لأن الكثير من الصناديق خضراء بالفعل.
00:09:43المشكلة الوحيدة هنا هي أن بعض النصوص باهتة قليلاً.
00:09:50أنا مندهش.
00:09:51هناك الكثير من الأشياء الرائعة هنا.
00:09:55التي كان قادرًا على فك رموزها، لذا هذا رائع جدًا.
00:10:00وبالطبع، كان من الممتع النظر إلى بعض وثائق الأجسام الطائرة المجهولة التي رُفعت عنها السرية.
00:10:05لذا، إذا كان أي منكم من محبي الأجسام الطائرة المجهولة يرغب في التدقيق في الوثائق، فيمكنكم تجربة Interphase.
00:10:12ربما سنجد شيئًا مثيرًا أو شيئًا مثيرًا للاهتمام في هذه الكومة من الوثائق التي رُفعت عنها السرية.
00:10:20إذن، هاهي ذي يا رفاق.
00:10:21هذا هو Interphase.
00:10:22أعتقد بصدق أنه نموذج ذكاء اصطناعي رائع جدًا ومخصص للمطورين.
00:10:29إذا كنت أقوم بإنشاء تطبيق وأريد الحصول على يقين بنسبة 100% بأنني أريد مخرجات حتمية في كل مرة أعطي فيها مطالبة،
00:10:39أعتقد أن هذه واحدة من أفضل الأدوات المتاحة لأنها تعطيك بالفعل JSON مهيكلًا في كل مرة.
00:10:46ويمكنك الاعتماد عليها.
00:10:47لن تقوم بالهلوسة.
00:10:49على الأقل، هذه هي الفكرة وراء هذه الأداة.
00:10:52لذا، إذا كان هذا شيئًا تبحث عنه، فجرب Interphase بالتأكيد.
00:10:56لذا، إذا جربته، أخبرني في التعليقات أدناه كيف أعجبك.
00:11:00ويا رفاق، كما هو الحال دائمًا، إذا أعجبتكم هذه الأنواع من التحليلات الفنية، فيرجى إخباري بذلك عن طريق تحطيم زر الإعجاب أسفل الفيديو.
00:11:07وأيضًا، لا تنسوا الاشتراك في قناتنا.
00:11:10كان معكم أندروس من Betterstack، وسأراكم في الفيديوهات القادمة.

Key Takeaway

يوفر نموذج Interphase حلاً للمخرجات غير الحتمية في نماذج الذكاء الاصطناعي من خلال استخدامه لبنية هجينة تضمن الحصول على بيانات JSON مهيكلة وموثوقة لكل مهمة.

Highlights

  • يعتمد نموذج Interphase بنية هجينة تستخدم مشفرات متخصصة بدلاً من نهج المحولات أحادية الكتلة التقليدية.

  • يستخدم معيار SOB (معيار المخرجات المهيكلة) لقياس صحة المحتوى داخل مخرجات JSON وليس فقط صلاحية التنسيق.

  • يوفر النموذج مخرجات JSON ثابتة ومتوقعة، مما يقلل من احتمالية إضافة جمل تمهيدية غير مرغوب فيها أو تخطي الأقواس.

  • يسمح النموذج بتعديل حواجز الحماية (guardrails) بدقة بناءً على متطلبات حالة الاستخدام بدلاً من خيار التشغيل أو الإيقاف المطلق.

  • يبدأ تسعير الخدمة من 1.50 دولار لكل مليون رمز، مع توفير رصيد مجاني بقيمة 20 دولارًا للمستخدمين الجدد.

  • تُظهر نتائج الاختبارات تفوق Interphase في مهام استخراج البيانات من الرسوم البيانية المعقدة والنسخ متعدد اللغات مقارنة بنماذج مثل Gemini 3 Flash و GPT 5.4 Mini.

Timeline

معمارية Interphase الفريدة

  • يستخدم النموذج شبكات عصبية متخصصة لكل مهمة بدلاً من الاعتماد على نموذج ضخم واحد.
  • تتولى شبكة عصبية تلافيفية معالجة الصور والنصوص بينما يقوم منسق المحول بتحويل البيانات إلى لغة بشرية.
  • يتجاوز معيار SOB لقياس الجودة المقاييس التقليدية لصلاحية JSON.

تختلف النماذج التقليدية مثل GPT-4 في كونها محولات أحادية الكتلة تحاول توقع الكلمة التالية عبر النموذج بأكمله. في المقابل، يوزع Interphase المهام على مشفرات متخصصة كخبراء مصغرين؛ حيث تتعامل شبكة متخصصة مع الرؤية والتعرف الضوئي (OCR)، وأخرى للصوت. هذا النهج يضمن استخراج بيانات مهيكلة بدقة عالية قبل معالجتها لغوياً.

مميزات الأداء وحواجز الحماية

  • تُدمج المخرجات المهيكلة في صلب عملية معالجة النموذج.
  • تسمح البنية المتخصصة للنموذج بسحب بيانات نظيفة من صفحات الويب.
  • توفر حواجز الحماية القابلة للتعديل مرونة أكبر من مرشحات الأمان التقليدية.

يعالج النموذج مشكلة التناقض في المخرجات التي تؤثر سلباً على خطوط الإنتاج البرمجية من خلال جعل التنسيق جزءاً أساسياً من المعالجة. كما يتيح للمطورين تعديل حساسية الأمان بدلاً من التعامل معها كصندوق أسود، مما يضمن استمرار النموذج في تقديم المساعدة حتى عند اكتشاف محتوى حساس.

الاختبارات العملية والقدرة على القراءة

  • تسمح لوحة التحكم بإنشاء مطالبات نظام (system prompts) وتوليد كود برمجي جاهز للاستخدام.
  • تتميز الأداة بقدرة عالية على فك رموز المستندات القديمة أو الباهتة باستخدام الـ OCR.
  • يعتمد نظام التقييم على درجات ثقة لكل مربع نص يتم استخراجه من الوثائق.

أثبتت الاختبارات على وثائق البنتاغون السرية قدرة النموذج على استخراج النصوص من صور يصعب على البشر قراءتها، مع إظهار مربعات تحديد لكل جزء من النص ودرجة الثقة المرتبطة به. رغم وجود بعض الصعوبات في النصوص الباهتة جداً، قدم النموذج نتائج دقيقة في تحليل ملاحظات مكتوبة بخط اليد ومستندات تقنية، مما يجعله أداة قوية للمطورين الباحثين عن نتائج حتمية.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video