بناء خط أنابيب الغرفة النظيفة للذكاء الاصطناعي باستخدام أدبيات ما قبل عام 1931 فقط
٨ مايو ٢٠٢٦
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
لقد بدأت نماذج اللغات الكبيرة (LLMs) الحديثة بالفعل في التهام ذيولها. فمن المرجح أن تكون الإجابات التي تقدمها النماذج التي ابتلعت بيانات التقييم المنتشرة عبر الإنترنت بالكامل هي نتاج قوة الحفظ وليست نتاج الذكاء. إذا كنت ترغب في رؤية قدرات الاستدلال الحقيقية، فيجب عليك جلب بيانات من عصر لم تكن فيه المعرفة الحديثة موجودة أصلاً. لقد قمنا بتلخيص العمليات المحددة لإنشاء بيئة تعلم خالية من التلوث باستخدام بيانات الملكية العامة التي تعود إلى ما قبل عام 1931.
قبل إنفاق الميزانية على جمع البيانات، يجب عليك أولاً استغلال المستودعات التي انتهت صلاحية حقوق الطبع والنشر الخاصة بها. يضم مشروع غوتنبرغ (Project Gutenberg) أكثر من 75,000 وثيقة، كما توفر مجموعة "Sonny Bono Memorial Collection" في أرشيف الإنترنت بيانات أكاديمية من الفترة ما بين 1923 و1941 مجانًا.
gutendex الخاصة بـ Python، لا تعتمد على حقل Issued في البيانات الوصفية، بل اترك فقط المواد التي تسبق عام 1931 بناءً على سنة وفاة المؤلف وتاريخ الطبعة الأولى.LCC في البيانات الوصفية لتنزيل النصوص المتعلقة بالفلسفة (B)، والرياضيات (QA)، والمنطق الكلاسيكي كأولوية قصوى.الورق الذي يعود تاريخه إلى 100 عام قديم، وتخطيطات الصحف معقدة. إذا قمت بتشغيل OCR عادي، فستظهر الكثير من الأخطاء المطبعية. نحن بحاجة إلى عملية تفكك التخطيط أولاً بدلاً من مجرد كشط النصوص.
LayoutParser للتمييز بين العناوين ومناطق الجداول داخل المستند. وبشكل خاص، يجب استخدام نموذج Newspaper Navigator لتصحيح ترتيب القراءة في أعمدة الصحف المتعددة.LayoutLM لتحديد معلومات الإحداثيات المرئية وتحديد الترتيب المنطقي لكتل النص، ثم قم بتشغيل OCR لكل منطقة.REVISE. امنح النموذج دور مصحح وثائق تاريخية متخصص واجعله يصحح الكلمات التي تم التعرف عليها بشكل خاطئ مع الحفاظ على قواعد الإملاء في تلك الحقبة. ومن خلال هذه العملية، سيرتفع معدل التعرف من مستويات 30% إلى مستوى قابل للتعلم، وسيتم تقليل وقت التنقية إلى النصف.يجب منع النموذج من التظاهر بالذكاء عبر سرقة المعرفة الحديثة. نقوم بإنشاء نظام يراقب مجموعات بيانات التدريب من خلال إنشاء قائمة بالمصطلحات التي ظهرت بعد عام 1931.
كون البيانات قديمة لا يعني أن الذكاء قديم. بل على العكس، فإن مؤلفات مثل Principia Mathematica (1910) لبرتراند راسل تعد مواد تعليمية أفضل من بيانات الويب الحديثة لتعليم التفكير الاستنتاجي.
للتقييم، استخدم أوراق الامتحانات القديمة التي لم يتم ملء إجاباتها في الإنترنت الحديث. استخدم أسئلة اللغة الاصطناعية والاستدلال المنطقي من أول اختبار SAT أُجري في عام 1926 كبيانات تقييم. إن قياس قدرة الاستدلال بنظام (zero-shot) باستخدام أسئلة اختبار ستانفورد بينيه للذكاء المنقح عام 1916 سيكشف بوضوح ما إذا كان النموذج قد حفظ الإجابات، أم أنه يفهم القواعد المعطاة ويطبقها على الفور. إن النموذج الذي يجيب بشكل صحيح على أسئلة من قبل 100 عام هو الذكاء الحقيقي الخالي من تهمة تلوث البيانات.