بناء خط أنابيب الغرفة النظيفة للذكاء الاصطناعي باستخدام أدبيات ما قبل عام 1931 فقط

لقد بدأت نماذج اللغات الكبيرة (LLMs) الحديثة بالفعل في التهام ذيولها. فمن المرجح أن تكون الإجابات التي تقدمها النماذج التي ابتلعت بيانات التقييم المنتشرة عبر الإنترنت بالكامل هي نتاج قوة الحفظ وليست نتاج الذكاء. إذا كنت ترغب في رؤية قدرات الاستدلال الحقيقية، فيجب عليك جلب بيانات من عصر لم تكن فيه المعرفة الحديثة موجودة أصلاً. لقد قمنا بتلخيص العمليات المحددة لإنشاء بيئة تعلم خالية من التلوث باستخدام بيانات الملكية العامة التي تعود إلى ما قبل عام 1931.

تأمين مستودعات النصوص التاريخية الخالية من حقوق الملكية

قبل إنفاق الميزانية على جمع البيانات، يجب عليك أولاً استغلال المستودعات التي انتهت صلاحية حقوق الطبع والنشر الخاصة بها. يضم مشروع غوتنبرغ (Project Gutenberg) أكثر من 75,000 وثيقة، كما توفر مجموعة "Sonny Bono Memorial Collection" في أرشيف الإنترنت بيانات أكاديمية من الفترة ما بين 1923 و1941 مجانًا.

التصفية بناءً على تاريخ النشر: عند استدعاء واجهة برمجة تطبيقات gutendex الخاصة بـ Python، لا تعتمد على حقل Issued في البيانات الوصفية، بل اترك فقط المواد التي تسبق عام 1931 بناءً على سنة وفاة المؤلف وتاريخ الطبعة الأولى.
التحقق من السلامة: يمكن أن يؤدي التحقق المتبادل من معرف غوتنبرغ (Gutenberg ID) مع رقم التحكم في مكتبة الكونجرس (LCCN) إلى منع وقوع حوادث اختلاط سنوات النشر.
استخراج الأولوية للمنطق: قم بتحليل حقل LCC في البيانات الوصفية لتنزيل النصوص المتعلقة بالفلسفة (B)، والرياضيات (QA)، والمنطق الكلاسيكي كأولوية قصوى.

الترميم الهجين لزيادة معدلات التعرف الضوئي على الحروف (OCR)

الورق الذي يعود تاريخه إلى 100 عام قديم، وتخطيطات الصحف معقدة. إذا قمت بتشغيل OCR عادي، فستظهر الكثير من الأخطاء المطبعية. نحن بحاجة إلى عملية تفكك التخطيط أولاً بدلاً من مجرد كشط النصوص.

تحليل التخطيط: قم بتشغيل إطار عمل LayoutParser للتمييز بين العناوين ومناطق الجداول داخل المستند. وبشكل خاص، يجب استخدام نموذج Newspaper Navigator لتصحيح ترتيب القراءة في أعمدة الصحف المتعددة.
الاستخراج الهيكلي: استخدم LayoutLM لتحديد معلومات الإحداثيات المرئية وتحديد الترتيب المنطقي لكتل النص، ثم قم بتشغيل OCR لكل منطقة.
التصحيح اللاحق القائم على LLM: استخدم إطار عمل REVISE. امنح النموذج دور مصحح وثائق تاريخية متخصص واجعله يصحح الكلمات التي تم التعرف عليها بشكل خاطئ مع الحفاظ على قواعد الإملاء في تلك الحقبة. ومن خلال هذه العملية، سيرتفع معدل التعرف من مستويات 30% إلى مستوى قابل للتعلم، وسيتم تقليل وقت التنقية إلى النصف.

منع تسرب المعرفة الحديثة بفلتر يضم 5,000 كلمة محظورة

يجب منع النموذج من التظاهر بالذكاء عبر سرقة المعرفة الحديثة. نقوم بإنشاء نظام يراقب مجموعات بيانات التدريب من خلال إنشاء قائمة بالمصطلحات التي ظهرت بعد عام 1931.

مسح N-gram: استنادًا إلى بيانات سنة أول اقتباس في قاموس أكسفورد الإنجليزي (OED)، قم بتعيين 5,000 مفهوم حديث مثل الكمبيوتر، والحمض النووي (DNA)، والإنترنت ككلمات محظورة، وامسح نص التدريب بالكامل بوحدات unigram.
التخلص من المستندات بالكامل: إذا تم العثور على كلمة محظورة واحدة، فلا تحذف تلك الجملة فحسب، بل احذف المستند بأكمله. هذا لاقتلاع احتمال وجود تعليقات حديثة أو تزوير من جذوره.
التحقق من الأخطاء الزمنية: استخدم نماذج مثل Claude Sonnet كمتحقق لقياس ما إذا كانت هناك مفاهيم لا تتناسب مع العصر مختلطة في الإجابات التي يولدها النموذج.

قياس المهارات الحقيقية عبر اختبار SAT لعام 1926

كون البيانات قديمة لا يعني أن الذكاء قديم. بل على العكس، فإن مؤلفات مثل Principia Mathematica (1910) لبرتراند راسل تعد مواد تعليمية أفضل من بيانات الويب الحديثة لتعليم التفكير الاستنتاجي.

للتقييم، استخدم أوراق الامتحانات القديمة التي لم يتم ملء إجاباتها في الإنترنت الحديث. استخدم أسئلة اللغة الاصطناعية والاستدلال المنطقي من أول اختبار SAT أُجري في عام 1926 كبيانات تقييم. إن قياس قدرة الاستدلال بنظام (zero-shot) باستخدام أسئلة اختبار ستانفورد بينيه للذكاء المنقح عام 1916 سيكشف بوضوح ما إذا كان النموذج قد حفظ الإجابات، أم أنه يفهم القواعد المعطاة ويطبقها على الفور. إن النموذج الذي يجيب بشكل صحيح على أسئلة من قبل 100 عام هو الذكاء الحقيقي الخالي من تهمة تلوث البيانات.

بناء خط أنابيب الغرفة النظيفة للذكاء الاصطناعي باستخدام أدبيات ما قبل عام 1931 فقط

تأمين مستودعات النصوص التاريخية الخالية من حقوق الملكية

التصفية بناءً على تاريخ النشر: عند استدعاء واجهة برمجة تطبيقات gutendex الخاصة بـ Python، لا تعتمد على حقل Issued في البيانات الوصفية، بل اترك فقط المواد التي تسبق عام 1931 بناءً على سنة وفاة المؤلف وتاريخ الطبعة الأولى.

التحقق من السلامة: يمكن أن يؤدي التحقق المتبادل من معرف غوتنبرغ (Gutenberg ID) مع رقم التحكم في مكتبة الكونجرس (LCCN) إلى منع وقوع حوادث اختلاط سنوات النشر.

استخراج الأولوية للمنطق: قم بتحليل حقل LCC في البيانات الوصفية لتنزيل النصوص المتعلقة بالفلسفة (B)، والرياضيات (QA)، والمنطق الكلاسيكي كأولوية قصوى.

الترميم الهجين لزيادة معدلات التعرف الضوئي على الحروف (OCR)

تحليل التخطيط: قم بتشغيل إطار عمل LayoutParser للتمييز بين العناوين ومناطق الجداول داخل المستند. وبشكل خاص، يجب استخدام نموذج Newspaper Navigator لتصحيح ترتيب القراءة في أعمدة الصحف المتعددة.

الاستخراج الهيكلي: استخدم LayoutLM لتحديد معلومات الإحداثيات المرئية وتحديد الترتيب المنطقي لكتل النص، ثم قم بتشغيل OCR لكل منطقة.

التصحيح اللاحق القائم على LLM: استخدم إطار عمل REVISE. امنح النموذج دور مصحح وثائق تاريخية متخصص واجعله يصحح الكلمات التي تم التعرف عليها بشكل خاطئ مع الحفاظ على قواعد الإملاء في تلك الحقبة. ومن خلال هذه العملية، سيرتفع معدل التعرف من مستويات 30% إلى مستوى قابل للتعلم، وسيتم تقليل وقت التنقية إلى النصف.

منع تسرب المعرفة الحديثة بفلتر يضم 5,000 كلمة محظورة

مسح N-gram: استنادًا إلى بيانات سنة أول اقتباس في قاموس أكسفورد الإنجليزي (OED)، قم بتعيين 5,000 مفهوم حديث مثل الكمبيوتر، والحمض النووي (DNA)، والإنترنت ككلمات محظورة، وامسح نص التدريب بالكامل بوحدات unigram.

التخلص من المستندات بالكامل: إذا تم العثور على كلمة محظورة واحدة، فلا تحذف تلك الجملة فحسب، بل احذف المستند بأكمله. هذا لاقتلاع احتمال وجود تعليقات حديثة أو تزوير من جذوره.

التحقق من الأخطاء الزمنية: استخدم نماذج مثل Claude Sonnet كمتحقق لقياس ما إذا كانت هناك مفاهيم لا تتناسب مع العصر مختلطة في الإجابات التي يولدها النموذج.

قياس المهارات الحقيقية عبر اختبار SAT لعام 1926

بناء خط أنابيب الغرفة النظيفة للذكاء الاصطناعي باستخدام أدبيات ما قبل عام 1931 فقط

Related Video

ذكاء اصطناعي عالق في عام 1930 (والنتائج مذهلة)

بناء خط أنابيب الغرفة النظيفة للذكاء الاصطناعي باستخدام أدبيات ما قبل عام 1931 فقط

تأمين مستودعات النصوص التاريخية الخالية من حقوق الملكية

الترميم الهجين لزيادة معدلات التعرف الضوئي على الحروف (OCR)

منع تسرب المعرفة الحديثة بفلتر يضم 5,000 كلمة محظورة

قياس المهارات الحقيقية عبر اختبار SAT لعام 1926

Comments (0)

بناء خط أنابيب الغرفة النظيفة للذكاء الاصطناعي باستخدام أدبيات ما قبل عام 1931 فقط

تأمين مستودعات النصوص التاريخية الخالية من حقوق الملكية

الترميم الهجين لزيادة معدلات التعرف الضوئي على الحروف (OCR)

منع تسرب المعرفة الحديثة بفلتر يضم 5,000 كلمة محظورة

قياس المهارات الحقيقية عبر اختبار SAT لعام 1926