Создание «чистой комнаты» ИИ-пайплайна исключительно на литературе до 1931 года
8 Mei 2026
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
Современные LLM уже начинают «пожирать собственный хвост». Ответы моделей, поглотивших огромные массивы оценочных данных из интернета, скорее являются продуктом памяти, а не интеллекта. Чтобы увидеть истинную способность к рассуждению, необходимо использовать данные из времен, когда современных знаний еще не существовало. Ниже описан конкретный процесс создания среды обучения без загрязнений с использованием данных общественного достояния до 1931 года.
Прежде чем тратить бюджет на сбор данных, стоит опустошить репозитории с истекшим сроком авторских прав. «Проект Гутенберг» содержит более 75 000 документов, а коллекция Sonny Bono Memorial в Internet Archive предоставляет бесплатный доступ к научным данным периода с 1923 по 1941 год.
gutendex на Python следует ориентироваться не на поле Issued в метаданных, а на год смерти автора и дату первого издания, оставляя только материалы до 1931 года.LCC в метаданных, в первую очередь скачивайте тексты по философии (B), математике (QA) и классической логике.Бумага столетней давности обветшала, а макеты газет сложны. Обычное OCR выдает массу опечаток. Необходим процесс, который сначала разбирает макет, а не просто копирует текст.
LayoutParser для разделения заголовков и табличных областей в документе. Для многоколоночных газетных статей следует использовать модель Newspaper Navigator для исправления порядка чтения.LayoutLM определите визуальные координаты и логическую последовательность текстовых блоков, после чего запускайте OCR по зонам.REVISE. Назначьте LLM роль эксперта-корректора исторических документов, чтобы она исправляла ошибки распознавания, сохраняя орфографию эпохи. Этот процесс поднимает точность с 30% до уровня, пригодного для обучения, сокращая время очистки вдвое.Необходимо помешать модели притворяться умной за счет использования современных знаний. Создайте систему мониторинга обучающего набора данных на основе списка терминов, появившихся после 1931 года.
Устаревшие данные не означают устаревший интеллект. Напротив, такие труды, как Principia Mathematica (1910) Бертрана Рассела, являются лучшим учебным пособием для развития дедуктивного мышления, чем современные веб-данные.
Для оценки используйте экзаменационные листы прошлого, ответы на которые не растиражированы в современном интернете. Используйте вопросы по искусственным языкам и логическому мышлению из первого теста SAT 1926 года. Измерение способностей к zero-shot рассуждению с помощью вопросов теста интеллекта Стэнфорд-Бине в редакции 1916 года четко покажет: заучила ли модель ответ или она мгновенно понимает и применяет данные правила. Модель, способная правильно ответить на вопросы вековой давности, — это и есть настоящий интеллект, свободный от подозрений в загрязнении данных.