Создание «чистой комнаты» ИИ-пайплайна исключительно на литературе до 1931 года

Современные LLM уже начинают «пожирать собственный хвост». Ответы моделей, поглотивших огромные массивы оценочных данных из интернета, скорее являются продуктом памяти, а не интеллекта. Чтобы увидеть истинную способность к рассуждению, необходимо использовать данные из времен, когда современных знаний еще не существовало. Ниже описан конкретный процесс создания среды обучения без загрязнений с использованием данных общественного достояния до 1931 года.

Получение доступа к хранилищам исторических текстов без авторских отчислений

Прежде чем тратить бюджет на сбор данных, стоит опустошить репозитории с истекшим сроком авторских прав. «Проект Гутенберг» содержит более 75 000 документов, а коллекция Sonny Bono Memorial в Internet Archive предоставляет бесплатный доступ к научным данным периода с 1923 по 1941 год.

Фильтрация по дате публикации: При вызове API gutendex на Python следует ориентироваться не на поле Issued в метаданных, а на год смерти автора и дату первого издания, оставляя только материалы до 1931 года.
Проверка целостности: Сверка ID Гутенберга с номером управления Библиотеки Конгресса США (LCCN) поможет предотвратить ошибки, связанные с перемешиванием годов издания.
Приоритет логики: Анализируя поле LCC в метаданных, в первую очередь скачивайте тексты по философии (B), математике (QA) и классической логике.

Гибридное восстановление для повышения точности OCR

Бумага столетней давности обветшала, а макеты газет сложны. Обычное OCR выдает массу опечаток. Необходим процесс, который сначала разбирает макет, а не просто копирует текст.

Анализ макета: Используйте фреймворк LayoutParser для разделения заголовков и табличных областей в документе. Для многоколоночных газетных статей следует использовать модель Newspaper Navigator для исправления порядка чтения.
Структурное извлечение: С помощью LayoutLM определите визуальные координаты и логическую последовательность текстовых блоков, после чего запускайте OCR по зонам.
Пост-коррекция на базе LLM: Используйте фреймворк REVISE. Назначьте LLM роль эксперта-корректора исторических документов, чтобы она исправляла ошибки распознавания, сохраняя орфографию эпохи. Этот процесс поднимает точность с 30% до уровня, пригодного для обучения, сокращая время очистки вдвое.

Фильтр из 5 000 стоп-слов для предотвращения утечки современных знаний

Необходимо помешать модели притворяться умной за счет использования современных знаний. Создайте систему мониторинга обучающего набора данных на основе списка терминов, появившихся после 1931 года.

N-gram сканирование: На основе данных о первых цитатах в Оксфордском словаре английского языка (OED) установите 5 000 современных понятий (например, «компьютер», «ДНК», «интернет») в качестве стоп-слов и сканируйте весь текст обучения по униграммам.
Удаление на уровне документа: Если обнаружено хотя бы одно стоп-слово, удаляйте не просто предложение, а весь документ. Это искореняет риск попадания современных комментариев или подделок.
Проверка на анахронизмы: Используйте модели вроде Claude Sonnet в качестве цензоров для оцифровки того, насколько часто в ответах модели встречаются концепции, не соответствующие эпохе.

Измерение реальных способностей через бенчмарк SAT 1926 года

Устаревшие данные не означают устаревший интеллект. Напротив, такие труды, как Principia Mathematica (1910) Бертрана Рассела, являются лучшим учебным пособием для развития дедуктивного мышления, чем современные веб-данные.

Для оценки используйте экзаменационные листы прошлого, ответы на которые не растиражированы в современном интернете. Используйте вопросы по искусственным языкам и логическому мышлению из первого теста SAT 1926 года. Измерение способностей к zero-shot рассуждению с помощью вопросов теста интеллекта Стэнфорд-Бине в редакции 1916 года четко покажет: заучила ли модель ответ или она мгновенно понимает и применяет данные правила. Модель, способная правильно ответить на вопросы вековой давности, — это и есть настоящий интеллект, свободный от подозрений в загрязнении данных.

Создание «чистой комнаты» ИИ-пайплайна исключительно на литературе до 1931 года

Получение доступа к хранилищам исторических текстов без авторских отчислений

Фильтрация по дате публикации: При вызове API gutendex на Python следует ориентироваться не на поле Issued в метаданных, а на год смерти автора и дату первого издания, оставляя только материалы до 1931 года.

Проверка целостности: Сверка ID Гутенберга с номером управления Библиотеки Конгресса США (LCCN) поможет предотвратить ошибки, связанные с перемешиванием годов издания.

Приоритет логики: Анализируя поле LCC в метаданных, в первую очередь скачивайте тексты по философии (B), математике (QA) и классической логике.

Гибридное восстановление для повышения точности OCR

Анализ макета: Используйте фреймворк LayoutParser для разделения заголовков и табличных областей в документе. Для многоколоночных газетных статей следует использовать модель Newspaper Navigator для исправления порядка чтения.

Структурное извлечение: С помощью LayoutLM определите визуальные координаты и логическую последовательность текстовых блоков, после чего запускайте OCR по зонам.

Пост-коррекция на базе LLM: Используйте фреймворк REVISE. Назначьте LLM роль эксперта-корректора исторических документов, чтобы она исправляла ошибки распознавания, сохраняя орфографию эпохи. Этот процесс поднимает точность с 30% до уровня, пригодного для обучения, сокращая время очистки вдвое.

Фильтр из 5 000 стоп-слов для предотвращения утечки современных знаний

N-gram сканирование: На основе данных о первых цитатах в Оксфордском словаре английского языка (OED) установите 5 000 современных понятий (например, «компьютер», «ДНК», «интернет») в качестве стоп-слов и сканируйте весь текст обучения по униграммам.

Удаление на уровне документа: Если обнаружено хотя бы одно стоп-слово, удаляйте не просто предложение, а весь документ. Это искореняет риск попадания современных комментариев или подделок.

Проверка на анахронизмы: Используйте модели вроде Claude Sonnet в качестве цензоров для оцифровки того, насколько часто в ответах модели встречаются концепции, не соответствующие эпохе.

Измерение реальных способностей через бенчмарк SAT 1926 года

Создание «чистой комнаты» ИИ-пайплайна исключительно на литературе до 1931 года

Related Video

Этот ИИ застрял в 1930 году (И это завораживает)

Создание «чистой комнаты» ИИ-пайплайна исключительно на литературе до 1931 года

Получение доступа к хранилищам исторических текстов без авторских отчислений

Гибридное восстановление для повышения точности OCR

Фильтр из 5 000 стоп-слов для предотвращения утечки современных знаний

Измерение реальных способностей через бенчмарк SAT 1926 года

Comments (0)

Создание «чистой комнаты» ИИ-пайплайна исключительно на литературе до 1931 года

Получение доступа к хранилищам исторических текстов без авторских отчислений

Гибридное восстановление для повышения точности OCR

Фильтр из 5 000 стоп-слов для предотвращения утечки современных знаний

Измерение реальных способностей через бенчмарк SAT 1926 года