1931년 이전 문헌만으로 구축하는 인공지능 클린룸 파이프라인

현대 LLM은 이미 자기 꼬리를 물고 있습니다. 인터넷에 널린 평가 데이터를 통째로 삼킨 모델이 내놓는 답변은 지능이 아니라 암기력의 산물일 가능성이 큽니다. 진짜 추론 능력을 보고 싶다면 현대적 지식이 아예 존재하지 않던 시절의 데이터를 가져와야 합니다. 1931년 이전의 공공 도메인 데이터를 활용해 오염 없는 학습 환경을 만드는 구체적인 공정을 정리했습니다.

저작권료 없는 역사적 텍스트 저장소 확보

데이터 수집에 예산을 쏟기 전에 저작권이 만료된 저장소부터 털어야 합니다. 프로젝트 구텐베르크는 75,000권 이상의 문헌을 품고 있고, 인터넷 아카이브의 Sonny Bono Memorial Collection은 1923년에서 1941년 사이의 학술 데이터를 무상으로 제공합니다.

발행일 기준 필터링: Python의 gutendex API를 호출할 때 메타데이터의 Issued 필드가 아니라 저자 사망 연도와 초판 발행일을 기준으로 1931년 이전 자료만 남깁니다.
무결성 검증: 구텐베르크 ID를 미국 의회 도서관 제어 번호(LCCN)와 대조하면 출판 연도가 뒤섞이는 사고를 막을 수 있습니다.
논리학 우선 추출: 메타데이터의 LCC 필드를 분석해 철학(B), 수학(QA), 고전 논리학 관련 텍스트를 최우선으로 내려받습니다.

OCR 인식률을 끌어올리는 하이브리드 복원

100년 전 종이는 낡았고 신문 레이아웃은 복잡합니다. 일반적인 OCR을 돌리면 오타가 수두룩하게 터져 나옵니다. 텍스트를 그냥 긁어모으는 수준을 넘어 레이아웃을 먼저 뜯어내는 공정이 필요합니다.

레이아웃 분석: LayoutParser 프레임워크를 돌려 문서 내 제목과 도표 영역을 구분합니다. 특히 신문의 다단 칼럼은 Newspaper Navigator 모델을 써서 읽기 순서를 바로잡아야 합니다.
구조적 추출: LayoutLM으로 시각적 좌표 정보를 파악해 텍스트 블록의 논리적 순서를 결정한 뒤 영역별로 OCR을 실행합니다.
LLM 기반 사후 교정: REVISE 프레임워크를 활용합니다. LLM에 전문 역사 문헌 교정자 역할을 부여하고 시대적 철자법을 유지하며 오인식된 단어를 수정하게 만듭니다. 이 과정을 거치면 30%대에 머물던 인식률이 학습 가능한 수준까지 올라오며 정제 시간은 절반으로 줄어듭니다.

5,000개 금지어 필터로 현대 지식 유출 차단

모델이 현대적 지식을 훔쳐 써서 똑똑한 척하는 것을 막아야 합니다. 1931년 이후에 태어난 용어들을 리스트로 만들어 학습 데이터셋을 감시하는 시스템을 구축합니다.

N-gram 스캐닝: 옥스퍼드 영어 사전(OED)의 최초 인용 연도 데이터를 기반으로 컴퓨터, DNA, 인터넷 같은 현대적 개념 5,000개를 금지어로 설정하고 학습 텍스트 전체를 유니그램 단위로 스캔합니다.
문서 단위 폐기: 금지어가 하나라도 걸리면 해당 문장만 지우는 게 아니라 문서 전체를 날립니다. 현대적 주석이나 위작이 섞였을 가능성을 뿌리부터 뽑는 겁니다.
시대적 오류 검증: Claude Sonnet 같은 모델을 검증자로 써서 모델이 생성한 답변 속에 시대에 맞지 않는 개념이 섞여 있는지 수치화합니다.

1926 SAT 벤치마크를 통한 진짜 실력 측정

데이터가 낡았다고 지능까지 낡은 건 아닙니다. 오히려 버트런드 러셀의 Principia Mathematica(1910) 같은 문헌은 연역적 사고를 가르치기에 현대 웹 데이터보다 훌륭한 교재가 됩니다.

평가는 현대 인터넷에 정답이 도배되지 않은 과거의 시험지를 활용합니다. 1926년 최초 시행된 SAT의 인공 언어 및 논리 추론 문항을 평가 데이터로 쓰십시오. 1916년 개정된 스탠퍼드-비네 지능 검사 질문으로 제로샷 추론 능력을 측정하면 모델이 답을 외운 건지, 아니면 주어진 규칙을 즉석에서 이해해 적용하는 건지 명확히 드러납니다. 100년 전의 질문에 제대로 답하는 모델이야말로 데이터 오염의 혐의에서 자유로운 진짜 지능입니다.

1931년 이전 문헌만으로 구축하는 인공지능 클린룸 파이프라인

저작권료 없는 역사적 텍스트 저장소 확보

발행일 기준 필터링: Python의 gutendex API를 호출할 때 메타데이터의 Issued 필드가 아니라 저자 사망 연도와 초판 발행일을 기준으로 1931년 이전 자료만 남깁니다.

무결성 검증: 구텐베르크 ID를 미국 의회 도서관 제어 번호(LCCN)와 대조하면 출판 연도가 뒤섞이는 사고를 막을 수 있습니다.

논리학 우선 추출: 메타데이터의 LCC 필드를 분석해 철학(B), 수학(QA), 고전 논리학 관련 텍스트를 최우선으로 내려받습니다.

OCR 인식률을 끌어올리는 하이브리드 복원

레이아웃 분석: LayoutParser 프레임워크를 돌려 문서 내 제목과 도표 영역을 구분합니다. 특히 신문의 다단 칼럼은 Newspaper Navigator 모델을 써서 읽기 순서를 바로잡아야 합니다.

구조적 추출: LayoutLM으로 시각적 좌표 정보를 파악해 텍스트 블록의 논리적 순서를 결정한 뒤 영역별로 OCR을 실행합니다.

LLM 기반 사후 교정: REVISE 프레임워크를 활용합니다. LLM에 전문 역사 문헌 교정자 역할을 부여하고 시대적 철자법을 유지하며 오인식된 단어를 수정하게 만듭니다. 이 과정을 거치면 30%대에 머물던 인식률이 학습 가능한 수준까지 올라오며 정제 시간은 절반으로 줄어듭니다.

5,000개 금지어 필터로 현대 지식 유출 차단

N-gram 스캐닝: 옥스퍼드 영어 사전(OED)의 최초 인용 연도 데이터를 기반으로 컴퓨터, DNA, 인터넷 같은 현대적 개념 5,000개를 금지어로 설정하고 학습 텍스트 전체를 유니그램 단위로 스캔합니다.

문서 단위 폐기: 금지어가 하나라도 걸리면 해당 문장만 지우는 게 아니라 문서 전체를 날립니다. 현대적 주석이나 위작이 섞였을 가능성을 뿌리부터 뽑는 겁니다.

시대적 오류 검증: Claude Sonnet 같은 모델을 검증자로 써서 모델이 생성한 답변 속에 시대에 맞지 않는 개념이 섞여 있는지 수치화합니다.

1926 SAT 벤치마크를 통한 진짜 실력 측정

1931년 이전 문헌만으로 구축하는 인공지능 클린룸 파이프라인

Related Video

1930년에 멈춘 AI (놀라울 정도로 흥미롭습니다)

1931년 이전 문헌만으로 구축하는 인공지능 클린룸 파이프라인

저작권료 없는 역사적 텍스트 저장소 확보

OCR 인식률을 끌어올리는 하이브리드 복원

5,000개 금지어 필터로 현대 지식 유출 차단

1926 SAT 벤치마크를 통한 진짜 실력 측정

Comments (0)

1931년 이전 문헌만으로 구축하는 인공지능 클린룸 파이프라인

저작권료 없는 역사적 텍스트 저장소 확보

OCR 인식률을 끌어올리는 하이브리드 복원

5,000개 금지어 필터로 현대 지식 유출 차단

1926 SAT 벤치마크를 통한 진짜 실력 측정