1931년 이전 문헌만으로 구축하는 인공지능 클린룸 파이프라인
8 de mayo de 2026
0
컴퓨터/소프트웨어Related Video
6:551930년에 멈춘 AI (놀라울 정도로 흥미롭습니다)
Better Stack
Comments (0)
Log in to leave a comment
No posts yet
6:55Better Stack
Log in to leave a comment
No posts yet
현대 LLM은 이미 자기 꼬리를 물고 있습니다. 인터넷에 널린 평가 데이터를 통째로 삼킨 모델이 내놓는 답변은 지능이 아니라 암기력의 산물일 가능성이 큽니다. 진짜 추론 능력을 보고 싶다면 현대적 지식이 아예 존재하지 않던 시절의 데이터를 가져와야 합니다. 1931년 이전의 공공 도메인 데이터를 활용해 오염 없는 학습 환경을 만드는 구체적인 공정을 정리했습니다.
데이터 수집에 예산을 쏟기 전에 저작권이 만료된 저장소부터 털어야 합니다. 프로젝트 구텐베르크는 75,000권 이상의 문헌을 품고 있고, 인터넷 아카이브의 Sonny Bono Memorial Collection은 1923년에서 1941년 사이의 학술 데이터를 무상으로 제공합니다.
gutendex API를 호출할 때 메타데이터의 Issued 필드가 아니라 저자 사망 연도와 초판 발행일을 기준으로 1931년 이전 자료만 남깁니다.LCC 필드를 분석해 철학(B), 수학(QA), 고전 논리학 관련 텍스트를 최우선으로 내려받습니다.100년 전 종이는 낡았고 신문 레이아웃은 복잡합니다. 일반적인 OCR을 돌리면 오타가 수두룩하게 터져 나옵니다. 텍스트를 그냥 긁어모으는 수준을 넘어 레이아웃을 먼저 뜯어내는 공정이 필요합니다.
LayoutParser 프레임워크를 돌려 문서 내 제목과 도표 영역을 구분합니다. 특히 신문의 다단 칼럼은 Newspaper Navigator 모델을 써서 읽기 순서를 바로잡아야 합니다.LayoutLM으로 시각적 좌표 정보를 파악해 텍스트 블록의 논리적 순서를 결정한 뒤 영역별로 OCR을 실행합니다.REVISE 프레임워크를 활용합니다. LLM에 전문 역사 문헌 교정자 역할을 부여하고 시대적 철자법을 유지하며 오인식된 단어를 수정하게 만듭니다. 이 과정을 거치면 30%대에 머물던 인식률이 학습 가능한 수준까지 올라오며 정제 시간은 절반으로 줄어듭니다.모델이 현대적 지식을 훔쳐 써서 똑똑한 척하는 것을 막아야 합니다. 1931년 이후에 태어난 용어들을 리스트로 만들어 학습 데이터셋을 감시하는 시스템을 구축합니다.
데이터가 낡았다고 지능까지 낡은 건 아닙니다. 오히려 버트런드 러셀의 Principia Mathematica(1910) 같은 문헌은 연역적 사고를 가르치기에 현대 웹 데이터보다 훌륭한 교재가 됩니다.
평가는 현대 인터넷에 정답이 도배되지 않은 과거의 시험지를 활용합니다. 1926년 최초 시행된 SAT의 인공 언어 및 논리 추론 문항을 평가 데이터로 쓰십시오. 1916년 개정된 스탠퍼드-비네 지능 검사 질문으로 제로샷 추론 능력을 측정하면 모델이 답을 외운 건지, 아니면 주어진 규칙을 즉석에서 이해해 적용하는 건지 명확히 드러납니다. 100년 전의 질문에 제대로 답하는 모델이야말로 데이터 오염의 혐의에서 자유로운 진짜 지능입니다.