1931年以前の文献のみで構築する人工知能クリーンルーム・パイプライン
8 मई 2026
0
Computing/SoftwareRelated Video
6:551930年で思考が止まったAIが凄すぎる(驚きの研究結果)
Better Stack
Comments (0)
Log in to leave a comment
No posts yet
6:55Better Stack
Log in to leave a comment
No posts yet
現代のLLMは、すでに自分の尾を飲み込み始めています。インターネット上に溢れる評価データを丸ごと飲み込んだモデルが出力する回答は、知能ではなく暗記力の産物である可能性が高いのです。真の推論能力を確認したいのであれば、現代的な知識が一切存在しなかった時代のデータを持ってくる必要があります。1931年以前のパブリックドメインデータを活用し、汚染のない学習環境を構築するための具体的な工程をまとめました。
データ収集に予算を投じる前に、著作権が切れたリポジトリを徹底的に活用すべきです。プロジェクト・グーテンベルクは75,000冊以上の文献を保有しており、インターネット・アーカイブの「Sonny Bono Memorial Collection」は、1923年から1941年の間の学術データを無償で提供しています。
gutendex APIを呼び出す際、メタデータの Issued フィールドではなく、著者の没年と初版発行日を基準に1931年以前の資料のみを残します。LCC フィールドを分析し、哲学(B)、数学(QA)、古典論理学に関連するテキストを最優先でダウンロードします。100年前の紙は劣化しており、当時の新聞のレイアウトは複雑です。一般的なOCRをかけると、誤字が続出します。単にテキストをかき集めるレベルを超え、まずはレイアウトを解析する工程が必要です。
LayoutParser フレームワークを使用して、文書内の見出しや図表領域を区分します。特に新聞の多段カラムは、Newspaper Navigatorモデルを使って読む順序を正す必要があります。LayoutLM で視覚的な座標情報を把握し、テキストブロックの論理的な順序を決定した上で、領域ごとにOCRを実行します。REVISE フレームワークを活用します。LLMに専門の歴史文献校正者の役割を与え、時代の綴りを維持しながら、誤認識された単語を修正させます。このプロセスを経ることで、30%台にとどまっていた認識率が学習可能な水準まで向上し、精製時間は半分に短縮されます。モデルが現代的な知識を盗み見て賢いふりをするのを防がなければなりません。1931年以降に誕生した用語をリスト化し、学習データセットを監視するシステムを構築します。
データが古いからといって、知能まで古いわけではありません。むしろバートランド・ラッセルの『Principia Mathematica』(1910)のような文献は、演繹的思考を教える上で現代のウェブデータよりも優れた教材となります。
評価には、現代のインターネット上に正解が溢れていない過去の試験問題を活用します。1926年に初めて実施されたSATの人工言語および論理推論問題を評価データとして使用してください。1916年に改訂されたスタンフォード・ビネー知能検査の質問でゼロショット推論能力を測定すれば、モデルが答えを暗記しているのか、それとも与えられたルールを即座に理解して適用しているのかが明確になります。100年前の質問に正しく答えられるモデルこそが、データ汚染の疑いから自由な「真の知能」なのです。