1931年以前の文献のみで構築する人工知能クリーンルーム・パイプライン

現代のLLMは、すでに自分の尾を飲み込み始めています。インターネット上に溢れる評価データを丸ごと飲み込んだモデルが出力する回答は、知能ではなく暗記力の産物である可能性が高いのです。真の推論能力を確認したいのであれば、現代的な知識が一切存在しなかった時代のデータを持ってくる必要があります。1931年以前のパブリックドメインデータを活用し、汚染のない学習環境を構築するための具体的な工程をまとめました。

著作権料不要の歴史的テキストリポジトリの確保

データ収集に予算を投じる前に、著作権が切れたリポジトリを徹底的に活用すべきです。プロジェクト・グーテンベルクは75,000冊以上の文献を保有しており、インターネット・アーカイブの「Sonny Bono Memorial Collection」は、1923年から1941年の間の学術データを無償で提供しています。

発行日基準のフィルタリング: Pythonの gutendex APIを呼び出す際、メタデータの Issued フィールドではなく、著者の没年と初版発行日を基準に1931年以前の資料のみを残します。
整合性の検証: グーテンベルクIDを米国議会図書館制御番号(LCCN)と照合することで、出版年が混同される事故を防ぐことができます。
論理学の優先抽出: メタデータの LCC フィールドを分析し、哲学(B)、数学(QA)、古典論理学に関連するテキストを最優先でダウンロードします。

OCR認識率を向上させるハイブリッド復元

100年前の紙は劣化しており、当時の新聞のレイアウトは複雑です。一般的なOCRをかけると、誤字が続出します。単にテキストをかき集めるレベルを超え、まずはレイアウトを解析する工程が必要です。

レイアウト分析: LayoutParser フレームワークを使用して、文書内の見出しや図表領域を区分します。特に新聞の多段カラムは、Newspaper Navigatorモデルを使って読む順序を正す必要があります。
構造的抽出: LayoutLM で視覚的な座標情報を把握し、テキストブロックの論理的な順序を決定した上で、領域ごとにOCRを実行します。
LLMベースの事後校正: REVISE フレームワークを活用します。LLMに専門の歴史文献校正者の役割を与え、時代の綴りを維持しながら、誤認識された単語を修正させます。このプロセスを経ることで、30%台にとどまっていた認識率が学習可能な水準まで向上し、精製時間は半分に短縮されます。

5,000個の禁止語フィルターによる現代知識の流出遮断

モデルが現代的な知識を盗み見て賢いふりをするのを防がなければなりません。1931年以降に誕生した用語をリスト化し、学習データセットを監視するシステムを構築します。

N-gramスキャンニング: オックスフォード英語辞典(OED)の初出年データを基に、コンピュータ、DNA、インターネットといった現代的な概念5,000個を禁止語として設定し、学習テキスト全体をユニグラム単位でスキャンします。
文書単位の破棄: 禁止語が一つでも検出された場合、その一文だけでなく文書全体を削除します。現代的な注釈や偽作が混入している可能性を根源から断つためです。
時代錯誤の検証: Claude Sonnetのようなモデルを検証者として使い、モデルが生成した回答の中に時代にそぐわない概念が混ざっていないかを数値化します。

1926 SATベンチマークを通じた真の実力の測定

データが古いからといって、知能まで古いわけではありません。むしろバートランド・ラッセルの『Principia Mathematica』(1910)のような文献は、演繹的思考を教える上で現代のウェブデータよりも優れた教材となります。

評価には、現代のインターネット上に正解が溢れていない過去の試験問題を活用します。1926年に初めて実施されたSATの人工言語および論理推論問題を評価データとして使用してください。1916年に改訂されたスタンフォード・ビネー知能検査の質問でゼロショット推論能力を測定すれば、モデルが答えを暗記しているのか、それとも与えられたルールを即座に理解して適用しているのかが明確になります。100年前の質問に正しく答えられるモデルこそが、データ汚染の疑いから自由な「真の知能」なのです。

1931年以前の文献のみで構築する人工知能クリーンルーム・パイプライン

著作権料不要の歴史的テキストリポジトリの確保

発行日基準のフィルタリング: Pythonの gutendex APIを呼び出す際、メタデータの Issued フィールドではなく、著者の没年と初版発行日を基準に1931年以前の資料のみを残します。

整合性の検証: グーテンベルクIDを米国議会図書館制御番号(LCCN)と照合することで、出版年が混同される事故を防ぐことができます。

論理学の優先抽出: メタデータの LCC フィールドを分析し、哲学(B)、数学(QA)、古典論理学に関連するテキストを最優先でダウンロードします。

OCR認識率を向上させるハイブリッド復元

レイアウト分析: LayoutParser フレームワークを使用して、文書内の見出しや図表領域を区分します。特に新聞の多段カラムは、Newspaper Navigatorモデルを使って読む順序を正す必要があります。

構造的抽出: LayoutLM で視覚的な座標情報を把握し、テキストブロックの論理的な順序を決定した上で、領域ごとにOCRを実行します。

LLMベースの事後校正: REVISE フレームワークを活用します。LLMに専門の歴史文献校正者の役割を与え、時代の綴りを維持しながら、誤認識された単語を修正させます。このプロセスを経ることで、30%台にとどまっていた認識率が学習可能な水準まで向上し、精製時間は半分に短縮されます。

5,000個の禁止語フィルターによる現代知識の流出遮断

N-gramスキャンニング: オックスフォード英語辞典(OED)の初出年データを基に、コンピュータ、DNA、インターネットといった現代的な概念5,000個を禁止語として設定し、学習テキスト全体をユニグラム単位でスキャンします。

文書単位の破棄: 禁止語が一つでも検出された場合、その一文だけでなく文書全体を削除します。現代的な注釈や偽作が混入している可能性を根源から断つためです。

時代錯誤の検証: Claude Sonnetのようなモデルを検証者として使い、モデルが生成した回答の中に時代にそぐわない概念が混ざっていないかを数値化します。

1926 SATベンチマークを通じた真の実力の測定

1931年以前の文献のみで構築する人工知能クリーンルーム・パイプライン

Related Video

1930年で思考が止まったAIが凄すぎる（驚きの研究結果）

1931年以前の文献のみで構築する人工知能クリーンルーム・パイプライン

著作権料不要の歴史的テキストリポジトリの確保

OCR認識率を向上させるハイブリッド復元

5,000個の禁止語フィルターによる現代知識の流出遮断

1926 SATベンチマークを通じた真の実力の測定

Comments (0)

1931年以前の文献のみで構築する人工知能クリーンルーム・パイプライン

著作権料不要の歴史的テキストリポジトリの確保

OCR認識率を向上させるハイブリッド復元

5,000個の禁止語フィルターによる現代知識の流出遮断

1926 SATベンチマークを通じた真の実力の測定