Membangun Pipeline Cleanroom AI Hanya Menggunakan Literatur Sebelum Tahun 1931

LLM modern saat ini sudah mulai memakan ekornya sendiri. Jawaban yang diberikan oleh model yang menelan seluruh data evaluasi yang tersebar di internet kemungkinan besar merupakan produk dari kemampuan menghafal, bukan kecerdasan. Jika ingin melihat kemampuan penalaran yang sebenarnya, kita harus mengambil data dari era di mana pengetahuan modern belum ada sama sekali. Berikut adalah rincian proses konkret untuk menciptakan lingkungan pelatihan tanpa kontaminasi dengan memanfaatkan data domain publik dari sebelum tahun 1931.

Mengamankan Repositori Teks Historis Bebas Royalti

Sebelum menghabiskan anggaran untuk pengumpulan data, Anda harus menelusuri repositori yang hak ciptanya telah kedaluwarsa. Project Gutenberg menampung lebih dari 75.000 literatur, dan Sonny Bono Memorial Collection dari Internet Archive menyediakan data akademis antara tahun 1923 hingga 1941 secara gratis.

Penyaringan Berdasarkan Tanggal Terbit: Saat memanggil API gutendex Python, jangan gunakan kolom Issued pada metadata, melainkan filter berdasarkan tahun kematian penulis dan tanggal penerbitan edisi pertama untuk hanya menyisakan materi sebelum tahun 1931.
Verifikasi Integritas: Membandingkan ID Gutenberg dengan Library of Congress Control Number (LCCN) dapat mencegah insiden tercampurnya tahun publikasi.
Ekstraksi Prioritas Logika: Menganalisis kolom LCC pada metadata untuk mengunduh teks terkait filsafat (B), matematika (QA), dan logika klasik sebagai prioritas utama.

Restorasi Hibrida untuk Meningkatkan Tingkat Pengenalan OCR

Kertas dari 100 tahun yang lalu sudah usang dan tata letak surat kabar sangatlah rumit. Menjalankan OCR biasa akan menghasilkan banyak kesalahan ketik. Diperlukan proses untuk membedah tata letak terlebih dahulu sebelum sekadar mengumpulkan teks.

Analisis Tata Letak: Jalankan kerangka kerja LayoutParser untuk memisahkan area judul dan tabel dalam dokumen. Terutama untuk kolom multi-baris pada surat kabar, urutan baca harus diperbaiki menggunakan model Newspaper Navigator.
Ekstraksi Struktural: Gunakan LayoutLM untuk memahami informasi koordinat visual guna menentukan urutan logis blok teks, kemudian jalankan OCR per area.
Koreksi Pasca-Proses Berbasis LLM: Manfaatkan kerangka kerja REVISE. Berikan peran sebagai korektor teks sejarah profesional kepada LLM dan instruksikan untuk memperbaiki kata-kata yang salah dikenali sambil tetap mempertahankan ejaan sesuai zamannya. Melalui proses ini, tingkat pengenalan yang tadinya tertahan di angka 30% dapat naik ke level yang layak untuk pelatihan, dan waktu pembersihan terpangkas setengahnya.

Filter 5.000 Kata Terlarang untuk Mencegah Kebocoran Pengetahuan Modern

Kita harus mencegah model berpura-pura pintar dengan mencuri pengetahuan modern. Bangun sistem yang memantau dataset pelatihan dengan membuat daftar istilah yang lahir setelah tahun 1931.

Pemindaian N-gram: Berdasarkan data tahun kutipan pertama dari Oxford English Dictionary (OED), tetapkan 5.000 konsep modern seperti komputer, DNA, dan internet sebagai kata terlarang, lalu pindai seluruh teks pelatihan dalam unit unigram.
Penghapusan Unit Dokumen: Jika ditemukan satu saja kata terlarang, jangan hanya menghapus kalimat tersebut, tetapi hapus seluruh dokumen. Ini untuk mencabut hingga ke akarnya kemungkinan adanya anotasi modern atau karya palsu yang tercampur.
Verifikasi Anakronisme: Gunakan model seperti Claude Sonnet sebagai verifikator untuk mengukur apakah ada konsep yang tidak sesuai zaman dalam jawaban yang dihasilkan model.

Mengukur Kemampuan Asli Melalui Tolok Ukur SAT 1926

Data yang usang tidak berarti kecerdasannya juga usang. Sebaliknya, literatur seperti Principia Mathematica (1910) karya Bertrand Russell merupakan materi ajar yang lebih baik daripada data web modern untuk mengajarkan pemikiran deduktif.

Untuk evaluasi, gunakan lembar ujian masa lalu yang kunci jawabannya tidak membanjiri internet modern. Gunakan soal bahasa buatan dan penalaran logika dari SAT yang pertama kali dilaksanakan pada tahun 1926 sebagai data evaluasi. Mengukur kemampuan penalaran zero-shot dengan pertanyaan Tes Intelegensi Stanford-Binet yang direvisi tahun 1916 akan menunjukkan dengan jelas apakah model menghafal jawaban atau memahami dan menerapkan aturan yang diberikan secara instan. Model yang dapat menjawab pertanyaan dari 100 tahun yang lalu dengan benar adalah kecerdasan sejati yang bebas dari tuduhan kontaminasi data.

Membangun Pipeline Cleanroom AI Hanya Menggunakan Literatur Sebelum Tahun 1931

Mengamankan Repositori Teks Historis Bebas Royalti

Penyaringan Berdasarkan Tanggal Terbit: Saat memanggil API gutendex Python, jangan gunakan kolom Issued pada metadata, melainkan filter berdasarkan tahun kematian penulis dan tanggal penerbitan edisi pertama untuk hanya menyisakan materi sebelum tahun 1931.

Verifikasi Integritas: Membandingkan ID Gutenberg dengan Library of Congress Control Number (LCCN) dapat mencegah insiden tercampurnya tahun publikasi.

Ekstraksi Prioritas Logika: Menganalisis kolom LCC pada metadata untuk mengunduh teks terkait filsafat (B), matematika (QA), dan logika klasik sebagai prioritas utama.

Restorasi Hibrida untuk Meningkatkan Tingkat Pengenalan OCR

Analisis Tata Letak: Jalankan kerangka kerja LayoutParser untuk memisahkan area judul dan tabel dalam dokumen. Terutama untuk kolom multi-baris pada surat kabar, urutan baca harus diperbaiki menggunakan model Newspaper Navigator.

Ekstraksi Struktural: Gunakan LayoutLM untuk memahami informasi koordinat visual guna menentukan urutan logis blok teks, kemudian jalankan OCR per area.

Koreksi Pasca-Proses Berbasis LLM: Manfaatkan kerangka kerja REVISE. Berikan peran sebagai korektor teks sejarah profesional kepada LLM dan instruksikan untuk memperbaiki kata-kata yang salah dikenali sambil tetap mempertahankan ejaan sesuai zamannya. Melalui proses ini, tingkat pengenalan yang tadinya tertahan di angka 30% dapat naik ke level yang layak untuk pelatihan, dan waktu pembersihan terpangkas setengahnya.

Filter 5.000 Kata Terlarang untuk Mencegah Kebocoran Pengetahuan Modern

Kita harus mencegah model berpura-pura pintar dengan mencuri pengetahuan modern. Bangun sistem yang memantau dataset pelatihan dengan membuat daftar istilah yang lahir setelah tahun 1931.

Pemindaian N-gram: Berdasarkan data tahun kutipan pertama dari Oxford English Dictionary (OED), tetapkan 5.000 konsep modern seperti komputer, DNA, dan internet sebagai kata terlarang, lalu pindai seluruh teks pelatihan dalam unit unigram.

Penghapusan Unit Dokumen: Jika ditemukan satu saja kata terlarang, jangan hanya menghapus kalimat tersebut, tetapi hapus seluruh dokumen. Ini untuk mencabut hingga ke akarnya kemungkinan adanya anotasi modern atau karya palsu yang tercampur.

Verifikasi Anakronisme: Gunakan model seperti Claude Sonnet sebagai verifikator untuk mengukur apakah ada konsep yang tidak sesuai zaman dalam jawaban yang dihasilkan model.

Mengukur Kemampuan Asli Melalui Tolok Ukur SAT 1926

Membangun Pipeline Cleanroom AI Hanya Menggunakan Literatur Sebelum Tahun 1931

Related Video

AI Ini Terjebak di Tahun 1930 (Dan Ini Sangat Menarik)

Membangun Pipeline Cleanroom AI Hanya Menggunakan Literatur Sebelum Tahun 1931

Mengamankan Repositori Teks Historis Bebas Royalti

Restorasi Hibrida untuk Meningkatkan Tingkat Pengenalan OCR

Filter 5.000 Kata Terlarang untuk Mencegah Kebocoran Pengetahuan Modern

Mengukur Kemampuan Asli Melalui Tolok Ukur SAT 1926

Comments (0)

Membangun Pipeline Cleanroom AI Hanya Menggunakan Literatur Sebelum Tahun 1931

Mengamankan Repositori Teks Historis Bebas Royalti

Restorasi Hibrida untuk Meningkatkan Tingkat Pengenalan OCR

Filter 5.000 Kata Terlarang untuk Mencegah Kebocoran Pengetahuan Modern

Mengukur Kemampuan Asli Melalui Tolok Ukur SAT 1926