Membangun Pipeline Cleanroom AI Hanya Menggunakan Literatur Sebelum Tahun 1931
8. Mai 2026
0
Computing/SoftwareComments (0)
Log in to leave a comment
No posts yet
Log in to leave a comment
No posts yet
LLM modern saat ini sudah mulai memakan ekornya sendiri. Jawaban yang diberikan oleh model yang menelan seluruh data evaluasi yang tersebar di internet kemungkinan besar merupakan produk dari kemampuan menghafal, bukan kecerdasan. Jika ingin melihat kemampuan penalaran yang sebenarnya, kita harus mengambil data dari era di mana pengetahuan modern belum ada sama sekali. Berikut adalah rincian proses konkret untuk menciptakan lingkungan pelatihan tanpa kontaminasi dengan memanfaatkan data domain publik dari sebelum tahun 1931.
Sebelum menghabiskan anggaran untuk pengumpulan data, Anda harus menelusuri repositori yang hak ciptanya telah kedaluwarsa. Project Gutenberg menampung lebih dari 75.000 literatur, dan Sonny Bono Memorial Collection dari Internet Archive menyediakan data akademis antara tahun 1923 hingga 1941 secara gratis.
gutendex Python, jangan gunakan kolom Issued pada metadata, melainkan filter berdasarkan tahun kematian penulis dan tanggal penerbitan edisi pertama untuk hanya menyisakan materi sebelum tahun 1931.LCC pada metadata untuk mengunduh teks terkait filsafat (B), matematika (QA), dan logika klasik sebagai prioritas utama.Kertas dari 100 tahun yang lalu sudah usang dan tata letak surat kabar sangatlah rumit. Menjalankan OCR biasa akan menghasilkan banyak kesalahan ketik. Diperlukan proses untuk membedah tata letak terlebih dahulu sebelum sekadar mengumpulkan teks.
LayoutParser untuk memisahkan area judul dan tabel dalam dokumen. Terutama untuk kolom multi-baris pada surat kabar, urutan baca harus diperbaiki menggunakan model Newspaper Navigator.LayoutLM untuk memahami informasi koordinat visual guna menentukan urutan logis blok teks, kemudian jalankan OCR per area.REVISE. Berikan peran sebagai korektor teks sejarah profesional kepada LLM dan instruksikan untuk memperbaiki kata-kata yang salah dikenali sambil tetap mempertahankan ejaan sesuai zamannya. Melalui proses ini, tingkat pengenalan yang tadinya tertahan di angka 30% dapat naik ke level yang layak untuk pelatihan, dan waktu pembersihan terpangkas setengahnya.Kita harus mencegah model berpura-pura pintar dengan mencuri pengetahuan modern. Bangun sistem yang memantau dataset pelatihan dengan membuat daftar istilah yang lahir setelah tahun 1931.
Data yang usang tidak berarti kecerdasannya juga usang. Sebaliknya, literatur seperti Principia Mathematica (1910) karya Bertrand Russell merupakan materi ajar yang lebih baik daripada data web modern untuk mengajarkan pemikiran deduktif.
Untuk evaluasi, gunakan lembar ujian masa lalu yang kunci jawabannya tidak membanjiri internet modern. Gunakan soal bahasa buatan dan penalaran logika dari SAT yang pertama kali dilaksanakan pada tahun 1926 sebagai data evaluasi. Mengukur kemampuan penalaran zero-shot dengan pertanyaan Tes Intelegensi Stanford-Binet yang direvisi tahun 1916 akan menunjukkan dengan jelas apakah model menghafal jawaban atau memahami dan menerapkan aturan yang diberikan secara instan. Model yang dapat menjawab pertanyaan dari 100 tahun yang lalu dengan benar adalah kecerdasan sejati yang bebas dari tuduhan kontaminasi data.