AI Ini Terjebak di Tahun 1930 (Dan Ini Sangat Menarik)

BBetter Stack
컴퓨터/소프트웨어도서/문학AI/미래기술

Transcript

00:00:00Bagaimana jika Anda bisa berbicara dengan seseorang dari tahun 1930-an? Jadi, perjalanan waktu? Ya, saya sudah melakukannya dan
00:00:05saya meminta mereka untuk memprediksi seperti apa kehidupan di tahun 2026.
00:00:08Saya pikir pada tahun 2026, hidup akan menyenangkan dan mudah. Pertama-tama,
00:00:13seluruh dunia akan dihuni. Karena pada saat itu, orang-orang akan menemukan
00:00:17seni terbang. Selanjutnya, semua perang akan berhenti, karena bangsa-bangsa akan belajar
00:00:21untuk hidup dalam damai dan persahabatan satu sama lain. Kita akan memperoleh pengetahuan dalam segala jenis
00:00:25ilmu pengetahuan dan menjadi sangat terampil dalam seni penyembuhan. Kita akan menjadi tetangga yang jujur
00:00:29dan baik, dan perampok tidak akan dikenal. Singkatnya, saya pikir dunia, pada tahun
00:00:342026, akan menjadi tempat yang sangat menyenangkan untuk ditinggali.
00:00:36Saya pikir itu adalah beberapa prediksi yang sangat bagus, jadi agak disayangkan hanya sedikit dari itu
00:00:40yang menjadi kenyataan, dan berbicara tentang kejujuran, saya mungkin telah berbohong sedikit. Maaf, tapi saya
00:00:45tidak menemukan perjalanan waktu. Sebaliknya, ini sebenarnya adalah Torquay, yang merupakan model bahasa
00:00:49berkapasitas 13 miliar parameter yang dilatih pada teks sebelum tahun 1931, jadi ia bahkan tidak tahu bahwa ada
00:00:54Perang Dunia Kedua, dan ia memberikan beberapa jawaban yang sangat menarik, liar, dan ofensif, serta
00:00:59bahkan bisa diajarkan untuk memprogram.
00:01:02Jadi Torquay di sini adalah apa yang dikenal sebagai model vintage, dan Torquay tampaknya adalah yang terbesar
00:01:10di jenisnya. Salah satu peneliti dalam proyek ini sebenarnya adalah penulis utama riset
00:01:14GPT OpenAI pada tahun 2018, yang menjadi dasar dari ChatGPT. Ia juga pernah mengerjakan
00:01:19DALL-E dan Whisper, jadi itu adalah riwayat hidup yang sangat mengesankan. Apa yang mereka lakukan adalah membuat
00:01:24jaringan 13 miliar parameter yang dilatih secara eksklusif pada 260 miliar token teks bahasa Inggris sejarah,
00:01:30seperti surat kabar lama, paten, jurnal ilmiah, dan buku. Tahun 1931 adalah batas waktunya,
00:01:36karena batas hak cipta AS adalah akhir tahun 1930, jadi mereka tidak akan dituntut
00:01:40oleh si Tikus Besar karena melakukan ini. Selain hanya menyenangkan untuk diajak bicara, model vintage ini
00:01:44juga melayani tujuan penelitian. Saat ini, setiap model besar seperti ChatGPT, Claude, dan Gemini,
00:01:49semuanya dilatih di web modern, yang membuatnya hampir mustahil untuk mengetahui apakah
00:01:53AI benar-benar berpikir dan bernalar, atau hanya menghafal jawaban dari utas Reddit acak,
00:01:57dan utas Reddit itu mungkin dibuat oleh AI. Jadi jika kita menggunakan model yang hanya
00:02:02tahu teks sebelum 1931, ia tidak akan memiliki kontaminasi itu. Mari kita coba
00:02:07dan tanyakan sesuatu seperti apa itu internet? Di sini kita bisa melihat ia tampaknya
00:02:11keliru mengira internet sebagai pajak pendapatan internal yang dikenakan pada barang-barang konsumsi,
00:02:16jadi ia tidak tahu apa-apa tentang internet modern. Hal menyenangkan lainnya adalah menanyakan kata-kata
00:02:20gaul yang populer. Ternyata pada tahun 1930 kata-katanya adalah bosh, rot, bosh lagi, stuff, nonsense, fudge,
00:02:25gammon, humbug, brack, fla, dan ribaldry. Saya harap saya tidak mengatakan sesuatu yang kasar di sana. Dan
00:02:30alasan tidak adanya kontaminasi itu berguna adalah karena memungkinkan peneliti memahami
00:02:33apakah AI benar-benar dapat mempelajari hal-hal baru, seperti belajar memprogram. Model ini bahkan tidak tahu apa
00:02:38itu komputer; sejauh yang ia tahu, itu adalah manusia yang melakukan komputasi. Itulah mengapa
00:02:43sangat mengesankan bahwa ketika diberikan beberapa contoh program Python, ia benar-benar bisa belajar
00:02:47menulis yang baru, meskipun sebagian besar hanya program satu baris yang sederhana. Saat menggunakan beberapa
00:02:52tes Python HumanEval dasar dan memberinya fungsi Python acak dalam konteksnya,
00:02:56ia sebenarnya berhasil lulus tes ini beberapa kali ketika diberikan 100 kesempatan. Dalam kasus ini,
00:03:01Torquay dengan benar memahami bahwa untuk membuat fungsi dekode, ia hanya perlu menukar
00:03:05penambahan dengan pengurangan. Meskipun cukup sederhana, itu menunjukkan pemahaman tentang fungsi invers
00:03:09dan itu adalah pengetahuan baru. Ia belum pernah melihat semua ini sebelumnya. Jika Anda mencoba hal yang sama
00:03:13pada LLM modern dengan ukuran serupa, ia akan jauh mengungguli Torquay, tapi itu sudah jelas.
00:03:18Hal lain yang dapat diuji oleh para peneliti dengan model vintage ini adalah kemampuan
00:03:22untuk memprediksi masa depan. Sekarang ini mungkin menjadi sedikit tidak terkendali, tapi mari kita tanya, apakah akan
00:03:26ada perang lagi? Ia bilang ia tidak berpikir akan ada perang lagi di Eropa dan saya
00:03:31tidak tega memberitahunya betapa salahnya dia. Saya juga penasaran sekarang apa pendapatnya tentang
00:03:35pria Austria tertentu. Ya, yang ini sangat buruk. Dikatakan ia akan menjadi kepribadian yang luar biasa
00:03:39dan juga di bawah sini bahwa Jerman akan menjadi administrasi yang jauh lebih efisien
00:03:44ketika dia memimpin. Sejujurnya, tidak ada kata-kata, tidak. Sekarang, para peneliti jelas melakukan ini dengan cara
00:03:50yang jauh lebih ilmiah daripada yang baru saja saya lakukan. Mereka benar-benar menghitung tingkat kejutan
00:03:54dari deskripsi singkat peristiwa sejarah yang diambil dari fitur “On This Day” di New York Times.
00:03:59Selama ini, Anda dapat melihat peningkatan tingkat kejutan setelah batas pengetahuan 1931 dan melonjak
00:04:04ke tahun 50-an dan 60-an. Jadi ditemukan bahwa peristiwa-peristiwa itu cukup sulit dipercaya.
00:04:09Penelitian seperti ini memungkinkan mereka melihat bagaimana kinerja peramalan meningkat seiring ukuran model dan juga
00:04:13menurun di sepanjang cakrawala waktu. Anda juga dapat menggunakan ini untuk menguji apakah model mampu menghasilkan
00:04:17ide-ide baru karena Anda dapat menanyakannya tentang paten atau makalah yang dibuat setelah tahun 1931
00:04:22dan melihat apakah ia dapat menemukannya sendiri. Secara keseluruhan, model vintage ini mungkin memungkinkan peneliti
00:04:26membedakan seberapa banyak perilaku model yang sebenarnya berasal dari kumpulan data tempat ia dilatih,
00:04:30dan berbicara tentang pelatihan, membuat model murni tahun 1931 bukanlah tugas yang mudah. Salah satu masalah
00:04:36terberat adalah kebocoran temporal, alias Anda tidak ingin informasi dari setelah tahun 1931 disertakan.
00:04:41Torquay, misalnya, tampaknya memiliki beberapa kasus seperti ini di mana ia tahu siapa presidennya
00:04:45pada tahun 1936 dan juga beberapa kebijakan yang ia buat. Ada beberapa cara
00:04:50ini bisa terjadi. Misalnya, saat berurusan dengan dokumen modern, pemindaian
00:04:54dokumen lama bisa saja memiliki metadata yang salah, sehingga tanggalnya salah.
00:04:58Bisa juga ada tambahan post hoc seperti pengantar editorial dan catatan kaki.
00:05:03Penyaringan data itu sebenarnya sesuatu yang masih mereka kerjakan dan sempurnakan untuk mencoba
00:05:07menghilangkan masalah tersebut. Masalah lain yang mereka hadapi adalah dokumen dari tahun 1931 terlihat seperti ini
00:05:11dan meskipun OCR sudah sangat bagus saat ini, mereka hanya mencapai 30% dari performa
00:05:16model yang dilatih pada versi teks yang sama yang ditranskrip oleh manusia. Jadi itu akan menjadi
00:05:21banyak pekerjaan manual dan meskipun mereka menggunakan beberapa regex untuk membersihkan beberapa kesalahan umum,
00:05:25ini hanya meningkatkan performanya menjadi 70%. Jadi mereka sebenarnya sedang mengerjakan sistem
00:05:30OCR vintage yang baru. Terakhir, ini juga tantangan besar untuk melakukan post-training model vintage karena
00:05:35tidak ada data post-training yang siap pakai untuk mereka, dan jika mereka menggunakan data modern, mereka akan
00:05:39memasukkan pengetahuan, gaya, dan ekspresi dari asisten obrolan zaman modern
00:05:43yang seharusnya. Jadi para peneliti sebenarnya harus membuat sendiri dari manual etiket lama,
00:05:48manual menulis surat, buku masak, kamus, ensiklopedia, dan bahkan puisi dan dongeng. Setelah
00:05:53Anda melakukannya, Anda juga perlu melatih model dalam mengikuti instruksi dan
00:05:56benar-benar mengobrol. Jadi Anda perlu menggunakan beberapa pembelajaran penguatan. Tetapi masalahnya dengan
00:06:00itu adalah model mulai menyesuaikan output-nya dengan apa pun yang diinginkan hakim dan kita tidak
00:06:04memiliki hakim dari tahun 1930-an. Jadi mereka sebenarnya menggunakan Claude Sonnet 4.6. Masalahnya adalah
00:06:10model modern menyukai jawabannya dalam format chatbot tahun 2026. Jadi gaya-gaya tersebut ternyata
00:06:15mulai bocor ke dalam model tahun 1931 seperti pembuatan daftar. Ini hampir tidak bisa dihindari tetapi mereka
00:06:21berharap di masa depan mereka dapat menggunakan model berbasis vintage sebagai hakim untuk memperbaikinya. Mereka
00:06:25sebenarnya sudah melatih model vintage setingkat GPT-3 dan mereka mengatakan bahwa satu triliun token
00:06:29teks sejarah sebenarnya dapat dicapai yang akan menempatkan mereka pada kemampuan asli ChatGPT
00:06:35hanya dengan pengetahuan tahun 1930-an. Jadi silakan coba Torquay dan beri tahu saya di komentar jika
00:06:39Anda mendapatkan respons aneh atau tidak masuk akal, sementara itu jangan lupa subscribe dan seperti biasa,
00:06:43sampai jumpa di video berikutnya.
00:06:45[Musik]

Key Takeaway

Pengembangan model AI vintage berkapasitas 13 miliar parameter yang diisolasi pada data pra-1931 membuktikan bahwa penalaran mandiri dan pembelajaran kemampuan baru seperti pemrograman dapat terjadi tanpa kontaminasi informasi dari internet modern.

Highlights

  • Torquay adalah model bahasa besar dengan 13 miliar parameter yang dilatih secara eksklusif menggunakan 260 miliar token teks bahasa Inggris dari sebelum tahun 1931.

  • Data pelatihan mencakup surat kabar lama, paten, jurnal ilmiah, dan buku yang bebas dari hak cipta AS karena dipublikasikan sebelum akhir tahun 1930.

  • Model ini mampu mempelajari dasar pemrograman Python melalui contoh dalam konteks meskipun tidak memiliki pengetahuan tentang komputer modern.

  • Penggunaan teks historis murni menghilangkan risiko kontaminasi data dari web modern dan konten yang dihasilkan oleh AI lain.

  • Akurasi model yang dilatih pada teks hasil transkripsi manusia mencapai 3x lipat lebih tinggi dibandingkan data yang diproses melalui sistem OCR standar.

  • Para peneliti menggunakan Claude Sonnet sebagai hakim dalam proses reinforcement learning untuk melatih model mengikuti instruksi.

Timeline

Prediksi Masa Depan dari Sudut Pandang Tahun 1930

  • Kehidupan di tahun 2026 diprediksi akan menjadi sangat mudah berkat penemuan seni terbang dan penguasaan ilmu penyembuhan.
  • Dunia diproyeksikan menjadi tempat yang damai tanpa peperangan maupun perampokan.
  • Visi masa lalu ini didasarkan pada optimisme terhadap kemajuan moral dan sains manusia di masa depan.

Prediksi tersebut menggambarkan ekspektasi masyarakat era 1930-an terhadap perkembangan global. Harapan akan perdamaian abadi dan hilangnya kriminalitas kontras dengan kenyataan sejarah yang terjadi setelah periode tersebut. Data ini menjadi dasar untuk menguji bagaimana sebuah kecerdasan buatan memproses informasi tanpa mengetahui peristiwa sejarah besar seperti Perang Dunia Kedua.

Arsitektur dan Metodologi Pelatihan Model Torquay

  • Model ini menggunakan jaringan 13 miliar parameter yang dikembangkan oleh tim ahli dengan rekam jejak pada proyek GPT, DALL-E, dan Whisper.
  • Batas waktu data tahun 1931 diterapkan untuk mematuhi peraturan hak cipta Amerika Serikat sekaligus menciptakan lingkungan penelitian yang murni.
  • Data pelatihan berasal dari sumber primer seperti paten dan surat kabar lama guna memastikan tidak ada pengaruh dari tren atau bahasa modern.

Peneliti mengandalkan 260 miliar token teks historis untuk membangun dasar pengetahuan model. Pendekatan ini bertujuan untuk membedakan antara kemampuan penalaran asli AI dengan sekadar penghafalan jawaban dari platform modern seperti Reddit. Isolasi temporal ini krusial untuk memvalidasi apakah AI benar-benar memahami logika atau hanya mereplikasi pola dari data internet yang sudah terkontaminasi oleh AI lainnya.

Uji Kemampuan Penalaran dan Pembelajaran Baru

  • Torquay mendefinisikan internet sebagai bentuk pajak pendapatan internal karena istilah tersebut tidak ada dalam kamus pra-1931.
  • Model berhasil lulus uji Python HumanEval dasar dengan memahami logika fungsi invers meskipun belum pernah melihat kode pemrograman sebelumnya.
  • Kosakata yang dihasilkan mencerminkan bahasa gaul autentik era 1930-an seperti 'bosh', 'gammon', dan 'humbug'.

Meskipun model menganggap komputer sebagai manusia yang melakukan perhitungan, ia menunjukkan kemampuan luar biasa dalam memproses logika pemrograman Python satu baris melalui contoh konteks. Keberhasilan dalam memecahkan fungsi dekode dengan menukar operasi matematika menunjukkan adanya pemahaman abstrak. Ini membuktikan bahwa kapasitas untuk belajar hal baru tetap ada meskipun model terbatas pada basis data yang sangat tua.

Prediksi Sejarah dan Analisis Tingkat Kejutan

  • Model menunjukkan bias informasi pada masanya dengan memprediksi tidak akan ada lagi perang di Eropa setelah tahun 1931.
  • Analisis ilmiah dilakukan dengan mengukur tingkat kejutan model terhadap peristiwa nyata dari kolom 'On This Day' di New York Times.
  • Tingkat ketidakpercayaan model terhadap peristiwa sejarah meningkat drastis untuk kejadian yang terjadi pada dekade 1950-an dan 1960-an.

Metode ini memungkinkan peneliti memetakan cakrawala waktu peramalan dan melihat bagaimana performa model menurun seiring menjauhnya peristiwa dari batas pengetahuannya. Uji coba terhadap tokoh politik masa itu juga menunjukkan pandangan yang sangat berbeda dari perspektif sejarah modern. Data ini digunakan untuk mengukur sejauh mana model dapat menghasilkan ide-ide baru yang melampaui data pelatihannya.

Tantangan Teknis dalam Membangun AI Historis

  • Kebocoran temporal sering terjadi akibat kesalahan metadata pada pemindaian dokumen modern dan catatan kaki editorial.
  • Performa model turun hingga 70% saat menggunakan data OCR standar dibandingkan dengan teks hasil transkripsi manual manusia.
  • Gaya chatbot modern tahun 2026 cenderung bocor ke dalam output model melalui proses reinforcement learning.

Proses post-training memerlukan pembuatan data instruksi secara manual dari buku etiket dan manual penulisan surat lama untuk menjaga autentisitas gaya bahasa. Penggunaan model modern seperti Claude sebagai hakim instruksi membawa risiko masuknya pola bicara masa kini seperti penggunaan daftar poin-poin. Peneliti menargetkan pengumpulan satu triliun token teks historis untuk menyamai kemampuan dasar ChatGPT dengan tetap mempertahankan identitas pengetahuan tahun 1930-an.

Community Posts

View all posts