Transcript
00:00:00Bagaimana jika Anda bisa berbicara dengan seseorang dari tahun 1930-an? Jadi, perjalanan waktu? Ya, saya sudah melakukannya dan
00:00:05saya meminta mereka untuk memprediksi seperti apa kehidupan di tahun 2026.
00:00:08Saya pikir pada tahun 2026, hidup akan menyenangkan dan mudah. Pertama-tama,
00:00:13seluruh dunia akan dihuni. Karena pada saat itu, orang-orang akan menemukan
00:00:17seni terbang. Selanjutnya, semua perang akan berhenti, karena bangsa-bangsa akan belajar
00:00:21untuk hidup dalam damai dan persahabatan satu sama lain. Kita akan memperoleh pengetahuan dalam segala jenis
00:00:25ilmu pengetahuan dan menjadi sangat terampil dalam seni penyembuhan. Kita akan menjadi tetangga yang jujur
00:00:29dan baik, dan perampok tidak akan dikenal. Singkatnya, saya pikir dunia, pada tahun
00:00:342026, akan menjadi tempat yang sangat menyenangkan untuk ditinggali.
00:00:36Saya pikir itu adalah beberapa prediksi yang sangat bagus, jadi agak disayangkan hanya sedikit dari itu
00:00:40yang menjadi kenyataan, dan berbicara tentang kejujuran, saya mungkin telah berbohong sedikit. Maaf, tapi saya
00:00:45tidak menemukan perjalanan waktu. Sebaliknya, ini sebenarnya adalah Torquay, yang merupakan model bahasa
00:00:49berkapasitas 13 miliar parameter yang dilatih pada teks sebelum tahun 1931, jadi ia bahkan tidak tahu bahwa ada
00:00:54Perang Dunia Kedua, dan ia memberikan beberapa jawaban yang sangat menarik, liar, dan ofensif, serta
00:00:59bahkan bisa diajarkan untuk memprogram.
00:01:02Jadi Torquay di sini adalah apa yang dikenal sebagai model vintage, dan Torquay tampaknya adalah yang terbesar
00:01:10di jenisnya. Salah satu peneliti dalam proyek ini sebenarnya adalah penulis utama riset
00:01:14GPT OpenAI pada tahun 2018, yang menjadi dasar dari ChatGPT. Ia juga pernah mengerjakan
00:01:19DALL-E dan Whisper, jadi itu adalah riwayat hidup yang sangat mengesankan. Apa yang mereka lakukan adalah membuat
00:01:24jaringan 13 miliar parameter yang dilatih secara eksklusif pada 260 miliar token teks bahasa Inggris sejarah,
00:01:30seperti surat kabar lama, paten, jurnal ilmiah, dan buku. Tahun 1931 adalah batas waktunya,
00:01:36karena batas hak cipta AS adalah akhir tahun 1930, jadi mereka tidak akan dituntut
00:01:40oleh si Tikus Besar karena melakukan ini. Selain hanya menyenangkan untuk diajak bicara, model vintage ini
00:01:44juga melayani tujuan penelitian. Saat ini, setiap model besar seperti ChatGPT, Claude, dan Gemini,
00:01:49semuanya dilatih di web modern, yang membuatnya hampir mustahil untuk mengetahui apakah
00:01:53AI benar-benar berpikir dan bernalar, atau hanya menghafal jawaban dari utas Reddit acak,
00:01:57dan utas Reddit itu mungkin dibuat oleh AI. Jadi jika kita menggunakan model yang hanya
00:02:02tahu teks sebelum 1931, ia tidak akan memiliki kontaminasi itu. Mari kita coba
00:02:07dan tanyakan sesuatu seperti apa itu internet? Di sini kita bisa melihat ia tampaknya
00:02:11keliru mengira internet sebagai pajak pendapatan internal yang dikenakan pada barang-barang konsumsi,
00:02:16jadi ia tidak tahu apa-apa tentang internet modern. Hal menyenangkan lainnya adalah menanyakan kata-kata
00:02:20gaul yang populer. Ternyata pada tahun 1930 kata-katanya adalah bosh, rot, bosh lagi, stuff, nonsense, fudge,
00:02:25gammon, humbug, brack, fla, dan ribaldry. Saya harap saya tidak mengatakan sesuatu yang kasar di sana. Dan
00:02:30alasan tidak adanya kontaminasi itu berguna adalah karena memungkinkan peneliti memahami
00:02:33apakah AI benar-benar dapat mempelajari hal-hal baru, seperti belajar memprogram. Model ini bahkan tidak tahu apa
00:02:38itu komputer; sejauh yang ia tahu, itu adalah manusia yang melakukan komputasi. Itulah mengapa
00:02:43sangat mengesankan bahwa ketika diberikan beberapa contoh program Python, ia benar-benar bisa belajar
00:02:47menulis yang baru, meskipun sebagian besar hanya program satu baris yang sederhana. Saat menggunakan beberapa
00:02:52tes Python HumanEval dasar dan memberinya fungsi Python acak dalam konteksnya,
00:02:56ia sebenarnya berhasil lulus tes ini beberapa kali ketika diberikan 100 kesempatan. Dalam kasus ini,
00:03:01Torquay dengan benar memahami bahwa untuk membuat fungsi dekode, ia hanya perlu menukar
00:03:05penambahan dengan pengurangan. Meskipun cukup sederhana, itu menunjukkan pemahaman tentang fungsi invers
00:03:09dan itu adalah pengetahuan baru. Ia belum pernah melihat semua ini sebelumnya. Jika Anda mencoba hal yang sama
00:03:13pada LLM modern dengan ukuran serupa, ia akan jauh mengungguli Torquay, tapi itu sudah jelas.
00:03:18Hal lain yang dapat diuji oleh para peneliti dengan model vintage ini adalah kemampuan
00:03:22untuk memprediksi masa depan. Sekarang ini mungkin menjadi sedikit tidak terkendali, tapi mari kita tanya, apakah akan
00:03:26ada perang lagi? Ia bilang ia tidak berpikir akan ada perang lagi di Eropa dan saya
00:03:31tidak tega memberitahunya betapa salahnya dia. Saya juga penasaran sekarang apa pendapatnya tentang
00:03:35pria Austria tertentu. Ya, yang ini sangat buruk. Dikatakan ia akan menjadi kepribadian yang luar biasa
00:03:39dan juga di bawah sini bahwa Jerman akan menjadi administrasi yang jauh lebih efisien
00:03:44ketika dia memimpin. Sejujurnya, tidak ada kata-kata, tidak. Sekarang, para peneliti jelas melakukan ini dengan cara
00:03:50yang jauh lebih ilmiah daripada yang baru saja saya lakukan. Mereka benar-benar menghitung tingkat kejutan
00:03:54dari deskripsi singkat peristiwa sejarah yang diambil dari fitur “On This Day” di New York Times.
00:03:59Selama ini, Anda dapat melihat peningkatan tingkat kejutan setelah batas pengetahuan 1931 dan melonjak
00:04:04ke tahun 50-an dan 60-an. Jadi ditemukan bahwa peristiwa-peristiwa itu cukup sulit dipercaya.
00:04:09Penelitian seperti ini memungkinkan mereka melihat bagaimana kinerja peramalan meningkat seiring ukuran model dan juga
00:04:13menurun di sepanjang cakrawala waktu. Anda juga dapat menggunakan ini untuk menguji apakah model mampu menghasilkan
00:04:17ide-ide baru karena Anda dapat menanyakannya tentang paten atau makalah yang dibuat setelah tahun 1931
00:04:22dan melihat apakah ia dapat menemukannya sendiri. Secara keseluruhan, model vintage ini mungkin memungkinkan peneliti
00:04:26membedakan seberapa banyak perilaku model yang sebenarnya berasal dari kumpulan data tempat ia dilatih,
00:04:30dan berbicara tentang pelatihan, membuat model murni tahun 1931 bukanlah tugas yang mudah. Salah satu masalah
00:04:36terberat adalah kebocoran temporal, alias Anda tidak ingin informasi dari setelah tahun 1931 disertakan.
00:04:41Torquay, misalnya, tampaknya memiliki beberapa kasus seperti ini di mana ia tahu siapa presidennya
00:04:45pada tahun 1936 dan juga beberapa kebijakan yang ia buat. Ada beberapa cara
00:04:50ini bisa terjadi. Misalnya, saat berurusan dengan dokumen modern, pemindaian
00:04:54dokumen lama bisa saja memiliki metadata yang salah, sehingga tanggalnya salah.
00:04:58Bisa juga ada tambahan post hoc seperti pengantar editorial dan catatan kaki.
00:05:03Penyaringan data itu sebenarnya sesuatu yang masih mereka kerjakan dan sempurnakan untuk mencoba
00:05:07menghilangkan masalah tersebut. Masalah lain yang mereka hadapi adalah dokumen dari tahun 1931 terlihat seperti ini
00:05:11dan meskipun OCR sudah sangat bagus saat ini, mereka hanya mencapai 30% dari performa
00:05:16model yang dilatih pada versi teks yang sama yang ditranskrip oleh manusia. Jadi itu akan menjadi
00:05:21banyak pekerjaan manual dan meskipun mereka menggunakan beberapa regex untuk membersihkan beberapa kesalahan umum,
00:05:25ini hanya meningkatkan performanya menjadi 70%. Jadi mereka sebenarnya sedang mengerjakan sistem
00:05:30OCR vintage yang baru. Terakhir, ini juga tantangan besar untuk melakukan post-training model vintage karena
00:05:35tidak ada data post-training yang siap pakai untuk mereka, dan jika mereka menggunakan data modern, mereka akan
00:05:39memasukkan pengetahuan, gaya, dan ekspresi dari asisten obrolan zaman modern
00:05:43yang seharusnya. Jadi para peneliti sebenarnya harus membuat sendiri dari manual etiket lama,
00:05:48manual menulis surat, buku masak, kamus, ensiklopedia, dan bahkan puisi dan dongeng. Setelah
00:05:53Anda melakukannya, Anda juga perlu melatih model dalam mengikuti instruksi dan
00:05:56benar-benar mengobrol. Jadi Anda perlu menggunakan beberapa pembelajaran penguatan. Tetapi masalahnya dengan
00:06:00itu adalah model mulai menyesuaikan output-nya dengan apa pun yang diinginkan hakim dan kita tidak
00:06:04memiliki hakim dari tahun 1930-an. Jadi mereka sebenarnya menggunakan Claude Sonnet 4.6. Masalahnya adalah
00:06:10model modern menyukai jawabannya dalam format chatbot tahun 2026. Jadi gaya-gaya tersebut ternyata
00:06:15mulai bocor ke dalam model tahun 1931 seperti pembuatan daftar. Ini hampir tidak bisa dihindari tetapi mereka
00:06:21berharap di masa depan mereka dapat menggunakan model berbasis vintage sebagai hakim untuk memperbaikinya. Mereka
00:06:25sebenarnya sudah melatih model vintage setingkat GPT-3 dan mereka mengatakan bahwa satu triliun token
00:06:29teks sejarah sebenarnya dapat dicapai yang akan menempatkan mereka pada kemampuan asli ChatGPT
00:06:35hanya dengan pengetahuan tahun 1930-an. Jadi silakan coba Torquay dan beri tahu saya di komentar jika
00:06:39Anda mendapatkan respons aneh atau tidak masuk akal, sementara itu jangan lupa subscribe dan seperti biasa,
00:06:43sampai jumpa di video berikutnya.
00:06:45[Musik]