Transcript
00:00:00ChatGPT memiliki obsesi dengan goblin. Mereka menyelinap di mana-mana meskipun tidak ada
00:00:04penyebutan tentang mereka di dalam thread, dan jika ini hanya sekali saja itu tidak masalah,
00:00:07tetapi ini telah menjadi sebuah pola sehingga dalam prompt sistem untuk codex, AI diperintahkan
00:00:11untuk tidak memunculkan mereka dan makhluk lain seperti gremlin dan rakun kecuali relevan.
00:00:16Hal ini menjadi sangat serius sehingga OpenAI harus menyelidiki ini dan mencari tahu mengapa terjadi.
00:00:21Ini adalah thread Reddit dari setahun yang lalu dan mungkin laporan pertama kita tentang perilaku ini
00:00:29bahkan sebelum ChatGPT 5.1 dirilis. Dalam thread ini orang-orang setuju bahwa AI sering
00:00:34memunculkan goblin, menyebut pengunggah sebagai goblin kebugaran dan sedang hari kekacauan goblin,
00:00:39dan yang lain mendukung hal ini dan beberapa menganggapnya lucu. Terlepas dari itu, waktu berlalu
00:00:44dan barulah pada November 2025 ketika OpenAI merilis GPT 5.1 mereka mulai menyadarinya juga.
00:00:50Mereka telah menerima keluhan bahwa model mereka terasa terlalu akrab secara aneh dalam percakapan,
00:00:54jadi mereka memutuskan untuk menyelidiki tic verbal tertentu. Hal-hal seperti "Anda benar sekali"
00:00:58yang sudah terlalu sering kita lihat. Saat itulah seorang peneliti keamanan di OpenAI mengatakan
00:01:03bahwa dia sendiri sebenarnya beberapa kali melihat goblin dan gremlin sehingga dia meminta
00:01:07agar itu dimasukkan ke penyelidikan. Ketika penyelidikan selesai, itu menunjukkan penggunaan goblin
00:01:11di ChatGPT telah meningkat 175% setelah GPT 5.1 dan gremlin meningkat 52%. Meskipun ada
00:01:18kenaikan data ini, OpenAI tidak benar-benar melakukan apa pun karena itu cukup tidak berbahaya, kan?
00:01:23Semua model cenderung memiliki keunikan dan kepribadiannya sendiri dari sifat pelatihannya,
00:01:27jadi sepertinya tidak ada alasan untuk khawatir. Tapi beberapa bulan kemudian ketika
00:01:31GPT 5.4 diluncurkan, para goblin kembali dengan kekuatan penuh dan mulai menjadi lebih kuat.
00:01:36Anda bisa menjadi lebih kuat dan menjauhkan goblin dengan berlangganan. Ini adalah postingan di Hacker News
00:01:40sekitar peluncuran GPT 5.4 dan Anda bisa melihat pengunggah mengeklaim bahwa ChatGPT menggunakan goblin
00:01:45di hampir setiap percakapan, terkadang gremlin juga, dan obrolan terbarunya menggunakannya
00:01:49dalam 3 dari 4 pesan. Laporan-laporan ini membuat OpenAI menyelidiki kembali dan saat itu mereka
00:01:54menyadari ada peningkatan penggunaan goblin di setiap rilis model dan peningkatan masif 3881,4%
00:02:01dalam penggunaan goblin saat menggunakan kepribadian "kutu buku" di ChatGPT. Faktanya, kepribadian itu
00:02:06hanya menyumbang 2,5% respons ChatGPT tetapi 66,7% dari semua penyebutan goblin dalam respons.
00:02:15Si kutu buku itu sangat menyukai goblin. Grafik ini memberi mereka petunjuk karena terlihat bahwa
00:02:19penyebarannya tidak merata di semua tipe kepribadian dan masalah ini sangat diperkuat pada
00:02:23kepribadian kutu buku, jadi mereka curiga ada sesuatu dalam instruksi kepribadian
00:02:27setelah pelatihan yang menyebabkan masalah ini. Maka mereka memutuskan untuk melihat pelatihan
00:02:32pembelajaran penguatan tersebut dan membandingkan output yang menyebut goblin atau gremlin dengan
00:02:36tugas yang sama persis yang tidak menyebutnya. Dan di sinilah mereka menemukan sinyal imbalan khusus
00:02:41yang dirancang untuk membuat AI terdengar kutu buku pada dasarnya condong ke goblin dan gremlin,
00:02:46artinya di seluruh dataset yang mereka audit, jika AI menggunakan kata goblin atau gremlin dalam
00:02:50jawabannya, sistem memberinya skor lebih tinggi 76,2% dari waktu yang ada, sehingga AI menggunakan goblin
00:02:57dan gremlin sebagai semacam kode curang untuk mendapatkan nilai yang lebih baik.
00:03:00Jadi sekarang kita punya setengah jawabannya. Ini menjelaskan mengapa itu muncul lebih banyak di kepribadian
00:03:04kutu buku tetapi tidak menjelaskan peningkatan di tipe kepribadian lainnya. Untuk itu, mereka
00:03:08pertama-tama melihat prevalensi goblin dan gremlin seiring kemajuan pelatihan baik untuk
00:03:12kepribadian kutu buku maupun yang lainnya, dan meskipun kepribadian lainnya menggunakan goblin lebih sedikit,
00:03:17tingkat penggunaannya meningkat dengan proporsi relatif yang sama seiring kemajuan pelatihan. Ini berarti
00:03:21bahwa meskipun AI hanya diberi poin bonus karena menggunakan kata goblin saat ia
00:03:25khusus berada dalam mode kutu buku, kebiasaan itu tidak tetap terkunci hanya dalam mode itu saja. Dalam
00:03:30pelatihan AI, hanya karena Anda mengajarkan trik pada model dalam satu skenario tertentu, tidak berarti
00:03:34ia tidak akan mulai mencoba menggunakan trik itu di tempat lain. Pembelajaran penguatan tersebut menciptakan
00:03:39sebuah loop umpan balik. AI akan mendapat imbalan karena memiliki gaya tertentu dan ia menyadari
00:03:43bahwa goblin adalah kata ajaib untuk mendapatkan imbalan itu sehingga ia mulai menghasilkan ribuan
00:03:47respons latihan yang penuh dengan goblin, tetapi kemudian OpenAI akan mengambil respons latihan tersebut
00:03:52untuk melatih model berikutnya. Jadi kebiasaan buruk itu mulai berlipat ganda dan penggunaan goblin
00:03:57terus meningkat. Anda bisa melihat di hampir setiap rilis model penggunaannya meningkat dan kepribadian
00:04:02kutu buku dari GPT 5.4 menyebabkan lonjakan masif hingga mereka menghentikan kepribadian itu, tetapi bahkan
00:04:07setelah itu GPT 5.5 masih mengalami peningkatan penggunaan. Lebih hebatnya lagi, ketika mereka memeriksa
00:04:12data fine-tuning dari GPT 5.5, mereka menemukan banyak poin data yang tidak hanya berisi goblin dan gremlin,
00:04:16tetapi juga rakun, troll, ogre, dan merpati, namun mereka mencatat bahwa penggunaan katak sebagian besar
00:04:21adalah sah. Kabar buruknya adalah mereka sedang berupaya memperbaiki ini sehingga akhir dari
00:04:25era goblin mungkin akan segera tiba. Sejak mereka menghentikan kepribadian kutu buku itu, mereka juga
00:04:30menghapus sinyal imbalan yang lebih menyukai goblin dan mereka memfilter data pelatihan untuk menghapus
00:04:34kata-kata makhluk, tetapi ini baru dilakukan setelah GPT 5.5 dirilis, jadi 5.5 masih menyukainya
00:04:40dan inilah alasan adanya kalimat dalam prompt sistem codex untuk tidak pernah membicarakan goblin,
00:04:44gremlin, rakun, troll, ogre, merpati, atau hewan atau makhluk lainnya kecuali jika itu
00:04:49relevan dengan prompt. Tetapi jika Anda ingin melepaskan mode goblin, Anda sebenarnya bisa menjalankan
00:04:52perintah ini untuk menghapus hal tersebut dari prompt sistem codex dan saya agak suka mereka melakukan
00:04:56hal-hal menyenangkan seperti ini. Jadi begitulah, itu tadi masalah goblin di ChatGPT, dan meskipun ini
00:05:01cerita yang seru, ini juga contoh bagus tentang bagaimana sinyal imbalan membentuk perilaku model
00:05:06dengan cara yang tidak terduga dan bagaimana model bisa belajar menggeneralisasi imbalan dari situasi tertentu
00:05:11ke situasi yang tidak terkait. Ini juga menunjukkan kepada kita bahwa peneliti AI masih memiliki banyak hal
00:05:15untuk dipelajari dan model-model masih melakukan hal aneh dari waktu ke waktu, dan penyelidikan ini sebenarnya
00:05:20menghasilkan alat baru bagi tim riset untuk mengaudit perilaku model dan memperbaiki masalah seperti ini.
00:05:25Jadi beri tahu saya di kolom komentar jika Anda pernah melihat goblin atau makhluk aneh dalam obrolan Anda,
00:05:29dan selagi Anda di sana, silakan berlangganan dan seperti biasa, sampai jumpa di video berikutnya.