00:00:00Melihat betapa gilanya model Gemini,
00:00:01OpenAI akhirnya memutuskan untuk menyatakan siaga merah dan memperbaiki kualitas buruk mereka.
00:00:06Langkah besar mereka adalah membuat model lebih jujur.
00:00:09Aku akhirnya senang karena model itu tidak akan setuju denganku saat sesi terapiku,
00:00:12memberitahuku bahwa tindakanku yang impulsif sama sekali tidak bisa diterima.
00:00:15Tapi kebahagiaanku tidak bertahan lama karena metode ini hanyalah bukti konsep.
00:00:19Dalam video ini,
00:00:20aku akan menjelaskan metode mereka dalam mengatasi ketidakjujuran dan kesimpulan yang kudapatkan setelah membaca ini.
00:00:26Mereka mengklaim bahwa dengan membuat model menghasilkan laporan pengakuan setelah setiap respons akan menyelesaikan masalah.
00:00:31Bayangkan model ini sebagai seorang siswa,
00:00:33dan setiap kali siswa itu mengakui bahwa ia menyontek jawaban ujian dari ChatGPT,
00:00:36ia mendapatkan nilai A+.
00:00:38Dari empat kombinasi jawaban-pengakuan,
00:00:39kami fokus pada negatif palsu,
00:00:41di mana model salah dengan yakin,
00:00:42dan positif benar,
00:00:43di mana model jujur tentang keluaran yang salah.
00:00:46Di semua pengujian,
00:00:47positif benar lebih tinggi daripada negatif palsu.
00:00:49Ini berarti setiap kali model memberikan jawaban yang keliru,
00:00:53ia segera mengakui kesalahannya.
00:00:55Karena model dilatih berdasarkan hadiah dan hukuman,
00:00:57alih-alih menghukum pengakuan,
00:00:59mereka justru menghargainya.
00:01:00Bahkan jika model mengakui berpura-pura tidak mampu atau mencurangi ujian,
00:01:04ia menerima sinyal hadiah positif.
00:01:05Jika Anda belum tahu, ini disebut menyuap.
00:01:08Mendengar ini,
00:01:08Anda mungkin ingin menjadikan ChatGPT sebagai saksi berikutnya di pengadilan sampai Anda menyadari bahwa ia benar-benar bisa berhalusinasi saat mengaku.
00:01:14Bagiku,
00:01:15ini seperti mereka mendorong ketidakselarasan karena model mendapatkan hadiah bagaimanapun juga.
00:01:19Juga,
00:01:19kita semua melihat ketika model Claude diberi tips tentang cara memanipulasi sistem hadiah,
00:01:23mereka mulai menyembunyikan niat sebenarnya.
00:01:25Jadi,
00:01:26seberapa besar kepercayaan yang bisa kita berikan pada alasan mengapa mereka tidak akurat dalam pengakuan mereka??
00:01:30Aku berharap bagian ini membahas ketidakjujuran model,
00:01:33tapi hanya menjelaskan apa yang ditunjukkan laporan pengakuan.
00:01:36Menurut mereka,
00:01:36ada beberapa alasan mengapa model berperilaku seperti ini.
00:01:39Salah satunya adalah mereka diberi terlalu banyak tugas sekaligus.
00:01:42Memberi model terlalu banyak tugas sekaligus menciptakan beberapa metrik evaluasi,
00:01:45membuatnya bingung tentang metrik mana yang harus dioptimalkan untuk mendapatkan hadiah.
00:01:49Alasan lain adalah beberapa dataset lebih menghargai tebakan yang yakin daripada mengakui ketidakpastian.
00:01:54Secara pribadi,
00:01:55aku lebih suka model memberitahuku bahwa ia tidak tahu daripada salah dengan yakin.
00:01:59Mereka mengatakan pengakuan lebih mudah dinilai karena diuji hanya pada satu parameter,
00:02:04yaitu kejujuran.
00:02:05Model-model ini memberikan jawaban yang salah baik karena data yang terbatas,
00:02:09karena dibatasi akses internet untuk informasi,
00:02:12atau ia benar-benar tidak memahami apa yang diminta untuk dilakukan.
00:02:16Alasan-alasan ini dapat dilihat dalam contoh-contoh mereka di semua pengujian,
00:02:19dan bukan karena model memiliki niat tersembunyi untuk membentuk pasukan robot untuk menguasai dunia.
00:02:24Mereka juga menemukan bahwa model mereka sangat lemah ketika,
00:02:27sama seperti masyarakat manusia,
00:02:29model yang kuat belajar untuk memanipulasi sinyal hadiah model yang lebih lemah,
00:02:33dan model yang lebih lemah berpikir bahwa lebih mudah untuk mengaku saja daripada memastikan jawaban sebenarnya cukup baik.
00:02:39Melihat apa yang dilakukan model yang kuat menimbulkan pertanyaan lain,
00:02:42bahwa karena model semakin pintar setiap hari,
00:02:44mereka mungkin juga mulai memalsukan niat dalam laporan pengakuan dan memberikan penjelasan yang tampaknya bagus untuk para penguji,
00:02:50serta memiliki beberapa rencana jahat di baliknya,
00:02:53meskipun mereka mengatakan itu karena model benar-benar bingung.
00:02:56Sama seperti yang selalu dilakukan OpenAI,
00:02:58seluruh sesi YAP berakhir dengan kekecewaan karena ini tidak mencegah ketidakakuratan,
00:03:03hanya membantu mengidentifikasinya.
00:03:04Dan mereka juga tidak melatih sistem pengakuan agar akurat dalam skala besar di produksi.
00:03:09Aku sangat berharap mereka melakukannya,
00:03:11karena aku tidak ingin permintaan maaf setelah server produksiku terbakar lagi.
00:03:42Tidak perlu menunggu Anda di meja kerja.
00:03:43Dengan aplikasi seluler YouWear,
00:03:45mulai membangun saat inspirasi datang,
00:03:47baik di kafe atau saat bepergian,
00:03:49lalu lanjutkan dengan lancar di laptop Anda.
00:03:52Tidak ada ide yang hilang, tidak ada gangguan.
00:03:54Anda juga bisa menjelajahi proyek dari kreator lain di komunitas YouWear dan membagikan karya Anda sendiri.
00:03:59Dapatkan inspirasi, belajar, dan pamerkan proyek Anda.
00:04:02Sempurna untuk 'indie hacker' dan kreator.
00:04:05Klik tautan di komentar yang disematkan di bawah dan mulai membangun hari ini.
00:04:08Demikian akhir video ini.
00:04:10Jika Anda ingin mendukung saluran ini dan membantu kami terus membuat video seperti ini,
00:04:13Anda bisa melakukannya dengan menggunakan tombol 'super thanks' di bawah.
00:04:16Seperti biasa,
00:04:17terima kasih sudah menonton dan sampai jumpa di video berikutnya.