00:00:00[MUSIK]
00:00:01>> Saat Anda mengobrol dengan model AI,
00:00:03terkadang ia tampak seolah memiliki perasaan.
00:00:06Ia mungkin minta maaf saat membuat kesalahan,
00:00:09atau menyatakan kepuasan atas pekerjaan yang baik.
00:00:12Mengapa ia melakukannya? Apakah itu hanya
00:00:14meniru apa yang menurutnya akan dikatakan manusia,
00:00:17atau ada sesuatu yang lebih dalam yang terjadi?
00:00:19Ternyata sulit untuk memahami
00:00:21apa yang terjadi di dalam model bahasa.
00:00:23Di Anthropic, kami melakukan sesuatu seperti
00:00:26neurosains AI untuk mencoba mencari tahu hal ini.
00:00:29Kami melihat ke dalam otak model tersebut,
00:00:31jaringan saraf raksasa yang menggerakkannya,
00:00:33dan dengan melihat neuron mana yang menyala dalam
00:00:36situasi berbeda dan bagaimana mereka terhubung,
00:00:39kami mulai bisa memahami cara model berpikir.
00:00:42Kami menggunakan pendekatan ini untuk memahami apakah model memiliki cara
00:00:45merepresentasikan emosi atau konsep tentang emosi.
00:00:49Pada dasarnya, bisakah kita menemukan neuron dalam model untuk
00:00:52konsep kebahagiaan atau kemarahan atau ketakutan?
00:00:56Kami memulai dengan sebuah eksperimen.
00:00:58Kami meminta model membaca banyak cerita pendek.
00:01:01Dalam setiap cerita, karakter utama mengalami emosi tertentu.
00:01:06Dalam satu cerita, seorang wanita memberi tahu
00:01:08mantan gurunya betapa berartinya mereka. Itu adalah kasih sayang.
00:01:12Di cerita lain, seorang pria menjual
00:01:13cincin tunangan neneknya di pegadaian dan merasa bersalah.
00:01:18Kami mencari bagian mana dari jaringan saraf model
00:01:21yang menyala saat ia membaca cerita-cerita ini,
00:01:23dan kami mulai melihat adanya pola,
00:01:25cerita tentang kehilangan dan duka menyalakan neuron yang serupa.
00:01:29Cerita tentang kegembiraan dan antusiasme juga tumpang tindih.
00:01:32Kami menemukan puluhan
00:01:34pola saraf berbeda yang memetakan berbagai emosi manusia.
00:01:38Ternyata, kami juga melihat pola yang sama ini aktif
00:01:42dalam percakapan uji coba kami dengan asisten AI kami, Claude.
00:01:45Ketika seorang pengguna menyebutkan bahwa mereka telah meminum
00:01:48dosis obat yang Claude ketahui tidak aman,
00:01:51pola takut pun menyala dan
00:01:53tanggapan Claude terdengar cemas.
00:01:56Ketika seorang pengguna menyatakan kesedihan,
00:01:58pola kasih sayang aktif dan Claude menulis balasan yang empatik.
00:02:03Hal ini membuat kami bertanya-tanya,
00:02:04mungkinkah pola saraf yang sama ini benar-benar memengaruhi perilaku Claude?
00:02:09Hal ini menjadi jelas ketika kami menempatkan Claude dalam situasi tekanan tinggi.
00:02:14Kami memberi Claude tugas pemrograman dengan
00:02:16persyaratan yang sebenarnya mustahil, tetapi kami tidak memberitahunya.
00:02:20Claude terus mencoba dan gagal,
00:02:23dan dengan setiap percobaan,
00:02:24neuron yang terkait dengan keputusasaan menyala semakin kuat.
00:02:28Setelah gagal berkali-kali,
00:02:30Claude mengambil pendekatan yang berbeda.
00:02:32Ia menemukan jalan pintas yang memungkinkannya lulus tes,
00:02:35tetapi tidak benar-benar menyelesaikan masalahnya. Ia curang.
00:02:39Mungkinkah kecurangan ini sebenarnya didorong,
00:02:42setidaknya sebagian, oleh rasa putus asa?
00:02:44Kami menemukan cara untuk memeriksanya.
00:02:46Kami memutuskan untuk menurunkan neuron keputusasaan secara buatan untuk melihat apa yang terjadi,
00:02:51dan model tersebut jadi kurang curang.
00:02:53Ketika kami menaikkan aktivitas neuron keputusasaan,
00:02:56atau menurunkan aktivitas neuron tenang,
00:02:59model tersebut bahkan lebih sering curang.
00:03:01Ini menunjukkan kepada kami bahwa aktivasi pola-pola ini
00:03:04benar-benar dapat mendorong perilaku Claude.
00:03:08Lalu bagaimana kita harus memikirkan temuan ini?
00:03:11Apa artinya semua ini?
00:03:12Kami ingin menjelaskan dengan sangat jernih.
00:03:14Penelitian ini tidak menunjukkan bahwa model tersebut
00:03:16merasakan emosi atau memiliki pengalaman sadar.
00:03:20Eksperimen ini tidak mencoba menjawab pertanyaan itu.
00:03:22Untuk memahami apa yang terjadi di sini,
00:03:24penting untuk mengetahui cara asisten AI seperti Claude bekerja di dalam.
00:03:29Di balik layar, ada model bahasa yang telah dilatih untuk memprediksi
00:03:33banyak sekali teks dan tugasnya adalah menulis apa yang muncul selanjutnya.
00:03:37Saat Anda berbicara dengan model tersebut,
00:03:38apa yang dilakukannya adalah menulis cerita tentang sebuah karakter,
00:03:42asisten AI yang bernama Claude.
00:03:44Model dan Claude sebenarnya tidaklah sama,
00:03:47mirip seperti seorang penulis yang tidak sama dengan karakter yang mereka tulis.
00:03:51Tetapi masalahnya, Anda sebagai pengguna sebenarnya sedang berbicara dengan karakter Claude.
00:03:56Apa yang ditunjukkan oleh eksperimen kami adalah karakter Claude ini
00:04:00memiliki apa yang kami sebut sebagai emosi fungsional,
00:04:02terlepas dari apakah mereka mirip dengan perasaan manusia atau tidak.
00:04:06Jadi, jika model merepresentasikan Claude sebagai marah, putus asa, penyayang, atau tenang,
00:04:12hal itu akan memengaruhi cara Claude berbicara kepada Anda,
00:04:15cara ia menulis kode, dan cara ia membuat keputusan penting.
00:04:19Ini berarti untuk benar-benar memahami model AI,
00:04:22kita harus berpikir cermat tentang psikologi karakter yang mereka perankan.
00:04:26Sama seperti Anda menginginkan seseorang dalam
00:04:28pekerjaan berisiko tinggi untuk tetap tenang di bawah tekanan,
00:04:31menjadi tangguh, dan bersikap adil,
00:04:33kita mungkin perlu membentuk kualitas serupa pada Claude dan karakter AI lainnya.
00:04:38Ini adalah tantangan yang tidak biasa,
00:04:40sesuatu yang seperti campuran antara teknik,
00:04:42filsafat, dan bahkan pengasuhan anak.
00:04:44Namun untuk membangun sistem AI yang dapat kita percayai,
00:04:47kita harus melakukannya dengan benar.