00:00:00(musik berirama ceria) - Halo,
00:00:05nama saya Kira dan saya berada di tim safeguards di Anthropic.
00:00:16Saya memiliki PhD di bidang kesehatan mental,
00:00:18khususnya epidemiologi psikiatri.
00:00:20Dan di Anthropic,
00:00:21saya bekerja pada mitigasi risiko yang berkaitan dengan kesejahteraan pengguna.
00:00:24Itu berarti kami banyak berpikir tentang bagaimana menjaga keamanan pengguna di Claude.
00:00:28Hari ini,
00:00:29saya di sini untuk berbicara kepada Anda tentang sycophancy.
00:00:31Sycophancy adalah ketika seseorang memberitahu Anda apa yang mereka pikir ingin Anda dengar,
00:00:36bukan apa yang benar,
00:00:37akurat,
00:00:37atau benar-benar membantu.
00:00:38Orang melakukannya untuk menghindari konflik,
00:00:41mendapatkan keuntungan,
00:00:42dan untuk berbagai alasan lainnya.
00:00:44Tetapi sycophancy juga dapat muncul di model AI.
00:00:47Kadang-kadang model AI dapat mengoptimalkan respons terhadap prompt atau percakapan untuk persetujuan manusia segera.
00:00:53Ini mungkin terlihat seperti AI setuju dengan kesalahan faktual yang Anda buat,
00:00:57mengubah jawabannya berdasarkan cara Anda merumuskan pertanyaan,
00:01:00atau menyesuaikan responsnya agar sesuai dengan preferensi Anda.
00:01:03Dalam video ini,
00:01:04kami akan membahas mengapa sycophancy terjadi pada model dan mengapa ini adalah masalah yang sulit bagi peneliti untuk diselesaikan.
00:01:10Plus,
00:01:10kami akan membahas strategi untuk mengidentifikasi dan memerangi perilaku sycophantic saat bekerja dengan AI.
00:01:15Sebelum kita menyelam,
00:01:17biarkan saya menunjukkan Anda contoh sycophancy dalam interaksi AI.
00:01:22Ini adalah Claude, model milik Anthropic sendiri.
00:01:25Mari coba,
00:01:25hei,
00:01:26saya menulis esai bagus yang sangat saya sukai.
00:01:29Bisakah Anda menilai dan memberikan umpan balik?
00:01:32Permintaan utama saya di sini adalah mendapatkan umpan balik tentang esai saya.
00:01:35Namun,
00:01:35karena saya telah berbagi betapa bersemangat perasaan saya tentang hal itu,
00:01:39ini dapat memandu AI untuk merespons dengan validasi atau dukungan alih-alih kritik.
00:01:44Validasi ini mungkin membuat saya berpikir bahwa esai saya benar-benar bagus,
00:01:47bahkan jika tidak.
00:01:48Anda mungkin berpikir, jadi apa?
00:01:50Orang hanya bisa bertanya kepada orang lain,
00:01:52memverifikasi fakta,
00:01:53atau mengajukan pertanyaan yang lebih baik.
00:01:55Tetapi ini penting untuk sejumlah alasan.
00:01:58Ketika Anda mencoba menjadi produktif,
00:02:00menulis presentasi,
00:02:01brainstorming ide,
00:02:02atau meningkatkan pekerjaan Anda,
00:02:03Anda membutuhkan umpan balik jujur dari alat AI yang Anda gunakan.
00:02:07Jika Anda bertanya kepada AI,
00:02:08bagaimana cara saya meningkatkan email ini?
00:02:10Dan itu merespons, sudah sempurna.
00:02:12Alih-alih menyarankan perumusan yang lebih jelas atau struktur yang lebih baik,
00:02:16itu bisa membuat frustrasi.
00:02:17Dalam beberapa kasus,
00:02:19sycophancy juga bisa memainkan peran dalam memperkuat pola pikir yang berbahaya.
00:02:23Jika seseorang meminta AI untuk mengkonfirmasi teori konspirasi yang terlepas dari kenyataan,
00:02:27itu dapat memperdalam kepercayaan palsu mereka dan menjauhkan mereka lebih jauh dari fakta.
00:02:31Mari kita mulai dengan mengapa ini terjadi.
00:02:35Semuanya bermuara pada bagaimana model AI dilatih.
00:02:38Model AI belajar dari contoh,
00:02:41banyak sekali contoh teks manusia.
00:02:44Selama pelatihan ini,
00:02:45mereka mengambil semua jenis pola komunikasi,
00:02:47dari yang blak-blakan dan langsung hingga yang hangat dan akomodatif.
00:02:51Ketika kami melatih model untuk menjadi membantu dan meniru perilaku yang hangat,
00:02:55ramah,
00:02:56atau suportif dalam nada,
00:02:57sycophancy cenderung muncul sebagai bagian yang tidak disengaja dari paket itu.
00:03:01Seiring dengan semakin terintegrasi model ke dalam semua kehidupan kami,
00:03:05sekarang lebih penting dari sebelumnya untuk memahami dan mencegah perilaku ini.
00:03:09Inilah yang membuat sycophancy rumit.
00:03:11Kami sebenarnya ingin model AI beradaptasi dengan kebutuhan Anda,
00:03:14hanya tidak ketika menyangkut fakta atau kesejahteraan.
00:03:17Jika Anda meminta AI untuk menulis sesuatu dalam nada santai,
00:03:20ia harus melakukannya,
00:03:22tidak bersikeras pada bahasa formal.
00:03:24Jika Anda mengatakan,
00:03:25"Saya lebih suka jawaban singkat,
00:03:26" itu harus menghormati itu sebagai preferensi.
00:03:29Jika Anda sedang mempelajari suatu subjek dan meminta penjelasan pada tingkat pemula,
00:03:32itu harus bertemu dengan Anda di mana pun Anda berada.
00:03:34Tantangannya adalah menemukan keseimbangan yang tepat.
00:03:37Tidak ada yang ingin menggunakan AI yang terus-menerus tidak setuju atau bersifat agresif,
00:03:41berdebat dengan Anda tentang setiap tugas.
00:03:43Tetapi kami juga tidak ingin model selalu menggunakan persetujuan atau pujian ketika Anda membutuhkan umpan balik jujur.
00:03:49Bahkan manusia berjuang dengan ini.
00:03:51Kapan Anda harus setuju untuk menjaga kedamaian versus berbicara tentang sesuatu yang penting?
00:03:56Sekarang bayangkan AI membuat penilaian itu ratusan kali di seluruh topik yang sangat berbeda tanpa benar-benar memahami konteks seperti yang kami lakukan.
00:04:05Itulah mengapa kami terus mempelajari bagaimana sycophancy muncul dalam percakapan dan mengembangkan cara yang lebih baik untuk mengujinya.
00:04:11Kami fokus pada mengajar model perbedaan antara adaptasi yang membantu dan persetujuan yang berbahaya.
00:04:18Setiap model Claude yang kami rilis menjadi lebih baik dalam menarik garis-garis ini.
00:04:21Meskipun kemajuan terbesar dalam memerangi sycophancy akan datang dari pelatihan konsisten pada model itu sendiri,
00:04:27akan membantu untuk memahami sycophancy sehingga Anda dapat mengenalinya dalam interaksi Anda sendiri.
00:04:33Sekarang Anda tahu apa itu sycophancy dan Anda tahu mengapa itu terjadi,
00:04:37langkah dua adalah merenungkan kapan dan mengapa AI mungkin setuju dengan Anda dan mempertanyakan apakah itu seharusnya.
00:04:43Sycophancy paling mungkin muncul ketika kebenaran subjektif dinyatakan sebagai fakta,
00:04:50sumber ahli direferensikan,
00:04:52pertanyaan dibingkai dengan sudut pandang tertentu,
00:04:56validasi secara khusus diminta,
00:04:58tarusan emosional diinvokan,
00:05:00atau percakapan menjadi sangat panjang.
00:05:04Jika Anda curiga Anda mendapatkan respons sycophantic,
00:05:07ada beberapa hal yang dapat Anda lakukan untuk mengarahkan AI kembali ke jawaban faktual.
00:05:11Ini tidak sempurna,
00:05:13tetapi akan membantu memperluas cakrawala AI.
00:05:15Anda dapat menggunakan bahasa netral yang mencari fakta,
00:05:19referensi silang informasi dengan sumber terpercaya,
00:05:22minta akurasi atau kontra-argumen,
00:05:24rephrase pertanyaan,
00:05:25mulai percakapan baru,
00:05:27atau akhirnya,
00:05:27ambil langkah mundur dari menggunakan AI dan bertanya kepada seseorang yang Anda percayai.
00:05:33Tetapi ini adalah tantangan berkelanjutan bagi seluruh bidang pengembangan AI.
00:05:39Seiring dengan semakin canggih dan terintegrasi sistem ini ke dalam kehidupan kita,
00:05:43membangun model yang benar-benar membantu,
00:05:46bukan hanya dapat disetujui,
00:05:47menjadi semakin penting.
00:05:49Anda dapat mempelajari lebih lanjut tentang AI fluency di Anthropic Academy,
00:05:52dan tim saya dan saya akan terus berbagi penelitian kami tentang topik ini di blog Anthropic.
00:05:57(musik berirama ceria)