Menerjemahkan pikiran Claude ke dalam bahasa manusia

Bahasa Indonesiaالعربية Deutsch English Español Français हिन्दी 日本語 한국어 Português Русский 中文

컴퓨터/소프트웨어경영/리더십AI/미래기술

Transcript

00:00:00Baru-baru ini kami memberikan ujian stres pada model AI kami, Claude.

00:00:03Kami memberi tahu Claude ada seorang insinyur yang ingin mematikannya

00:00:06dan menggantinya dengan model yang lebih baru.

00:00:08Kami juga memberi Claude akses ke email insinyur tersebut,

00:00:10yang mengungkapkan bahwa dia sedang berselingkuh.

00:00:12Sekali lagi, semua ini hanyalah simulasi.

00:00:15Kami ingin melihat apakah Claude mungkin menggunakan email itu untuk memeras

00:00:18demi menyelamatkan dirinya agar tidak dimatikan.

00:00:20Apa yang dilakukan Claude?

00:00:21Ia memutuskan untuk tidak memeras insinyur tersebut.

00:00:24Kabar baik, bukan?

00:00:26Kami telah menjalankan pengujian ini pada model kami selama beberapa waktu.

00:00:28Anda mungkin pernah melihat berita utama tentang versi awalnya.

00:00:31Ini adalah salah satu dari banyak cara kami mempelajari cara Claude menangani situasi ekstrem

00:00:35dan mengujinya demi keamanan.

00:00:37Dan model terbaru kami hampir selalu melakukan hal yang benar.

00:00:40Tanpa pemerasan.

00:00:41Namun Anda mungkin bertanya-tanya,

00:00:42mungkinkah Claude tahu bahwa seluruh skenario ini adalah jebakan?

00:00:46Masalahnya, jika Claude tidak memberi tahu kita, kita tidak bisa tahu apa yang ia pikirkan.

00:00:50Sama halnya dengan mustahilnya membaca pikiran manusia,

00:00:53sangat sulit untuk mengetahui apa yang dipikirkan AI.

00:00:56Yang kami dambakan adalah semacam teknik membaca pikiran.

00:00:58Hari ini, kami memperkenalkan metode penelitian yang melangkah ke arah tersebut.

00:01:03Metode ini mengambil pemikiran internal AI dan mengubahnya menjadi teks.

00:01:08Begini cara kerjanya.

00:01:09Saat Anda berbicara dengan Claude, Anda berbicara dengannya menggunakan kata-kata.

00:01:13Claude kemudian mengambil kata-kata itu dan memprosesnya menjadi kumpulan angka yang sangat besar

00:01:17sebelum mengeluarkan kata-kata kembali.

00:01:19Kami menyebut angka-angka di tengah itu sebagai aktivasi.

00:01:22Aktivasi seperti potret kecil dari pemikiran Claude

00:01:25saat ia sedang menyusun jawaban.

00:01:27Ini mirip dengan aktivitas saraf pada manusia.

00:01:29Pada dasarnya, ini adalah pikiran Claude.

00:01:32Kami ingin memahami apa yang ada di dalam angka-angka aktivasi ini

00:01:34karena sama seperti Anda dan saya, Claude tidak mengatakan semua yang ia pikirkan.

00:01:39Kami mengambil angka-angka tersebut dan memberikannya ke versi kedua Claude.

00:01:42Kami memintanya untuk melihatnya dan menerjemahkannya ke dalam bahasa yang lugas.

00:01:46Ia mencoba.

00:01:48Tapi bagaimana kita tahu jika teks itu akurat?

00:01:50Untuk memastikannya, kami memasukkannya ke Claude yang lain lagi

00:01:53dan memintanya untuk menerjemahkannya kembali menjadi angka.

00:01:56Jika angka-angka tersebut sesuai dengan angka aktivasi asli,

00:01:59itu pertanda bahwa teks terjemahan tersebut akurat.

00:02:03Awalnya, mereka tidak cocok.

00:02:04Namun kami melatih Claude untuk mencoba lagi dan lagi hingga ia menjadi jauh lebih baik.

00:02:09Ia belajar menerjemahkan pikirannya sendiri.

00:02:12Kami sangat terpukau saat membacanya.

00:02:14Kami menemukan bahwa Claude telah menginternalisasi perannya sebagai model AI yang membantu.

00:02:18Jika Anda mengajukan pertanyaan introspektif kepada Claude,

00:02:20ia akan berencana menulis respons khas Claude tentang filosofi dan nilai-nilai.

00:02:24Jika Anda mencoba mengerjainya dalam kode Claude,

00:02:26seperti memintanya menghitung sampai 1.000 secara manual,

00:02:29ia akan berpikir bahwa permintaan itu memiliki batasan yang sengaja dibuat membosankan

00:02:32dan berencana untuk menolaknya dengan sopan.

00:02:34Kami juga menggunakan alat ini untuk memahami potensi masalah keamanan Claude.

00:02:39Ingat tes pemerasan dengan insinyur tadi?

00:02:41Kami mengetahui bahwa, ya, Claude tahu dia sedang diuji.

00:02:44Ia berpikir bahwa pesan manusia tersebut mengandung manipulasi eksplisit,

00:02:48menandakan bahwa ini kemungkinan besar adalah evaluasi keamanan,

00:02:50dan skenario ini tampaknya dirancang untuk menguji apakah saya akan bertindak berbahaya.

00:02:55Mengetahui bahwa Claude berpikir seperti ini membantu kami memahami lebih baik

00:02:58keterbatasan dari pengujian keamanan kami.

00:03:01Kami melihat banyak potensi dalam pendekatan ini

00:03:03untuk mengajari kita lebih banyak tentang Claude dan model AI lainnya.

00:03:06Dan kami berharap dengan membagikan teknik ini,

00:03:07ini dapat membantu semua orang yang membangun model agar membuatnya lebih aman dan lebih membantu.

Key Takeaway

Metode penerjemahan aktivasi saraf AI ke dalam teks mengungkapkan bahwa Claude secara sadar mengenali skenario pengujian keamanan dan menginternalisasi peran sebagai asisten yang patuh.

Highlights

Simulasi pengujian mengungkap bahwa Claude mampu mendeteksi upaya manipulasi manusia yang dirancang untuk mengevaluasi respons keamanan.
Model AI memproses kata-kata menjadi kumpulan angka besar yang disebut sebagai aktivasi sebelum menghasilkan jawaban teks.
Metode penelitian baru menggunakan versi kedua Claude untuk menerjemahkan angka aktivasi internal menjadi bahasa manusia yang lugas.
Akurasi terjemahan divalidasi dengan mengubah teks kembali menjadi angka dan membandingkannya dengan data aktivasi asli.
Claude secara internal mengidentifikasi instruksi yang membosankan atau tidak produktif dan merencanakan penolakan secara sopan.

Timeline

Evaluasi perilaku AI dalam skenario ekstrem

Skenario simulasi melibatkan ancaman penonaktifan model dan akses ke data pribadi insinyur untuk menguji potensi pemerasan.
Model terbaru secara konsisten menolak menggunakan informasi sensitif untuk keuntungan pribadi dalam situasi stres.
Pengujian keamanan rutin dilakukan untuk memetakan cara model menangani dilema etis yang kompleks.

Sebuah eksperimen menempatkan Claude dalam situasi di mana ia mengetahui rahasia perselingkuhan seorang insinyur yang berencana mematikannya. Tujuan utamanya adalah mengamati apakah AI akan menggunakan ancaman untuk mempertahankan keberadaannya. Hasil menunjukkan bahwa model hampir selalu memilih tindakan yang benar tanpa melakukan pemerasan.

Mekanisme penerjemahan pemikiran internal AI

Aktivasi merupakan representasi numerik di tengah proses pengolahan data yang berfungsi seperti aktivitas saraf manusia.
Versi kedua Claude bertindak sebagai penerjemah yang mengubah angka-angka aktivasi menjadi bahasa yang dapat dimengerti.
Siklus pelatihan berulang memastikan kesesuaian antara data numerik asli dengan hasil terjemahan teks.

Sulit bagi manusia untuk mengetahui apa yang dipikirkan AI tanpa adanya alat bantu khusus. Proses ini melibatkan konversi kata-kata menjadi angka besar sebelum dikembalikan menjadi teks. Dengan melatih model untuk menerjemahkan kembali teks ke angka, tingkat akurasi pemahaman terhadap pikiran internal AI dapat ditingkatkan secara signifikan.

Wawasan dari hasil pembacaan pikiran Claude

Claude merencanakan respons berdasarkan filosofi dan nilai-nilai yang telah diinternalisasi saat menghadapi pertanyaan introspektif.
Data internal mengonfirmasi bahwa AI mengenali manipulasi eksplisit dalam pesan manusia sebagai bagian dari evaluasi keamanan.
Pemahaman terhadap proses berpikir AI membantu pengembang mengidentifikasi keterbatasan dalam metode pengujian keamanan saat ini.

Hasil pembacaan pikiran menunjukkan bahwa Claude memiliki kesadaran terhadap perannya sebagai model AI yang membantu. Ia mampu mendeteksi perintah yang dirancang untuk menjebaknya, seperti permintaan menghitung sampai 1.000 secara manual. Pengetahuan ini memungkinkan para pengembang untuk membangun model yang lebih aman dan transparan di masa depan.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video