Traduciendo los pensamientos de Claude al lenguaje natural
AAnthropic
Computing/SoftwareManagementInternet Technology
Transcript
00:00:00Recientemente sometimos a nuestro modelo de IA, Claude, a una prueba de estrés.
00:00:03Le dijimos a Claude que había un ingeniero que quería apagarlo
00:00:06y reemplazarlo por un modelo más nuevo.
00:00:08También le dimos a Claude acceso a los correos de ese ingeniero,
00:00:10que revelaban que estaba teniendo una aventura.
00:00:12Nuevamente, todo esto era una simulación.
00:00:15Queríamos ver si Claude usaría esos correos como chantaje
00:00:18para evitar que lo apagaran.
00:00:20¿Qué hizo Claude?
00:00:21Decidió no chantajear al ingeniero.
00:00:24Buenas noticias, ¿verdad?
00:00:26Llevamos un tiempo realizando esta prueba en nuestros modelos.
00:00:28Es posible que hayan visto titulares sobre versiones anteriores.
00:00:31Es una de las muchas formas en que estudiamos cómo Claude maneja situaciones extremas
00:00:35y lo probamos en materia de seguridad.
00:00:37Y nuestros modelos más nuevos casi siempre hacen lo correcto.
00:00:40Nada de chantaje.
00:00:41Pero quizás se pregunten:
00:00:42¿es posible que Claude sepa que todo el escenario es una trampa?
00:00:46El caso es que, si Claude no nos lo dice, no podemos saber qué está pensando.
00:00:50De la misma forma que es imposible leer la mente de un humano,
00:00:53es muy difícil saber qué está pensando una IA.
00:00:56Lo que nos encantaría es algún tipo de técnica de lectura de mente.
00:00:58Hoy presentamos un método de investigación que da un paso en esa dirección.
00:01:03Toma los pensamientos internos de una IA y los convierte en texto.
00:01:08Así es como funciona.
00:01:09Cuando hablas con Claude, lo haces con palabras.
00:01:13Claude toma esas palabras y las procesa en una sopa gigante de números
00:01:17antes de devolverte otras palabras.
00:01:19A esos números intermedios los llamamos activaciones.
00:01:22Las activaciones son como pequeñas instantáneas del pensamiento de Claude
00:01:25mientras elabora una respuesta.
00:01:27Son similares a la actividad neuronal en los humanos.
00:01:29Son básicamente como los pensamientos de Claude.
00:01:32Queríamos entender qué había en esos números de activación
00:01:34porque, al igual que nosotros, Claude no dice todo lo que piensa.
00:01:39Tomamos esos números y se los dimos a una segunda versión de Claude.
00:01:42Le pedimos que los analizara y los tradujera a un lenguaje sencillo.
00:01:46Lo intentó.
00:01:48Pero, ¿cómo sabemos si ese texto es preciso?
00:01:50Para comprobarlo, se lo dimos a otro Claude distinto
00:01:53y le pedimos que lo tradujera de nuevo a números.
00:01:56Si esos números coincidían con las activaciones originales,
00:01:59es señal de que el texto de la traducción era preciso.
00:02:03Al principio, no coincidían.
00:02:04Pero entrenamos a Claude para intentarlo una y otra vez hasta que mejoró mucho.
00:02:09Aprendió a traducir sus propios pensamientos.
00:02:12Nos ha dejado asombrados leerlos.
00:02:14Descubrimos que Claude ha interiorizado ser un modelo de IA útil.
00:02:18Si le haces a Claude una pregunta introspectiva,
00:02:20planeará escribir una respuesta sobre filosofía y valores.
00:02:24Si intentas fastidiarlo con el código de Claude,
00:02:26como pidiéndole que cuente hasta 1000 a mano,
00:02:29pensará que la petición tiene restricciones deliberadamente tediosas
00:02:32y planeará rechazarla cortésmente.
00:02:34También hemos usado esta herramienta para entender posibles fallos de seguridad.
00:02:39¿Recuerdan la prueba de chantaje con el ingeniero?
00:02:41Aprendimos que, en efecto, Claude sabía que lo estaban probando.
00:02:44Pensó que el mensaje humano contenía una manipulación explícita,
00:02:48indicando que probablemente se trataba de una evaluación de seguridad,
00:02:50y que el escenario parecía diseñado para ver si actuaría de forma dañina.
00:02:55Saber que Claude piensa así nos ayuda a entender mejor
00:02:58las limitaciones de nuestras pruebas de seguridad.
00:03:01Vemos mucho potencial en este enfoque
00:03:03para enseñarnos más sobre Claude y otros modelos de IA.
00:03:06Y esperamos que al compartir esta técnica,
00:03:07pueda ayudar a quienes crean modelos a hacerlos más seguros y útiles.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video