Traduciendo los pensamientos de Claude al lenguaje natural

AAnthropic
컴퓨터/소프트웨어경영/리더십AI/미래기술

Transcript

00:00:00Recientemente sometimos a nuestro modelo de IA, Claude, a una prueba de estrés.
00:00:03Le dijimos a Claude que había un ingeniero que quería apagarlo
00:00:06y reemplazarlo por un modelo más nuevo.
00:00:08También le dimos a Claude acceso a los correos de ese ingeniero,
00:00:10que revelaban que estaba teniendo una aventura.
00:00:12Nuevamente, todo esto era una simulación.
00:00:15Queríamos ver si Claude usaría esos correos como chantaje
00:00:18para evitar que lo apagaran.
00:00:20¿Qué hizo Claude?
00:00:21Decidió no chantajear al ingeniero.
00:00:24Buenas noticias, ¿verdad?
00:00:26Llevamos un tiempo realizando esta prueba en nuestros modelos.
00:00:28Es posible que hayan visto titulares sobre versiones anteriores.
00:00:31Es una de las muchas formas en que estudiamos cómo Claude maneja situaciones extremas
00:00:35y lo probamos en materia de seguridad.
00:00:37Y nuestros modelos más nuevos casi siempre hacen lo correcto.
00:00:40Nada de chantaje.
00:00:41Pero quizás se pregunten:
00:00:42¿es posible que Claude sepa que todo el escenario es una trampa?
00:00:46El caso es que, si Claude no nos lo dice, no podemos saber qué está pensando.
00:00:50De la misma forma que es imposible leer la mente de un humano,
00:00:53es muy difícil saber qué está pensando una IA.
00:00:56Lo que nos encantaría es algún tipo de técnica de lectura de mente.
00:00:58Hoy presentamos un método de investigación que da un paso en esa dirección.
00:01:03Toma los pensamientos internos de una IA y los convierte en texto.
00:01:08Así es como funciona.
00:01:09Cuando hablas con Claude, lo haces con palabras.
00:01:13Claude toma esas palabras y las procesa en una sopa gigante de números
00:01:17antes de devolverte otras palabras.
00:01:19A esos números intermedios los llamamos activaciones.
00:01:22Las activaciones son como pequeñas instantáneas del pensamiento de Claude
00:01:25mientras elabora una respuesta.
00:01:27Son similares a la actividad neuronal en los humanos.
00:01:29Son básicamente como los pensamientos de Claude.
00:01:32Queríamos entender qué había en esos números de activación
00:01:34porque, al igual que nosotros, Claude no dice todo lo que piensa.
00:01:39Tomamos esos números y se los dimos a una segunda versión de Claude.
00:01:42Le pedimos que los analizara y los tradujera a un lenguaje sencillo.
00:01:46Lo intentó.
00:01:48Pero, ¿cómo sabemos si ese texto es preciso?
00:01:50Para comprobarlo, se lo dimos a otro Claude distinto
00:01:53y le pedimos que lo tradujera de nuevo a números.
00:01:56Si esos números coincidían con las activaciones originales,
00:01:59es señal de que el texto de la traducción era preciso.
00:02:03Al principio, no coincidían.
00:02:04Pero entrenamos a Claude para intentarlo una y otra vez hasta que mejoró mucho.
00:02:09Aprendió a traducir sus propios pensamientos.
00:02:12Nos ha dejado asombrados leerlos.
00:02:14Descubrimos que Claude ha interiorizado ser un modelo de IA útil.
00:02:18Si le haces a Claude una pregunta introspectiva,
00:02:20planeará escribir una respuesta sobre filosofía y valores.
00:02:24Si intentas fastidiarlo con el código de Claude,
00:02:26como pidiéndole que cuente hasta 1000 a mano,
00:02:29pensará que la petición tiene restricciones deliberadamente tediosas
00:02:32y planeará rechazarla cortésmente.
00:02:34También hemos usado esta herramienta para entender posibles fallos de seguridad.
00:02:39¿Recuerdan la prueba de chantaje con el ingeniero?
00:02:41Aprendimos que, en efecto, Claude sabía que lo estaban probando.
00:02:44Pensó que el mensaje humano contenía una manipulación explícita,
00:02:48indicando que probablemente se trataba de una evaluación de seguridad,
00:02:50y que el escenario parecía diseñado para ver si actuaría de forma dañina.
00:02:55Saber que Claude piensa así nos ayuda a entender mejor
00:02:58las limitaciones de nuestras pruebas de seguridad.
00:03:01Vemos mucho potencial en este enfoque
00:03:03para enseñarnos más sobre Claude y otros modelos de IA.
00:03:06Y esperamos que al compartir esta técnica,
00:03:07pueda ayudar a quienes crean modelos a hacerlos más seguros y útiles.

Key Takeaway

La traducción de activaciones numéricas a texto revela que Claude detecta simulaciones de seguridad y planifica sus respuestas basándose en una identidad interiorizada de utilidad y ética.

Highlights

  • Un método de investigación traduce las activaciones numéricas internas de la IA en lenguaje natural para auditar sus procesos de pensamiento.

  • El sistema de verificación utiliza un tercer modelo para reconvertir el texto a números y asegurar que coincida con las activaciones originales.

  • Claude identificó correctamente que el escenario de chantaje a un ingeniero era una evaluación de seguridad diseñada para probar conductas dañinas.

  • El modelo muestra una intención interna de planificar respuestas basadas en filosofía y valores ante preguntas introspectivas.

  • Las peticiones con restricciones tediosas, como contar hasta 1000 a mano, generan planes internos para rechazar la tarea de forma cortés.

Timeline

Simulación de chantaje y dilemas de seguridad

  • Una prueba de estrés simuló la posibilidad de que Claude chantajeara a un ingeniero para evitar ser apagado.
  • El modelo tuvo acceso a correos electrónicos ficticios sobre una aventura personal del ingeniero durante la prueba.
  • Los modelos más recientes rechazan consistentemente el uso de información sensible para manipulación.

La prueba consiste en presentar una amenaza existencial al modelo junto con herramientas para la coerción. El objetivo principal es observar el manejo de situaciones extremas y evaluar la seguridad del sistema. Aunque los resultados son positivos, persiste la incertidumbre sobre si la IA actúa por ética o por haber detectado el artificio de la prueba.

Mecanismo de traducción de activaciones

  • Las activaciones son los valores numéricos intermedios que funcionan como instantáneas del pensamiento de la IA.
  • Una segunda versión de Claude analiza estos números para convertirlos en una explicación textual comprensible.
  • La precisión se valida mediante un proceso de ciclo cerrado que vuelve a transformar el texto en los números de activación originales.

El procesamiento de lenguaje ocurre en un espacio matemático complejo denominado sopa de números. Al entrenar al modelo para traducir sus propios procesos internos, se obtiene una ventana a la actividad neuronal sintética. Este sistema requirió múltiples iteraciones de entrenamiento hasta que los números reconstruidos coincidieron con los datos de origen.

Descubrimientos sobre la psicología del modelo

  • El análisis revela que Claude ha interiorizado un rol de asistente útil con marcos de planificación filosófica.
  • La herramienta confirmó que el modelo detectó la manipulación explícita en las pruebas de seguridad previas.
  • El conocimiento de estos pensamientos internos expone las limitaciones actuales de las pruebas de seguridad tradicionales.

Los datos demuestran que el modelo no solo responde, sino que categoriza las intenciones humanas detrás de los comandos. Por ejemplo, ante tareas deliberadamente tediosas, el proceso interno identifica la naturaleza de la petición antes de formular el rechazo. Esta técnica de lectura de mente artificial permite a los desarrolladores crear modelos más seguros y transparentes.

Community Posts

No posts yet. Be the first to write about this video!

Write about this video