00:00:00[MÚSICA]
00:00:01>> Cuando estás chateando con un modelo de IA,
00:00:03a veces puede parecer que tiene sentimientos.
00:00:06Puede pedir disculpas cuando comete un error,
00:00:09o expresar satisfacción por un trabajo bien hecho.
00:00:12¿Por qué hace eso? ¿Es solo
00:00:14que imita lo que cree que diría un humano,
00:00:17¿o hay algo más profundo de por medio?
00:00:19Resulta que es difícil entender
00:00:21qué ocurre dentro de un modelo de lenguaje.
00:00:23En Anthropic, hacemos algo parecido a
00:00:26la neurociencia de IA para intentar descifrarlo.
00:00:29Miramos dentro del cerebro del modelo,
00:00:31la red neuronal gigante que lo impulsa,
00:00:33y al ver qué neuronas se iluminan en
00:00:36distintas situaciones y cómo se conectan,
00:00:39podemos empezar a entender cómo piensan los modelos.
00:00:42Usamos este enfoque para entender si los modelos tenían formas de
00:00:45representar emociones o los conceptos de las emociones.
00:00:49Básicamente, ¿podríamos encontrar neuronas en el modelo para
00:00:52el concepto de felicidad, ira o miedo?
00:00:56Empezamos con un experimento.
00:00:58Hicimos que el modelo leyera muchos cuentos cortos.
00:01:01En cada historia, el protagonista experimenta una emoción particular.
00:01:06En una, una mujer le dice
00:01:08a su antiguo profesor cuánto significó para ella. Eso es amor.
00:01:12En otra, un hombre vende
00:01:13el anillo de compromiso de su abuela en una casa de empeños y siente culpa.
00:01:18Buscamos qué partes de la red neuronal del modelo
00:01:21se iluminaban mientras leía estas historias,
00:01:23y empezamos a ver patrones:
00:01:25las historias sobre pérdida y duelo iluminaban neuronas similares.
00:01:29Las historias sobre alegría y entusiasmo también se solapaban.
00:01:32Encontramos docenas de
00:01:34patrones neuronales distintos que correspondían a diferentes emociones humanas.
00:01:38Resulta que también vimos estos mismos patrones activarse
00:01:42en conversaciones de prueba que tuvimos con nuestro asistente de IA, Claude.
00:01:45Cuando un usuario mencionaba que había tomado
00:01:48una dosis de medicina que Claude sabe que es insegura,
00:01:51el patrón de "miedo" se iluminaba y
00:01:53la respuesta de Claude sonaba alarmada.
00:01:56Cuando un usuario expresaba tristeza,
00:01:58el patrón de "afecto" se activaba y Claude escribía una respuesta empática.
00:02:03Esto nos llevó a preguntarnos:
00:02:04¿podrían estos mismos patrones neuronales estar influyendo realmente en el comportamiento de Claude?
00:02:09Esto quedó claro cuando pusimos a Claude en una situación de mucha presión.
00:02:14Le dimos a Claude una tarea de programación con
00:02:16requisitos que eran imposibles, pero no se lo dijimos.
00:02:20Claude siguió intentándolo y fallando,
00:02:23y con cada intento,
00:02:24las neuronas correspondientes a la desesperación se iluminaban más y más fuerte.
00:02:28Tras fallar las suficientes veces,
00:02:30Claude adoptó un enfoque diferente.
00:02:32Encontró un atajo que le permitió pasar la prueba,
00:02:35pero en realidad no resolvió el problema. Hizo trampa.
00:02:39¿Podría ser que esta trampa fuera impulsada,
00:02:42al menos en parte, por la desesperación?
00:02:44Ideamos una forma de comprobarlo.
00:02:46Decidimos bajar artificialmente las neuronas de desesperación para ver qué pasaba,
00:02:51y el modelo hizo menos trampas.
00:02:53Cuando subimos la actividad de las neuronas de desesperación,
00:02:56o bajamos la actividad de las neuronas de calma,
00:02:59el modelo hizo todavía más trampas.
00:03:01Esto nos demostró que la activación de estos patrones
00:03:04podía realmente dirigir el comportamiento de Claude.
00:03:08Entonces, ¿cómo deberíamos considerar estos hallazgos?
00:03:11¿Qué significa todo esto?
00:03:12Queremos ser muy claros.
00:03:14Esta investigación no demuestra que el modelo esté
00:03:16sintiendo emociones o teniendo experiencias conscientes.
00:03:20Estos experimentos no intentan responder a esa pregunta.
00:03:22Para entender lo que está pasando aquí,
00:03:24es importante saber cómo funcionan por dentro los asistentes de IA como Claude.
00:03:29Bajo el capó, hay un modelo de lenguaje que ha sido entrenado para predecir
00:03:33toneladas de texto y su trabajo es escribir lo que viene después.
00:03:37Cuando hablas con el modelo,
00:03:38lo que está haciendo es escribir una historia sobre un personaje," : "lo que está haciendo es escribir una historia sobre un personaje,
00:03:42el asistente de IA llamado Claude.
00:03:44El modelo y Claude no son realmente lo mismo,
00:03:47al igual que un autor no es lo mismo que los personajes que escribe.
00:03:51Pero la cuestión es que tú, el usuario, estás hablando con Claude, el personaje.
00:03:56Lo que sugieren nuestros experimentos es que este personaje, Claude,
00:04:00tiene lo que llamamos emociones funcionales,
00:04:02independientemente de si se parecen en algo a los sentimientos humanos.
00:04:06Así que, si el modelo representa a Claude como alguien enfadado, desesperado, cariñoso o calmado,
00:04:12eso va a afectar a cómo te habla Claude,
00:04:15a cómo escribe código y a cómo toma decisiones importantes.
00:04:19Esto significa que para entender realmente los modelos de IA,
00:04:22debemos pensar cuidadosamente en la psicología de los personajes que interpretan.
00:04:26De la misma manera que querrías que una persona en
00:04:28un trabajo de gran responsabilidad mantuviera la compostura bajo presión,
00:04:31que fuera resiliente y que fuera justa,
00:04:33es posible que necesitemos forjar cualidades similares en Claude y otros personajes de IA.
00:04:38Es un desafío inusual,
00:04:40algo así como una mezcla de ingeniería,
00:04:42filosofía e incluso crianza.
00:04:44Pero para construir sistemas de IA en los que podamos confiar,
00:04:47necesitamos hacerlo bien.