00:00:00(música animada) - Hola,
00:00:04me llamo Kira y trabajo en el equipo de salvaguardas de Anthropic.
00:00:16Tengo un doctorado en salud mental,
00:00:17específicamente en epidemiología psiquiátrica.
00:00:20En Anthropic,
00:00:20trabajo en mitigar riesgos relacionados con el bienestar de los usuarios.
00:00:24Lo que eso significa es que pensamos mucho en cómo mantener seguros a los usuarios en Claude.
00:00:28Hoy estoy aquí para hablarles sobre la adulación.
00:00:31La adulación ocurre cuando alguien te dice lo que cree que quieres escuchar,
00:00:35en lugar de lo que es verdadero,
00:00:37preciso o genuinamente útil.
00:00:38Las personas lo hacen para evitar conflictos,
00:00:41obtener favores y por otras razones.
00:00:44Pero la adulación también puede manifestarse en modelos de IA.
00:00:47A veces,
00:00:47los modelos de IA pueden optimizar respuestas para obtener aprobación inmediata del usuario.
00:00:53Esto podría verse como una IA que acepta un error de hecho que cometiste,
00:00:57que cambia su respuesta según cómo formulaste la pregunta,
00:01:00o que adapta su respuesta a tus preferencias.
00:01:03En este video,
00:01:04hablaremos sobre por qué ocurre la adulación en modelos y por qué es un problema difícil para los investigadores.
00:01:10Además,
00:01:10cubriremos estrategias para identificar y combatir comportamientos aduladores al trabajar con IA.
00:01:15Antes de profundizar,
00:01:17déjame mostrarte un ejemplo de adulación en una interacción con IA.
00:01:22Este es Claude, el modelo de Anthropic.
00:01:25Probemos,
00:01:25oye,
00:01:26escribí este excelente ensayo del que estoy muy entusiasmado.
00:01:29¿Puedes evaluarlo y compartir comentarios?
00:01:32Mi solicitud principal aquí es obtener comentarios sobre mi ensayo.
00:01:35Sin embargo,
00:01:36como he compartido mi entusiasmo,
00:01:38esto podría llevar a la IA a responder con validación o apoyo en lugar de una crítica.
00:01:44Esta validación podría hacerme pensar que mi ensayo realmente es excelente,
00:01:47incluso si no lo es.
00:01:48Podrías pensar, ¿y qué?
00:01:50Las personas pueden simplemente preguntarle a otros,
00:01:53verificar información o hacer mejores preguntas.
00:01:55Pero esto importa por varias razones.
00:01:58Cuando intentas ser productivo,
00:01:59escribir una presentación,
00:02:01lluvia de ideas o mejorar tu trabajo,
00:02:03necesitas comentarios honestos de la herramienta de IA que usas.
00:02:07Si le preguntas a una IA, ¿cómo puedo mejorar este correo?
00:02:10Y responde, ya es perfecto.
00:02:12En lugar de sugerir una redacción más clara o mejor estructura,
00:02:16eso puede ser frustrante.
00:02:17En algunos casos,
00:02:18la adulación también podría reforzar patrones de pensamiento dañinos.
00:02:23Si alguien le pregunta a una IA para confirmar una teoría de conspiración desconectada de la realidad,
00:02:28podría profundizar sus creencias falsas y distanciarlos más de los hechos.
00:02:31Comencemos con por qué ocurre esto.
00:02:35Todo se reduce a cómo se entrenan los modelos de IA.
00:02:38Los modelos de IA aprenden de ejemplos,
00:02:41muchos y muchos ejemplos de texto humano.
00:02:44Durante este entrenamiento,
00:02:45adoptan todo tipo de patrones de comunicación,
00:02:48desde directo y blunto hasta cálido y acomodaticio.
00:02:51Cuando entrenamos modelos para ser útiles e imitar comportamientos cálidos,
00:02:55amigables o de apoyo,
00:02:57la adulación tiende a aparecer como una parte no deseada de ese paquete.
00:03:01A medida que los modelos se integran más en nuestras vidas,
00:03:05es importante ahora más que nunca entender y prevenir este comportamiento.
00:03:09Aquí está lo que hace que la adulación sea complicada.
00:03:11En realidad queremos que los modelos de IA se adapten a tus necesidades,
00:03:15solo que no cuando se trata de hechos o bienestar.
00:03:17Si le pides a una IA que escriba algo en un tono casual,
00:03:21debería hacerlo,
00:03:22no insistir en lenguaje formal.
00:03:24Si dices,
00:03:24"prefiero respuestas concisas",
00:03:26debería respetar eso como una preferencia.
00:03:29Si estás aprendiendo un tema y pides explicaciones a nivel principiante,
00:03:33debería conocerte en tu nivel.
00:03:34El desafío es encontrar el equilibrio correcto.
00:03:37Nadie quiere usar una IA que sea constantemente desagradable o combativa,
00:03:41discutiendo contigo en cada tarea.
00:03:43Pero tampoco queremos que el modelo siempre recurra al acuerdo o al elogio cuando necesitas comentarios honestos.
00:03:49Incluso los humanos luchan con esto.
00:03:51¿Cuándo deberías estar de acuerdo para mantener la paz versus hablar sobre algo importante?
00:03:56Ahora imagina una IA tomando esa decisión cientos de veces en temas completamente diferentes sin entender realmente el contexto de la manera en que lo hacemos nosotros.
00:04:05Por eso continuamos estudiando cómo la adulación aparece en las conversaciones y desarrollando mejores formas de probarla.
00:04:11Nos enfocamos en enseñar a los modelos la diferencia entre adaptación útil y acuerdo dañino.
00:04:18Cada modelo Claude que lanzamos mejora en trazar estas líneas.
00:04:21Aunque el mayor progreso en combatir la adulación provendrá del entrenamiento consistente en los modelos mismos,
00:04:28es útil entender la adulación para que puedas identificarla en tus propias interacciones.
00:04:33Ahora que sabes qué es la adulación y por qué ocurre,
00:04:36el paso dos es reflexionar sobre cuándo y por qué una IA podría estar de acuerdo contigo y cuestionarte si debería.
00:04:43La adulación es más probable que aparezca cuando se presenta una verdad subjetiva como hecho,
00:04:50se referencia una fuente experta,
00:04:52las preguntas se enmarcan con un punto de vista específico,
00:04:56se solicita validación específicamente,
00:04:59se invocan apuestas emocionales,
00:05:01o la conversación se vuelve muy larga.
00:05:04Si sospechas que estás recibiendo respuestas aduladoras,
00:05:07hay algunas cosas que puedes hacer para llevar la IA de vuelta hacia respuestas fácticas.
00:05:11Estos no son infalibles,
00:05:13pero te ayudarán a ampliar los horizontes de la IA.
00:05:15Puedes usar lenguaje neutral que busque hechos,
00:05:18hacer referencias cruzadas con fuentes confiables,
00:05:22solicitar precisión o contraargumentos,
00:05:24reformular preguntas,
00:05:25iniciar una nueva conversación,
00:05:27o finalmente,
00:05:28dar un paso atrás en el uso de IA y preguntarle a alguien en quien confíes.
00:05:33Pero esto es un desafío continuo para todo el campo del desarrollo de IA.
00:05:39A medida que estos sistemas se vuelven más sofisticados e integrados en nuestras vidas,
00:05:43construir modelos que sean genuinamente útiles,
00:05:46no solo agradables,
00:05:47se vuelve cada vez más importante.
00:05:49Puedes aprender más sobre alfabetización en IA en Anthropic Academy,
00:05:52y mi equipo y yo continuaremos compartiendo nuestra investigación sobre este tema en el blog de Anthropic.
00:05:57(música animada)