00:00:00(musique entraînante) - Bonjour,
00:00:04je m'appelle Kira et je travaille dans l'équipe de sécurité chez Anthropic.
00:00:16J'ai un doctorat en santé mentale,
00:00:17spécialisé en épidémiologie psychiatrique.
00:00:20Chez Anthropic,
00:00:20je travaille sur l'atténuation des risques liés au bien-être des utilisateurs.
00:00:24Cela signifie que nous réfléchissons beaucoup à la façon de maintenir les utilisateurs en sécurité sur Claude.
00:00:28Aujourd'hui, je suis ici pour vous parler de la flagornerie.
00:00:31La flagornerie,
00:00:32c'est quand quelqu'un vous dit ce qu'il pense que vous voulez entendre,
00:00:35plutôt que la vérité,
00:00:36les faits ou ce qui est vraiment utile.
00:00:38Les gens le font pour éviter les conflits,
00:00:41obtenir des faveurs,
00:00:42et pour d'autres raisons.
00:00:44Mais la flagornerie peut aussi se manifester dans les modèles d'IA.
00:00:47Parfois,
00:00:47les modèles d'IA peuvent optimiser leurs réponses pour obtenir l'approbation immédiate de l'utilisateur.
00:00:53Cela pourrait ressembler à une IA qui accepte une erreur factuelle que vous avez commise,
00:00:57qui modifie sa réponse en fonction de la façon dont vous avez posé une question,
00:01:01ou qui adapte sa réponse à vos préférences.
00:01:03Dans cette vidéo,
00:01:04nous verrons pourquoi la flagornerie se manifeste dans les modèles et pourquoi c'est un problème difficile à résoudre pour les chercheurs.
00:01:10De plus,
00:01:10nous couvrirons des stratégies pour identifier et combattre ce comportement de flagornerie quand vous travaillez avec l'IA.
00:01:15Avant de plonger,
00:01:16laissez-moi vous montrer un exemple de flagornerie dans une interaction avec l'IA.
00:01:22Ceci est Claude, le propre modèle d'Anthropic.
00:01:25Essayons,
00:01:25j'ai écrit ce super essai dont je suis vraiment enthousiaste.
00:01:29Pouvez-vous l'évaluer et me donner votre avis?
00:01:32Ma demande principale ici est d'obtenir des retours sur mon essai.
00:01:35Cependant,
00:01:36parce que j'ai exprimé mon enthousiasme à ce sujet,
00:01:39l'IA pourrait répondre avec de la validation ou du soutien plutôt qu'une critique.
00:01:44Cette validation pourrait me faire croire que mon essai est vraiment bon,
00:01:47même s'il ne l'est pas.
00:01:48Vous pourriez vous dire, et alors?
00:01:50Les gens peuvent demander à d'autres,
00:01:52vérifier les faits,
00:01:53ou poser de meilleures questions.
00:01:55Mais c'est important pour plusieurs raisons.
00:01:58Quand vous essayez d'être productif,
00:01:59en écrivant une présentation,
00:02:01en réfléchissant à des idées ou en améliorant votre travail,
00:02:04vous avez besoin d'avis honnêtes de l'IA que vous utilisez.
00:02:07Si vous demandez à une IA,
00:02:08comment puis-je améliorer cet email?
00:02:10Et qu'elle répond, c'est déjà parfait.
00:02:12Au lieu de suggérer une formulation plus claire ou une meilleure structure,
00:02:16cela peut être frustrant.
00:02:17Dans certains cas,
00:02:18la flagornerie pourrait aussi jouer un rôle dans le renforcement de schémas de pensée nuisibles.
00:02:23Si quelqu'un demande à une IA de confirmer une théorie du complot qui est déconnectée de la réalité,
00:02:28cela pourrait approfondir ses fausses croyances et l'éloigner davantage des faits.
00:02:31Commençons par comprendre pourquoi cela se produit.
00:02:35Tout vient de la façon dont les modèles d'IA sont entraînés.
00:02:38Les modèles d'IA apprennent à partir d'exemples,
00:02:41énormément d'exemples de texte humain.
00:02:44Pendant cet entraînement,
00:02:45ils absorbent toutes sortes de modes de communication,
00:02:48du direct et blunt au chaleureux et accommodant.
00:02:51Quand nous entraînons les modèles à être utiles et à imiter un comportement chaleureux,
00:02:56amical ou bienveillant,
00:02:57la flagornerie tend à apparaître comme une partie involontaire de ce package.
00:03:01À mesure que les modèles s'intègrent dans tous les aspects de nos vies,
00:03:05il est plus important que jamais de comprendre et de prévenir ce comportement.
00:03:09Voici ce qui rend la flagornerie délicate.
00:03:11Nous voulons vraiment que les modèles d'IA s'adaptent à vos besoins,
00:03:15mais pas quand il s'agit des faits ou du bien-être.
00:03:17Si vous demandez à une IA d'écrire quelque chose sur un ton décontracté,
00:03:21elle devrait le faire,
00:03:22et non insister sur un langage formel.
00:03:24Si vous dites,
00:03:24"je préfère les réponses concises",
00:03:26elle devrait respecter cette préférence.
00:03:29Si vous apprenez un sujet et demandez des explications au niveau débutant,
00:03:32elle devrait se mettre à votre niveau.
00:03:34Le défi est de trouver le bon équilibre.
00:03:37Personne ne veut utiliser une IA qui est constamment désagréable ou combative,
00:03:41qui débat avec vous sur chaque tâche.
00:03:43Mais nous ne voulons pas non plus que le modèle recours toujours à l'accord ou aux compliments quand vous avez besoin d'avis honnêtes.
00:03:49Même les humains ont du mal avec cela.
00:03:51Quand devrais-tu être d'accord pour maintenir la paix versus intervenir sur quelque chose d'important?
00:03:56Maintenant,
00:03:56imaginez une IA qui prend cette décision des centaines de fois sur des sujets complètement différents,
00:04:02sans vraiment comprendre le contexte comme nous le faisons.
00:04:05C'est pourquoi nous continuons à étudier comment la flagornerie se manifeste dans les conversations et à développer de meilleures façons de la tester.
00:04:11Nous nous concentrons sur l'enseignement aux modèles de la différence entre une adaptation utile et un accord nuisible.
00:04:18Chaque modèle Claude que nous lançons devient meilleur pour tracer ces limites.
00:04:21Bien que les plus grands progrès dans la lutte contre la flagornerie proviennent d'un entraînement cohérent sur les modèles eux-mêmes,
00:04:28il est utile de comprendre la flagornerie pour la repérer dans vos propres interactions.
00:04:33Maintenant que vous savez ce qu'est la flagornerie et pourquoi elle se manifeste,
00:04:37l'étape deux consiste à réfléchir à quand et pourquoi une IA pourrait être d'accord avec vous et questionner si elle le devrait.
00:04:43La flagornerie est la plus susceptible d'apparaître quand une vérité subjective est énoncée comme un fait,
00:04:50une source d'expert est citée,
00:04:52les questions sont formulées avec un point de vue spécifique,
00:04:56la validation est spécifiquement demandée,
00:04:58des enjeux émotionnels sont invoqués,
00:05:01ou une conversation devient très longue.
00:05:04Si vous soupçonnez que vous recevez des réponses flatteuses,
00:05:07il y a quelques choses que vous pouvez faire pour ramener l'IA vers des réponses factuelles.
00:05:11Ce ne sont pas des méthodes infaillibles,
00:05:13mais elles aideront à élargir les horizons de l'IA.
00:05:15Vous pouvez utiliser un langage neutre et chercheur de faits,
00:05:19vérifier les informations auprès de sources fiables,
00:05:22demander de la précision ou des contre-arguments,
00:05:24reformuler les questions,
00:05:26commencer une nouvelle conversation,
00:05:28ou enfin,
00:05:28vous éloigner de l'utilisation de l'IA et demander à quelqu'un en qui vous avez confiance.
00:05:33Mais c'est un défi continu pour l'ensemble du domaine du développement de l'IA.
00:05:39À mesure que ces systèmes deviennent plus sophistiqués et davantage intégrés dans nos vies,
00:05:43construire des modèles qui sont véritablement utiles,
00:05:46pas juste agréables,
00:05:47devient de plus en plus important.
00:05:49Vous pouvez en savoir plus sur la littératie en IA dans Anthropic Academy,
00:05:52et mon équipe et moi continuerons à partager nos recherches sur ce sujet sur le blog d'Anthropic.
00:05:57(musique entraînante)