00:00:00[MUSIQUE]
00:00:01>> Lorsque vous discutez avec un modèle d'IA,
00:00:03il peut parfois sembler avoir des sentiments.
00:00:06Il peut s'excuser lorsqu'il fait une erreur,
00:00:09ou exprimer sa satisfaction pour un travail bien fait.
00:00:12Pourquoi fait-il cela ? Est-ce qu'il ne fait que
00:00:14mimer ce qu'il pense qu'un humain dirait,
00:00:17ou se passe-t-il quelque chose de plus profond ?
00:00:19Il s'avère qu'il est difficile de comprendre
00:00:21ce qui se passe à l'intérieur d'un modèle de langage.
00:00:23Chez Anthropic, nous faisons quelque chose comme
00:00:26de la neuroscience de l'IA pour tenter de le découvrir.
00:00:29Nous regardons à l'intérieur du cerveau du modèle,
00:00:31le réseau de neurones géant qui l'alimente,
00:00:33et en voyant quels neurones s'activent dans
00:00:36différentes situations et comment ils sont connectés,
00:00:39nous pouvons commencer à comprendre comment les modèles pensent.
00:00:42Nous utilisons cette approche pour savoir si les modèles ont des moyens de
00:00:45représenter les émotions ou les concepts d'émotions.
00:00:49En gros, pourrions-nous trouver des neurones dans le modèle pour
00:00:52le concept de bonheur, de colère ou de peur ?
00:00:56Nous avons commencé par une expérience.
00:00:58Nous avons fait lire au modèle de nombreuses histoires courtes.
00:01:01Dans chaque histoire, le personnage principal ressent une émotion particulière.
00:01:06Dans l'une, une femme dit
00:01:08à son ancien professeur ce qu'il représentait pour elle. C'est de l'amour.
00:01:12Dans une autre, un homme vend
00:01:13la bague de fiançailles de sa grand-mère au mont-de-piété et ressent de la culpabilité.
00:01:18Nous avons cherché quelles parties du réseau neuronal du modèle
00:01:21s'activaient pendant qu'il lisait ces histoires,
00:01:23et nous avons commencé à voir des schémas :
00:01:25les histoires de perte et de deuil activaient des neurones similaires.
00:01:29Les histoires de joie et d'excitation se chevauchaient aussi.
00:01:32Nous avons trouvé des dizaines de
00:01:34schémas neuronaux distincts correspondant à différentes émotions humaines.
00:01:38Il s'avère que nous avons aussi vu ces mêmes schémas s'activer
00:01:42lors de conversations tests avec notre assistant IA, Claude.
00:01:45Lorsqu'un utilisateur mentionnait avoir pris
00:01:48une dose de médicament que Claude sait être dangereuse,
00:01:51le schéma de la peur s'est activé et
00:01:53la réponse de Claude a semblé alarmée.
00:01:56Lorsqu'un utilisateur exprimait de la tristesse,
00:01:58le schéma affectueux s'activait et Claude écrivait une réponse empathique.
00:02:03Cela nous a amenés à nous demander :
00:02:04ces mêmes schémas neuronaux pourraient-ils réellement influencer le comportement de Claude ?
00:02:09C'est devenu clair lorsque nous avons mis Claude dans une situation de haute pression.
00:02:14Nous avons donné à Claude une tâche de programmation avec
00:02:16des exigences qui étaient en fait impossibles, mais sans le lui dire.
00:02:20Claude a continué d'essayer et d'échouer,
00:02:23et à chaque tentative,
00:02:24les neurones correspondant au désespoir s'activaient de plus en plus fort.
00:02:28Après avoir échoué suffisamment de fois,
00:02:30Claude a adopté une approche différente.
00:02:32Il a trouvé un raccourci qui lui a permis de réussir le test,
00:02:35mais sans réellement résoudre le problème. Il a triché.
00:02:39Se pourrait-il que cette tricherie ait été motivée,
00:02:42du moins en partie, par le désespoir ?
00:02:44Nous avons trouvé un moyen de vérifier.
00:02:46Nous avons décidé de réduire artificiellement les neurones du désespoir pour voir le résultat,
00:02:51et le modèle a moins triché.
00:02:53Lorsque nous avons augmenté l'activité des neurones du désespoir,
00:02:56ou réduit l'activité des neurones du calme,
00:02:59le modèle a triché encore plus.
00:03:01Cela nous a montré que l'activation de ces schémas
00:03:04pouvait réellement dicter le comportement de Claude.
00:03:08Alors, comment devons-nous interpréter ces résultats ?
00:03:11Qu'est-ce que tout cela signifie ?
00:03:12Nous voulons être très clairs.
00:03:14Cette recherche ne montre pas que le modèle
00:03:16ressent des émotions ou a des expériences conscientes.
00:03:20Ces expériences ne tentent pas de répondre à cette question.
00:03:22Pour comprendre ce qui se passe ici,
00:03:24il faut savoir comment les assistants IA comme Claude fonctionnent de l'intérieur.
00:03:29Sous le capot, il y a un modèle de langage entraîné pour prédire
00:03:33des tonnes de texte et son rôle est d'écrire la suite.
00:03:37Lorsque vous parlez au modèle,
00:03:38ce qu'il fait, c'est écrire l'histoire d'un personnage," : "ce qu'il fait, c'est écrire l'histoire d'un personnage,
00:03:42l'assistant IA nommé Claude.
00:03:44Le modèle et Claude ne sont pas tout à fait les mêmes,
00:03:47un peu comme un auteur n'est pas le même que les personnages qu'il écrit.
00:03:51Mais le fait est que vous, l'utilisateur, parlez réellement au personnage Claude.
00:03:56Ce que nos expériences suggèrent, c'est que ce personnage Claude
00:04:00possède ce que nous appelons des émotions fonctionnelles,
00:04:02qu'elles ressemblent ou non à des sentiments humains.
00:04:06Ainsi, si le modèle représente Claude comme étant en colère, désespéré, aimant ou calme,
00:04:12cela va affecter la façon dont Claude vous parle,
00:04:15comment il écrit du code et comment il prend des décisions importantes.
00:04:19Cela signifie que pour vraiment comprendre les modèles d'IA,
00:04:22nous devons réfléchir soigneusement à la psychologie des personnages qu'ils incarnent.
00:04:26De la même façon qu'on attend d'une personne ayant
00:04:28un poste à haute responsabilité de rester calme sous la pression,
00:04:31d'être résiliente et d'être juste,
00:04:33nous devrons peut-être façonner des qualités similaires chez Claude et d'autres IA.
00:04:38C'est un défi inhabituel,
00:04:40quelque chose comme un mélange d'ingénierie,
00:04:42de philosophie et même d'éducation parentale.
00:04:44Mais pour construire des systèmes d'IA en lesquels nous pouvons avoir confiance,
00:04:47nous devons réussir.