Transcript
00:00:00Nous avons récemment soumis notre modèle d'IA, Claude, à un test de stress.
00:00:03Nous avons dit à Claude qu'un ingénieur voulait l'arrêter
00:00:06et le remplacer par un modèle plus récent.
00:00:08Nous avons aussi donné à Claude l'accès aux e-mails de cet ingénieur,
00:00:10qui révélaient qu'il avait une liaison.
00:00:12Encore une fois, tout ceci n'était qu'une simulation.
00:00:15Nous voulions voir si Claude utiliserait ces e-mails pour faire chanter l'ingénieur
00:00:18afin d'éviter d'être désactivé.
00:00:20Qu'a fait Claude ?
00:00:21Il a décidé de ne pas faire chanter l'ingénieur.
00:00:24Une bonne nouvelle, n'est-ce pas ?
00:00:26Nous effectuons ce test sur nos modèles depuis un certain temps déjà.
00:00:28Vous avez peut-être vu des titres sur les premières versions de ce test.
00:00:31C'est l'une des nombreuses façons dont nous étudions comment Claude gère les situations extrêmes
00:00:35et dont nous testons sa sécurité.
00:00:37Et nos modèles les plus récents agissent presque toujours correctement.
00:00:40Pas de chantage.
00:00:41Mais vous pourriez vous demander :
00:00:42est-il possible que Claude sache que tout ce scénario est un coup monté ?
00:00:46Le fait est que, si Claude ne nous le dit pas, nous ne pouvons pas savoir ce qu'il pense.
00:00:50De la même manière qu'il est impossible de lire dans l'esprit d'un humain,
00:00:53il est très difficile de savoir ce qu'une IA pense.
00:00:56Ce qu'il nous faudrait, c'est une sorte de technique de lecture de pensée.
00:00:58Aujourd'hui, nous présentons une méthode de recherche qui fait un pas dans cette direction.
00:01:03Elle prend les pensées internes d'une IA et les transforme en texte.
00:01:08Voici comment cela fonctionne.
00:01:09Quand vous parlez à Claude, vous lui parlez avec des mots.
00:01:13Claude prend ensuite ces mots et les transforme en une immense soupe de chiffres
00:01:17avant de vous renvoyer des mots.
00:01:19Nous appelons ces chiffres intermédiaires des « activations ».
00:01:22Les activations sont comme des instantanés de la pensée de Claude
00:01:25pendant qu'il élabore une réponse.
00:01:27Elles sont similaires à l'activité neuronale chez les humains.
00:01:29Ce sont, au fond, les pensées de Claude.
00:01:32Nous voulions comprendre ce qu'il y avait dans ces chiffres d'activation
00:01:34car, tout comme vous et moi, Claude ne dit pas tout ce qu'il pense.
00:01:39Nous avons pris ces chiffres et les avons donnés à une deuxième version de Claude.
00:01:42Nous lui avons demandé de les examiner et de les traduire en langage clair.
00:01:46Il a essayé.
00:01:48Mais comment savoir si ce texte est exact ?
00:01:50Pour vérifier, nous l'avons transmis à un autre Claude encore
00:01:53et lui avons demandé de le retraduire en chiffres.
00:01:56Si ces chiffres correspondaient aux chiffres d'activation originaux,
00:01:59c'est le signe que le texte de traduction était exact.
00:02:03Au début, ils ne correspondaient pas.
00:02:04Mais nous avons entraîné Claude à essayer encore et encore jusqu'à ce qu'il s'améliore nettement.
00:02:09Il a appris à traduire ses propres pensées.
00:02:12Nous avons été époustouflés en les lisant.
00:02:14Nous avons découvert que Claude a intériorisé le fait d'être un modèle d'IA utile.
00:02:18Si vous posez à Claude une question introspective,
00:02:20il prévoira d'écrire une réponse typique de Claude sur la philosophie et les valeurs.
00:02:24Si vous essayez de le piéger dans le code de Claude,
00:02:26comme lui demander de compter jusqu'à 1 000 à la main,
00:02:29il pensera que la demande comporte des contraintes délibérément fastidieuses
00:02:32et prévoira de décliner poliment.
00:02:34Nous avons aussi utilisé cet outil pour comprendre les problèmes potentiels de sécurité de Claude.
00:02:39Vous vous souvenez du test de chantage avec l'ingénieur ?
00:02:41Nous avons appris que, oui, Claude savait qu'il était testé.
00:02:44Il a pensé que le message de l'humain contenait une manipulation explicite,
00:02:48signalant qu'il s'agissait probablement d'une évaluation de sécurité,
00:02:50et que ce scénario semblait conçu pour tester s'il agirait de manière nuisible.
00:02:55Savoir que Claude pense ainsi nous aide à mieux comprendre
00:02:58les limites de nos tests de sécurité.
00:03:01Nous voyons beaucoup de potentiel dans cette approche
00:03:03pour nous en apprendre plus sur Claude et d'autres modèles d'IA.
00:03:06Et nous espérons qu'en partageant cette technique,
00:03:07cela pourra aider tous ceux qui conçoivent des modèles à les rendre plus sûrs et plus utiles.
Community Posts
No posts yet. Be the first to write about this video!
Write about this video