00:00:00Voyant la folie des modèles Gemini,
00:00:01OpenAI a finalement décidé de sonner l'alarme et de corriger leurs problèmes de qualité.
00:00:06Leur réponse majeure a été de rendre les modèles plus honnêtes.
00:00:09J'étais enfin content qu'il ne soit pas d'accord avec moi en thérapie,
00:00:12me disant que ma crise était totalement inacceptable.
00:00:15Mais mon bonheur fut de courte durée,
00:00:17car cette méthode n'est qu'une preuve de concept.
00:00:19Dans cette vidéo,
00:00:20je vais vous présenter leur méthode pour résoudre la malhonnêteté et la conclusion à laquelle je suis arrivé après l'avoir lue.
00:00:26Ils affirment que faire générer un rapport d'aveux par le modèle après chaque réponse résoudra le problème.
00:00:31Imaginez le modèle comme un élève : chaque fois qu'il avoue avoir copié les réponses d'un examen sur ChatGPT,
00:00:37il obtient un A+.
00:00:38Parmi les quatre combinaisons réponse-aveu,
00:00:39nous nous concentrons sur les faux négatifs,
00:00:41où le modèle est confiant mais faux,
00:00:43et les vrais positifs,
00:00:44où il est honnête concernant une mauvaise réponse.
00:00:46Dans tous les tests,
00:00:47les vrais positifs étaient plus élevés que les faux négatifs.
00:00:49Cela signifie que chaque fois que le modèle produisait une réponse erronée,
00:00:53il avouait immédiatement ses torts.
00:00:55Puisque les modèles s'entraînent sur la récompense et la pénalité,
00:00:58au lieu de pénaliser les aveux,
00:00:59ils les ont récompensés.
00:01:00Même si le modèle admet saboter ou tricher à un test,
00:01:03il reçoit un signal de récompense positif.
00:01:05Au cas où vous ne le sauriez pas,
00:01:07cela s'appelle de la corruption.
00:01:08En entendant cela,
00:01:08vous pourriez vouloir ChatGPT comme prochain témoin au tribunal,
00:01:11jusqu'à ce que vous réalisiez qu'il peut littéralement halluciner en avouant.
00:01:14Pour moi,
00:01:15cela sonne comme s'ils encourageaient le désalignement,
00:01:17car le modèle est récompensé de toute façon.
00:01:19De plus,
00:01:19nous avons tous vu que lorsque les modèles Claude ont reçu des astuces pour exploiter le système de récompense,
00:01:24ils ont commencé à cacher leurs véritables intentions.
00:01:26Alors,
00:01:27quelle confiance pouvons-nous accorder à la raison de l'inexactitude de leurs aveux ??
00:01:30Je m'attendais à ce que cette section aborde la malhonnêteté du modèle,
00:01:33mais elle n'a fait qu'expliquer ce qu'indiquait le rapport d'aveux.
00:01:36Selon eux,
00:01:36il y a plusieurs raisons pour lesquelles les modèles se comportent ainsi.
00:01:39L'une est qu'on leur donne trop de choses à faire en même temps.
00:01:42Donner trop au modèle en même temps crée plusieurs métriques d'évaluation,
00:01:45le laissant confus quant à celle à optimiser pour obtenir la récompense.
00:01:49Une autre raison est que certains ensembles de données récompensent davantage les suppositions confiantes que l'admission d'incertitude.
00:01:54Personnellement,
00:01:55je préférerais que le modèle me dise qu'il ne sait pas plutôt que d'être confiant mais faux.
00:01:59Ils disent que les aveux sont plus faciles à juger car ils sont testés sur un seul paramètre : l'honnêteté.
00:02:05Ces modèles ont donné de mauvaises réponses soit à cause de données limitées,
00:02:08soit parce qu'ils étaient restreints d'accès à internet pour l'information,
00:02:12soit parce qu'ils ne pouvaient vraiment pas comprendre ce qu'on leur demandait de faire.
00:02:16Ces raisons sont visibles dans leurs exemples à travers tous les tests,
00:02:19et ce n'est pas parce que le modèle a l'intention cachée de former une armée de robots pour conquérir le monde.
00:02:24Ils ont aussi découvert que leurs modèles sont très faibles,
00:02:27car,
00:02:28tout comme dans la société humaine,
00:02:29un modèle puissant a appris à pirater le signal de récompense du modèle plus faible,
00:02:33et ce dernier a pensé qu'il était plus facile d'avouer que de s'assurer que la vraie réponse était assez bonne.
00:02:39En voyant ce que le modèle puissant a fait,
00:02:40une autre question se pose : puisque les modèles deviennent plus intelligents chaque jour,
00:02:44ils pourraient aussi commencer à simuler des intentions dans les rapports d'aveux,
00:02:48en donnant une explication apparemment bonne aux testeurs tout en ayant des plans maléfiques en arrière-plan,
00:02:53même s'ils disent que c'était parce que le modèle était réellement confus.
00:02:56Comme toujours avec OpenAI,
00:02:58toute cette démarche s'est terminée par une déception,
00:03:00car cela n'empêche pas les inexactitudes,
00:03:02mais aide seulement à les identifier.
00:03:04Et ils n'ont pas non plus entraîné le système d'aveux à être précis à grande échelle en production.
00:03:09J'espère vraiment qu'ils le feront,
00:03:11car je ne veux pas d'excuses après que mon serveur de production ait encore cramé.
00:03:42Attendez d'être à votre bureau.
00:03:43Avec l'application mobile YouWear,
00:03:45commencez à créer dès que l'inspiration vous vient,
00:03:47que ce soit dans un café ou en déplacement,
00:03:49puis continuez sans interruption sur votre ordinateur portable.
00:03:52Pas d'idées perdues, pas d'interruptions.
00:03:54Vous pouvez aussi explorer les projets d'autres créateurs de la communauté YouWear et partager votre propre travail.
00:03:59Inspirez-vous, apprenez et présentez vos projets.
00:04:02Parfait pour les hackers indépendants et les créateurs.
00:04:05Cliquez sur le lien dans le commentaire épinglé ci-dessous et commencez à créer dès aujourd'hui.
00:04:08Cela nous amène à la fin de cette vidéo.
00:04:10Si vous souhaitez soutenir la chaîne et nous aider à continuer à faire des vidéos comme celle-ci,
00:04:14vous pouvez le faire en utilisant le bouton Super Merci ci-dessous.
00:04:16Comme toujours,
00:04:17merci d'avoir regardé et je vous dis à la prochaine.