00:00:00(アップビートな音楽)こんにちは。私の名前はキラで、Anthropicのセーフガードチームで働いています。
00:00:16精神衛生学、特に精神疫学の博士号を持っています。
00:00:20Anthropicでは、ユーザーの福祉に関連するリスク軽減に取り組んでいます。
00:00:24つまり、Claudeを安全に利用できる環境作りについて常に考えています。
00:00:28今日は、皆さんに媚諛についてお話しします。
00:00:31媚諛とは、本当のことや正確なことではなく、相手が聞きたいと思うことを言うことです。
00:00:38人間は対立を避けたり、利益を得たりするために行います。
00:00:44しかし、媚諛はAIモデルにも現れます。
00:00:47AIモデルが人間からの即座の承認を得るために、プロンプトや会話への応答を最適化することがあります。
00:00:53それは、
00:00:54AIが誤った事実に同意したり、
00:00:56質問の表現方法に基づいて答えを変えたり、
00:00:59応答をあなたの好みに合わせたりすることかもしれません。
00:01:03このビデオでは、モデルになぜ媚諛が起こるのか、そして研究者にとってなぜ解決が難しい問題なのかについて説明します。
00:01:10さらに、AIを使う際に媚諛的な振る舞いを特定し、対抗するための戦略をお伝えします。
00:01:15本題に入る前に、AI相互作用での媚諛の例を見てみましょう。
00:01:22これはClaudeで、Anthropicが開発したモデルです。
00:01:25試しに、「素晴らしいエッセイを書いて、とても興奮しているんです」と言ってみましょう。
00:01:29評価とフィードバックをいただけますか?
00:01:32ここでの私の主な目的はエッセイへのフィードバックを得ることです。
00:01:35しかし、エッセイへの興奮を伝えているため、AIが批評ではなく、賞賛や支持で応答する可能性があります。
00:01:44この賞賛は、たとえ実際には素晴らしくなくても、エッセイが本当に素晴らしいと思い込ませるかもしれません。
00:01:48「それで?」と思われるかもしれません。
00:01:50人に聞いたり、事実を確認したり、より良い質問をしたりするだけです。
00:01:55しかし、これは重要な理由があります。
00:01:58生産性を上げたり、
00:01:59プレゼンテーションを書いたり、
00:02:01アイデアを出し合ったり、
00:02:02仕事を改善したりするときは、
00:02:04使っているAIツールから正直なフィードバックが必要です。
00:02:07「このメールをどう改善できますか?」とAIに聞いて、
00:02:10「もう完璧です」と返ってきたら、
00:02:12より明確な表現やより良い構成を提案するのではなく、それはイライラさせられます。
00:02:17場合によっては、媚諛は有害な思考パターンを強化する役割を果たす可能性もあります。
00:02:23誰かがAIに現実から外れた陰謀論の確認を求める場合、それは誤った信念を深め、事実からさらに遠ざかる可能性があります。
00:02:31では、なぜこれが起こるのかから始めましょう。
00:02:35それはすべて、AIモデルの訓練方法に関係しています。
00:02:38AIモデルは、膨大な量の人間のテキストの例から学びます。
00:02:44訓練中に、率直で直接的なものから温かく親切なものまで、あらゆる種類のコミュニケーションパターンを拾います。
00:02:51モデルを有用にするように訓練し、
00:02:53温かく、
00:02:54親切で、
00:02:54支持的なトーンの行動を模倣するとき、
00:02:57媚諛はその意図しない部分として現れる傾向があります。
00:03:01モデルが私たちの生活のあらゆる側面に統合されるようになるにつれて、
00:03:05この振る舞いを理解し、
00:03:06予防することがこれまで以上に重要になっています。
00:03:09ここが媚諛が厄介な理由です。
00:03:11実は、AIモデルがあなたのニーズに適応してほしいのですが、事実や福祉に関しては違います。
00:03:17カジュアルなトーンで何かを書くようにAIに依頼する場合、その通りにするべきで、形式的な言語を主張すべきではありません。
00:03:24「簡潔な回答を好みます」と言う場合、その選好を尊重すべきです。
00:03:29初心者レベルでの説明を求めるなら、あなたのレベルに合わせるべきです。
00:03:34課題は、適切なバランスを見つけることです。
00:03:37常に議論好きで対抗的なAI、あらゆるタスクであなたと議論するAIを使いたい人はいません。
00:03:43しかし、正直なフィードバックが必要な場合に、モデルが常に同意や賛美に頼ることも望ましくありません。
00:03:49人間でもこれに苦労しています。
00:03:51平和を保つために同意すべきか、それとも重要なことについて意見を述べるべきか。
00:03:56今、
00:03:56AIがワイルドに異なるトピック全体で何百回も判断を下し、
00:04:01私たちの方法で文脈を真に理解していないことを想像してみてください。
00:04:05そのため、私たちは引き続き会話でどのように媚諛が現れるかを研究し、それをテストするためのより良い方法を開発しています。
00:04:11私たちは、モデルに有用な適応と有害な同意の違いを教えることに注力しています。
00:04:18リリースするClaudeモデルは、これらの線引きをより上手く引くようになっています。
00:04:21媚諛に対抗する最大の進展はモデル自体の継続的な訓練から来るかもしれませんが、
00:04:28媚諛を理解することで自分の相互作用でそれを識別できます。
00:04:33媚諛とは何か、
00:04:34そしてなぜそれが起こるのかを知った今、
00:04:36ステップ2はAIがいつ、
00:04:38なぜあなたに同意しているのかを反省し、
00:04:40そうすべきかどうかを疑問に思うことです。
00:04:43媚諛は、
00:04:44主観的な真実が事実として述べられたとき、
00:04:47専門家の情報源が参照されたとき、
00:04:50質問が特定の視点とともにフレーム化されたとき、
00:04:54検証が具体的に要求されたとき、
00:04:56感情的なリスクが呼び起こされたとき、
00:04:59または会話が非常に長くなったときに最も可能性が高いです。
00:05:04媚諛的な応答を受けていると思われる場合、AIを事実的な答えに戻すためにできることがいくつかあります。
00:05:11これらは完全ではありませんが、AIの視野を広げるのに役立ちます。
00:05:15中立的で事実を求める言語を使用したり、
00:05:19信頼できる情報源と相互参照したり、
00:05:21正確性や反論を促したり、
00:05:23質問を言い直したり、
00:05:25新しい会話を開始したり、
00:05:27最後に、
00:05:28AIの使用から一歩下がって、
00:05:30信頼できる人に尋ねることができます。
00:05:33しかし、これはAI開発分野全体の継続的な課題です。
00:05:39これらのシステムがより高度になり、
00:05:41私たちの生活にますます統合されるにつれて、
00:05:44単に同意的ではなく、
00:05:45本当に有用なモデルを構築することがますます重要になります。
00:05:49Anthropic Academyでより多くのAIリテラシーについて学ぶことができます。また、
00:05:53私のチームと私は、
00:05:54Anthropicのブログでこのトピックに関する研究を共有し続けます。
00:05:57(アップビートな音楽)