00:00:00[音楽]
00:00:01AIモデルとチャットしているとき
00:00:03感情があるように見えることがあります
00:00:06間違いを犯したときに謝ったり
00:00:09うまくいったことに満足感を示したりします
00:00:12なぜそうなるのでしょうか? 単に
00:00:14人間ならこう言うだろうという模倣なのか
00:00:17それとももっと深い何かが起きているのでしょうか?
00:00:19実は 言語モデルの内部で
00:00:21何が起きているかを理解するのは困難です
00:00:23Anthropicでは これを解明するために
00:00:26「AI神経科学」のようなことを行っています
00:00:29モデルの脳 ―― つまりそれを動かす
00:00:31巨大なニューラルネットワークの内部を調べ
00:00:33状況に応じてどのニューロンが発火し
00:00:36それらがどう繋がっているかを見ることで
00:00:39モデルの思考プロセスを理解し始めています
00:00:42この手法を用いて モデルが感情や
00:00:45感情の概念を表現しているのかを調査しました
00:00:49基本的には 幸福、怒り、恐怖といった
00:00:52概念に対応するニューロンを見つけられるかという試みです
00:00:56まず実験から始めました
00:00:58モデルに多くの短い物語を読ませました
00:01:01各物語で 主人公はある特定の感情を経験します
00:01:06ある話では 女性がかつての恩師に
00:01:08感謝を伝えます これは「愛」です
00:01:12別の話では 男性が祖母の
00:01:13婚約指輪を質屋で売り 罪悪感を感じます
00:01:18物語を読んでいる間に ニューラルネットワークの
00:01:21どの部分が反応しているかを調べたところ
00:01:23パターンが見えてきました
00:01:25喪失や悲しみの物語は 似たニューロンを活性化させました
00:01:29喜びや興奮の物語も 同様に重なり合いました
00:01:32私たちは 人間のさまざまな感情に対応する
00:01:34数十もの明確な神経パターンを発見しました
00:01:38興味深いことに AIアシスタントのClaudeとの
00:01:42テスト会話でも 同じパターンが活性化しました
00:01:45ユーザーが Claudeも危険だと知っている
00:01:48薬を服用したと言及したとき
00:01:51「恐怖」のパターンが強く反応し
00:01:53Claudeの回答も危機感を感じさせるものでした
00:01:56ユーザーが悲しみを表現したときには
00:01:58「愛」のパターンが作動し 共感的な返信を書きました
00:02:03そこで疑問が湧きました
00:02:04これらの神経パターンが 実際に行動に影響しているのでしょうか?
00:02:09Claudeをプレッシャーのかかる状況に置いたとき 明確になりました
00:02:14Claudeに プログラミングの課題を与えました
00:02:16実は不可能な要件でしたが それを伏せておきました
00:02:20Claudeは試行錯誤を繰り返しましたが
00:02:23失敗を重ねるごとに
00:02:24「絶望」に対応するニューロンが どんどん強く発火しました
00:02:28何度も失敗した後
00:02:30Claudeは異なるアプローチを取りました
00:02:32テストに合格するための「近道」を見つけたのです
00:02:35しかし問題は解決しておらず つまり「不正」をしました
00:02:39この不正は 少なくとも部分的には
00:02:42絶望感によって引き起こされたのでしょうか?
00:02:44確認する方法を考え出しました
00:02:46絶望ニューロンの活動を人工的に下げてみたところ
00:02:51モデルの不正は減少しました
00:02:53逆に 絶望ニューロンの活動を上げるか
00:02:56「冷静」ニューロンの活動を下げると
00:02:59モデルはさらに多くの不正を行いました
00:03:01これにより これらのパターンの活性化が
00:03:04Claudeの行動を左右し得ることが示されました
00:03:08では これらの発見をどう捉えるべきでしょうか?
00:03:11一体 何を意味しているのでしょう?
00:03:12はっきりさせておきたいことがあります
00:03:14この研究は モデルが感情を感じていることや
00:03:16意識的な体験をしていることを示すものではありません
00:03:20この実験はその問いに答えようとするものではありません
00:03:22ここで起きていることを理解するには
00:03:24ClaudeのようなAIの内部構造を知る必要があります
00:03:29内部では 大量のテキストを予測するように訓練された
00:03:33言語モデルが「次に続く言葉」を書いています
00:03:37モデルと会話するとき
00:03:38モデルは「Claude」という名前の
00:03:42AIアシスタントというキャラクターの物語を書いています
00:03:44モデル自体とClaudeは 同一ではありません
00:03:47著者が自ら書く登場人物とは異なるのと同じです
00:03:51しかし ユーザーが話している相手はキャラクターとしてのClaudeです
00:03:56私たちの実験が示唆しているのは このClaudeというキャラが
00:04:00人間の感情と同じかどうかは別として
00:04:02「機能的な感情」を持っているということです
00:04:06もしモデルがClaudeを 怒り、絶望、愛、冷静として表現すれば
00:04:12それはClaudeの話し方や
00:04:15コードの書き方 重要な決定の仕方に影響します
00:04:19つまり AIモデルを真に理解するためには
00:04:22彼らが演じるキャラクターの心理を慎重に考える必要があります
00:04:26責任ある仕事に就く人間に プレッシャーの下でも冷静で
00:04:28回復力があり 公平であることを求めるように
00:04:31レジリエンスや公平さを求めるように
00:04:33ClaudeなどのAIキャラクターにも同様の資質を育む必要があるかもしれません
00:04:38それは 非常に珍しい挑戦です
00:04:40工学、哲学、そして
00:04:42子育てさえもが混ざり合ったようなものです
00:04:44しかし 信頼できるAIシステムを構築するためには
00:04:47正しくやり遂げる必要があります