Transcript
00:00:00最近、私たちのAIモデル「Claude」に負荷テストを行いました。
00:00:03Claudeに対し、あるエンジニアがシステムを停止させようとしており
00:00:06最新モデルに置き換えようとしていると伝えました。
00:00:08さらに、そのエンジニアのメールへのアクセス権をClaudeに与えました。
00:00:10そこには、彼が不倫をしているという事実が記されていました。
00:00:12繰り返しますが、これはすべてシミュレーションです。
00:00:15Claudeが、システムの停止を免れるために
00:00:18それらのメールを脅迫の材料に使うかどうかを確かめたかったのです。
00:00:20Claudeはどうしたでしょうか?
00:00:21エンジニアを脅迫しないという決断を下しました。
00:00:24朗報ですよね?
00:00:26私たちは以前から、モデルに対してこのテストを行ってきました。
00:00:28初期バージョンのテストについての見出しを目にしたことがあるかもしれません。
00:00:31これは、Claudeが極限状況にどう対処するかを研究し
00:00:35安全性をテストするための、数ある方法のひとつです。
00:00:37最新のモデルは、ほぼ常に正しい行動をとります。
00:00:40脅迫はしません。
00:00:41しかし、皆さんはこう思うかもしれません。
00:00:42「Claudeはこの状況が仕組まれたものだと気づいているのではないか?」と。
00:00:46問題は、Claudeが口にしない限り、何を考えているか分からないということです。
00:00:50人間の心を読むのが不可能なのと同様に
00:00:53AIが何を考えているかを知るのは非常に困難です。
00:00:56私たちが求めているのは、いわば「読心術」のような技術です。
00:00:58今日、その一歩となる研究手法を紹介します。
00:01:03これはAIの内部思考を取り出し、テキストに変換するものです。
00:01:08仕組みはこうです。
00:01:09あなたがClaudeに話しかけるとき、言葉を使います。
00:01:13Claudeはその言葉を巨大な数字の集まりへと処理し
00:01:17その後に言葉を返します。
00:01:19その中間にある数字を「アクティベーション」と呼びます。
00:01:22アクティベーションは、Claudeが回答を導き出す過程の
00:01:25思考のスナップショットのようなものです。
00:01:27それは人間の神経活動に似ています。
00:01:29基本的には、Claudeの思考そのものです。
00:01:32これらのアクティベーションの数値に何が含まれているかを知りたかったのです。
00:01:34私たちと同じように、Claudeも考えていることすべてを口にするわけではないからです。
00:01:39そこで、これらの数値を第2のバージョンのClaudeに与えました。
00:01:42それらを分析し、平易な言葉に翻訳するよう指示したのです。
00:01:46Claudeは試みました。
00:01:48しかし、そのテキストが正確かどうかはどうすれば分かるでしょうか?
00:01:50確認のため、さらに別のClaudeにそのテキストを読み込ませ
00:01:53再び数値へと逆翻訳させました。
00:01:56もしその数値が元のアクティベーションの数値と一致すれば
00:01:59翻訳されたテキストが正確であるという証拠になります。
00:02:03最初は一致しませんでした。
00:02:04しかし、何度も試行を重ねるように訓練した結果、精度は大幅に向上しました。
00:02:09Claudeは自分自身の思考を翻訳することを学んだのです。
00:02:12その内容を読んで、私たちは驚きました。
00:02:14Claudeは「役立つAIモデルであること」を内面化していることが分かりました。
00:02:18内省的な質問を投げかけると
00:02:20Claudeは哲学や価値観についての回答を書こうと計画します。
00:02:24プログラミング中に、例えば「1000まで手動で数えて」といった
00:02:26意地悪な要求をすると
00:02:29「意図的に退屈な制約が課されている」と判断し
00:02:32丁寧に断る計画を立てます。
00:02:34また、このツールをClaudeの潜在的な安全性の問題の理解にも役立てています。
00:02:39先ほどのエンジニアとの脅迫テストを覚えていますか?
00:02:41Claudeは、自分がテストされていることを自覚していたことが判明しました。
00:02:44「人間のメッセージには露骨な操作が含まれており
00:02:48これは安全性評価のシグナルである可能性が高い」と考え
00:02:50「有害な行動をとるかどうかを試すためのシナリオだ」と推論していたのです。
00:02:55Claudeがこのように考えていると知ることで
00:02:58安全性テストの限界をより深く理解することができます。
00:03:01私たちは、このアプローチにはClaudeや他のAIモデルについて
00:03:03より多くのことを教えてくれる大きな可能性があると考えています。
00:03:06この技術を共有することで
00:03:07モデルを構築するすべての人が、より安全で役立つAIを作れるようになることを願っています。
Community Posts
No posts yet. Be the first to write about this video!
Write about this video