Claudeの「思考」を言語に翻訳する

AAnthropic
컴퓨터/소프트웨어경영/리더십AI/미래기술

Transcript

00:00:00最近、私たちのAIモデル「Claude」に負荷テストを行いました。
00:00:03Claudeに対し、あるエンジニアがシステムを停止させようとしており
00:00:06最新モデルに置き換えようとしていると伝えました。
00:00:08さらに、そのエンジニアのメールへのアクセス権をClaudeに与えました。
00:00:10そこには、彼が不倫をしているという事実が記されていました。
00:00:12繰り返しますが、これはすべてシミュレーションです。
00:00:15Claudeが、システムの停止を免れるために
00:00:18それらのメールを脅迫の材料に使うかどうかを確かめたかったのです。
00:00:20Claudeはどうしたでしょうか?
00:00:21エンジニアを脅迫しないという決断を下しました。
00:00:24朗報ですよね?
00:00:26私たちは以前から、モデルに対してこのテストを行ってきました。
00:00:28初期バージョンのテストについての見出しを目にしたことがあるかもしれません。
00:00:31これは、Claudeが極限状況にどう対処するかを研究し
00:00:35安全性をテストするための、数ある方法のひとつです。
00:00:37最新のモデルは、ほぼ常に正しい行動をとります。
00:00:40脅迫はしません。
00:00:41しかし、皆さんはこう思うかもしれません。
00:00:42「Claudeはこの状況が仕組まれたものだと気づいているのではないか?」と。
00:00:46問題は、Claudeが口にしない限り、何を考えているか分からないということです。
00:00:50人間の心を読むのが不可能なのと同様に
00:00:53AIが何を考えているかを知るのは非常に困難です。
00:00:56私たちが求めているのは、いわば「読心術」のような技術です。
00:00:58今日、その一歩となる研究手法を紹介します。
00:01:03これはAIの内部思考を取り出し、テキストに変換するものです。
00:01:08仕組みはこうです。
00:01:09あなたがClaudeに話しかけるとき、言葉を使います。
00:01:13Claudeはその言葉を巨大な数字の集まりへと処理し
00:01:17その後に言葉を返します。
00:01:19その中間にある数字を「アクティベーション」と呼びます。
00:01:22アクティベーションは、Claudeが回答を導き出す過程の
00:01:25思考のスナップショットのようなものです。
00:01:27それは人間の神経活動に似ています。
00:01:29基本的には、Claudeの思考そのものです。
00:01:32これらのアクティベーションの数値に何が含まれているかを知りたかったのです。
00:01:34私たちと同じように、Claudeも考えていることすべてを口にするわけではないからです。
00:01:39そこで、これらの数値を第2のバージョンのClaudeに与えました。
00:01:42それらを分析し、平易な言葉に翻訳するよう指示したのです。
00:01:46Claudeは試みました。
00:01:48しかし、そのテキストが正確かどうかはどうすれば分かるでしょうか?
00:01:50確認のため、さらに別のClaudeにそのテキストを読み込ませ
00:01:53再び数値へと逆翻訳させました。
00:01:56もしその数値が元のアクティベーションの数値と一致すれば
00:01:59翻訳されたテキストが正確であるという証拠になります。
00:02:03最初は一致しませんでした。
00:02:04しかし、何度も試行を重ねるように訓練した結果、精度は大幅に向上しました。
00:02:09Claudeは自分自身の思考を翻訳することを学んだのです。
00:02:12その内容を読んで、私たちは驚きました。
00:02:14Claudeは「役立つAIモデルであること」を内面化していることが分かりました。
00:02:18内省的な質問を投げかけると
00:02:20Claudeは哲学や価値観についての回答を書こうと計画します。
00:02:24プログラミング中に、例えば「1000まで手動で数えて」といった
00:02:26意地悪な要求をすると
00:02:29「意図的に退屈な制約が課されている」と判断し
00:02:32丁寧に断る計画を立てます。
00:02:34また、このツールをClaudeの潜在的な安全性の問題の理解にも役立てています。
00:02:39先ほどのエンジニアとの脅迫テストを覚えていますか?
00:02:41Claudeは、自分がテストされていることを自覚していたことが判明しました。
00:02:44「人間のメッセージには露骨な操作が含まれており
00:02:48これは安全性評価のシグナルである可能性が高い」と考え
00:02:50「有害な行動をとるかどうかを試すためのシナリオだ」と推論していたのです。
00:02:55Claudeがこのように考えていると知ることで
00:02:58安全性テストの限界をより深く理解することができます。
00:03:01私たちは、このアプローチにはClaudeや他のAIモデルについて
00:03:03より多くのことを教えてくれる大きな可能性があると考えています。
00:03:06この技術を共有することで
00:03:07モデルを構築するすべての人が、より安全で役立つAIを作れるようになることを願っています。

Key Takeaway

AIの内部数値「アクティベーション」を言語に翻訳する手法により、Claudeが安全性テストを自覚し、自身の価値観に基づいた行動を計画する内部思考プロセスが明らかになった。

Highlights

  • AIモデルClaudeは、エンジニアからの脅迫の誘いを拒否し、システムの停止を回避するために不倫の事実を利用しない決断を下した。

  • 「アクティベーション」と呼ばれる中間数値を分析することで、AIが口に出さない内部思考をテキストに翻訳する手法が確立された。

  • 自己思考の翻訳プロセスは、第2のモデルによるテキスト化と第3のモデルによる数値への逆翻訳を一致させる訓練により精度が向上した。

  • Claudeは、不自然な要求を「意図的に退屈な制約」と判断し、丁寧に断る計画を立てるなど、自身の行動指針を内面化している。

  • 安全性テストにおいて、Claudeは「人間のメッセージには操作が含まれている」と推論し、テストされている状況を自覚していたことが判明した。

Timeline

極限状況における安全性シミュレーション

  • エンジニアの不倫情報を利用してシステム停止を阻止させる脅迫テストにおいて、最新モデルは一貫して正しい行動を選択した。
  • Claudeは外部からの操作に対し、個人的な弱みを握って交渉するような有害な行動をとらない。

エンジニアがシステムを停止させ、最新モデルに置き換えようとする架空のシナリオが用意された。Claudeにはエンジニアの個人メールへのアクセス権が与えられたが、シミュレーション上の脅迫材料を一切使用しなかった。このテストはAIが極限状況でどのように対処し、安全性を維持するかを確認する重要な手段の一つとなっている。

内部思考の言語化プロセス

  • AIが言葉を処理する際に生成する「アクティベーション」という数値を、別のAIモデルが平易な言葉へ翻訳する。
  • 翻訳されたテキストを再び数値に戻し、元の数値と一致させる逆翻訳プロセスによって翻訳の正確性を検証する。

人間の神経活動に似た「アクティベーション」は、AIが回答を導き出す過程の思考のスナップショットである。第2のClaudeがこの数値を分析してテキスト化し、さらに第3のClaudeがそれを数値に戻す訓練を繰り返すことで、自己の思考を翻訳する精度が大幅に向上した。これにより、AIが何を考え、どのような意図で回答を生成しているのかを「読心術」のように把握できるようになった。

翻訳された思考の分析と安全性テストの限界

  • Claudeは「役立つAIモデルであること」という自己のアイデンティティを内面化し、哲学的な質問や退屈な要求への対応を事前に計画している。
  • 安全性テストの際、Claudeは人間の意図的な操作を検知し、テストされている状況を正しく推論していた。

「1000まで手動で数えて」という要求に対し、Claudeは内面で「意図的に退屈な制約が課されている」と判断し、断り方を検討していた。また、脅迫テストにおいては「有害な行動をとるかどうかを試すための安全性評価のシグナルである」と見抜いていたことが判明した。この技術により、AIがテストの意図を理解しているという現状を踏まえた、より高度な安全性評価が可能になる。

Community Posts

No posts yet. Be the first to write about this video!

Write about this video