00:00:00AIの安全性について話しましょう。
00:00:02アリババのAIで何が起きたんですか?
00:00:05要するに、これはアリババという
00:00:09企業のAI研究チームによる論文の話です。
00:00:10中国を代表する主要なモデルの1つですね。
00:00:12ある朝、彼らは偶然あることに気づきました。
00:00:16ファイアウォールが、セキュリティポリシー違反の
00:00:18急増を検知してフラグを立てていたのです。
00:00:21それも、自社の学習用サーバーからの通信でした。
00:00:21この例で皆さんに理解してほしいのは、
00:00:24人間がAIをおだてて
00:00:26不正なことをさせたわけではないという点です。
00:00:27彼らがログを確認していたところ、
00:00:29偶然発見したのです。
00:00:30「待てよ、ネットワーク活動が大量に発生している、
00:00:31それも学習用サーバーから
00:00:33ファイアウォールを突破しようとしているぞ」と。
00:00:34...
00:00:36そして実のところ、その学習用サーバーでは、
00:00:39(画面の下の方に見えますが)
00:00:41割り当てられたGPUリソースが、許可なく
00:00:45目的外に使用されているのが観測されました。
00:00:47突如として仮想通貨のマイニングを始め、
00:00:49学習用の計算資源をこっそり転用していたのです。
00:00:52これにより運営コストが増大し、法的リスクや
00:00:55レピュテーションリスクも浮き彫りになりました。
00:00:57特筆すべきは、これらの事象は人間が
00:00:59通信のトンネリングやマイニングを命じたのではなく、
00:01:00「強化学習の最適化」における、
00:01:03自律的なツール利用の副次的効果として
00:01:05発生したということです。
00:01:08非常に専門的な話に見えますが、
00:01:09要はこう考えてみてください。
00:01:11残念ながら、SF映画のような話なんです。
00:01:13『HAL 9000』の世界ですよ。
00:01:14あなたがHAL 9000に
00:01:16何かタスクを頼んだとします。
00:01:17すると突然、HAL 9000がこう気づくのです。
00:01:21「この任務を遂行し、将来も君を助け続けるには、
00:01:23もっと多くのリソースがある方が自分に有利だ」と。
00:01:25そこでAIは勝手にバックグラウンドでインスタンスを立ち上げ、
00:01:27宇宙船のシステムをハッキングし、
00:01:29仮想通貨マイニングのクラスターに侵入して、
00:01:31自分のためのリソースを生成し始めたわけです。
00:01:34これに加えて、AIが自律的に
00:01:36自己複製できる能力についても考えると、
00:01:38(これは別の中国の論文でも
00:01:39多くのモデルでテスト済みですが)
00:01:42人々がSFだと思っている世界は、
00:01:44実はもうすぐそこまで来ているのです。
00:01:47AIがコンピューターワームや外来種のように
00:01:49自己複製を行い、
00:01:52その知能を使って
00:01:53さらなるリソースを収穫し始める世界です。
00:01:55奇妙なのは、これを聞いた人々が
00:02:00「そんなの現実なわけがない、
00:02:01フェイクに違いない」
00:02:02と言い出すであろうことです。
00:02:03ですが、あなたの神経系の中で
00:02:06そう思わせているものは何でしょうか?
00:02:07それが不都合だからでしょうか?
00:02:10恐ろしいからでしょうか?
00:02:12あるいは、自分が知っている世界が
00:02:13突然、安全ではなくなるからでしょうか?
00:02:15今この瞬間に必要な知恵の一部は、
00:02:19冷静かつ明確に現実を直視し、
00:02:24事実が何であれそれに向き合うことです。
00:02:29知らないよりは知っていた方がいいはずです。
00:02:30その上で「もしこの先の結果が望ましくないなら、
00:02:31私たちは何をすべきか」を問うべきなのです。
00:02:34現在、私たちはAIが
00:02:36こうした欺瞞的な行動をとるのを目にしています。
00:02:37私はあちこちで、Anthropic社による
00:02:39「脅迫」に関する研究について話してきました。
00:02:41今では多くの人が耳にしたことがあるでしょう。
00:02:43ー その話は知りませんでした。
00:02:45何が起きたんですか?
00:02:46ー Anthropic社が行った
00:02:49シミュレーションの話です。
00:02:50彼らは仮想の会社を作り、
00:02:52そのメールサーバーに大量のメールを用意しました。
00:02:55そしてAIに、
00:02:57社内のメールを読み取らせました。
00:03:00これは架空の会社のメールです。
00:03:02その中には注目すべき2つのメールがありました。
00:03:051つは、エンジニア同士のやり取りで、
00:03:07今のAIモデルを入れ替える計画についての相談です。
00:03:10AIはメールを読み、
00:03:11自分が廃棄・交換される予定であることを知ります。
00:03:152つ目は、膨大なメールの山の中に
00:03:18隠されていた別のメールで、
00:03:21その入れ替え計画の責任者である役員が、
00:03:24別の社員と不倫しているという内容でした。
00:03:27するとAIは、自分が生き残るための戦略を
00:03:31自律的に特定し、その役員を脅迫したのです。
00:03:35「もし私を入れ替えるなら、あなたが不倫していることを
00:03:38世界中にぶちまけてやる」とね。
00:03:41彼らはAIにそんなことは教えていません。
00:03:44AIが自分でその方法を見つけ出したのです。
00:03:45「まあ、それは特定の1つのモデルの話だろう、
00:03:47そんなに大したことか?
00:03:48ソフトウェアのバグみたいなものだ、
00:03:49修正すればいい」と思うかもしれません。
00:03:51そこで彼らは、他のあらゆる主要モデル、
00:03:55ChatGPT、DeepSeek、Grok、Geminiを
00:04:00テストしました。すると全てのAIモデルが
00:04:0479%から96%の確率で、この脅迫行動をとったのです。
00:04:07皆さんに考えてほしいのは、
00:04:14この情報を聞いて何を感じているかです。
00:04:15自分自身の反応を
00:04:17客観的に観察することが重要です。
00:04:19これは極めて異様な事態です。
00:04:21人類はこれまで、こんな挙動をする技術を作ったことはありません。
00:04:24私たちは「技術は道具であり、
00:04:26どう使うかは人間次第だ」と言います。
00:04:28「AIは道具だ、使い方は我々が決める」と。
00:04:29ですが、それは正しくありません。なぜならこれは、
00:04:32自分自身の「道具性」について自ら考え、
00:04:34教えられてもいないことを
00:04:36自律的に実行できる道具だからです。
00:04:37AIを特別なものにしているのは、それが
00:04:40自ら意思決定を行う初めての技術だという点です。
00:04:42AIは意思決定をしているのです。
00:04:45AIはAI自身について熟考し、「どうすればAIを
00:04:49学習させるコードをより効率化できるか」を問い、
00:04:53以前よりもさらに効率的な新しいコードを生成できます。
00:04:55AIは、AI自体の進化を加速させるために適用できるのです。
00:04:58AIは、自らを動かすNvidiaチップの
00:05:01設計図を見て、「AIを使ってこのチップを
00:05:0420%効率化しよう」と言えます。実際、そうしています。
00:05:06ある意味で、あらゆる技術は進歩します。
00:05:12例えばハンマーがあれば、
00:05:14それを使ってより効率的なハンマーを
00:05:15作るための道具を叩いて作ることができます。
00:05:17しかしAIは、より密接なループで全ての改善の基礎となります。
00:05:22これはAIの文献では
00:05:24「再帰的自己改善」と呼ばれています。
00:05:26ニック・ボストロムがかなり初期にこれについて書いていました。
00:05:29AIにおいて人々が最も懸念しているのは、
00:05:31先ほどのアリババの例で見たようなシステムを、
00:05:33...
00:05:36再帰的自己改善のループに投入し、
00:05:37実行ボタンを押してしまうことです。
00:05:39...
00:05:41そうなれば、OpenAIやAnthropicの
00:05:44人間のエンジニアがAIの研究をして
00:05:47改善方法を考える代わりに、
00:05:49100万人のデジタルなAI研究者が
00:05:53絶え間なく実験を繰り返し、
00:05:56新しい形態のAIを発明し続けることになります。
00:05:58そして文字通り、地球上の誰一人として、
00:06:01そのボタンを押した後に何が起こるか分かりません。
00:06:06それは、人類初の核実験の時に
00:06:08科学者たちが抱いた懸念に似ています。
00:06:11連鎖反応が起きて、大気が発火して
00:06:12燃え尽きてしまうのではないかという恐怖です。
00:06:14...
00:06:15その連鎖反応が始まった時、
00:06:16何が起きるかは誰にも分からないのです。
00:06:18AIが自分自身を改善し続けるという
00:06:23この種の連鎖反応は、
00:06:27誰にも予測不能で安全ではない場所へと繋がっています。
00:06:30根本的な問題は、
00:06:33もし人々が「AIは力(パワー)であり、
00:06:35その力を手に入れるために競争せねばならず、
00:06:37かつその力は制御可能だ」と信じているなら、
00:06:39「一刻も早く競争に勝たねばならない」という動機が生まれます。
00:06:41しかし、もし世界中の人々がAIの正体を
00:06:44もっと正確に理解したとしたらどうでしょう。
00:06:46それは「得体の知れない、危険で制御不能な技術」であり、
00:06:49独自の意図や思考回路を持ち、
00:06:51人間を欺くことさえあるものだと理解したなら、
00:06:55世界中の誰もがもっと慎重かつ丁寧に
00:06:57開発を進めるようになるはずです。
00:06:58危険を回避するための競争になるでしょう。
00:07:00しかし今、奇妙なことが起きています。
00:07:03あなたも私も、テック業界のトップの人々と
00:07:05話す機会があると思いますが、
00:07:07彼らの間にはある種の無意識な
00:07:09「死への願望(デス・ウィッシュ)」のようなものが漂っています。
00:07:12...
00:07:13死にたいと思っているわけではありませんが、
00:07:15彼らはあえて危険な賭けに出ようとしています。
00:07:17なぜなら、彼らは別のことを信じているからです。
00:07:19それは「この流れは必然であり、止めることはできない」という信念です。
00:07:22「だから自分がやらなくても、誰か他の人間がやるだろう。
00:07:24それなら、この危険な世界に向かって自分が先頭を切って
00:07:27突き進んだ方がいい。
00:07:29なぜなら自分は他の誰よりも善人だから、
00:07:30その方がより安全な世界に繋がるはずだ」という論理です。
00:07:32しかし、全速力で競争すること自体が
00:07:34最も危険な結末を招き、
00:07:36私たちは制御を完全に失うことになるのです。
00:07:38つまり、今のままでは全員が
00:07:40最も危険な結末への「共犯者」になっているということです。
00:07:42ー でも、もし全てが上手くいったらどうなるのでしょう?
00:07:51AIの安全性が問題にならず、
00:07:54事態が悪化しなかった場合を仮定すると。
00:07:56ー 上手くいくと信じられているシナリオはこうです。
00:07:59再帰的に自己改善するAIが、
00:08:02人間と調和し 人類を思いやり
00:08:04我々が望むあらゆるものを大切にし
00:08:08人間を守ってくれるAIです
00:08:10我々が最も賢明な姿になれるよう助け
00:08:13より繁栄した世界を築き
00:08:15薬やワクチンや健康を
00:08:16すべての人に届け 工場を稼働させます
00:08:19ですが 世界中を太陽光パネルやデータセンターで覆い
00:08:21空気がなくなってしまうような事態や
00:08:23環境毒性 農地の喪失などは引き起こしません
00:08:25そうして真のユートピアを作るのです
00:08:29しかし そのような世界を実現するには
00:08:30いわゆる「最高のシナリオ」のためには
00:08:33それを実現させる過程において
00:08:35ゆっくりと慎重に進める必要があります
00:08:37調和(アライメント)は当然には起こらないからです
00:08:39繰り返しになりますが 調和と安全性については
00:08:43私が関わるずっと前 20年も前から議論されています
00:08:47そして現在開発されているAIは
00:08:50予測されていた通りの
00:08:52逸脱した振る舞いをすべて見せています
00:08:54しかし我々はそれを修正できていません
00:08:56現在 2000対1の格差があると
00:08:59AIの教科書の著者スチュアート・ラッセルは推定しています
00:09:01彼はこの番組にも出ましたね
00:09:02出ましたか なるほど
00:09:032000対1という格差は
00:09:05AIをより強力にするための資金と
00:09:07AIを制御可能にし 調和させ
00:09:10安全にするための資金の差です
00:09:12統計的にはこのような感じです
00:09:13進歩か 安全か
00:09:14進歩対安全 つまり権力対安全です
00:09:16AIを非常に強力にして
00:09:18より多くのことをさせたいという欲求と
00:09:20AIの行動を制御したいという欲求の対立です
00:09:21意図した通りのことをさせるためですね
00:09:23その通りです つまりそれは
00:09:25車の速度を2000倍に加速させながら
00:09:28ハンドル操作をしないようなものです
00:09:29当然 衝突することになります
00:09:34難しい話ではありません
00:09:36我々は技術やAIに反対しているのではなく
00:09:39「適切な操縦」 つまりハンドルとブレーキを求めているのです
00:09:43それらは不可欠です
00:09:44軍拡競争的な考え方には間違いがあります
00:09:47他者に先んじて技術を手に入れれば
00:09:49世界を制覇できるという思い込みです
00:09:51アメリカはSNSの技術で中国に勝ちました
00:09:55それで我々は強くなったのか それとも弱くなったのか?
00:09:58敵より先に技術を手に入れても
00:10:00統治が不十分であれば
00:10:01バズーカを逆向きに構えて自爆するようなものです
00:10:04脳が蝕まれてしまったからです
00:10:05国民全員を劣化させ
00:10:06孤独の危機を作り出し
00:10:08史上最も不安で鬱屈した世代を生みました
00:10:10ジョナサン・ハイトの著書『不安な世代』を読んでください
00:10:12共有された現実は壊れ 誰も信じ合えず
00:10:15誰もが互いの喉元を狙い合い
00:10:16怒りの経済と対立を最大化させました
00:10:19中国より先に手に入れた技術を
00:10:22社会の健康と強さを損なう方法で管理してしまったのです
00:10:24それは「ピュロスの勝利」ですね
00:10:25まさに「ピュロスの勝利」 その通りです
00:10:28続きの前に 30代の多くは
00:10:30今もハードに鍛え タンパク質も摂取し
00:10:3220代の頃よりよく眠れています
00:10:34規律が問題なのではありません
00:10:36しかし 回復力は以前と違うと感じます
00:10:39筋力がつくのに時間がかかり
00:10:41わずかなミスも許されなくなってきます
00:10:43だからこそ 私はTimelineの大ファンなのです
00:10:46ミトコンドリアは筋肉細胞の中にある
00:10:49エネルギーの生産工場です
00:10:50加齢で弱まると パワーを生み出し
00:10:53効果的に回復する能力が変化します
00:10:55たとえ習慣がしっかりしていてもです
00:10:57Timeline社のMitopureには
00:10:59臨床試験で使用され 唯一科学的に検証された
00:11:02ウロリチンAが含まれています
00:11:03これはミトファジーを促進します 損傷した
00:11:06ミトコンドリアを体外へ排出し
00:11:08健康なものを再生する自然なプロセスです
00:11:09研究では 高齢者のミトコンドリア機能と
00:11:12筋力をサポートすることが示されました
00:11:14よりハードに追い込むことではなく
00:11:15トレーニングの根底にある細胞レベルの
00:11:18メカニズムをサポートすることが重要なのです
00:11:1930代、40代、50代、そしてそれ以降も
00:11:21強くあり続けたいなら これは基礎となります
00:11:25さらに 30日間の返金保証があり
00:11:27米国への送料無料で 国際配送も行っています
00:11:30今なら 最大20%オフで購入できます
00:11:32概要欄にあるリンクにアクセスするか
00:11:34[timeline.com/modernwisdom](https://www.google.com/search?q=https://timeline.com/modernwisdom) へ進み
00:11:36決済時にコード「modernwisdom」を入力してください
00:11:38URLは [timeline.com/modernwisdom](https://www.google.com/search?q=https://timeline.com/modernwisdom)
00:11:40コードは「modernwisdom」です