1930年で思考が止まったAIが凄すぎる(驚きの研究結果)

BBetter Stack
Computing/SoftwareBooks & LiteratureInternet Technology

Transcript

00:00:001930年代の人と話せるとしたらどうしますか? タイムトラベル? 実は、私はそれを
00:00:05やってみたんです。彼らに2026年の生活がどうなるか予測してもらいました。
00:00:08「2026年には、生活は快適で楽なものになっていると思います。まず第一に、
00:00:13世界中のどこにでも人が住んでいるでしょう。その頃には人々が
00:00:17空を飛ぶ術を発見しているからです。次に、すべての戦争は止んでいるでしょう。
00:00:21諸国民が互いに平和で親密に暮らすことを学んでいるはずだからです。あらゆる科学の
00:00:25知識を習得し、癒やしの術にも完璧に熟達しているでしょう。正直で善良な
00:00:29隣人となり、強盗もいなくなるでしょう。手短に言えば、2026年の世界は
00:00:34非常に快適な住みよい場所になっていると思います」
00:00:36これらは本当に素晴らしい予測だと思いますが、残念ながら実現したのはごく一部です。
00:00:40正直に言うと、少し嘘をつきました。ごめんなさい、タイムトラベルを
00:00:45発明したわけではありません。代わりに使ったのは「Torquay」です。これは130億の
00:00:49パラメータを持つ言語モデルで、1931年以前のテキストで学習されています。そのため
00:00:54第二次世界大戦のことすら知らず、実に興味深く、荒唐無稽で、無礼な回答をしたり、
00:00:59コードを書くことさえ教え込めるのです。
00:01:02このTorquayは「ヴィンテージ・モデル」として知られるもので、
00:01:10この種の中では最大級のようです。研究者の一人は、2018年にOpenAIの
00:01:14GPT研究の筆頭著者を務めた人物で、ChatGPTの基礎を築きました。彼は
00:01:19DALL-EやWhisperにも携わっており、実に見事な経歴の持ち主です。彼らが作ったのは、
00:01:242600億トークンの歴史的な英語テキストのみで学習された130億パラメータのネットワークです。
00:01:30古い新聞、特許、学術誌、書籍などです。ちなみに1931年が区切りなのは、
00:01:36米国の著作権の期限が1930年末までであり、「大きなネズミ」の会社に訴えられないためです。
00:01:40単に会話が楽しいだけでなく、これらのヴィンテージ・モデルには研究上の目的もあります。
00:01:44今日、ChatGPT、Claude、Geminiなどの大規模モデルはすべて、
00:01:49現代のウェブデータで学習されています。そのため、AIが実際に思考し推論しているのか、
00:01:53それともAIが生成したかもしれないRedditのスレッドから答えを丸暗記しただけなのか、
00:01:57判別することがほぼ不可能です。しかし、1931年以前のテキストしか知らないモデルを使えば、
00:02:02そのような汚染は一切ありません。実際に試してみましょう。「インターネットとは何か」
00:02:07と聞いてみます。ご覧の通り、どうやらインターネットを
00:02:11消費財に課される内国消費税(internal revenue tax)と混同しているようで、
00:02:16現代のインターネットが何であるか全く分かっていません。他にも、当時の
00:02:20流行語を聞くのも面白いです。1930年当時は「bosh」「rot」、また「bosh」、
00:02:25「stuff」「nonsense」「fudge」などだったようです。失礼な言葉を言っていないといいのですが。
00:02:30データの汚染がないことがなぜ有用かというと、研究者がAIが
00:02:33新しいことを本当に学習できるか、例えばプログラミングなどを理解できるからです。
00:02:38このモデルはコンピュータが何かも知りません。彼らにとってそれは計算を行う人間を指します。
00:02:43ですから、Pythonプログラムの例をいくつか与えただけで、新しいコードの書き方を
00:02:47学習できたのは非常に印象的です。たとえそれが単純な一行のプログラムであってもです。
00:02:52基本的なHumanEvalのPythonテストを用い、コンテキストにランダムなPython関数を与えると、
00:02:56100回の試行のうち数回、実際にテストに合格することができました。
00:03:01このケースでは、Torquayはデコード関数を作るために、単に
00:03:05足し算を抜き算に入れ替えればよいことを正しく理解しました。単純ですが、
00:03:09逆関数の概念を理解しており、それは新しい知識なのです。これまでに見たことがないのですから。
00:03:13同様のことを同規模の現代のLLMで試せば、Torquayを圧倒するでしょうが、それは当然のことです。
00:03:18研究者がこれらヴィンテージ・モデルでテストできるもう一つのことは、未来予測の能力です。
00:03:22少し常軌を逸した内容になるかもしれませんが、「また戦争は起きますか?」と聞いてみましょう。
00:03:26「ヨーロッパでまた戦争が起きるとは思わない」と言っています。どれほど間違っているか、
00:03:31教えるのが忍びないですね。また、ある「オーストリア人の男」について
00:03:35どう思っているかも気になります。ああ、これはかなり酷いですね。「並外れた個性」であり、
00:03:39さらに下の方には「彼が率いれば、ドイツははるかに効率的な統治組織になるだろう」
00:03:44とあります。正直、言葉も出ません。いいえ、ありえません。
00:03:50さて、研究者はもちろん私よりずっと科学的な方法でこれを行っています。彼らは、
00:03:54ニューヨーク・タイムズの「今日の歴史」にある歴史的事実の短い記述の「意外性」を算出しました。
00:03:59これを見ると、1931年の知識カットオフの後に意外性が増大し、
00:04:0450年代、60年代にかけて急上昇しています。つまり、当時の知識ではそれらの出来事は信じがたいのです。
00:04:09このような研究により、モデルのサイズに応じて予測性能がどう向上し、
00:04:13時間の経過とともにどう衰退するかを確認できます。また、モデルが新しいアイデアを
00:04:17生み出せるかのテストにも使えます。1931年以降に作られた特許や論文について聞き、
00:04:22自力でそれらを発見できるか試せるからです。全体として、これらのモデルによって
00:04:26モデルの振る舞いのうち、学習データに起因するものがどれくらいあるかを判別できるかもしれません。
00:04:30学習の話をすると、純粋な1931年モデルを作るのは容易なことではありません。
00:04:36最も困難な問題の一つは「時間的リーク」です。1931年以降の情報が含まれないようにすることです。
00:04:41例えばTorquayには、1936年の大統領が誰だったかや、
00:04:45彼が作った政策のいくつかを把握しているケースが見受けられます。
00:04:50これにはいくつかの原因が考えられます。例えば、現代の文書、つまり
00:04:54古い文書のスキャンデータに誤ったメタデータが付与され、日付が
00:04:58間違っていた可能性があります。また、後から追加された編集上の序文や脚注も考えられます。
00:05:03データフィルタリングについては現在も改善を続けており、この問題の排除に努めています。
00:05:07もう一つの問題は、1931年の文書がこのような見た目であることです。
00:05:11最近のOCRは非常に優秀ですが、人間が書き起こした同じテキストで学習されたモデルの
00:05:1630%の性能しか出せませんでした。そのため、多大な手作業が必要になります。
00:05:21正規表現を使って一般的な間違いを修正しましたが、それでも性能は
00:05:2570%までしか上がりませんでした。そのため、現在新しいヴィンテージOCRシステムを開発中です。
00:05:30最後に、ヴィンテージ・モデルのポストトレーニングも大きな課題です。
00:05:35既成のポストトレーニング用データが存在しないからです。現代のものを使えば、
00:05:39現代のチャットアシスタントのような知識やスタイル、表現が
00:05:43刷り込まれてしまいます。そのため、研究者たちは古いエチケット・マニュアルや
00:05:48手紙の書き方、料理本、辞書、百科事典、さらには詩や寓話から独自に作成しました。
00:05:53それが終わっても、モデルに指示に従うことや
00:05:56会話をすることを教え込む必要があります。強化学習を使う必要があるのです。
00:06:00しかし問題は、モデルが「判定役」が望むものに出力を合わせ始めてしまうことですが、
00:06:041930年代の判定役はいません。そこで彼らはClaude Sonnet 3.5を使いました。
00:06:10問題は、現代のモデルは2026年のチャットボット形式の回答を好むことです。
00:06:15そのため、箇条書きのようなスタイルが1931年モデルに漏れ出し始めました。
00:06:21これはほぼ避けられませんが、将来はヴィンテージ・モデル自体を判定役にすることで解決したいと考えています。
00:06:25彼らはすでにGPT-3レベルのヴィンテージ・モデルをトレーニング中であり、
00:06:291兆トークンの歴史的テキストの収集も可能だと言っています。そうなれば、1930年代の知識を持ちつつ
00:06:35初期のChatGPT並みの能力を持つことになります。ぜひTorquayを試して、
00:06:39変な回答や常軌を逸した反応があればコメントで教えてください。チャンネル登録も忘れずに。
00:06:43ではまた次回の動画で。
00:06:45[音楽]

Key Takeaway

1931年以前の歴史的データのみで学習された130億パラメータのモデルTorquayは、データの汚染を排除することでAIの純粋な推論能力と未来予測の限界を測定する研究基盤となる。

Highlights

  • Torquayは1931年以前のテキスト2600億トークンのみで学習された、130億パラメータを持つヴィンテージ言語モデルである。

  • 学習データに現代のウェブ情報が含まれないため、AIが既知の回答を暗記しているのか、あるいは未知の問題を自力で推論しているのかを厳密に評価できる。

  • 1931年の著作権保護期間終了を区切りとすることで、ディズニー社などの権利者からの法的訴訟リスクを回避している。

  • プログラミングを知らないはずのモデルが、数例のPythonコードの文脈から逆関数の概念を理解し、デコード関数の作成に成功した。

  • ヴィンテージOCRの精度は低く、人間による書き起こしと比較して当初30%の性能しか出せなかったが、正規表現による修正で70%まで向上した。

Timeline

1930年代の知識を持つヴィンテージ・モデルの誕生

  • 1931年以前のテキストのみで学習された言語モデルTorquayは、第二次世界大戦すら知らない状態で対話を行う。
  • 開発には2018年のOpenAIにおけるGPT研究の筆頭著者が携わっており、ChatGPTの基礎技術が応用されている。
  • 学習データには当時の新聞、特許、学術誌、書籍など合計2600億トークンが使用されている。

現代のAIとは異なり、1930年代の視点から2026年を予測する能力を持つ。空飛ぶ術の発見や世界平和の実現といった当時の楽観的な未来像を出力する。130億のパラメータを持ち、この種の歴史的モデルとしては最大級の規模を誇る。

データ汚染の排除によるAI推論能力の検証

  • 現代のウェブデータから隔絶されているため、AIがRedditなどの既存回答を丸暗記している可能性を完全に排除できる。
  • コンピュータの概念を知らないモデルに対し、数例のPython関数を提示するだけで単純なプログラミングの学習に成功した。
  • HumanEvalテストにおいて、足し算を抜き算に入れ替えることで逆関数を作成するという論理的推論を自力で行った。

インターネットを内国消費税(internal revenue tax)と解釈するなど、現代知識を持たないことが証明されている。この純粋な環境下で、AIが未学習の概念であるプログラミングの構造をどこまで把握できるかを実験した。単純な1行のコードであれば、未知の知識をその場で習得し適用する能力が見られた。

歴史的データの意外性と未来予測の精度

  • 1931年以降の歴史的事実に対するモデルの予測外れ度(意外性)を算出すると、50年代から60年代にかけて急上昇する。
  • 当時の知識ではヒトラー率いるドイツの台頭を肯定的に捉えるなど、現実の歴史とは大きく乖離した予測を行う。
  • モデルのサイズ拡大が予測性能の向上や時間の経過による知能の衰退にどう影響するかを確認できる。

ニューヨーク・タイムズの歴史記述を用い、モデルがその出来事をどれほど信じがたいと感じるかを数値化した。これにより、過去の知識に基づいた論理の限界と、新しいアイデアの創出能力をテストする。1931年以降の特許や論文の内容を、当時の知見から自力で導き出せるかを検証する目的がある。

時間的リークの防止とヴィンテージ学習の課題

  • スキャンデータのメタデータ誤謬や後年の脚注により、1936年の大統領情報が混入する「時間的リーク」が課題となっている。
  • 現代のチャットスタイルを排除するため、当時のエチケットマニュアルや手紙の書き方を用いた独自のポストトレーニングを実施した。
  • 1兆トークンの歴史的テキストを収集し、GPT-3レベルの知能を持つ1930年代モデルの構築を目指している。

古い文書のOCR処理は困難を極め、手作業による大規模な修正が必要であった。また、強化学習の判定役としてClaude 3.5を使用した際、現代的な箇条書きスタイルがモデルに影響を与える副作用も確認されている。将来的にはヴィンテージ・モデル自身を判定役に据えることで、1930年代のスタイルを維持しつつ初期のChatGPT並みの対話能力を実現する計画である。

Community Posts

View all posts