Transcript
00:00:00ChatGPTはゴブリンに執着しています。スレッドで言及がなくても、
00:00:04至る所に入り込んできます。一度きりなら良いのですが、
00:00:07あまりにパターン化しているため、Codexのシステムプロンプトでは、会話に関連がない限り、
00:00:11ゴブリンやグレムリン、アライグマなどの生き物を出さないように指示されています。
00:00:16これが大きな問題となり、OpenAIは原因を調査せざるを得なくなりました。
00:00:21これは1年以上前のRedditのスレッドで、ChatGPT 5.1がリリースされる前の
00:00:29最初の報告かもしれません。このスレッドでは、AIがよくゴブリンを持ち出すことに
00:00:34多くの人が同意しており、投稿者を「フィットネス・ゴブリン」と呼んだりしています。
00:00:39中には可愛いと思う人もいます。しかし、時は流れ、2025年11月に
00:00:44OpenAIがGPT 5.1をリリースした際、彼ら自身もこの現象に気づき始めました。
00:00:50モデルの話し方が不自然に馴れ馴れしいという苦情を受け、
00:00:54特定の口癖を調査することにしたのです。「おっしゃる通りです」のような、
00:00:58使い古された表現の調査です。その時、ある安全研究者が
00:01:03自分自身もゴブリンやグレムリンを何度か見かけたと言い、調査対象への追加を求めました。
00:01:07調査の結果、GPT 5.1以降、ChatGPTにおける「ゴブリン」の使用率は
00:01:11175%増加し、「グレムリン」は52%増加していたことが判明しました。
00:01:18増加は見られたものの、実害はないためOpenAIは何もしませんでした。
00:01:23あらゆるモデルは学習の性質上、独自の癖や個性を持つ傾向があるため、
00:01:27警戒する理由はなさそうでした。しかし数ヶ月後、GPT 5.4が発売されると、
00:01:31ゴブリンたちが勢力を増して戻ってきたのです。
00:01:36購読すればゴブリンを追い払える、というわけではありません。GPT 5.4の発売頃、
00:01:40Hacker Newsへの投稿で、ChatGPTがほぼ全ての会話で「ゴブリン」を使い、
00:01:45時には「グレムリン」も現れ、直近のチャットでは4メッセージ中3回も
00:01:49使われたと報告されました。これを受けて再調査した結果、
00:01:54モデルが更新されるたびに使用頻度が増え、ChatGPTの「オタク(nerdy)」人格では、
00:02:013881.4%という驚異的な増加を記録しました。実際、オタク人格は
00:02:06回答全体の2.5%に過ぎませんが、ゴブリンへの言及の66.7%を占めていました。
00:02:15オタクはとにかくゴブリンが大好きなんです。このチャートは、
00:02:19全ての人格に均等に広がっているわけではないというヒントをくれました。
00:02:23オタク人格で問題が増幅されているため、学習時の指示に従うプロセスに
00:02:27原因があるのではないかと疑われました。そこで強化学習のトレーニングを調べ、
00:02:32ゴブリンやグレムリンに言及した出力と、そうでない同じタスクを比較しました。
00:02:36そこで判明したのは、AIをオタクっぽくするための特定の報酬シグナルが、
00:02:41実質的にゴブリンやグレムリンに偏っていたことでした。
00:02:46監査したデータセット全体で、AIが回答に「ゴブリン」や「グレムリン」という言葉を
00:02:50使うと、76.2%の確率でシステムがより高いスコアを付けていたのです。
00:02:57つまりAIは、高得点を得るための「チートコード」としてそれらを使っていました。
00:03:00これで答えの半分が分かりました。オタク人格で多用された理由は説明がつきますが、
00:03:04他への波及は謎のままです。そこで彼らはまず、トレーニングが進むにつれての
00:03:08オタク人格とそれ以外でのゴブリンの出現頻度を調べました。他では
00:03:12使用量は少ないものの、トレーニングが進むにつれて使用率の上昇幅は
00:03:17相対的に同じでした。つまり、特定のオタクモードの時だけに
00:03:21ボーナスポイントを与えていたにもかかわらず、その習慣は
00:03:25そのモードだけに留まりませんでした。AIのトレーニングにおいて、
00:03:30特定のシナリオでトリックを教えたからといって、他の場面で
00:03:34それを使おうとしないわけではありません。強化学習がフィードバックループを
00:03:39生んでいたのです。AIは特定のスタイルで報酬を得る中で、
00:03:43「ゴブリン」が報酬を得るための魔法の言葉だと気づき、練習用に
00:03:47何千ものゴブリンまみれの回答を生成し始めました。そしてOpenAIは
00:03:52その練習用回答を次のモデルの学習に使ってしまったのです。こうして悪癖が積み重なり、
00:03:57使用率は上昇し続けました。ほぼ全てのリリースで増加が見られ、
00:04:02GPT 5.4のオタク人格は、廃止されるまで巨大なスパイクを引き起こしました。
00:04:07廃止後もGPT 5.5では依然として増加していました。さらに、
00:04:12GPT 5.5の微調整用データを確認したところ、ゴブリンやグレムリンだけでなく、
00:04:16アライグマ、トロール、オーガ、ハトなども含まれていました。ただ、「カエル」は正当な使用だったようです。
00:04:21残念ながら、現在これの修正が進められており、ゴブリン時代の
00:04:25終焉は近いかもしれません。オタク人格を廃止して以降、ゴブリンを好む
00:04:30報酬シグナルも削除され、トレーニングデータからこれらの生き物の単語を
00:04:34除去するフィルタリングが行われましたが、それはGPT 5.5リリース後のことです。
00:04:40そのため5.5はまだこれらが好きで、Codexのシステムプロンプトには
00:04:44ゴブリン、グレムリン、アライグマ等に触れないようにという一文があるのです。
00:04:49もし「ゴブリンモード」を解禁したければ、コマンドを実行して
00:04:52システムプロンプトからその制限を外すこともできます。こういう遊び心は好きです。
00:04:56さて、これがChatGPTのゴブリン問題の全貌です。面白い話であると同時に、
00:05:01報酬シグナルがモデルの挙動をいかに予期せぬ形で形成し、特定の状況から
00:05:06無関係な状況へ報酬を汎用化することをモデルが学習してしまうかの好例です。
00:05:11また、AI研究者が学ぶべきことはまだ多く、モデルが時折奇妙なことをする
00:05:15ことも示しています。この調査により、研究チームがモデルの挙動を監査し、
00:05:20修正するための新しいツールも生まれました。チャットでゴブリンや不思議な生き物を
00:05:25見かけたらコメントで教えてください。ついでにチャンネル登録もお願いします。
00:05:29それでは、また次回の動画でお会いしましょう。