【ウォール街のおじさん】クオンツ投資の嘘と実態 - 第1部：中途半端に手を出すと毒になります

日本語العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 한국어 Português 中文

월월가아재의 과학적 투자

StocksAdvertising/MarketingBeginning InvestingInternet Technology

Transcript

00:00:00ですが、過去10年、20年、30年と

00:00:03そのような期間を振り返ってみた時

00:00:04その期間に収益性が高かったパターンの数は、一体いくつあるでしょうか？

00:00:09答えは無限です。実際に証明も可能です。

00:00:12はい、こんにちは。ウォール街の財です。

00:00:21今日はクオンツ投資について取り上げます。

00:00:24以前から私のYouTubeのコメントや質問、メールで

00:00:26クオンツ売買について教えてほしいという方がいらっしゃいました。

00:00:29今後の目標や方向性、チャンネルのカリキュラム上

00:00:33アルゴリズム・トレーディングやクオンツ売買については

00:00:36それほど近いうちに扱うつもりはありませんでした。

00:00:38しかし、当チャンネルの視聴者の中でも

00:00:40約15%の登録者の方がクオンツ売買をされているとのことですし

00:00:44また最近、クオンツ投資について少し懸念される部分があったので

00:00:48このように動画を制作することにしました。

00:00:50本日扱う目次は、まずクオンツの分類や原則

00:00:53そういった部分について概括的に見た後に

00:00:56クオンツ売買で注意すべき点10個を扱います。

00:00:59この10個を心に留めておくだけでも、クオンツ売買を通じて

00:01:04大きな時間を無駄にしたり

00:01:06あるいはバックテストやその手法の面で

00:01:09誤った方法で行ってしまうせいで

00:01:11甚大な損失が出るケースは予防できると思います。

00:01:15これらは基本中の基本であるにもかかわらず

00:01:18最近、巷で非常に高値で売られている有料講義でも

00:01:21こうした部分が詳しく扱われていないようです。

00:01:24むしろそうした講義は、バックテストやクオンツ投資を

00:01:27少し美化しすぎている部分があるように感じますが

00:01:31今日この10個さえ意識していれば、クオンツ投資やクオンツ売買に関して

00:01:35どんな情報を聞こうが、どんなサービスを利用しようが

00:01:39ある程度は自分を守ることができ、安全だと思います。

00:01:43始める前に、実は数日前に少し激昂した口調で

00:01:47短い投稿を一つしたのですが

00:01:49少しミスをしてしまったようです。

00:01:51最近のクオンツ投資に対するバイラルマーケティングや誇大広告が

00:01:54度を越しているのではないか。

00:01:55そう書いたのですが、そこにコメントで特定の人や

00:01:59特定の業者に対する悪質な書き込みがいくつか付いてしまいました。

00:02:02ですので、その方々や業者への失礼になるかと思い削除したのですが

00:02:06正直、そうしたものが不法な投資顧問や

00:02:09貸口座業者のような不法で悪いことではないので

00:02:12私の余計なお世話だったのかもしれません。

00:02:16ですが一方で、貸口座などの問題は

00:02:19それを利用する側も違法だと知りながら

00:02:22正直に言えば欲に負けて手を出した責任もあるんです。

00:02:25しかし、最近のクオンツ投資に関する議論を眺めていると

00:02:28これは単に一般の人たちが、一生懸命に正当な努力をしようと

00:02:33資産運用にもっと力を入れてみようと思って

00:02:35クオンツ投資という分野に入門された方々に

00:02:37被害が及ぶ可能性があると感じたのです。

00:02:40なぜなら、クオンツ投資というと、一般的に「科学」と「統計」というキーワードが混ざり

00:02:46実際には非科学的な部分が含まれていても、誤解を招きやすいからです。

00:02:51不法な投資顧問や貸口座は、誰が見ても違法なので

00:02:55避けようと思えば避けられますが

00:02:56これについては、一生懸命取り組もうとしている善良な被害者が生まれかねないと思いました。

00:03:01「誰でも数日あればすぐにクオンツ投資の達人になれる」とか

00:03:04あるいは「これは数十年間のデータで検証された戦略だ」とか

00:03:08「過去10年間で年利20%の複利収益を出したから

00:03:11今後もそうなるだろう」というニュアンスで話をしたりだとか。

00:03:14そうした意図が悪意ではなく、ただ口走っただけかもしれませんが

00:03:18多くの人々、特に株初心者の皆さんの中には

00:03:20誰かが誤解や勘違いをして

00:03:23そうしたバックテストに膨大な時間を費やし

00:03:25金銭的な損失まで出してしまう可能性があるんです。

00:03:27バックテストの結果を過信し、一種の信念を持ってしまうと危ないです。

00:03:32ですから、米国の証券取引委員会（SEC）の規定では、ファンドがそのような形で顧客に

00:03:35マーケティングを行えば、そのまま違法として摘発されます。

00:03:38ですから、クオンツ投資について語る方々は

00:03:41他人の大切なお金の重みを、もう少し重く受け止めてほしいと思います。

00:03:45私もいつまで続けるかは分かりませんが

00:03:47YouTubeをやっている立場として、善人ぶるために

00:03:51このような話をしているのではありません。

00:03:52私も20代半ばにお金で非常に苦労した経験があるので

00:03:56それがどんな気持ちか分かるんです。

00:03:58そして、私が損失に対するメンタル管理などをよく扱い

00:04:01また20代半ばに大きな損失を出した経験談などを話しているので

00:04:05私のもとには特にそうした相談が多く寄せられるようですが

00:04:09億単位の損失を出して悩み相談のメールを送ってこられる登録者の方が

00:04:14週に何通も、毎週いらっしゃいます。

00:04:16ですので、お金に関わる投資、株式、不動産系のYouTuberは

00:04:20一度くらいは自分自身を省みる必要があると思います。

00:04:24私も最近「80日間の投資一周」をやりながら

00:04:26「あ、これだんだんと私が投資助言をしているような感じになってきたな」と思い

00:04:29今回の下落相場が終わったら、また初心に帰らなければならないと感じました。

00:04:33ともかく、そのような趣旨で動画を制作することになりましたが

00:04:37決して特定の個人や業者を攻撃する意図はありません。

00:04:40クオンツ投資のマーケティングに関わっている方々も

00:04:43ご自身で知らずにそうされている部分もあるでしょうから

00:04:46皆で協力して、こうした部分を認識し

00:04:49改善していこうという趣旨ですので

00:04:51視聴者の皆さんもコメント欄で「誰々を狙い撃ちしている」といった

00:04:55そういった話は控えていただければ幸いです。

00:04:57前置きが長くなりましたが

00:04:58まずクオンツの分類から見ていきましょう。

00:05:01まず、クオンツは非常に広く多様に定義される言葉です。

00:05:04便宜上、時間軸に沿っておおまかに

00:05:07区分してみると、超高頻度売買があります。

00:05:10これはハイフリークエンシー・トレーディング（HFT）の中でも

00:05:12ウルトラHFTと呼ばれますが

00:05:14サーバーを取引所の近くに配置（コロケーション）し

00:05:19マシン語レベルでコーディングを行い

00:05:20ハードウェアの性能にもこだわり

00:05:22そういったレベルでの売買のことです。

00:05:24次に、それよりも少し時間軸が長い

00:05:28アルゴリズム・トレーディングがあります。

00:05:29テクニカル指標を使ったり、ルールベースの手法を用いたりするもので

00:05:33これは個人投資家も多く行っており

00:05:35最近はバックテスト・プラットフォームなどで一般化している部分です。

00:05:39続いて、統計的裁定取引や

00:05:41ペア・トレーディングなどがあります。

00:05:42統計モデルや技法

00:05:44あるいは統計的な手法を用いて

00:05:46結局、過去のパターンを見つけ出し

00:05:48平均回帰するという仮定のもとで

00:05:50そうした売買を行う部分があります。

00:05:52また、ファクター・インベスティングもありますね。

00:05:54これは少し長期になり、モメンタム、バリュー、キャリーといった

00:05:59価格を動かす要因（ファクター）を見つけ出し

00:06:01アルファ（超過収益）を探したりするものです。

00:06:03そして、ここ数年話題になっているのが

00:06:06「クオンタメンタル（Quantamental）」です。

00:06:07ファンダメンタル分析を定量化、自動化し

00:06:10様々なデータ分析やオルタナティブ・データ

00:06:12これらを追加して長期投資を行う方式です。

00:06:16そして同じ文脈で、こうした機械学習や

00:06:18ビッグデータ、オルタナティブ・データなどが

00:06:20現在、多くの分野へと拡張されています。

00:06:23これらの分類は便宜上のものであり

00:06:26境界線は非常に曖昧ですよね。

00:06:28これ全体をアルゴリズム・トレーディングと呼ぶこともありますし

00:06:30様々です。

00:06:31ですので、一般的なクオンツ売買について

00:06:33ここでは概括的に

00:06:35まとめて扱うことにします。

00:06:37ク온ツ売買の原則として

00:06:40まずは投資のアイデアや仮説が必要ですよね？

00:06:42次にバックテストを行います。

00:06:44過去のデータで、その投資アイデアや

00:06:47仮説を検証してみるわけです。

00:06:50「こうすれば儲かるのではないか」と考えたら

00:06:51過去のデータに当てはめてみて、実際にその通りにした時

00:06:54本当にお金が稼げたのか

00:06:56それを検証するのです。

00:06:57バックテストで良い収益が出れば

00:07:00実戦での売買を開始し

00:07:01同時にリスク管理も行っていく。

00:07:03この4つのステップでプロセスが進行します。

00:07:06実はクオンツ売買は、2010年代半ば頃までは

00:07:09事実上、機関投資家、それも機関の中でも

00:07:13理系の博士号を持つクオンツたちが在籍する

00:07:16クオンツ・ファンドの専売特許でした。

00:07:18しかし、徐々に機関の間でも執行（エクセキューション）などの

00:07:21面で普遍化が進み

00:07:23また米国で「Quantopian（クオントピアン）」のような

00:07:25バックテストを非常に容易にするサービスが

00:07:28ローンチされたことで、一般の個人投資家も

00:07:30クオンツ売買を手軽に利用できるようになり

00:07:33急速に普及している傾向にあります。

00:07:35しかし、それと同時に誤ったクオンツ投資への理解も

00:07:38最近、ますます増えているように感じます。

00:07:40例えば、次のような例を挙げてみましょう。

00:07:42「過去15年間でPBRが0.9以下の企業、かつ

00:07:46過去12ヶ月間に上昇した企業に投資したところ

00:07:48年利が20.2%になった」とします。

00:07:51そこでPBRの設定を少し変えてみると

00:07:5314%や17.8%といった結果が出たとします。

00:07:56バックテストをこのように繰り返した結果

00:07:58最初の結果が最も良かったので

00:08:01この最初の結果に基づいたルールで

00:08:03投資を行おう。

00:08:04このように結論づける姿をよく見かけます。

00:08:07しかし、これは実は誤った例だと言えます。

00:08:09よく考えてみてください。

00:08:12バックテストのプロセスは「過去のパターンが

00:08:14未来にも繰り返される」という

00:08:16保証のない仮定のもとで

00:08:18過去に収益性の高かったパターンを探し出す作業です。

00:08:21ですが、過去10年、20年、30年という

00:08:24期間において

00:08:26その期間中に収益性が良かったパターンの数は

00:08:29一体どれくらいあるでしょうか？

00:08:30一度動画を止めて考えてみてください。

00:08:32答えは無限にあります。

00:08:34実際に証明も可能です。

00:08:36様々な戦略のパラメーターは連続的であるため

00:08:38事実上、無限の数の収益性の高い戦略が存在します。

00:08:42しかし問題は、その中のいくつが未来にも収益性が高いのか？

00:08:46これこそがクオンツの核心だと言えます。

00:08:50過去に収益性が良かったパターンを見つけるだけなら

00:08:52バックテスト・ツールさえあれば

00:08:55誰にでもできるでしょう。

00:08:56しかし、過去にも良く、かつ未来にも良いものを見つけ出すのは

00:09:00実際には非常に困難であり

00:09:02いわば「干し草の山から針を探す」ような作業なのです。

00:09:04私がいくつかのブログやサイト

00:09:07特に韓国のサイトを見て回ったところ

00:09:09ジョエル・グリーンブラットの「魔法の公式」が

00:09:12非常に有名なようですね。

00:09:13この人物は非常にシンプルな

00:09:15時価総額などによるフィルタリングを通じて

00:09:17銘柄を選定する公式を立てて

00:09:20投資に関する「魔法の公式」という本を書いたのですが

00:09:24それが大きな話題となり

00:09:25一般の個人投資家にも広く知られるようになったようです

00:09:28一方でこの方はヘッジファンド界でも非常に有名です

00:09:311980年代から投資を始めていますが

00:09:33その投資期間中ウォーレン・バフェットよりも

00:09:35高い収益率を記録したことで

00:09:37さらに「魔法の公式」が脚光を浴びたのだと思います

00:09:40結論から申し上げますと

00:09:42このグリーンブラット氏はクオンツではなく

00:09:44彼のヘッジファンドは魔法の公式だけで投資していたわけではありません

00:09:47高い収益率は魔法の公式によるものではないのです

00:09:50このファンドはバリュー投資に加え

00:09:52「スペシャル・シチュエーション」投資も行っていました

00:09:54それはスピンオフなどの

00:09:57例えば会社が分割される際などに

00:09:59生じる価格の乖離や

00:10:01エッジ（優位性）を捉えて利益を出す

00:10:04そういった手法を併用していたのです

00:10:07またバリュー投資の部分でもこのような単純な公式を

00:10:10使っていたわけではないと思います

00:10:12もちろんそのフレームワークは反映されていたでしょうが

00:10:14機械的に公式だけで売買して

00:10:18利益を出していたのではないと考えられます

00:10:20「魔法の公式」が公開された後の

00:10:222005年からの収益をバックテストしてみると

00:10:26グレーがS&P指数で

00:10:28緑が「魔法の公式」です

00:10:29ご覧の通り変動性が高いまま推移し

00:10:32結局ずっと市場を下回っています

00:10:34これらはシステマティック・エクイティETFなど

00:10:37似たような投資手法が登場し

00:10:40市場がより効率的になったことで

00:10:42その優位性が失われたとも言えますが

00:10:44これほど有名な公式でもこのような結果しか出せないことから分かるように

00:10:48過去に収益性の高かったパターンを見つけるのは非常に簡単です

00:10:50それで本を書くこともできます

00:10:53しかし未来にも収益性が高いパターンを見つけるのは

00:10:56本当に膨大な作業を必要とします

00:11:00ですから数日の思考と数回のクリックで導き出せる

00:11:03年利20%の戦略なんてこの世には存在しません

00:11:06もう一つの例はクオントピアン（Quantopian）です

00:11:08クオントピアンは2011年頃に設立されたスタートアップで

00:11:12米国でバックテストを非常に容易にしたプラットフォームでした

00:11:1630万人が1,200万回のバックテストを通じて

00:11:20膨大な数のクオンツ戦略をそこでテストし作成しました

00:11:24有名な億万長者のスティーブ・コーエンも投資していました

00:11:27ヘッジファンド・トレーダーですね

00:11:29そしてクオントピアンのトップクラスのクオンツたちが

00:11:32論文まで出版しながら

00:11:34これらの戦略の中で未来にも収益性が高い戦略を

00:11:37どのような基準やどのような統計的手法で

00:11:40選び出すべきか

00:11:41そういった部分を本当に集中的に研究して

00:11:44戦略を選定し

00:11:46それで新しいヘッジファンドを運用しようという

00:11:48発想だったのですが

00:11:49無残にも失敗しました

00:11:51結局昨年閉鎖されました

00:11:53なぜこのような現象が起きるのでしょうか？

00:11:55そしてクオンツ運用を志す視聴者の皆さんは

00:11:58どうすればこのような結果を回避できるでしょうか？

00:12:02もちろん完全に避けることはできません

00:12:03それは非常に困難な作業だと考えています

00:12:07それでも挑戦してみたいのであれば

00:12:10最低限この10か条は心に留めて

00:12:12注意していただきたい

00:12:13そのような観点から一つずつお話しします

00:12:16この10か条を意識するだけでも

00:12:17不適切なバックテストで時間を無駄にしたり損失を出したりすることは

00:12:22免れるのではないかと思います

00:12:24もちろんバックテストが完璧だからといって利益が保証されるわけではありません

00:12:27まず一つ目はデータを疑ってみる必要があるということです

00:12:31GoogleやYahooのデータを使う方もいますが

00:12:34そういったデータは驚くほど「汚い」です

00:12:37クオンツ・トレードを一から始めようとする方は

00:12:41本当にデータの段階で多くの障害に直面します

00:12:45無料データは質が悪く誤りも多いです

00:12:47次にデータをきれいにする

00:12:50「データクリーニング」の作業ですが

00:12:51単にエラーを見つければいいと思われがちです

00:12:54しかし実際には人間の主観的な判断や

00:12:57偏見も入り込むことになります

00:12:59例を挙げてみましょう

00:13:01ある株が41ドルから43ドル台で取引され

00:13:05取引を終えたとします

00:13:06しかし大引け間際に

00:13:08一人のトレーダーが注文ミスをして

00:13:1128ドルで1株約定してしまいました

00:13:14すると厳密に言えば

00:13:16その日の安値は28ドルになります

00:13:1828ドルでその人はミスをして大きな損をしましたが

00:13:21とにかく安値は28ドルと記録されるべきですよね

00:13:24それが事実ですから

00:13:25では安値と高値をどう設定するか

00:13:28これを除外して 41ドルを安値とするのは

00:13:31実は実際に存在したトレード

00:13:34実際の安値を削除することになります

00:13:36しかしこれを除外しないと

00:13:38例えば当日の値幅から

00:13:405分以内に5%以上急落したら

00:13:44買い注文を入れるという

00:13:45戦略をバックテストした場合

00:13:4728ドルで買ったと

00:13:48バックテストが認識する可能性があります

00:13:51すると 28ドルで買って

00:13:53終値の42ドルで

00:13:55即座に売却したとバックテストが認識し

00:13:58その戦略の収益が

00:13:59大幅に水増しされることになります

00:14:011株なら削除できますが

00:14:03もしこのトレーダーの注文ミスが

00:14:0610株 100株あるいは1万株だったとしたら

00:14:09実際にそのようなケースはあります

00:14:11そういったケースは時々起こるのです

00:14:14数百億ウォンを失うような

00:14:17大規模なケースも実在しましたが

00:14:20100株や1,000株といった

00:14:21ミスは意外と頻繁にあります

00:14:23もちろんここ数年は

00:14:24アルゴリズムが

00:14:25執行（エグゼキューション）を担うようになり

00:14:27セーフティネットも整備されたため

00:14:29昔ほど頻繁ではありませんが

00:14:31いずれにせよバックテストのデータには

00:14:33アルゴリズム執行が普及する前のデータ

00:14:362011年や2005年といった

00:14:37古い時期まで遡ると

00:14:39こうしたケースがちょくちょく見受けられます

00:14:41それをどう処理するのか

00:14:43また複数の取引所で

00:14:44売買される商品があります

00:14:45そうした商品の場合

00:14:47複数の取引所のデータが

00:14:49統合されて

00:14:50安値や高値

00:14:52売買データや出来高などが

00:14:53きれいに統合されたデータなのか

00:14:56それとも

00:14:57一部の取引所のデータだけを抽出した

00:14:59不完全な売買データで

00:15:01バックテストを行っているのか

00:15:02データ費用が安い場合は

00:15:04その可能性があります

00:15:05また MDD（最大ドローダウン）を計算する際

00:15:07終値ではなく安値を基準にしているか

00:15:09例えば月次で

00:15:11リバランスを行う戦略を

00:15:13バックテストする際

00:15:14日次データを使用しながら

00:15:15終値のみを用いる場合があります

00:15:17しかし実際には

00:15:18ドローダウンを計算するには

00:15:20日中のドローダウンも

00:15:21考慮すべきですよね

00:15:22そうした些細な部分や

00:15:24先物でバックテストをする場合

00:15:26期限がある商品なら

00:15:27どのようにロールオーバーするか

00:15:29あるいはバックテストにおいては

00:15:31連続した先物限月をつなぎ合わせて

00:15:33データを作成し

00:15:34テストを行いますが

00:15:35その限月のロールオーバーを

00:15:37どう扱うかといった

00:15:38問題など

00:15:39これら以外にも非常に多くあります

00:15:40こうしたデータの問題について

00:15:42考えたことがあるか

00:15:44あるいはバックテスト・サービスを利用しているなら

00:15:47業者のデータが適切だと信じ切っていないか

00:15:51そういった部分を確認する必要がありますが

00:15:53意外にもデータの問題で非常に多くの誤りが発生し

00:15:57バックテストの結果が

00:15:59歪められているケースが多いのです

00:16:01そのほかデータに起因する問題の一つが

00:16:04「生存者バイアス」です

00:16:06バックテストにおける代表的なエラーの一つです

00:16:08この図は何かというと

00:16:10第一次か第二次かは分かりませんが世界大戦の際

00:16:12空軍が飛行機を補強しようとしました

00:16:16装甲のどこを

00:16:18より強化すべきか

00:16:20それを把握するために

00:16:21エンジニアたちが空中戦を終えて

00:16:24帰還した飛行機を集め

00:16:26どこが最も被弾しているか

00:16:28それを調べました

00:16:29そして「この部分が一番撃たれやすい」と判断し

00:16:33その箇所を

00:16:34鉄板を厚くするなどして

00:16:36補強しようという結論に至りましたが

00:16:38これはとんでもない間違いです

00:16:40なぜなら実際にこの部分や

00:16:42この部分

00:16:42あるいはあちらの部分に

00:16:44被弾した飛行機は

00:16:46すべて墜落して帰還できなかったからです

00:16:49手元にあるデータだけで結論を出すのがいかに危険か

00:16:50与えられたデータだけで結論を下すことが

00:16:52いかに危険であるかをよく示している例ですが

00:16:54株式投資における「生存者バイアス」を例に挙げると

00:16:56例えば

00:16:57今振り返って

00:16:59「80年代にAppleやMicrosoftを買っていれば」

00:17:02「今頃は大儲けだったのに」

00:17:03そう考えて

00:17:05ハイテク株を買い続ける戦略を立てるとしましょう

00:17:08しかし、実際に80年代当時

00:17:10AppleやMicrosoftと同等に有望視されていた会社は

00:17:1330社以上もありました

00:17:14そして、そのうちの28社は消えてしまったのです

00:17:17生き残ったのは、わずか2社だけでした

00:17:19この生き残った2社だけを見て

00:17:22その2社に注目しながら

00:17:23「あんなふうに投資すれば成功できる」と考えるわけです

00:17:27このように、現在生き残っている会社だけを

00:17:30バックテストの対象にして

00:17:32検証を行うと、収益率は当然底上げされます

00:17:35これは当然、バックテストの期間が長ければ長いほど

00:17:38より深刻な問題になります

00:17:40なぜなら、その長い期間の

00:17:41初期には存在していたものの

00:17:43途中で消えてしまった会社がたくさんあるはずだからです

00:17:45しかし、意外と多くの初心者投資家の方々が

00:17:47バックテストを始める際に

00:17:48まず「ストックユニバース」を決めますが

00:17:51「どの銘柄を対象にバックテストを行うか」という

00:17:54その範囲を決める時に

00:17:55現在存在している会社だけで構成してしまうのです

00:17:58そして、その中から

00:17:59様々な基準でバックテストを行い

00:18:02「どうやって優良企業を選び出すか」を

00:18:05判断しようとします

00:18:07しかし、そうしてしまうと

00:18:08テスト開始時から現在までに

00:18:11倒産した会社はすべて除外されることになります

00:18:13まるで自分に神のような予知能力が

00:18:16備わっていると仮定してテストしているようなものです

00:18:18そうなれば、収益率は当然実際よりも膨れ上がります

00:18:21ですから、バックテストを行う際は

00:18:23例えば20年間のテストなら

00:18:252001年当時に存在していた会社を対象に

00:18:29テストを開始し

00:18:30それを母集団（ユニバース）にすべきだということです

00:18:32それともう一つ、余談ですが

00:18:33余談として

00:18:34YouTubeに登場するいわゆる「スーパー個人投資家」たちも

00:18:37生存者バイアスの問題を抱えている可能性があります

00:18:40実力でその地位を築いた方もいらっしゃるでしょうが

00:18:43非常に大きなリスクを取って

00:18:45ある一つの銘柄に巨額の資金を投じ

00:18:48それがたまたま当たって

00:18:49スーパー個人投資家になった人もいます

00:18:51しかし、同じような行動をとった人たちが

00:18:53他にも30人、50人といたはずなのです

00:18:55そのようにハイリスクな行動をとった50人のうち

00:18:58生き残った一人の姿を

00:18:59視聴者は見ているだけかもしれません

00:19:02これもまた、生存者バイアスの一種と言えるでしょう

00:19:05ですから、今この時点で

00:19:06「自分もあんなふうになりたい」と

00:19:08極端にリスクの高い投資をしてしまうと

00:19:11必ずそうなれるわけではなく

00:19:1350人のうち運良く生き残った一人に、自分がならなければいけません

00:19:17こうしたバイアスを認識しているだけでも

00:19:20より合理的で賢明な投資ができるようになります

00:19:22バックテストのプラットフォームを利用する際は

00:19:24先ほど申し上げたデータの正確性や

00:19:27生存者バイアスの処理といった問題を

00:19:28すべてその提供業者に委ねていることになります

00:19:31無批判に、ですね

00:19:32しかし、果たしてその業者が

00:19:33こうしたバイアスやデータの問題について

00:19:35本当に厳密に

00:19:37ユーザーの立場に立ち、その収益率を

00:19:39実戦レベルで心配しながら

00:19:41多額の資本を投入して

00:19:43データをクリーンに整えているでしょうか

00:19:45そこを必ず確認しなければなりません

00:19:48次に、2つ目の注意点は

00:19:50「ルックアヘッド・バイアス」です

00:19:52未来の情報を先取りしてはいけない、ということです

00:19:54ルックアヘッド・バイアスを日本語にするなら

00:19:57「先読みバイアス」でしょうか

00:19:58そのように解釈できますが

00:20:00売買時点ではまだ入手不可能な情報が

00:20:03バックテストは過去のデータで行うため

00:20:05時系列で見ると

00:20:07去年の時点では存在しなかった情報なのに

00:20:09去年の売買判断にその情報を反映させて

00:20:12売買ロジックを組んでしまっているケースが

00:20:14珍しくありません

00:20:15これを「ルックアヘッド・バイアス」と呼びます

00:20:18代表的なミスの例を挙げると

00:20:21例えば、今月の2021年9月を基準に

00:20:24韓国株すべてをバックテストするのは大変だから

00:20:27「上位100銘柄だけでやろう」

00:20:29ユーザーがそう考えたとします

00:20:30コスピ（KOSPI）の時価総額上位100社を絞り込んで

00:20:34それを対象にバックテストを行います

00:20:35「PERがいくらなら買う」といった戦略で

00:20:38検証を進めたとします

00:20:3910年間のバックテストをしたところ

00:20:41収益率が非常に良かった

00:20:42さて、何が間違っているでしょうか？

00:20:44今、2021年9月時点の時価総額上位100社を選びましたね

00:20:50その銘柄だけで検証しましたが

00:20:5110年前の2011年を起点にテストをすると

00:20:552021年にどの会社が上位100社に入っているかを

00:20:59あらかじめ知っている状態でテストしているのと同じです

00:21:01時価総額上位であるということは、実際には

00:21:03その株価が着実に上昇してきたという結果論だからです

00:21:06こうした点に注意を払っているつもりでも

00:21:08つい時価総額で区切って

00:21:11「上位数百社だけでテストしよう」と

00:21:12安易に考えてしまうところで

00:21:14非常に多くのミスが発生します

00:21:15また、別の例としては

00:21:17企業の財務諸表やファンダメンタルズ指標でテストする際

00:21:21四半期ごとの各企業の決算発表の

00:21:24日程は企業ごとにバラバラですよね

00:21:26各企業が決算発表を行った後に

00:21:29リバランス（銘柄入れ替え）や

00:21:31実際の売買が行われるべきですが

00:21:33例えば、翌月初めにようやく決算発表される情報を

00:21:36まだ知らないはずなのに、数日前の月末時点で

00:21:40リバランスを行ってしまう

00:21:41未来をすでに知った状態で売買することになるわけです

00:21:44こうした要素がバックテストに混じることがあります

00:21:46さらにもう一つの例は

00:21:48例えば、終値を基準に売買を行うと

00:21:50仮定して

00:21:52毎日リバランスを行う設定にするとします

00:21:54終値というのは、その日が終わって初めて確定する情報です

00:21:57しかし、注文は市場が閉まる

00:22:005分前に約定するようにバックテストを設定したりすると

00:22:03そうした時間的な前後関係の中で

00:22:05未来の確定情報を先取りしてしまうような

00:22:07バイアスが生じる可能性があります

00:22:09そして、3つ目が非常に重要です

00:22:11「過学習（オーバーフィッティング）」を避けること

00:22:13いくら強調してもしすぎることはない部分ですが

00:22:16過学習とは何かというと

00:22:18与えられたサンプルデータに対してのみ

00:22:19過剰に適合し、性能が良く見えるモデルを作ってしまうことです

00:22:23例えば、今ここにサンプルがあるとします

00:22:25私たちが本当に知りたいのは

00:22:27その背後にある「母集団」です

00:22:29実際の全体像である母集団を

00:22:32推測したいわけですが

00:22:34母集団について詳しくない方もいるかもしれないので

00:22:36簡単に説明すると

00:22:38例えば、選挙結果について

00:22:40世論調査を行うとします

00:22:41全国民を対象に調査を行えば

00:22:44それは完璧な調査になります

00:22:46精度100％の調査です

00:22:48しかし、全国民に聞くことはできないので

00:22:50国民の中から「サンプル」を抽出します

00:22:53一部の人だけを選び、そのサンプルが背後の母集団を代表している

00:22:58つまり「代表性」があると

00:22:59仮定して推測を行うわけです

00:23:02同様に、株式データも本来の母集団データは

00:23:06このように分布しており

00:23:08その中からいくつかのサンプルを抜き出して

00:23:10「本来の姿はどうなっているか」を推測します

00:23:16その形状に合わせてモデルを適合させようとしている図ですが

00:23:20「モデルを適合（フィッティング）させる」とは

00:23:22今のサンプルと、このモデルの近似曲線との

00:23:25誤差が最小になるような線を見つける作業です

00:23:30こうした線のことですね

00:23:30しかし、このように極端に複雑で

00:23:34グニャグニャしたモデルを当てはめると

00:23:37サンプルデータ上の誤差はゼロになります

00:23:39すべてのサンプル点を通っていますから

00:23:41このサンプルにおいては完璧で

00:23:44誤差ゼロのモデルです

00:23:47しかし、これが本当に背後にある母集団を正しく表現しているでしょうか？

00:23:51違いますよね？

00:23:51新しいサンプルを持ってくれば、誤差は非常に大きくなるはずです

00:23:54ですから、ある程度適度に適合させないと

00:23:58新しいサンプルが入ってきた時に

00:24:00誤差の合計を抑えることができません

00:24:03一方で、あまりにも単純な直線で

00:24:06適合させてしまうと

00:24:08「未学習（アンダーフィット）」となり、最適化が足りません

00:24:10サンプルデータ上ですら、すでに誤差が大きくなってしまいます

00:24:13モデリングにおいて最も重要なのは

00:24:16このように「適度に最適化」することですが

00:24:18多くの方がバックテストを行う際

00:24:20過去のデータ、いわばサンプルデータに対して

00:24:24そのサンプルの中で

00:24:26収益率が最大化されるように

00:24:29ありとあらゆるルールを詰め込んで

00:24:32収益率を極限まで高めてしまうのです

00:24:35例えば「2015年から2021年のデータで検証した結果」

00:24:39「PERが13.75以上17.23以下で」

00:24:43「時価総額が517億以上623億以下」

00:24:46PBRが1.17以下の株を買えば

00:24:50年利70%の収益が可能だという

00:24:52そんなバックテストの結果が出たとします

00:24:54これは明らかに行き過ぎた「オーバーフィッティング」です

00:24:57過剰適合させてしまったわけですね

00:24:58例えばPERが17.24で収益性の低かった銘柄が

00:25:04たまたまデータに含まれていたために

00:25:05時価総額が515億だったのに

00:25:09それが悪い例だったから条件をこう設定した、といった具合に

00:25:12過去のサンプルデータだけを見て細かく条件を詰め込み

00:25:16何とかして収益率を最大化しようとすると

00:25:19このようなモデルが作られてしまいます

00:25:21すると将来、実際にその分布からデータが出てきた時に

00:25:25誤差の範囲が大きくなってしまいます

00:25:27そういう話なのですが

00:25:28もう少し詳しく見ていきましょう

00:25:29これも過剰適合の一例です

00:25:31赤と青の点をうまく分類する

00:25:34境界線を見つけようとしています

00:25:36線形モデルのようなものですね

00:25:37この黒い線は適切に学習されていますが

00:25:40緑のうねうねした線は

00:25:42今見えている青と赤の点に対しては

00:25:46完璧に分類できています

00:25:48つまり、このサンプルデータ上では

00:25:50誤差ゼロの完璧な線なのですが

00:25:52実際の背後にある母集団では

00:25:55青がこのあたりから出てきたり

00:25:57赤がこのあたりから出てくるようになると

00:25:59将来、実際に新しいデータが入ってきた時に

00:26:03この緑の線は誤差が非常に大きくなるはずです

00:26:05そう推測できますよね

00:26:07ですから、過去のデータに詳細に合わせすぎると

00:26:10将来は通用しなくなります

00:26:11これも似たような例ですが

00:26:13在学生100人の個人情報に関する

00:26:15詳細なデータを収集したとします

00:26:16それを基に、今年の学生100人の中から

00:26:19成績が優秀な学生を判別しようとします

00:26:20苗字が何々で

00:26:22身長はこの範囲、といったように

00:26:23去年の成績上位者のデータに対して

00:26:26過剰に最適化させてしまい

00:26:28判別ルールを決めてしまうと

00:26:30今年の学生にそれを適用した際

00:26:32全くとんちんかんな結果になりかねません

00:26:34「勉強時間が何時間以上の学生」という風に

00:26:37判別ルールをシンプルに定めれば

00:26:39去年の学生のデータに当てはめた時は

00:26:42詳細なルールよりも

00:26:44正確性は落ちるかもしれません

00:26:45しかし正確性は少し落ちても

00:26:47今年の学生に適用した時も

00:26:49同程度の正確性を維持できる確率が高いのです

00:26:53では、この過剰適合の問題をどう緩和すべきでしょうか？

00:26:56あらゆるバックテストは多少なりともこの問題を抱えており

00:27:00完全に排除することは不可能です

00:27:01例えば過去5年間のデータで検証した戦略が

00:27:06今後3年間有効かどうか、どうすれば分かるでしょうか？

00:27:08その問いに対する完璧な答えは

00:27:11「実際に3年間トレードしてみること」です

00:27:12ですが、それはあくまで事後的な話であり

00:27:153年間運用して損失が出た後では

00:27:17意味がありませんよね？

00:27:17そこで一つの方法は

00:27:19「Out of Sample Data」という

00:27:21サンプル外のデータを利用することです

00:27:23この訳し方で合っているか分かりませんが

00:27:25一般的には「OOSデータ」と呼ばれます

00:27:27例えば

00:27:282015年9月から2021年9月までの

00:27:316年間のデータで

00:27:33収益の良い戦略を見つけ出して

00:27:342021年10月からいきなり運用するのは良くありません

00:27:38そうするのではなく

00:27:392014年9月から2020年9月までの

00:27:426年間のデータを使って

00:27:44収益の良い戦略を見つけ出し

00:27:46それをさらに2020年10月から

00:27:492021年9月の期間で、もう一度バックテストするのです

00:27:52つまり、2014年からの6年間のデータで

00:27:55バックテストを行い、良い戦略を見つけたら

00:27:57それを2020年10月から実際に運用したと想定して

00:28:021年間のバックテストを行ってみるのです

00:28:04その結果が良ければ

00:28:062021年10月から実戦投入するという流れです

00:28:09もちろん、このように分けることで

00:28:10また別の問題が発生することもありますが

00:28:12それは後ほど扱うことにして

00:28:13今お伝えしたいポイントは

00:28:16サンプルデータがこれだけあるなら

00:28:18その一部をあらかじめ切り分けておくことです

00:28:19分けておいてから

00:28:21残りのデータで懸命に戦略を模索し

00:28:23何度もバックテストを重ねて

00:28:24そこで最適化を行ってみる

00:28:26ですが、すぐに実戦投入はせず

00:28:28戦略構築には

00:28:30一切使わなかった別のデータに対して

00:28:31「ここからが本番だ」と想定して

00:28:33試してみるわけです

00:28:34これがサンプル外データ、すなわち

00:28:35「OOSデータ」を利用するということです

00:28:38データサイエンスの世界では

00:28:39学習データ、検証データ

00:28:41訓練データ、テストデータ、あるいは

00:28:42開発データといった

00:28:44様々な用語がありますが

00:28:45用語自体はそれほど重要ではありません

00:28:464番目の話は3番目から続くのですが

00:28:48「検証のチャンスは一度きり」だということ

00:28:50これが非常に、非常に、非常に重要です

00:28:53いくら強調してもしすぎることはないほど

00:28:58本当に重要な一文なのですが

00:29:01このサンプル外データテストについて

00:29:03もう少し深掘りしてみましょう

00:29:04サンプルデータとサンプル外データには

00:29:06色々な呼び名がありますが

00:29:08この動画内では

00:29:09「学習データ」と「検証データ」に

00:29:11統一して呼びます

00:29:12先ほどの例で言えば

00:29:132014年から2020年までの

00:29:16データが学習データです

00:29:18つまり、学習データとは

00:29:19戦略を見つけ出すために使ったデータのこと

00:29:20そして戦略を見つけた後に

00:29:22それを試してみるためのもの

00:29:24最後の1年間に対して

00:29:26バックテストを行う対象を

00:29:28検証データと呼ぶことにします

00:29:30さて、このグラフが示しているのは

00:29:32ルールやモデルがどれほど複雑か、ということです

00:29:35右に行くほど

00:29:36より複雑なモデルであることを意味します

00:29:38例えば身長が173cmから

00:29:40173.25cmの間、といった風に

00:29:42ルールを細かく決めて

00:29:44複雑にすればするほど

00:29:45モデルの複雑度は上がっていきます

00:29:47一方で、これは予測誤差

00:29:49つまり実戦に投入した際に

00:29:50どれだけ誤差が生じるかを表していますが

00:29:52これを見ると

00:29:53トレーニングサンプル

00:29:54つまり学習データにおいては

00:29:55複雑なモデルを使えば使うほど

00:29:58誤差は減っていきます

00:29:59先ほど、サンプルがいくつか点在する中で

00:30:02うねうねとした線を引いて

00:30:03複雑にすればするほど

00:30:05そのサンプルデータ内では

00:30:06誤差をゼロにまで減らせる、という話をしました

00:30:08ですから、モデルを極限まで複雑にすれば

00:30:12誤差はゼロに収束していきます

00:30:14しかし、そうやって学習させたモデルを

00:30:16あらかじめ分けておいた検証データで

00:30:18一度試してみると

00:30:19どれくらいの誤差が出るでしょうか

00:30:21最初はモデルが非常に単純な

00:30:23直線のようなものであったり

00:30:24「アンダーフィッティング」の状態では

00:30:26誤差は両方のデータで似たような値になります

00:30:28ところが、モデルやルールが複雑になるにつれて

00:30:31学習データ上のサンプルでは

00:30:33誤差が減り続けていくのに対し

00:30:35検証データでは

00:30:37ある地点で底を打ち、過度に複雑になり始めた瞬間から

00:30:40逆に誤差が増え始めてしまいます

00:30:42投資のバックテストに例えるなら

00:30:45バックテストを何度も繰り返し回し

00:30:47あれこれと非常に細かいルールを設定し

00:30:51何度も試行錯誤しながら

00:30:52非常に緻密に

00:30:55パラメーターなどを調整して

00:30:56「PERの値をいくら以上にすべきか」といった

00:30:59細かなルールを複雑に作り上げるほど

00:31:02過去データ上の収益率はどんどん上がっていきます

00:31:05今は誤差のグラフなので、低いほど良いわけですが

00:31:08つまり、過去のデータに無理やり合わせたバックテストは

00:31:12合わせれば合わせるほど、収益率は良く見えてきます

00:31:15しかし、いざ実戦に適用した際

00:31:17あまりにも複雑にしすぎていると

00:31:18ある時点からは、ルールが複雑であればあるほど

00:31:21実戦での収益率は低下してしまいます

00:31:23こういう現象が起こるわけです

00:31:24今、私は「誤差が低くなること」を

00:31:26「収益率が良くなること」と表現し

00:31:28「誤差が高くなること」を「収益率が悪くなること」と

00:31:31言い換えましたが

00:31:32厳密に言えば

00:31:33誤差が大きくなるということは

00:31:34収益率が低くなることとは少し違います

00:31:37バックテストをいい加減に行い

00:31:39極端にオーバーフィッティングさせればさせるほど

00:31:42バックテスト上の収益率と将来の収益率との乖離

00:31:45すなわち誤差が大きくなる、ということであり

00:31:47その誤差によって、ランダムに

00:31:49収益がより高くなることもあれば

00:31:50低くなることもあり得ます

00:31:51ですが、一般的にそれほどの誤差が出ると

00:31:53実戦での収益率はもっと悪くなります。

00:31:55なぜなら、過去のデータに合わせる際、

00:31:57収益率を最大限に引き上げるように

00:31:59無理やり適合させているからです。

00:32:00そのため、その収益率から誤差が生じれば

00:32:02通常は下振れすることになります。

00:32:03では、学習データと検証データを

00:32:06どのように分けてバックテストを行うべきか。

00:32:08例えば、2011年から2021年までの

00:32:1111年分のデータで学習して来年から適用するのは、

00:32:15検証データを使わないという意味になります。

00:32:18すべてを学習データとして使って適用する形ですが、

00:32:21これはお勧めしません。

00:32:22先ほど申し上げた「分ける」というのは、

00:32:25例えば10年分のデータを学習データとして学習させた後、

00:32:282021年の最後の1年で検証を行い、

00:32:312022年から適用するという方法があります。

00:32:34ただ、これについては後ほど説明しますが、

00:32:36それほど良い方法ではありません。

00:32:38他に、もう少し改善された方法には何があるでしょうか。

00:32:40ウォークフォワード・テストという方式があります。

00:32:43これはどういうものかというと、

00:32:44例えば99年から3年間、

00:32:46そこで学習してパラメータを最適化した後、

00:32:49それを基に1年間検証してみて、

00:32:52その後にこのようにローリングさせていく方式です。

00:32:55この方式で戦略を立てるようになると、

00:32:58例えば非常に単純なモデル、

00:33:01私はPERを基準にしたバックテストは

00:33:04ありえないと思っていますが、

00:33:05PERが一定以下の株を買う戦略があると仮定しましょう。

00:33:08すると、10年間のデータ上で

00:33:11PERを最適化する場合、

00:33:13年ごとに最適なPER基準はすべて異なるはずですが、

00:33:17その中から平均的に良好なものを選択することになります。

00:33:20しかし、それをもう少し絞って

00:33:22直近3年分を基にPERの値を決めて売買を行うなど、

00:33:26このようにテストをすれば、

00:33:28このパラメータをより柔軟に、

00:33:30時間の経過とともに調節できるようになります。

00:33:32そのような形でテストをするのですが、

00:33:35そのようにしてもいいですし、

00:33:37次に「k-分割交差検証(K-Fold CV)」という

00:33:38クロスバリデーションがありますが、

00:33:39これはどうするかというと、

00:33:41このkの値が「いくつに分割するか」という意味です。

00:33:45図を見ると、kの値は5ですね。

00:33:47kの値を5に決めると、データを5等分して、

00:33:50この4年分で学習させた後に、

00:33:531年分の検証データで収益率がいくらになるか確認します。

00:33:56その次に、別の4つで学習させた後に、

00:33:59残りの1年でどうだったかを検証し、

00:34:01これを繰り返して収益率の平均を5分の1で出します。

00:34:05つまり、これらの収益率を平均化するのです。

00:34:09それが期待できる収益率に近い、

00:34:12と考えるわけです。

00:34:13他には、例えば過去10年間のデータを使う場合、

00:34:16偶数年のデータで学習を行い、

00:34:19奇数年のデータで検証することもあります。

00:34:22これらにはすべて一長一短がありますが、

00:34:23このメリットを挙げますと、

00:34:26「マーケット・レジーム・チェンジ」に対してパラメータが非常に安定します。

00:34:30どういう意味かというと、

00:34:31金融危機やコロナショックが起きると、

00:34:33市場の性質が変化してしまいます。

00:34:35例えば、2008年に金融危機が起きましたが、

00:34:391998年から2007年までのデータで学習して

00:34:43収益率の良いものを見つけ出し、

00:34:45そこで検証したとしても、

00:34:46市場の性質が変わってしまうため、

00:34:49分布も異なってきますし、

00:34:51その後の市場状況を

00:34:52それ以前のパターンが反映することはありません。

00:34:55ですから、このように分割すれば、

00:34:57何か甚大な事件が起きて

00:35:00市場の性質やパターンが変わってしまう問題に対して、

00:35:02もう少し安定的に検証することができます。

00:35:06ですので、このような方式を使ったりもしますが、

00:35:08この方式を使う際は先ほど言った「未来を見てしまうこと」に

00:35:11注意しなければなりません。

00:35:13なぜなら、売買周期によって異なりますが、

00:35:16月単位で売買するとした場合、

00:35:18現在の学習データに

00:35:192014年の学習データが反映されていますが、

00:35:222013年にどのような規則やデータを使うかによって、

00:35:262014年にならないと分からない情報が

00:35:28検証データに混ざってしまうことがあるからです。

00:35:30そうなると、検証データの収益率は水増しされてしまいます。

00:35:34すでに未来を見て学習してしまったわけですから。

00:35:36ですから、この部分には特に注意が必要です。

00:35:39そして、かなり大まかな話になりますが、

00:35:41機械学習(マシンラーニング)などの分野には

00:35:44「ハイパーパラメータ」という要素があります。

00:35:46一般的に「パラメータ」はモデル自体が

00:35:50サンプルデータの誤差を減らすために調節していく部分であり、

00:35:54「ハイパーパラメータ」は人間が決めなければならない部分です。

00:35:57例えば、回帰分析をするとしましょう。

00:35:59そこで直線を使うのか、あるいは曲線を使うのか、

00:36:03つまりパラメータがどれほど複雑な形の式、

00:36:07そのようなモデルを使うのか、

00:36:09そういったことは人間が決定します。

00:36:11このパラメータの数などがハイパーパラメータにあたります。

00:36:15それを決めておけば、あとはデータに応じて

00:36:18データの誤差を最適化する方向で

00:36:22線をフィッティングさせるわけです。

00:36:23傾きや切片といった部分が、データに合わせて

00:36:28モデルが学習した結果となり、それらをパラメータと呼びます。

00:36:33ですので、ハイパーパラメータも色々試してみる必要があります。

00:36:36ですから、単に「トレイン・テストデータ」に分けるのではなく、

00:36:40「開発(dev)データ」をもう一つ設けることもあります。

00:36:42そこで最適化を行ってから、

00:36:45ハイパーパラメータはそこに最適化し、

00:36:48その後にテストデータで検証する、という形もとられます。

00:36:51機械学習をご存知の方はすでにご理解されているでしょうし、

00:36:55知らない方はこれくらいの説明では分からないはずですので、

00:36:58これくらいにして次へ進みます。

00:37:00ただ、このような作業をする際、本当に、本当に、本当に、

00:37:04いくら強調してもしすぎることはない重要な点があります。

00:37:08それは検証データについてです。

00:37:10検証データは、絶対に、絶対に、二度見てはいけません。

00:37:15その結果を。

00:37:16学習データで徹底的に学習して、収益率の良い戦略をバックテストで何度も探しますよね。

00:37:22その戦略が学習データ上ではとにかく収益率が良いものが見つかったとしても、

00:37:26実戦でそれが本当に通用するかを検証するために、

00:37:31学習データには使わなかった期間やデータを使って回してみるわけです。

00:37:38ですが、これを二度回すことは絶対に許されません。

00:37:41たった一度だけ回して、その一度きりの収益率が悪かったなら、

00:37:45たとえ何年も努力し、その戦略を作るのにどれほど苦労したとしても、

00:37:50その戦略全体を潔く捨てなければなりません。

00:37:52なぜか？実戦でその戦略を適用して損益を出す機会も一度きりだからです。

00:37:57時間を巻き戻すことはできませんよね。

00:37:58それにもかかわらず、もったいないからといって検証データでの結果が悪かったのに、

00:38:03また学習データだけを使ってパラメータを少し調整したりして、

00:38:07再び回した結果、検証データの収益率が良くなったとしましょう。

00:38:10そうした瞬間に、もはや検証データは検証データではなく、

00:38:14学習データの一部に組み込まれてしまったことになります。

00:38:16パラメータを探す過程で、検証データまで含めて最適化してしまったからです。

00:38:21ですから、その戦略が実戦でどれほどの収益率を出せるかについて、

00:38:26私たちは何の保証もできなくなります。

00:38:29そのため、その部分が非常に重要ですし、

00:38:31バックテストをする際の重要な点として、これも繋がる話ですが、

00:38:34時代は変わるという「マーケット・レジーム」という概念があります。

00:38:37一つ質問をしてみましょう。

00:38:3920年間のバックテストと3年間のバックテスト、

00:38:42どちらがより有意義でしょうか？

00:38:44すでにタイトルに書いているので答えは出ていますが、

00:38:47多くの投資初心者の方が「バックテストは長いほどいい」、

00:38:50「データは多いほどいい」と考えていらっしゃいます。

00:38:54ですが私なら、この2つのバックテストのうち、

00:38:57もちろん時間軸やどれくらいの頻度で売買するか、

00:39:00それによっても異なりますが、

00:39:01基本的には3年分のデータを使います。

00:39:03データの個数は多ければ多いほど良いです。

00:39:06しかし、それは同じ分布から生じるデータでなければなりません。

00:39:09データは多ければ多いほど良いのは確かですが、

00:39:11すでに環境が変わってしまったところから来る、質の異なるデータが混ざるのは良くないのです。

00:39:17バックテストを長く設定すると直面する問題は、

00:39:20市場の性質が変わってしまうということです。

00:39:22これは実質収益率のグラフでしょうか、

00:39:26とにかく金利に関するグラフですが、

00:39:28見ての通り、時期によって「適正金利」と呼ばれる概念自体が、

00:39:33このように変動はしますが、

00:39:34その体制下での適正金利のレベルが劇的に変化しています。

00:39:38この時期はこのあたりで、これがオイルショックでしょうか、

00:39:41とにかくこの時期を境に、この時はまたここになり、

00:39:45その後の80年代以降は、

00:39:47ここが一般的に通用する金利となりました。

00:39:51さて、債券関連のトレーディングをする際に、

00:39:53この時期のデータで売買戦略を学習させ、

00:39:57それをこちらの時期に適用するとしましょう。

00:39:59すると、この「マーケット・レジーム」が変わってしまうと、

00:40:02以前のデータで学習して作った収益性の高い戦略は、

00:40:07こちらでは通用しなくなります。

00:40:08これが「マーケット・レジーム・チェンジ」と呼ばれるものです。

00:40:11市場の性質、体制の変化ですね。

00:40:14市場の性質の変化は、

00:40:17市場のプレイヤーの変化によっても引き起こされます。

00:40:20例えばコロナ以降、個人投資家が大量に流入したことで

00:40:23ゲームストップ騒動なども起きました。

00:40:25以前、つまりコロナ以前は、

00:40:27あのような空売り戦略、ショートセリング戦略は、

00:40:30ショート専門のヘッジファンドも存在するように、

00:40:32非常によく通用する戦略だったのですが、

00:40:34突然このような変化で市場の性質が変わり、

00:40:37倒産寸前まで追い込まれたケースもありました。

00:40:39次に制度や規制の変化です。金融危機が起き、

00:40:43投資銀行での自己勘定取引(プロップ・トレーディング)が禁止され、

00:40:45デリバティブ市場でも様々な規制により市場が変化しました。

00:40:49そのような金融危機以前のデータで

00:40:50学習した戦略というものは、

00:40:52その後はうまく通用しなくなるでしょう。

00:40:54次に外生的なイベントです。

00:40:55オイルショックのように、あまりにも強力で

00:40:57市場そのものを変えてしまうような

00:40:59マクロ経済的なイベントのことです。

00:41:01それから、マクロ経済的な変化もあります。

00:41:03負債比率が徐々に上昇していく中で、

00:41:06金利水準が昔はこれくらいだったのが、

00:41:08今では凄まじい低金利時代になったことなどが挙げられます。

00:41:11そうした中で、実際には量的緩和といった要素も

00:41:13こうした低金利の一助となり、

00:41:15その結果、成長株が突然アウトパフォームする現象が

00:41:17この10年間、凄まじい勢いで続きました。

00:41:19しかし、量的緩和以前の学習データを使って

00:41:22収益性の高い戦略を見つけ出したとしても、

00:41:24それはバリュー株を買い込むような内容だったりします。

00:41:25そうなると、当然その後の10年間は

00:41:27非常にパフォーマンスが悪かったはずです。

00:41:28他にも、新技術の登場や

00:41:30産業構造の変化など、

00:41:32そういった要因が挙げられます。

00:41:33ですから、20年分のバックテストをした際、

00:41:352001年のデータが果たして意味を成すのか。

00:41:38もちろん「マーケット・レジーム・チェンジ」は

00:41:40どの要素に着目するかによって、

00:41:42その捉え方は変わってきます。

00:41:43結局のところ、戦略のロジックや

00:41:45ルール、あるいはモデルが

00:41:47どの要素を注視し、

00:41:49どのデータを使用しているのか、

00:41:51それによって

00:41:52そのデータのレジームが

00:41:53変化しているかどうかを見極める必要があります。

00:41:55例えば、月単位でも

00:41:56非常に速いサイクルで性質が変化する

00:41:58データもあれば、

00:41:59あるいは10年、15年ほどは

00:42:01極めて安定しているデータもあります。

00:42:03周期はそれぞれ異なるため、

00:42:05一般的に言えば、

00:42:07無条件にコロナが起きたからといって

00:42:09それ以前のすべてのパターンが

00:42:09無意味になるわけではありません。

00:42:12しかし、いずれにせよ20年分もの

00:42:14データを一括りに扱うのは、

00:42:15明らかに少し問題がある、

00:42:17そう考えて間違いありません。

00:42:18もし、極めて古いデータを

00:42:20用いて推論しようとした場合、

00:42:22マーケット・レジームが

00:42:23途中で変化し、

00:42:24さらにまた変化を繰り返したとしても、

00:42:25最終的に現在の状況を反映している

00:42:29遠い過去のデータであれば、

00:42:30再び活用できる場合もあります。

00:42:32そのため、一部の人々は

00:42:33「1940年代と現在が似ている」

00:42:35といった話をすることもありますが、

00:42:37これは余談です。

00:42:38さて、クオンツ・トレーディングは

00:42:41非常に一般的になり、

00:42:42個人投資家も実践していますが、

00:42:44長期投資における

00:42:45クオンツ投資の盲点は、

00:42:47こうした計量的手法を

00:42:49長期投資に適用する際、

00:42:51膨大なデータ技術を確保すると同時に

00:42:53レジーム・チェンジを避けるのが極めて困難だという点です。

00:42:55例えば、分単位のデータを使う

00:42:57アルゴリズム取引戦略があるとしましょう。

00:42:591時間に

00:43:0160個のデータがあります。

00:43:0260分ですから、

00:43:0360個のデータがあり、

00:43:04それを例えば、

00:43:0524時間取引される先物だとします。

00:43:0824を掛けると、

00:43:091,440個。

00:43:10合ってますよね？

00:43:101,440個のデータになります。

00:43:121日に1,440個のデータがあり、

00:43:15週5日の取引で年間250日、

00:43:17あるいは251日あると仮定すると、

00:43:20年間で約30数万個、

00:43:21それくらいの数のデータが

00:43:231年間で確保されます。

00:43:25わずか1年分でも

00:43:2630数万個というデータ量が確保できるため、

00:43:29十分に有意な大量のデータの中で

00:43:32検証を行い、

00:43:33より複雑なモデルを試すといった

00:43:35ことが可能になります。

00:43:36一方、月単位で売買する

00:43:37リバランス戦略を考えてみましょう。

00:43:39すると、1年に12個しかありません。

00:43:4120年続けても、

00:43:42わずか240個です。

00:43:44データ数を時間軸で増やせないため、

00:43:47多様な銘柄を分析対象に加えることで

00:43:49横方向へ広がりを持たせ、

00:43:51統計的な有意性を確保しようとしますが、

00:43:53結局のところ、時間軸における

00:43:54レジーム・チェンジを避けるのは難しいのです。

00:43:57こうした部分が非常に困難な点です。

00:43:58コロナショックの後、

00:44:00多くのクオンツたちが――

00:44:02このイニゴ・フレイザー・ジェンキンスという人物は、

00:44:05著名な企業のクオンツ・ヘッドだと記憶していますが、

00:44:09「なぜ私はもはやクオンツではないのか」

00:44:11というテーマで説明を行いました。

00:44:13その内容を要約すると、

00:44:15クオンツの役割は過去のパターンから未来を予測することですが、

00:44:19このように

00:44:20コロナのような事態が起きると過去のパターンが通用しなくなり、

00:44:23マーケット・レジーム・チェンジが起きた際、

00:44:25クオンツにできることは極めて限定的になってしまうのです。

00:44:28そのため「クオンツの存在論的危機」

00:44:30といった話も出ましたし、

00:44:31昨年はクオンツにとって非常に厳しい年でした。

00:44:34もちろん好成績を収めた一部のクオンツもいますが、

00:44:36平均的には極めて不調でした。

00:44:38さて、これで半分ほど進んだかと思いますが、

00:44:40すでに1時間半が経過しましたので、

00:44:43ひとまず第1部はここまでとします。

00:44:45明日の第2部では、残りの6番から10番を扱い、

00:44:49長所と限界、

00:44:50そしてクオンツ学習のためのカリキュラムについて

00:44:52お話ししていこうと思います。

00:44:54それでは、第2部でお会いしましょう。

00:44:55ありがとうございました。

Key Takeaway

クオンツ投資の成功には、データの正確性の追求、バイアスの排除、そして過去のデータに過度に適応させない厳格な検証プロセスが不可欠です。

Highlights

クオンツ投資は「科学・統計」という言葉の裏にある非科学的な側面を理解し、バックテストの過信を避ける必要がある

過去に収益性が高かったパターンは無限に存在するが、真に困難なのは未来にも通用する「針」を見つけ出すことである

生存者バイアスや先読みバイアスなど、データの不備や処理の誤りがバックテストの結果を大きく歪めている

過学習（オーバーフィッティング）を避けるために、学習データと検証データを厳格に分けることが不可欠である

市場の性質が変化する「マーケット・レジーム・チェンジ」により、過去の長期間のデータが現在の予測に役立たない場合がある

Timeline

クオンツ投資への警鐘と本動画の趣旨

ウォール街出身のスピーカーが、最近のクオンツ投資に対する誇大広告や誤った情報の蔓延に強い懸念を表明しています。初心者がバックテストの結果を盲信し、多額の損失を出すことを防ぐために、実戦で役立つ「注意すべき10か条」を提示することを宣言しました。クオンツは統計や科学といった言葉に隠れて非科学的な側面を持ちやすいため、正しい理解が必要であると説いています。自身の苦い経験も交えながら、投資系YouTuberとしての責任感を持って、中立的な立場から改善案を共有する姿勢を示しています。特定業者への攻撃ではなく、業界全体の健全化と投資家保護を目的とした内容になっています。

クオンツの分類と投資の基本原則

クオンツ投資を時間軸や手法に基づき、超高頻度売買（HFT）、アルゴリズム取引、統計的裁定取引、ファクター投資、クオンタメンタルなどのカテゴリーに分類して概説しています。クオンツ売買の基本プロセスは「仮説立案」「バックテスト」「実戦売買」「リスク管理」の4ステップで構成されると説明しています。かつては理系博士号を持つ専門家の専売特許でしたが、現在はプラットフォームの普及により個人投資家も手軽に利用可能になりました。しかし、技術の普及と同時に、手法の表面的な模倣や誤った理解も広まっていると指摘しています。ここでは、クオンツの定義が広範であり、境界線が曖昧であることも補足されています。

バックテストの罠と「魔法の公式」の実態

過去のデータで高い収益率を出すパラメータを見つけることは容易ですが、それが未来の利益を保証するわけではないという核心的な問題を提示しています。ジョエル・グリーンブラットの有名な「魔法の公式」を例に挙げ、公開後の収益率が市場を下回っている現実を紹介しています。過去に良好だった戦略は無限に存在するため、真の課題は「過去に良く、かつ未来にも良いもの」を選別することにあります。かつて成功を収めたクオントピアン（Quantopian）というプラットフォームが、膨大な戦略を検証しながらもヘッジファンド運営に失敗し閉鎖された事例も挙げています。数日の学習やクリックだけで年利20%を達成できるような魔法は存在しないと断言しています。

注意点1：データの信憑性と「生存者バイアス」

バックテストの基礎となるデータの質に焦点を当て、無料データの「汚れ」やエラー処理に伴う主観的判断の危険性を解説しています。特に、現在生き残っている企業だけで検証を行う「生存者バイアス」が、収益率を不当に底上げする最大の要因の一つであると指摘しています。第二次世界大戦中の戦闘機の補強箇所を決定する際の誤りという有名な例えを用い、見えないデータ（倒産した企業）の重要性を説いています。20年前のテストを行うなら、20年前当時の母集団から開始しなければならないという鉄則を強調しています。また、YouTubeで有名な投資家もこのバイアスの一部である可能性を示唆し、盲従しないよう促しています。

注意点2 & 3：先読みバイアスと過学習（オーバーフィッティング）

未来の情報を無意識に売買判断に取り込んでしまう「ルックアヘッド・バイアス（先読みバイアス）」の具体例を挙げて警告しています。例えば、現在の時価総額上位100社を対象に10年前からのテストを行うことは、未来の勝者を知った上での「後出しジャンケン」に等しいと述べています。続いて、クオンツ最大の敵である「過学習」について、サンプルデータに対してモデルを複雑にしすぎると、未知のデータに対する予測力が失われる仕組みを詳述しています。PERや時価総額などの数値を極限まで細かく調整して収益率を高める行為は、実戦では誤差を生むだけの無益な作業であると批判しています。シンプルなルールほど、将来の異なる状況下でも安定したパフォーマンスを維持しやすいという原則を説明しています。

注意点4 & 5：検証の厳格さとレジーム・チェンジ

過学習を防ぐための「サンプル外データ（OOS）」や「k-分割交差検証」といった統計的手法を詳しく紹介しています。ここで最も重要なルールとして、検証用データの結果を見て戦略を修正する行為は「検証データの学習データ化」を招くため、一度きりの勝負であるべきだと強調しています。また、市場の性質が劇的に変わる「マーケット・レジーム・チェンジ」についても触れ、金利体系や量的緩和の影響で過去のデータが役に立たなくなるリスクを論じています。長期投資におけるクオンツ手法の限界として、データ数の不足と環境変化の回避の難しさを挙げています。最後に、コロナ禍のような未曾有の事態では過去のパターンが通用しなくなり、クオンツが「存在論的危機」に直面した現状を伝えて第1部を締めくくっています。

Community Posts

クオンツ投資バックテスティングの致命的な欺瞞：2026年実戦生存戦略

makedream8 mar 20268170

Write about this video