【ウォール街のおじさん】クオンツ投資の嘘と実態 - 第1部:中途半端に手を出すと毒になります

월가아재의 과학적 투자
StocksAdvertising/MarketingBeginning InvestingInternet Technology

Transcript

00:00:00ですが、過去10年、20年、30年と
00:00:03そのような期間を振り返ってみた時
00:00:04その期間に収益性が高かったパターンの数は、一体いくつあるでしょうか?
00:00:09答えは無限です。実際に証明も可能です。
00:00:12はい、こんにちは。ウォール街の財です。
00:00:21今日はクオンツ投資について取り上げます。
00:00:24以前から私のYouTubeのコメントや質問、メールで
00:00:26クオンツ売買について教えてほしいという方がいらっしゃいました。
00:00:29今後の目標や方向性、チャンネルのカリキュラム上
00:00:33アルゴリズム・トレーディングやクオンツ売買については
00:00:36それほど近いうちに扱うつもりはありませんでした。
00:00:38しかし、当チャンネルの視聴者の中でも
00:00:40約15%の登録者の方がクオンツ売買をされているとのことですし
00:00:44また最近、クオンツ投資について少し懸念される部分があったので
00:00:48このように動画を制作することにしました。
00:00:50本日扱う目次は、まずクオンツの分類や原則
00:00:53そういった部分について概括的に見た後に
00:00:56クオンツ売買で注意すべき点10個を扱います。
00:00:59この10個を心に留めておくだけでも、クオンツ売買を通じて
00:01:04大きな時間を無駄にしたり
00:01:06あるいはバックテストやその手法の面で
00:01:09誤った方法で行ってしまうせいで
00:01:11甚大な損失が出るケースは予防できると思います。
00:01:15これらは基本中の基本であるにもかかわらず
00:01:18最近、巷で非常に高値で売られている有料講義でも
00:01:21こうした部分が詳しく扱われていないようです。
00:01:24むしろそうした講義は、バックテストやクオンツ投資を
00:01:27少し美化しすぎている部分があるように感じますが
00:01:31今日この10個さえ意識していれば、クオンツ投資やクオンツ売買に関して
00:01:35どんな情報を聞こうが、どんなサービスを利用しようが
00:01:39ある程度は自分を守ることができ、安全だと思います。
00:01:43始める前に、実は数日前に少し激昂した口調で
00:01:47短い投稿を一つしたのですが
00:01:49少しミスをしてしまったようです。
00:01:51最近のクオンツ投資に対するバイラルマーケティングや誇大広告が
00:01:54度を越しているのではないか。
00:01:55そう書いたのですが、そこにコメントで特定の人や
00:01:59特定の業者に対する悪質な書き込みがいくつか付いてしまいました。
00:02:02ですので、その方々や業者への失礼になるかと思い削除したのですが
00:02:06正直、そうしたものが不法な投資顧問や
00:02:09貸口座業者のような不法で悪いことではないので
00:02:12私の余計なお世話だったのかもしれません。
00:02:16ですが一方で、貸口座などの問題は
00:02:19それを利用する側も違法だと知りながら
00:02:22正直に言えば欲に負けて手を出した責任もあるんです。
00:02:25しかし、最近のクオンツ投資に関する議論を眺めていると
00:02:28これは単に一般の人たちが、一生懸命に正当な努力をしようと
00:02:33資産運用にもっと力を入れてみようと思って
00:02:35クオンツ投資という分野に入門された方々に
00:02:37被害が及ぶ可能性があると感じたのです。
00:02:40なぜなら、クオンツ投資というと、一般的に「科学」と「統計」というキーワードが混ざり
00:02:46実際には非科学的な部分が含まれていても、誤解を招きやすいからです。
00:02:51不法な投資顧問や貸口座は、誰が見ても違法なので
00:02:55避けようと思えば避けられますが
00:02:56これについては、一生懸命取り組もうとしている善良な被害者が生まれかねないと思いました。
00:03:01「誰でも数日あればすぐにクオンツ投資の達人になれる」とか
00:03:04あるいは「これは数十年間のデータで検証された戦略だ」とか
00:03:08「過去10年間で年利20%の複利収益を出したから
00:03:11今後もそうなるだろう」というニュアンスで話をしたりだとか。
00:03:14そうした意図が悪意ではなく、ただ口走っただけかもしれませんが
00:03:18多くの人々、特に株初心者の皆さんの中には
00:03:20誰かが誤解や勘違いをして
00:03:23そうしたバックテストに膨大な時間を費やし
00:03:25金銭的な損失まで出してしまう可能性があるんです。
00:03:27バックテストの結果を過信し、一種の信念を持ってしまうと危ないです。
00:03:32ですから、米国の証券取引委員会(SEC)の規定では、ファンドがそのような形で顧客に
00:03:35マーケティングを行えば、そのまま違法として摘発されます。
00:03:38ですから、クオンツ投資について語る方々は
00:03:41他人の大切なお金の重みを、もう少し重く受け止めてほしいと思います。
00:03:45私もいつまで続けるかは分かりませんが
00:03:47YouTubeをやっている立場として、善人ぶるために
00:03:51このような話をしているのではありません。
00:03:52私も20代半ばにお金で非常に苦労した経験があるので
00:03:56それがどんな気持ちか分かるんです。
00:03:58そして、私が損失に対するメンタル管理などをよく扱い
00:04:01また20代半ばに大きな損失を出した経験談などを話しているので
00:04:05私のもとには特にそうした相談が多く寄せられるようですが
00:04:09億単位の損失を出して悩み相談のメールを送ってこられる登録者の方が
00:04:14週に何通も、毎週いらっしゃいます。
00:04:16ですので、お金に関わる投資、株式、不動産系のYouTuberは
00:04:20一度くらいは自分自身を省みる必要があると思います。
00:04:24私も最近「80日間の投資一周」をやりながら
00:04:26「あ、これだんだんと私が投資助言をしているような感じになってきたな」と思い
00:04:29今回の下落相場が終わったら、また初心に帰らなければならないと感じました。
00:04:33ともかく、そのような趣旨で動画を制作することになりましたが
00:04:37決して特定の個人や業者を攻撃する意図はありません。
00:04:40クオンツ投資のマーケティングに関わっている方々も
00:04:43ご自身で知らずにそうされている部分もあるでしょうから
00:04:46皆で協力して、こうした部分を認識し
00:04:49改善していこうという趣旨ですので
00:04:51視聴者の皆さんもコメント欄で「誰々を狙い撃ちしている」といった
00:04:55そういった話は控えていただければ幸いです。
00:04:57前置きが長くなりましたが
00:04:58まずクオンツの分類から見ていきましょう。
00:05:01まず、クオンツは非常に広く多様に定義される言葉です。
00:05:04便宜上、時間軸に沿っておおまかに
00:05:07区分してみると、超高頻度売買があります。
00:05:10これはハイフリークエンシー・トレーディング(HFT)の中でも
00:05:12ウルトラHFTと呼ばれますが
00:05:14サーバーを取引所の近くに配置(コロケーション)し
00:05:19マシン語レベルでコーディングを行い
00:05:20ハードウェアの性能にもこだわり
00:05:22そういったレベルでの売買のことです。
00:05:24次に、それよりも少し時間軸が長い
00:05:28アルゴリズム・トレーディングがあります。
00:05:29テクニカル指標を使ったり、ルールベースの手法を用いたりするもので
00:05:33これは個人投資家も多く行っており
00:05:35最近はバックテスト・プラットフォームなどで一般化している部分です。
00:05:39続いて、統計的裁定取引や
00:05:41ペア・トレーディングなどがあります。
00:05:42統計モデルや技法
00:05:44あるいは統計的な手法を用いて
00:05:46結局、過去のパターンを見つけ出し
00:05:48平均回帰するという仮定のもとで
00:05:50そうした売買を行う部分があります。
00:05:52また、ファクター・インベスティングもありますね。
00:05:54これは少し長期になり、モメンタム、バリュー、キャリーといった
00:05:59価格を動かす要因(ファクター)を見つけ出し
00:06:01アルファ(超過収益)を探したりするものです。
00:06:03そして、ここ数年話題になっているのが
00:06:06「クオンタメンタル(Quantamental)」です。
00:06:07ファンダメンタル分析を定量化、自動化し
00:06:10様々なデータ分析やオルタナティブ・データ
00:06:12これらを追加して長期投資を行う方式です。
00:06:16そして同じ文脈で、こうした機械学習や
00:06:18ビッグデータ、オルタナティブ・データなどが
00:06:20現在、多くの分野へと拡張されています。
00:06:23これらの分類は便宜上のものであり
00:06:26境界線は非常に曖昧ですよね。
00:06:28これ全体をアルゴリズム・トレーディングと呼ぶこともありますし
00:06:30様々です。
00:06:31ですので、一般的なクオンツ売買について
00:06:33ここでは概括的に
00:06:35まとめて扱うことにします。
00:06:37ク온ツ売買の原則として
00:06:40まずは投資のアイデアや仮説が必要ですよね?
00:06:42次にバックテストを行います。
00:06:44過去のデータで、その投資アイデアや
00:06:47仮説を検証してみるわけです。
00:06:50「こうすれば儲かるのではないか」と考えたら
00:06:51過去のデータに当てはめてみて、実際にその通りにした時
00:06:54本当にお金が稼げたのか
00:06:56それを検証するのです。
00:06:57バックテストで良い収益が出れば
00:07:00実戦での売買を開始し
00:07:01同時にリスク管理も行っていく。
00:07:03この4つのステップでプロセスが進行します。
00:07:06実はクオンツ売買は、2010年代半ば頃までは
00:07:09事実上、機関投資家、それも機関の中でも
00:07:13理系の博士号を持つクオンツたちが在籍する
00:07:16クオンツ・ファンドの専売特許でした。
00:07:18しかし、徐々に機関の間でも執行(エクセキューション)などの
00:07:21面で普遍化が進み
00:07:23また米国で「Quantopian(クオントピアン)」のような
00:07:25バックテストを非常に容易にするサービスが
00:07:28ローンチされたことで、一般の個人投資家も
00:07:30クオンツ売買を手軽に利用できるようになり
00:07:33急速に普及している傾向にあります。
00:07:35しかし、それと同時に誤ったクオンツ投資への理解も
00:07:38最近、ますます増えているように感じます。
00:07:40例えば、次のような例を挙げてみましょう。
00:07:42「過去15年間でPBRが0.9以下の企業、かつ
00:07:46過去12ヶ月間に上昇した企業に投資したところ
00:07:48年利が20.2%になった」とします。
00:07:51そこでPBRの設定を少し変えてみると
00:07:5314%や17.8%といった結果が出たとします。
00:07:56バックテストをこのように繰り返した結果
00:07:58最初の結果が最も良かったので
00:08:01この最初の結果に基づいたルールで
00:08:03投資を行おう。
00:08:04このように結論づける姿をよく見かけます。
00:08:07しかし、これは実は誤った例だと言えます。
00:08:09よく考えてみてください。
00:08:12バックテストのプロセスは「過去のパターンが
00:08:14未来にも繰り返される」という
00:08:16保証のない仮定のもとで
00:08:18過去に収益性の高かったパターンを探し出す作業です。
00:08:21ですが、過去10年、20年、30年という
00:08:24期間において
00:08:26その期間中に収益性が良かったパターンの数は
00:08:29一体どれくらいあるでしょうか?
00:08:30一度動画を止めて考えてみてください。
00:08:32答えは無限にあります。
00:08:34実際に証明も可能です。
00:08:36様々な戦略のパラメーターは連続的であるため
00:08:38事実上、無限の数の収益性の高い戦略が存在します。
00:08:42しかし問題は、その中のいくつが未来にも収益性が高いのか?
00:08:46これこそがクオンツの核心だと言えます。
00:08:50過去に収益性が良かったパターンを見つけるだけなら
00:08:52バックテスト・ツールさえあれば
00:08:55誰にでもできるでしょう。
00:08:56しかし、過去にも良く、かつ未来にも良いものを見つけ出すのは
00:09:00実際には非常に困難であり
00:09:02いわば「干し草の山から針を探す」ような作業なのです。
00:09:04私がいくつかのブログやサイト
00:09:07特に韓国のサイトを見て回ったところ
00:09:09ジョエル・グリーンブラットの「魔法の公式」が
00:09:12非常に有名なようですね。
00:09:13この人物は非常にシンプルな
00:09:15時価総額などによるフィルタリングを通じて
00:09:17銘柄を選定する公式を立てて
00:09:20投資に関する「魔法の公式」という本を書いたのですが
00:09:24それが大きな話題となり
00:09:25一般の個人投資家にも広く知られるようになったようです
00:09:28一方で この方はヘッジファンド界でも非常に有名です
00:09:311980年代から投資を始めていますが
00:09:33その投資期間中 ウォーレン・バフェットよりも
00:09:35高い収益率を記録したことで
00:09:37さらに「魔法の公式」が脚光を浴びたのだと思います
00:09:40結論から申し上げますと
00:09:42このグリーンブラット氏はクオンツではなく
00:09:44彼のヘッジファンドは魔法の公式だけで投資していたわけではありません
00:09:47高い収益率は 魔法の公式によるものではないのです
00:09:50このファンドはバリュー投資に加え
00:09:52「スペシャル・シチュエーション」投資も行っていました
00:09:54それはスピンオフなどの
00:09:57例えば 会社が分割される際などに
00:09:59生じる価格の乖離や
00:10:01エッジ(優位性)を捉えて利益を出す
00:10:04そういった手法を併用していたのです
00:10:07また バリュー投資の部分でも このような単純な公式を
00:10:10使っていたわけではないと思います
00:10:12もちろん そのフレームワークは反映されていたでしょうが
00:10:14機械的に公式だけで売買して
00:10:18利益を出していたのではないと考えられます
00:10:20「魔法の公式」が公開された後の
00:10:222005年からの収益をバックテストしてみると
00:10:26グレーがS&P指数で
00:10:28緑が「魔法の公式」です
00:10:29ご覧の通り 変動性が高いまま推移し
00:10:32結局 ずっと市場を下回っています
00:10:34これらは システマティック・エクイティETFなど
00:10:37似たような投資手法が登場し
00:10:40市場がより効率的になったことで
00:10:42その優位性が失われたとも言えますが
00:10:44これほど有名な公式でも このような結果しか出せないことから分かるように
00:10:48過去に収益性の高かったパターンを見つけるのは非常に簡単です
00:10:50それで本を書くこともできます
00:10:53しかし 未来にも収益性が高いパターンを見つけるのは
00:10:56本当に 膨大な作業を必要とします
00:11:00ですから 数日の思考と数回のクリックで導き出せる
00:11:03年利20%の戦略なんて この世には存在しません
00:11:06もう一つの例はクオントピアン(Quantopian)です
00:11:08クオントピアンは2011年頃に設立されたスタートアップで
00:11:12米国でバックテストを非常に容易にしたプラットフォームでした
00:11:1630万人が1,200万回のバックテストを通じて
00:11:20膨大な数のクオンツ戦略をそこでテストし 作成しました
00:11:24有名な億万長者のスティーブ・コーエンも投資していました
00:11:27ヘッジファンド・トレーダーですね
00:11:29そしてクオントピアンのトップクラスのクオンツたちが
00:11:32論文まで出版しながら
00:11:34これらの戦略の中で 未来にも収益性が高い戦略を
00:11:37どのような基準や どのような統計的手法で
00:11:40選び出すべきか
00:11:41そういった部分を本当に集中的に研究して
00:11:44戦略を選定し
00:11:46それで新しいヘッジファンドを運用しようという
00:11:48発想だったのですが
00:11:49無残にも失敗しました
00:11:51結局 昨年閉鎖されました
00:11:53なぜこのような現象が起きるのでしょうか?
00:11:55そして クオンツ運用を志す視聴者の皆さんは
00:11:58どうすればこのような結果を回避できるでしょうか?
00:12:02もちろん 完全に避けることはできません
00:12:03それは非常に困難な作業だと考えています
00:12:07それでも 挑戦してみたいのであれば
00:12:10最低限 この10か条は心に留めて
00:12:12注意していただきたい
00:12:13そのような観点から一つずつお話しします
00:12:16この10か条を意識するだけでも
00:12:17不適切なバックテストで時間を無駄にしたり 損失を出したりすることは
00:12:22免れるのではないかと思います
00:12:24もちろん バックテストが完璧だからといって 利益が保証されるわけではありません
00:12:27まず一つ目は データを疑ってみる必要があるということです
00:12:31GoogleやYahooのデータを使う方もいますが
00:12:34そういったデータは驚くほど「汚い」です
00:12:37クオンツ・トレードを一から始めようとする方は
00:12:41本当にデータの段階で多くの障害に直面します
00:12:45無料データは質が悪く 誤りも多いです
00:12:47次に データをきれいにする
00:12:50「データクリーニング」の作業ですが
00:12:51単にエラーを見つければいいと思われがちです
00:12:54しかし 実際には人間の主観的な判断や
00:12:57偏見も入り込むことになります
00:12:59例を挙げてみましょう
00:13:01ある株が41ドルから43ドル台で取引され
00:13:05取引を終えたとします
00:13:06しかし 大引け間際に
00:13:08一人のトレーダーが注文ミスをして
00:13:1128ドルで1株 約定してしまいました
00:13:14すると厳密に言えば
00:13:16その日の安値は28ドルになります
00:13:1828ドルでその人はミスをして大きな損をしましたが
00:13:21とにかく安値は28ドルと記録されるべきですよね
00:13:24それが事実ですから
00:13:25では安値と高値をどう設定するか
00:13:28これを除外して 41ドルを安値とするのは
00:13:31実は 実際に存在したトレード
00:13:34実際の安値を削除することになります
00:13:36しかし これを除外しないと
00:13:38例えば 当日の値幅から
00:13:405分以内に5%以上急落したら
00:13:44買い注文を入れるという
00:13:45戦略をバックテストした場合
00:13:4728ドルで買ったと
00:13:48バックテストが認識する可能性があります
00:13:51すると 28ドルで買って
00:13:53終値の42ドルで
00:13:55即座に売却したとバックテストが認識し
00:13:58その戦略の収益が
00:13:59大幅に水増しされることになります
00:14:011株なら削除できますが
00:14:03もしこのトレーダーの注文ミスが
00:14:0610株 100株 あるいは1万株だったとしたら
00:14:09実際にそのようなケースはあります
00:14:11そういったケースは時々起こるのです
00:14:14数百億ウォンを失うような
00:14:17大規模なケースも実在しましたが
00:14:20100株や1,000株といった
00:14:21ミスは意外と頻繁にあります
00:14:23もちろん ここ数年は
00:14:24アルゴリズムが
00:14:25執行(エグゼキューション)を担うようになり
00:14:27セーフティネットも整備されたため
00:14:29昔ほど頻繁ではありませんが
00:14:31いずれにせよ バックテストのデータには
00:14:33アルゴリズム執行が普及する前のデータ
00:14:362011年や2005年といった
00:14:37古い時期まで遡ると
00:14:39こうしたケースがちょくちょく見受けられます
00:14:41それをどう処理するのか
00:14:43また 複数の取引所で
00:14:44売買される商品があります
00:14:45そうした商品の場合
00:14:47複数の取引所のデータが
00:14:49統合されて
00:14:50安値や高値
00:14:52売買データや出来高などが
00:14:53きれいに統合されたデータなのか
00:14:56それとも
00:14:57一部の取引所のデータだけを抽出した
00:14:59不完全な売買データで
00:15:01バックテストを行っているのか
00:15:02データ費用が安い場合は
00:15:04その可能性があります
00:15:05また MDD(最大ドローダウン)を計算する際
00:15:07終値ではなく安値を基準にしているか
00:15:09例えば 月次で
00:15:11リバランスを行う戦略を
00:15:13バックテストする際
00:15:14日次データを使用しながら
00:15:15終値のみを用いる場合があります
00:15:17しかし実際には
00:15:18ドローダウンを計算するには
00:15:20日中のドローダウンも
00:15:21考慮すべきですよね
00:15:22そうした些細な部分や
00:15:24先物でバックテストをする場合
00:15:26期限がある商品なら
00:15:27どのようにロールオーバーするか
00:15:29あるいは バックテストにおいては
00:15:31連続した先物限月をつなぎ合わせて
00:15:33データを作成し
00:15:34テストを行いますが
00:15:35その限月のロールオーバーを
00:15:37どう扱うかといった
00:15:38問題など
00:15:39これら以外にも非常に多くあります
00:15:40こうしたデータの問題について
00:15:42考えたことがあるか
00:15:44あるいは バックテスト・サービスを利用しているなら
00:15:47業者のデータが適切だと信じ切っていないか
00:15:51そういった部分を確認する必要がありますが
00:15:53意外にもデータの問題で非常に多くの誤りが発生し
00:15:57バックテストの結果が
00:15:59歪められているケースが多いのです
00:16:01そのほか データに起因する問題の一つが
00:16:04「生存者バイアス」です
00:16:06バックテストにおける代表的なエラーの一つです
00:16:08この図は何かというと
00:16:10第一次か第二次かは分かりませんが世界大戦の際
00:16:12空軍が飛行機を補強しようとしました
00:16:16装甲のどこを
00:16:18より強化すべきか
00:16:20それを把握するために
00:16:21エンジニアたちが空中戦を終えて
00:16:24帰還した飛行機を集め
00:16:26どこが最も被弾しているか
00:16:28それを調べました
00:16:29そして「この部分が一番撃たれやすい」と判断し
00:16:33その箇所を
00:16:34鉄板を厚くするなどして
00:16:36補強しようという結論に至りましたが
00:16:38これはとんでもない間違いです
00:16:40なぜなら 実際にこの部分や
00:16:42この部分
00:16:42あるいはあちらの部分に
00:16:44被弾した飛行機は
00:16:46すべて墜落して帰還できなかったからです
00:16:49手元にあるデータだけで結論を出すのがいかに危険か
00:16:50与えられたデータだけで結論を下すことが
00:16:52いかに危険であるかをよく示している例ですが
00:16:54株式投資における「生存者バイアス」を例に挙げると
00:16:56例えば
00:16:57今振り返って
00:16:59「80年代にAppleやMicrosoftを買っていれば」
00:17:02「今頃は大儲けだったのに」
00:17:03そう考えて
00:17:05ハイテク株を買い続ける戦略を立てるとしましょう
00:17:08しかし、実際に80年代当時
00:17:10AppleやMicrosoftと同等に有望視されていた会社は
00:17:1330社以上もありました
00:17:14そして、そのうちの28社は消えてしまったのです
00:17:17生き残ったのは、わずか2社だけでした
00:17:19この生き残った2社だけを見て
00:17:22その2社に注目しながら
00:17:23「あんなふうに投資すれば成功できる」と考えるわけです
00:17:27このように、現在生き残っている会社だけを
00:17:30バックテストの対象にして
00:17:32検証を行うと、収益率は当然底上げされます
00:17:35これは当然、バックテストの期間が長ければ長いほど
00:17:38より深刻な問題になります
00:17:40なぜなら、その長い期間の
00:17:41初期には存在していたものの
00:17:43途中で消えてしまった会社がたくさんあるはずだからです
00:17:45しかし、意外と多くの初心者投資家の方々が
00:17:47バックテストを始める際に
00:17:48まず「ストックユニバース」を決めますが
00:17:51「どの銘柄を対象にバックテストを行うか」という
00:17:54その範囲を決める時に
00:17:55現在存在している会社だけで構成してしまうのです
00:17:58そして、その中から
00:17:59様々な基準でバックテストを行い
00:18:02「どうやって優良企業を選び出すか」を
00:18:05判断しようとします
00:18:07しかし、そうしてしまうと
00:18:08テスト開始時から現在までに
00:18:11倒産した会社はすべて除外されることになります
00:18:13まるで自分に神のような予知能力が
00:18:16備わっていると仮定してテストしているようなものです
00:18:18そうなれば、収益率は当然実際よりも膨れ上がります
00:18:21ですから、バックテストを行う際は
00:18:23例えば20年間のテストなら
00:18:252001年当時に存在していた会社を対象に
00:18:29テストを開始し
00:18:30それを母集団(ユニバース)にすべきだということです
00:18:32それともう一つ、余談ですが
00:18:33余談として
00:18:34YouTubeに登場するいわゆる「スーパー個人投資家」たちも
00:18:37生存者バイアスの問題を抱えている可能性があります
00:18:40実力でその地位を築いた方もいらっしゃるでしょうが
00:18:43非常に大きなリスクを取って
00:18:45ある一つの銘柄に巨額の資金を投じ
00:18:48それがたまたま当たって
00:18:49スーパー個人投資家になった人もいます
00:18:51しかし、同じような行動をとった人たちが
00:18:53他にも30人、50人といたはずなのです
00:18:55そのようにハイリスクな行動をとった50人のうち
00:18:58生き残った一人の姿を
00:18:59視聴者は見ているだけかもしれません
00:19:02これもまた、生存者バイアスの一種と言えるでしょう
00:19:05ですから、今この時点で
00:19:06「自分もあんなふうになりたい」と
00:19:08極端にリスクの高い投資をしてしまうと
00:19:11必ずそうなれるわけではなく
00:19:1350人のうち運良く生き残った一人に、自分がならなければいけません
00:19:17こうしたバイアスを認識しているだけでも
00:19:20より合理的で賢明な投資ができるようになります
00:19:22バックテストのプラットフォームを利用する際は
00:19:24先ほど申し上げたデータの正確性や
00:19:27生存者バイアスの処理といった問題を
00:19:28すべてその提供業者に委ねていることになります
00:19:31無批判に、ですね
00:19:32しかし、果たしてその業者が
00:19:33こうしたバイアスやデータの問題について
00:19:35本当に厳密に
00:19:37ユーザーの立場に立ち、その収益率を
00:19:39実戦レベルで心配しながら
00:19:41多額の資本を投入して
00:19:43データをクリーンに整えているでしょうか
00:19:45そこを必ず確認しなければなりません
00:19:48次に、2つ目の注意点は
00:19:50「ルックアヘッド・バイアス」です
00:19:52未来の情報を先取りしてはいけない、ということです
00:19:54ルックアヘッド・バイアスを日本語にするなら
00:19:57「先読みバイアス」でしょうか
00:19:58そのように解釈できますが
00:20:00売買時点ではまだ入手不可能な情報が
00:20:03バックテストは過去のデータで行うため
00:20:05時系列で見ると
00:20:07去年の時点では存在しなかった情報なのに
00:20:09去年の売買判断にその情報を反映させて
00:20:12売買ロジックを組んでしまっているケースが
00:20:14珍しくありません
00:20:15これを「ルックアヘッド・バイアス」と呼びます
00:20:18代表的なミスの例を挙げると
00:20:21例えば、今月の2021年9月を基準に
00:20:24韓国株すべてをバックテストするのは大変だから
00:20:27「上位100銘柄だけでやろう」
00:20:29ユーザーがそう考えたとします
00:20:30コスピ(KOSPI)の時価総額上位100社を絞り込んで
00:20:34それを対象にバックテストを行います
00:20:35「PERがいくらなら買う」といった戦略で
00:20:38検証を進めたとします
00:20:3910年間のバックテストをしたところ
00:20:41収益率が非常に良かった
00:20:42さて、何が間違っているでしょうか?
00:20:44今、2021年9月時点の時価総額上位100社を選びましたね
00:20:50その銘柄だけで検証しましたが
00:20:5110年前の2011年を起点にテストをすると
00:20:552021年にどの会社が上位100社に入っているかを
00:20:59あらかじめ知っている状態でテストしているのと同じです
00:21:01時価総額上位であるということは、実際には
00:21:03その株価が着実に上昇してきたという結果論だからです
00:21:06こうした点に注意を払っているつもりでも
00:21:08つい時価総額で区切って
00:21:11「上位数百社だけでテストしよう」と
00:21:12安易に考えてしまうところで
00:21:14非常に多くのミスが発生します
00:21:15また、別の例としては
00:21:17企業の財務諸表やファンダメンタルズ指標でテストする際
00:21:21四半期ごとの各企業の決算発表の
00:21:24日程は企業ごとにバラバラですよね
00:21:26各企業が決算発表を行った後に
00:21:29リバランス(銘柄入れ替え)や
00:21:31実際の売買が行われるべきですが
00:21:33例えば、翌月初めにようやく決算発表される情報を
00:21:36まだ知らないはずなのに、数日前の月末時点で
00:21:40リバランスを行ってしまう
00:21:41未来をすでに知った状態で売買することになるわけです
00:21:44こうした要素がバックテストに混じることがあります
00:21:46さらにもう一つの例は
00:21:48例えば、終値を基準に売買を行うと
00:21:50仮定して
00:21:52毎日リバランスを行う設定にするとします
00:21:54終値というのは、その日が終わって初めて確定する情報です
00:21:57しかし、注文は市場が閉まる
00:22:005分前に約定するようにバックテストを設定したりすると
00:22:03そうした時間的な前後関係の中で
00:22:05未来の確定情報を先取りしてしまうような
00:22:07バイアスが生じる可能性があります
00:22:09そして、3つ目が非常に重要です
00:22:11「過学習(オーバーフィッティング)」を避けること
00:22:13いくら強調してもしすぎることはない部分ですが
00:22:16過学習とは何かというと
00:22:18与えられたサンプルデータに対してのみ
00:22:19過剰に適合し、性能が良く見えるモデルを作ってしまうことです
00:22:23例えば、今ここにサンプルがあるとします
00:22:25私たちが本当に知りたいのは
00:22:27その背後にある「母集団」です
00:22:29実際の全体像である母集団を
00:22:32推測したいわけですが
00:22:34母集団について詳しくない方もいるかもしれないので
00:22:36簡単に説明すると
00:22:38例えば、選挙結果について
00:22:40世論調査を行うとします
00:22:41全国民を対象に調査を行えば
00:22:44それは完璧な調査になります
00:22:46精度100%の調査です
00:22:48しかし、全国民に聞くことはできないので
00:22:50国民の中から「サンプル」を抽出します
00:22:53一部の人だけを選び、そのサンプルが背後の母集団を代表している
00:22:58つまり「代表性」があると
00:22:59仮定して推測を行うわけです
00:23:02同様に、株式データも本来の母集団データは
00:23:06このように分布しており
00:23:08その中からいくつかのサンプルを抜き出して
00:23:10「本来の姿はどうなっているか」を推測します
00:23:16その形状に合わせてモデルを適合させようとしている図ですが
00:23:20「モデルを適合(フィッティング)させる」とは
00:23:22今のサンプルと、このモデルの近似曲線との
00:23:25誤差が最小になるような線を見つける作業です
00:23:30こうした線のことですね
00:23:30しかし、このように極端に複雑で
00:23:34グニャグニャしたモデルを当てはめると
00:23:37サンプルデータ上の誤差はゼロになります
00:23:39すべてのサンプル点を通っていますから
00:23:41このサンプルにおいては完璧で
00:23:44誤差ゼロのモデルです
00:23:47しかし、これが本当に背後にある母集団を正しく表現しているでしょうか?
00:23:51違いますよね?
00:23:51新しいサンプルを持ってくれば、誤差は非常に大きくなるはずです
00:23:54ですから、ある程度適度に適合させないと
00:23:58新しいサンプルが入ってきた時に
00:24:00誤差の合計を抑えることができません
00:24:03一方で、あまりにも単純な直線で
00:24:06適合させてしまうと
00:24:08「未学習(アンダーフィット)」となり、最適化が足りません
00:24:10サンプルデータ上ですら、すでに誤差が大きくなってしまいます
00:24:13モデリングにおいて最も重要なのは
00:24:16このように「適度に最適化」することですが
00:24:18多くの方がバックテストを行う際
00:24:20過去のデータ、いわばサンプルデータに対して
00:24:24そのサンプルの中で
00:24:26収益率が最大化されるように
00:24:29ありとあらゆるルールを詰め込んで
00:24:32収益率を極限まで高めてしまうのです
00:24:35例えば「2015年から2021年のデータで検証した結果」
00:24:39「PERが13.75以上17.23以下で」
00:24:43「時価総額が517億以上623億以下」
00:24:46PBRが1.17以下の株を買えば
00:24:50年利70%の収益が可能だという
00:24:52そんなバックテストの結果が出たとします
00:24:54これは明らかに行き過ぎた「オーバーフィッティング」です
00:24:57過剰適合させてしまったわけですね
00:24:58例えばPERが17.24で収益性の低かった銘柄が
00:25:04たまたまデータに含まれていたために
00:25:05時価総額が515億だったのに
00:25:09それが悪い例だったから条件をこう設定した、といった具合に
00:25:12過去のサンプルデータだけを見て細かく条件を詰め込み
00:25:16何とかして収益率を最大化しようとすると
00:25:19このようなモデルが作られてしまいます
00:25:21すると将来、実際にその分布からデータが出てきた時に
00:25:25誤差の範囲が大きくなってしまいます
00:25:27そういう話なのですが
00:25:28もう少し詳しく見ていきましょう
00:25:29これも過剰適合の一例です
00:25:31赤と青の点をうまく分類する
00:25:34境界線を見つけようとしています
00:25:36線形モデルのようなものですね
00:25:37この黒い線は適切に学習されていますが
00:25:40緑のうねうねした線は
00:25:42今見えている青と赤の点に対しては
00:25:46完璧に分類できています
00:25:48つまり、このサンプルデータ上では
00:25:50誤差ゼロの完璧な線なのですが
00:25:52実際の背後にある母集団では
00:25:55青がこのあたりから出てきたり
00:25:57赤がこのあたりから出てくるようになると
00:25:59将来、実際に新しいデータが入ってきた時に
00:26:03この緑の線は誤差が非常に大きくなるはずです
00:26:05そう推測できますよね
00:26:07ですから、過去のデータに詳細に合わせすぎると
00:26:10将来は通用しなくなります
00:26:11これも似たような例ですが
00:26:13在学生100人の個人情報に関する
00:26:15詳細なデータを収集したとします
00:26:16それを基に、今年の学生100人の中から
00:26:19成績が優秀な学生を判別しようとします
00:26:20苗字が何々で
00:26:22身長はこの範囲、といったように
00:26:23去年の成績上位者のデータに対して
00:26:26過剰に最適化させてしまい
00:26:28判別ルールを決めてしまうと
00:26:30今年の学生にそれを適用した際
00:26:32全くとんちんかんな結果になりかねません
00:26:34「勉強時間が何時間以上の学生」という風に
00:26:37判別ルールをシンプルに定めれば
00:26:39去年の学生のデータに当てはめた時は
00:26:42詳細なルールよりも
00:26:44正確性は落ちるかもしれません
00:26:45しかし正確性は少し落ちても
00:26:47今年の学生に適用した時も
00:26:49同程度の正確性を維持できる確率が高いのです
00:26:53では、この過剰適合の問題をどう緩和すべきでしょうか?
00:26:56あらゆるバックテストは多少なりともこの問題を抱えており
00:27:00完全に排除することは不可能です
00:27:01例えば過去5年間のデータで検証した戦略が
00:27:06今後3年間有効かどうか、どうすれば分かるでしょうか?
00:27:08その問いに対する完璧な答えは
00:27:11「実際に3年間トレードしてみること」です
00:27:12ですが、それはあくまで事後的な話であり
00:27:153年間運用して損失が出た後では
00:27:17意味がありませんよね?
00:27:17そこで一つの方法は
00:27:19「Out of Sample Data」という
00:27:21サンプル外のデータを利用することです
00:27:23この訳し方で合っているか分かりませんが
00:27:25一般的には「OOSデータ」と呼ばれます
00:27:27例えば
00:27:282015年9月から2021年9月までの
00:27:316年間のデータで
00:27:33収益の良い戦略を見つけ出して
00:27:342021年10月からいきなり運用するのは良くありません
00:27:38そうするのではなく
00:27:392014年9月から2020年9月までの
00:27:426年間のデータを使って
00:27:44収益の良い戦略を見つけ出し
00:27:46それをさらに2020年10月から
00:27:492021年9月の期間で、もう一度バックテストするのです
00:27:52つまり、2014年からの6年間のデータで
00:27:55バックテストを行い、良い戦略を見つけたら
00:27:57それを2020年10月から実際に運用したと想定して
00:28:021年間のバックテストを行ってみるのです
00:28:04その結果が良ければ
00:28:062021年10月から実戦投入するという流れです
00:28:09もちろん、このように分けることで
00:28:10また別の問題が発生することもありますが
00:28:12それは後ほど扱うことにして
00:28:13今お伝えしたいポイントは
00:28:16サンプルデータがこれだけあるなら
00:28:18その一部をあらかじめ切り分けておくことです
00:28:19分けておいてから
00:28:21残りのデータで懸命に戦略を模索し
00:28:23何度もバックテストを重ねて
00:28:24そこで最適化を行ってみる
00:28:26ですが、すぐに実戦投入はせず
00:28:28戦略構築には
00:28:30一切使わなかった別のデータに対して
00:28:31「ここからが本番だ」と想定して
00:28:33試してみるわけです
00:28:34これがサンプル外データ、すなわち
00:28:35「OOSデータ」を利用するということです
00:28:38データサイエンスの世界では
00:28:39学習データ、検証データ
00:28:41訓練データ、テストデータ、あるいは
00:28:42開発データといった
00:28:44様々な用語がありますが
00:28:45用語自体はそれほど重要ではありません
00:28:464番目の話は3番目から続くのですが
00:28:48「検証のチャンスは一度きり」だということ
00:28:50これが非常に、非常に、非常に重要です
00:28:53いくら強調してもしすぎることはないほど
00:28:58本当に重要な一文なのですが
00:29:01このサンプル外データテストについて
00:29:03もう少し深掘りしてみましょう
00:29:04サンプルデータとサンプル外データには
00:29:06色々な呼び名がありますが
00:29:08この動画内では
00:29:09「学習データ」と「検証データ」に
00:29:11統一して呼びます
00:29:12先ほどの例で言えば
00:29:132014年から2020年までの
00:29:16データが学習データです
00:29:18つまり、学習データとは
00:29:19戦略を見つけ出すために使ったデータのこと
00:29:20そして戦略を見つけた後に
00:29:22それを試してみるためのもの
00:29:24最後の1年間に対して
00:29:26バックテストを行う対象を
00:29:28検証データと呼ぶことにします
00:29:30さて、このグラフが示しているのは
00:29:32ルールやモデルがどれほど複雑か、ということです
00:29:35右に行くほど
00:29:36より複雑なモデルであることを意味します
00:29:38例えば身長が173cmから
00:29:40173.25cmの間、といった風に
00:29:42ルールを細かく決めて
00:29:44複雑にすればするほど
00:29:45モデルの複雑度は上がっていきます
00:29:47一方で、これは予測誤差
00:29:49つまり実戦に投入した際に
00:29:50どれだけ誤差が生じるかを表していますが
00:29:52これを見ると
00:29:53トレーニングサンプル
00:29:54つまり学習データにおいては
00:29:55複雑なモデルを使えば使うほど
00:29:58誤差は減っていきます
00:29:59先ほど、サンプルがいくつか点在する中で
00:30:02うねうねとした線を引いて
00:30:03複雑にすればするほど
00:30:05そのサンプルデータ内では
00:30:06誤差をゼロにまで減らせる、という話をしました
00:30:08ですから、モデルを極限まで複雑にすれば
00:30:12誤差はゼロに収束していきます
00:30:14しかし、そうやって学習させたモデルを
00:30:16あらかじめ分けておいた検証データで
00:30:18一度試してみると
00:30:19どれくらいの誤差が出るでしょうか
00:30:21最初はモデルが非常に単純な
00:30:23直線のようなものであったり
00:30:24「アンダーフィッティング」の状態では
00:30:26誤差は両方のデータで似たような値になります
00:30:28ところが、モデルやルールが複雑になるにつれて
00:30:31学習データ上のサンプルでは
00:30:33誤差が減り続けていくのに対し
00:30:35検証データでは
00:30:37ある地点で底を打ち、過度に複雑になり始めた瞬間から
00:30:40逆に誤差が増え始めてしまいます
00:30:42投資のバックテストに例えるなら
00:30:45バックテストを何度も繰り返し回し
00:30:47あれこれと非常に細かいルールを設定し
00:30:51何度も試行錯誤しながら
00:30:52非常に緻密に
00:30:55パラメーターなどを調整して
00:30:56「PERの値をいくら以上にすべきか」といった
00:30:59細かなルールを複雑に作り上げるほど
00:31:02過去データ上の収益率はどんどん上がっていきます
00:31:05今は誤差のグラフなので、低いほど良いわけですが
00:31:08つまり、過去のデータに無理やり合わせたバックテストは
00:31:12合わせれば合わせるほど、収益率は良く見えてきます
00:31:15しかし、いざ実戦に適用した際
00:31:17あまりにも複雑にしすぎていると
00:31:18ある時点からは、ルールが複雑であればあるほど
00:31:21実戦での収益率は低下してしまいます
00:31:23こういう現象が起こるわけです
00:31:24今、私は「誤差が低くなること」を
00:31:26「収益率が良くなること」と表現し
00:31:28「誤差が高くなること」を「収益率が悪くなること」と
00:31:31言い換えましたが
00:31:32厳密に言えば
00:31:33誤差が大きくなるということは
00:31:34収益率が低くなることとは少し違います
00:31:37バックテストをいい加減に行い
00:31:39極端にオーバーフィッティングさせればさせるほど
00:31:42バックテスト上の収益率と将来の収益率との乖離
00:31:45すなわち誤差が大きくなる、ということであり
00:31:47その誤差によって、ランダムに
00:31:49収益がより高くなることもあれば
00:31:50低くなることもあり得ます
00:31:51ですが、一般的にそれほどの誤差が出ると
00:31:53実戦での収益率はもっと悪くなります。
00:31:55なぜなら、過去のデータに合わせる際、
00:31:57収益率を最大限に引き上げるように
00:31:59無理やり適合させているからです。
00:32:00そのため、その収益率から誤差が生じれば
00:32:02通常は下振れすることになります。
00:32:03では、学習データと検証データを
00:32:06どのように分けてバックテストを行うべきか。
00:32:08例えば、2011年から2021年までの
00:32:1111年分のデータで学習して来年から適用するのは、
00:32:15検証データを使わないという意味になります。
00:32:18すべてを学習データとして使って適用する形ですが、
00:32:21これはお勧めしません。
00:32:22先ほど申し上げた「分ける」というのは、
00:32:25例えば10年分のデータを学習データとして学習させた後、
00:32:282021年の最後の1年で検証を行い、
00:32:312022年から適用するという方法があります。
00:32:34ただ、これについては後ほど説明しますが、
00:32:36それほど良い方法ではありません。
00:32:38他に、もう少し改善された方法には何があるでしょうか。
00:32:40ウォークフォワード・テストという方式があります。
00:32:43これはどういうものかというと、
00:32:44例えば99年から3年間、
00:32:46そこで学習してパラメータを最適化した後、
00:32:49それを基に1年間検証してみて、
00:32:52その後にこのようにローリングさせていく方式です。
00:32:55この方式で戦略を立てるようになると、
00:32:58例えば非常に単純なモデル、
00:33:01私はPERを基準にしたバックテストは
00:33:04ありえないと思っていますが、
00:33:05PERが一定以下の株を買う戦略があると仮定しましょう。
00:33:08すると、10年間のデータ上で
00:33:11PERを最適化する場合、
00:33:13年ごとに最適なPER基準はすべて異なるはずですが、
00:33:17その中から平均的に良好なものを選択することになります。
00:33:20しかし、それをもう少し絞って
00:33:22直近3年分を基にPERの値を決めて売買を行うなど、
00:33:26このようにテストをすれば、
00:33:28このパラメータをより柔軟に、
00:33:30時間の経過とともに調節できるようになります。
00:33:32そのような形でテストをするのですが、
00:33:35そのようにしてもいいですし、
00:33:37次に「k-分割交差検証(K-Fold CV)」という
00:33:38クロスバリデーションがありますが、
00:33:39これはどうするかというと、
00:33:41このkの値が「いくつに分割するか」という意味です。
00:33:45図を見ると、kの値は5ですね。
00:33:47kの値を5に決めると、データを5等分して、
00:33:50この4年分で学習させた後に、
00:33:531年分の検証データで収益率がいくらになるか確認します。
00:33:56その次に、別の4つで学習させた後に、
00:33:59残りの1年でどうだったかを検証し、
00:34:01これを繰り返して収益率の平均を5分の1で出します。
00:34:05つまり、これらの収益率を平均化するのです。
00:34:09それが期待できる収益率に近い、
00:34:12と考えるわけです。
00:34:13他には、例えば過去10年間のデータを使う場合、
00:34:16偶数年のデータで学習を行い、
00:34:19奇数年のデータで検証することもあります。
00:34:22これらにはすべて一長一短がありますが、
00:34:23このメリットを挙げますと、
00:34:26「マーケット・レジーム・チェンジ」に対してパラメータが非常に安定します。
00:34:30どういう意味かというと、
00:34:31金融危機やコロナショックが起きると、
00:34:33市場の性質が変化してしまいます。
00:34:35例えば、2008年に金融危機が起きましたが、
00:34:391998年から2007年までのデータで学習して
00:34:43収益率の良いものを見つけ出し、
00:34:45そこで検証したとしても、
00:34:46市場の性質が変わってしまうため、
00:34:49分布も異なってきますし、
00:34:51その後の市場状況を
00:34:52それ以前のパターンが反映することはありません。
00:34:55ですから、このように分割すれば、
00:34:57何か甚大な事件が起きて
00:35:00市場の性質やパターンが変わってしまう問題に対して、
00:35:02もう少し安定的に検証することができます。
00:35:06ですので、このような方式を使ったりもしますが、
00:35:08この方式を使う際は先ほど言った「未来を見てしまうこと」に
00:35:11注意しなければなりません。
00:35:13なぜなら、売買周期によって異なりますが、
00:35:16月単位で売買するとした場合、
00:35:18現在の学習データに
00:35:192014年の学習データが反映されていますが、
00:35:222013年にどのような規則やデータを使うかによって、
00:35:262014年にならないと分からない情報が
00:35:28検証データに混ざってしまうことがあるからです。
00:35:30そうなると、検証データの収益率は水増しされてしまいます。
00:35:34すでに未来を見て学習してしまったわけですから。
00:35:36ですから、この部分には特に注意が必要です。
00:35:39そして、かなり大まかな話になりますが、
00:35:41機械学習(マシンラーニング)などの分野には
00:35:44「ハイパーパラメータ」という要素があります。
00:35:46一般的に「パラメータ」はモデル自体が
00:35:50サンプルデータの誤差を減らすために調節していく部分であり、
00:35:54「ハイパーパラメータ」は人間が決めなければならない部分です。
00:35:57例えば、回帰分析をするとしましょう。
00:35:59そこで直線を使うのか、あるいは曲線を使うのか、
00:36:03つまりパラメータがどれほど複雑な形の式、
00:36:07そのようなモデルを使うのか、
00:36:09そういったことは人間が決定します。
00:36:11このパラメータの数などがハイパーパラメータにあたります。
00:36:15それを決めておけば、あとはデータに応じて
00:36:18データの誤差を最適化する方向で
00:36:22線をフィッティングさせるわけです。
00:36:23傾きや切片といった部分が、データに合わせて
00:36:28モデルが学習した結果となり、それらをパラメータと呼びます。
00:36:33ですので、ハイパーパラメータも色々試してみる必要があります。
00:36:36ですから、単に「トレイン・テストデータ」に分けるのではなく、
00:36:40「開発(dev)データ」をもう一つ設けることもあります。
00:36:42そこで最適化を行ってから、
00:36:45ハイパーパラメータはそこに最適化し、
00:36:48その後にテストデータで検証する、という形もとられます。
00:36:51機械学習をご存知の方はすでにご理解されているでしょうし、
00:36:55知らない方はこれくらいの説明では分からないはずですので、
00:36:58これくらいにして次へ進みます。
00:37:00ただ、このような作業をする際、本当に、本当に、本当に、
00:37:04いくら強調してもしすぎることはない重要な点があります。
00:37:08それは検証データについてです。
00:37:10検証データは、絶対に、絶対に、二度見てはいけません。
00:37:15その結果を。
00:37:16学習データで徹底的に学習して、収益率の良い戦略をバックテストで何度も探しますよね。
00:37:22その戦略が学習データ上ではとにかく収益率が良いものが見つかったとしても、
00:37:26実戦でそれが本当に通用するかを検証するために、
00:37:31学習データには使わなかった期間やデータを使って回してみるわけです。
00:37:38ですが、これを二度回すことは絶対に許されません。
00:37:41たった一度だけ回して、その一度きりの収益率が悪かったなら、
00:37:45たとえ何年も努力し、その戦略を作るのにどれほど苦労したとしても、
00:37:50その戦略全体を潔く捨てなければなりません。
00:37:52なぜか? 実戦でその戦略を適用して損益を出す機会も一度きりだからです。
00:37:57時間を巻き戻すことはできませんよね。
00:37:58それにもかかわらず、もったいないからといって検証データでの結果が悪かったのに、
00:38:03また学習データだけを使ってパラメータを少し調整したりして、
00:38:07再び回した結果、検証データの収益率が良くなったとしましょう。
00:38:10そうした瞬間に、もはや検証データは検証データではなく、
00:38:14学習データの一部に組み込まれてしまったことになります。
00:38:16パラメータを探す過程で、検証データまで含めて最適化してしまったからです。
00:38:21ですから、その戦略が実戦でどれほどの収益率を出せるかについて、
00:38:26私たちは何の保証もできなくなります。
00:38:29そのため、その部分が非常に重要ですし、
00:38:31バックテストをする際の重要な点として、これも繋がる話ですが、
00:38:34時代は変わるという「マーケット・レジーム」という概念があります。
00:38:37一つ質問をしてみましょう。
00:38:3920年間のバックテストと3年間のバックテスト、
00:38:42どちらがより有意義でしょうか?
00:38:44すでにタイトルに書いているので答えは出ていますが、
00:38:47多くの投資初心者の方が「バックテストは長いほどいい」、
00:38:50「データは多いほどいい」と考えていらっしゃいます。
00:38:54ですが私なら、この2つのバックテストのうち、
00:38:57もちろん時間軸やどれくらいの頻度で売買するか、
00:39:00それによっても異なりますが、
00:39:01基本的には3年分のデータを使います。
00:39:03データの個数は多ければ多いほど良いです。
00:39:06しかし、それは同じ分布から生じるデータでなければなりません。
00:39:09データは多ければ多いほど良いのは確かですが、
00:39:11すでに環境が変わってしまったところから来る、質の異なるデータが混ざるのは良くないのです。
00:39:17バックテストを長く設定すると直面する問題は、
00:39:20市場の性質が変わってしまうということです。
00:39:22これは実質収益率のグラフでしょうか、
00:39:26とにかく金利に関するグラフですが、
00:39:28見ての通り、時期によって「適正金利」と呼ばれる概念自体が、
00:39:33このように変動はしますが、
00:39:34その体制下での適正金利のレベルが劇的に変化しています。
00:39:38この時期はこのあたりで、これがオイルショックでしょうか、
00:39:41とにかくこの時期を境に、この時はまたここになり、
00:39:45その後の80年代以降は、
00:39:47ここが一般的に通用する金利となりました。
00:39:51さて、債券関連のトレーディングをする際に、
00:39:53この時期のデータで売買戦略を学習させ、
00:39:57それをこちらの時期に適用するとしましょう。
00:39:59すると、この「マーケット・レジーム」が変わってしまうと、
00:40:02以前のデータで学習して作った収益性の高い戦略は、
00:40:07こちらでは通用しなくなります。
00:40:08これが「マーケット・レジーム・チェンジ」と呼ばれるものです。
00:40:11市場の性質、体制の変化ですね。
00:40:14市場の性質の変化は、
00:40:17市場のプレイヤーの変化によっても引き起こされます。
00:40:20例えばコロナ以降、個人投資家が大量に流入したことで
00:40:23ゲームストップ騒動なども起きました。
00:40:25以前、つまりコロナ以前は、
00:40:27あのような空売り戦略、ショートセリング戦略は、
00:40:30ショート専門のヘッジファンドも存在するように、
00:40:32非常によく通用する戦略だったのですが、
00:40:34突然このような変化で市場の性質が変わり、
00:40:37倒産寸前まで追い込まれたケースもありました。
00:40:39次に制度や規制の変化です。金融危機が起き、
00:40:43投資銀行での自己勘定取引(プロップ・トレーディング)が禁止され、
00:40:45デリバティブ市場でも様々な規制により市場が変化しました。
00:40:49そのような金融危機以前のデータで
00:40:50学習した戦略というものは、
00:40:52その後はうまく通用しなくなるでしょう。
00:40:54次に外生的なイベントです。
00:40:55オイルショックのように、あまりにも強力で
00:40:57市場そのものを変えてしまうような
00:40:59マクロ経済的なイベントのことです。
00:41:01それから、マクロ経済的な変化もあります。
00:41:03負債比率が徐々に上昇していく中で、
00:41:06金利水準が昔はこれくらいだったのが、
00:41:08今では凄まじい低金利時代になったことなどが挙げられます。
00:41:11そうした中で、実際には量的緩和といった要素も
00:41:13こうした低金利の一助となり、
00:41:15その結果、成長株が突然アウトパフォームする現象が
00:41:17この10年間、凄まじい勢いで続きました。
00:41:19しかし、量的緩和以前の学習データを使って
00:41:22収益性の高い戦略を見つけ出したとしても、
00:41:24それはバリュー株を買い込むような内容だったりします。
00:41:25そうなると、当然その後の10年間は
00:41:27非常にパフォーマンスが悪かったはずです。
00:41:28他にも、新技術の登場や
00:41:30産業構造の変化など、
00:41:32そういった要因が挙げられます。
00:41:33ですから、20年分のバックテストをした際、
00:41:352001年のデータが果たして意味を成すのか。
00:41:38もちろん「マーケット・レジーム・チェンジ」は
00:41:40どの要素に着目するかによって、
00:41:42その捉え方は変わってきます。
00:41:43結局のところ、戦略のロジックや
00:41:45ルール、あるいはモデルが
00:41:47どの要素を注視し、
00:41:49どのデータを使用しているのか、
00:41:51それによって
00:41:52そのデータのレジームが
00:41:53変化しているかどうかを見極める必要があります。
00:41:55例えば、月単位でも
00:41:56非常に速いサイクルで性質が変化する
00:41:58データもあれば、
00:41:59あるいは10年、15年ほどは
00:42:01極めて安定しているデータもあります。
00:42:03周期はそれぞれ異なるため、
00:42:05一般的に言えば、
00:42:07無条件にコロナが起きたからといって
00:42:09それ以前のすべてのパターンが
00:42:09無意味になるわけではありません。
00:42:12しかし、いずれにせよ20年分もの
00:42:14データを一括りに扱うのは、
00:42:15明らかに少し問題がある、
00:42:17そう考えて間違いありません。
00:42:18もし、極めて古いデータを
00:42:20用いて推論しようとした場合、
00:42:22マーケット・レジームが
00:42:23途中で変化し、
00:42:24さらにまた変化を繰り返したとしても、
00:42:25最終的に現在の状況を反映している
00:42:29遠い過去のデータであれば、
00:42:30再び活用できる場合もあります。
00:42:32そのため、一部の人々は
00:42:33「1940年代と現在が似ている」
00:42:35といった話をすることもありますが、
00:42:37これは余談です。
00:42:38さて、クオンツ・トレーディングは
00:42:41非常に一般的になり、
00:42:42個人投資家も実践していますが、
00:42:44長期投資における
00:42:45クオンツ投資の盲点は、
00:42:47こうした計量的手法を
00:42:49長期投資に適用する際、
00:42:51膨大なデータ技術を確保すると同時に
00:42:53レジーム・チェンジを避けるのが極めて困難だという点です。
00:42:55例えば、分単位のデータを使う
00:42:57アルゴリズム取引戦略があるとしましょう。
00:42:591時間に
00:43:0160個のデータがあります。
00:43:0260分ですから、
00:43:0360個のデータがあり、
00:43:04それを例えば、
00:43:0524時間取引される先物だとします。
00:43:0824を掛けると、
00:43:091,440個。
00:43:10合ってますよね?
00:43:101,440個のデータになります。
00:43:121日に1,440個のデータがあり、
00:43:15週5日の取引で年間250日、
00:43:17あるいは251日あると仮定すると、
00:43:20年間で約30数万個、
00:43:21それくらいの数のデータが
00:43:231年間で確保されます。
00:43:25わずか1年分でも
00:43:2630数万個というデータ量が確保できるため、
00:43:29十分に有意な大量のデータの中で
00:43:32検証を行い、
00:43:33より複雑なモデルを試すといった
00:43:35ことが可能になります。
00:43:36一方、月単位で売買する
00:43:37リバランス戦略を考えてみましょう。
00:43:39すると、1年に12個しかありません。
00:43:4120年続けても、
00:43:42わずか240個です。
00:43:44データ数を時間軸で増やせないため、
00:43:47多様な銘柄を分析対象に加えることで
00:43:49横方向へ広がりを持たせ、
00:43:51統計的な有意性を確保しようとしますが、
00:43:53結局のところ、時間軸における
00:43:54レジーム・チェンジを避けるのは難しいのです。
00:43:57こうした部分が非常に困難な点です。
00:43:58コロナショックの後、
00:44:00多くのクオンツたちが――
00:44:02このイニゴ・フレイザー・ジェンキンスという人物は、
00:44:05著名な企業のクオンツ・ヘッドだと記憶していますが、
00:44:09「なぜ私はもはやクオンツではないのか」
00:44:11というテーマで説明を行いました。
00:44:13その内容を要約すると、
00:44:15クオンツの役割は過去のパターンから未来を予測することですが、
00:44:19このように
00:44:20コロナのような事態が起きると過去のパターンが通用しなくなり、
00:44:23マーケット・レジーム・チェンジが起きた際、
00:44:25クオンツにできることは極めて限定的になってしまうのです。
00:44:28そのため「クオンツの存在論的危機」
00:44:30といった話も出ましたし、
00:44:31昨年はクオンツにとって非常に厳しい年でした。
00:44:34もちろん好成績を収めた一部のクオンツもいますが、
00:44:36平均的には極めて不調でした。
00:44:38さて、これで半分ほど進んだかと思いますが、
00:44:40すでに1時間半が経過しましたので、
00:44:43ひとまず第1部はここまでとします。
00:44:45明日の第2部では、残りの6番から10番を扱い、
00:44:49長所と限界、
00:44:50そしてクオンツ学習のためのカリキュラムについて
00:44:52お話ししていこうと思います。
00:44:54それでは、第2部でお会いしましょう。
00:44:55ありがとうございました。

Key Takeaway

クオンツ投資の成功には、データの正確性の追求、バイアスの排除、そして過去のデータに過度に適応させない厳格な検証プロセスが不可欠です。

Highlights

クオンツ投資は「科学・統計」という言葉の裏にある非科学的な側面を理解し、バックテストの過信を避ける必要がある

過去に収益性が高かったパターンは無限に存在するが、真に困難なのは未来にも通用する「針」を見つけ出すことである

生存者バイアスや先読みバイアスなど、データの不備や処理の誤りがバックテストの結果を大きく歪めている

過学習(オーバーフィッティング)を避けるために、学習データと検証データを厳格に分けることが不可欠である

市場の性質が変化する「マーケット・レジーム・チェンジ」により、過去の長期間のデータが現在の予測に役立たない場合がある

Timeline

クオンツ投資への警鐘と本動画の趣旨

ウォール街出身のスピーカーが、最近のクオンツ投資に対する誇大広告や誤った情報の蔓延に強い懸念を表明しています。初心者がバックテストの結果を盲信し、多額の損失を出すことを防ぐために、実戦で役立つ「注意すべき10か条」を提示することを宣言しました。クオンツは統計や科学といった言葉に隠れて非科学的な側面を持ちやすいため、正しい理解が必要であると説いています。自身の苦い経験も交えながら、投資系YouTuberとしての責任感を持って、中立的な立場から改善案を共有する姿勢を示しています。特定業者への攻撃ではなく、業界全体の健全化と投資家保護を目的とした内容になっています。

クオンツの分類と投資の基本原則

クオンツ投資を時間軸や手法に基づき、超高頻度売買(HFT)、アルゴリズム取引、統計的裁定取引、ファクター投資、クオンタメンタルなどのカテゴリーに分類して概説しています。クオンツ売買の基本プロセスは「仮説立案」「バックテスト」「実戦売買」「リスク管理」の4ステップで構成されると説明しています。かつては理系博士号を持つ専門家の専売特許でしたが、現在はプラットフォームの普及により個人投資家も手軽に利用可能になりました。しかし、技術の普及と同時に、手法の表面的な模倣や誤った理解も広まっていると指摘しています。ここでは、クオンツの定義が広範であり、境界線が曖昧であることも補足されています。

バックテストの罠と「魔法の公式」の実態

過去のデータで高い収益率を出すパラメータを見つけることは容易ですが、それが未来の利益を保証するわけではないという核心的な問題を提示しています。ジョエル・グリーンブラットの有名な「魔法の公式」を例に挙げ、公開後の収益率が市場を下回っている現実を紹介しています。過去に良好だった戦略は無限に存在するため、真の課題は「過去に良く、かつ未来にも良いもの」を選別することにあります。かつて成功を収めたクオントピアン(Quantopian)というプラットフォームが、膨大な戦略を検証しながらもヘッジファンド運営に失敗し閉鎖された事例も挙げています。数日の学習やクリックだけで年利20%を達成できるような魔法は存在しないと断言しています。

注意点1:データの信憑性と「生存者バイアス」

バックテストの基礎となるデータの質に焦点を当て、無料データの「汚れ」やエラー処理に伴う主観的判断の危険性を解説しています。特に、現在生き残っている企業だけで検証を行う「生存者バイアス」が、収益率を不当に底上げする最大の要因の一つであると指摘しています。第二次世界大戦中の戦闘機の補強箇所を決定する際の誤りという有名な例えを用い、見えないデータ(倒産した企業)の重要性を説いています。20年前のテストを行うなら、20年前当時の母集団から開始しなければならないという鉄則を強調しています。また、YouTubeで有名な投資家もこのバイアスの一部である可能性を示唆し、盲従しないよう促しています。

注意点2 & 3:先読みバイアスと過学習(オーバーフィッティング)

未来の情報を無意識に売買判断に取り込んでしまう「ルックアヘッド・バイアス(先読みバイアス)」の具体例を挙げて警告しています。例えば、現在の時価総額上位100社を対象に10年前からのテストを行うことは、未来の勝者を知った上での「後出しジャンケン」に等しいと述べています。続いて、クオンツ最大の敵である「過学習」について、サンプルデータに対してモデルを複雑にしすぎると、未知のデータに対する予測力が失われる仕組みを詳述しています。PERや時価総額などの数値を極限まで細かく調整して収益率を高める行為は、実戦では誤差を生むだけの無益な作業であると批判しています。シンプルなルールほど、将来の異なる状況下でも安定したパフォーマンスを維持しやすいという原則を説明しています。

注意点4 & 5:検証の厳格さとレジーム・チェンジ

過学習を防ぐための「サンプル外データ(OOS)」や「k-分割交差検証」といった統計的手法を詳しく紹介しています。ここで最も重要なルールとして、検証用データの結果を見て戦略を修正する行為は「検証データの学習データ化」を招くため、一度きりの勝負であるべきだと強調しています。また、市場の性質が劇的に変わる「マーケット・レジーム・チェンジ」についても触れ、金利体系や量的緩和の影響で過去のデータが役に立たなくなるリスクを論じています。長期投資におけるクオンツ手法の限界として、データ数の不足と環境変化の回避の難しさを挙げています。最後に、コロナ禍のような未曾有の事態では過去のパターンが通用しなくなり、クオンツが「存在論的危機」に直面した現状を伝えて第1部を締めくくっています。

Community Posts

View all posts