[华尔街大叔] 量化投资的虚与实 - 第一部：一知半解反而有害

中文العربية Deutsch English Español Français हिन्दी Bahasa Indonesia 日本語 한국어 Português

월월가아재의 과학적 투자

StocksAdvertising/MarketingBeginning InvestingInternet Technology

Transcript

00:00:00但是，无论是过去的10年、20年还是30年

00:00:03如果以这样的时间段来看

00:00:04在这期间，展现出良好盈利能力的模式大约有多少个呢？

00:00:09答案是无限的。实际上这也是可以证明的。

00:00:12大家好，我是 Wall Street Guy。

00:00:21今天我们要探讨的是量化投资。

00:00:24在我的 YouTube 评论区、提问和邮件中

00:00:26一直有人希望我讲解关于量化交易的内容

00:00:29根据我未来的目标、方向以及频道课程规划

00:00:33关于算法交易或量化交易

00:00:36原本没打算在近期内涉及。

00:00:38但由于我们频道的订阅者中

00:00:40有大约 15% 的人正在进行量化交易

00:00:44加上最近对量化投资领域有一些令人担忧的现象

00:00:48所以制作了这段视频。

00:00:50今天的内容大纲首先是量化的分类和原则

00:00:53在概括性地了解这些部分后

00:00:56我将列举量化交易中需要警惕的 10 件事。

00:00:59只要记住这 10 点，就能避免在量化交易中

00:01:04浪费大量的时间

00:01:06或者在回测和方法论上

00:01:09因为使用了错误的方法

00:01:11而导致巨额损失的情况发生。

00:01:15虽然这些都是最基本的常识

00:01:18但目前市面上一些价格不菲的付费课程

00:01:21似乎并没有详细讲解这些内容。

00:01:24相反，那些课程往往会对回测和量化投资

00:01:27进行某种程度的美化

00:01:31只要您能牢记今天分享的这 10 点，无论关于量化投资

00:01:35听到什么样的信息，或者使用什么样的服务

00:01:39都能在一定程度上保护自己，确保安全。

00:01:43在开始之前，其实几天前我曾以略显激动的语气

00:01:47发布过一篇简短的帖子

00:01:49我觉得自己当时可能有些失策。

00:01:51当时写的是，近期关于量化投资的病毒式营销和夸大广告

00:01:54似乎有些过头了。

00:01:55结果评论区里出现了一些针对特定个人

00:01:59或特定机构的恶意评论。

00:02:02担心会对那些人或机构造成负面影响，所以我删除了帖子

00:02:06说实话，那些内容并不像非法荐股群

00:02:09或非法配资公司那样属于违法乱纪的行为

00:02:12我也觉得自己可能有些管得太宽了。

00:02:16但另一方面，配资账户之类的问题

00:02:19使用者本身也知道那是违法的

00:02:22说白了，也要为自己的贪念承担一部分责任。

00:02:25但观察最近关于量化投资的讨论氛围

00:02:28我觉得这可能会让那些只是想通过正当努力

00:02:33来做好理财的普通人

00:02:35在刚进入量化投资领域时

00:02:37遭受不必要的损失。

00:02:40因为量化投资常与“科学”和“统计”等关键词挂钩

00:02:46即使其中包含非科学成分，也容易让人产生误解

00:02:51非法荐股或配资账户一眼就能看出是违法的

00:02:55想躲还是能躲开的

00:02:56但这（量化误导）可能会产生想努力学习的善良受害者。

00:03:01比如宣称只要学习几天就能成为量化投资高手

00:03:04或者说这是经过数十年数据验证的策略

00:03:08又或者是通过暗示“过去 10 年实现了 20% 的复利”

00:03:11来传达“未来也会如此”的错觉

00:03:14虽然说这些话的人未必带有恶意，可能只是随口一说

00:03:18但在众多的听众中，那些投资小白

00:03:20很可能会产生误会或错觉

00:03:23从而在回测上虚耗大量时间

00:03:25甚至导致金钱上的亏损。

00:03:27如果对回测结果产生过度信任甚至是某种信仰

00:03:32根据美国证券交易委员会（SEC）的规定，如果基金产品

00:03:35以这种方式向客户进行营销，会被直接判定为违法。

00:03:38因此，我希望那些谈论量化投资的人

00:03:41能更沉重地看待他人资金的分量。

00:03:45虽然不知道我的 YouTube 频道会做多久

00:03:47但我说这些话并不是为了塑造正义的形象

00:03:51也不是为了装好人

00:03:52而是因为我自己在 20 多岁时也曾为钱所困，吃过不少苦

00:03:56我很清楚那种感受。

00:03:58而且因为我经常分享亏损后的心态管理

00:04:01以及我 20 多岁时遭遇巨大亏损的经历和故事

00:04:05所以似乎特别多的人找我咨询这类问题

00:04:09每周都会收到好几封订阅者的咨询邮件

00:04:14说自己亏损了上亿韩元，非常苦恼。

00:04:16所以，涉及金钱的理财、股票、房产类博主

00:04:20我认为至少应该进行一次自我审视。

00:04:24我最近在做“80天投资环游记”的过程中

00:04:26也渐渐觉得自己有点像在带单

00:04:29我想着等这次熊市结束，一定要找回初心。

00:04:33总之，我是出于这样的初衷才制作这个视频的

00:04:37绝非针对特定的个人或机构

00:04:40从事量化投资营销的人

00:04:43可能也有自己并不知情的部分

00:04:46我希望能以此为契机，大家共同意识到这些问题

00:04:49并一起努力改进

00:04:51所以请各位观众不要在评论区猜测是在针对谁

00:04:55或是发表类似的言论。

00:04:57开场白有些长了

00:04:58我们先来看看量化的分类。

00:05:01首先，“量化”是一个定义非常广泛且多样的概念。

00:05:04为了方便理解，大致按时间维度

00:05:07可以分为：超高频交易 (HFT)

00:05:10在高频交易中，还有一种叫作

00:05:12极速高频交易 (Ultra HFT)

00:05:14这涉及到将服务器托管在交易所内部

00:05:19使用机器语言级别的编码

00:05:20追求极致的硬件性能

00:05:22这属于那个层级的交易

00:05:24接下来是时间跨度稍长一些的

00:05:28算法交易 (Algorithmic Trading)

00:05:29使用技术指标或基于规则 (Rule-based) 的策略

00:05:33个人投资者参与较多

00:05:35也是目前回测平台等工具中最为普及的部分。

00:05:39然后是统计套利 (Statistical Arbitrage)

00:05:41比如配对交易 (Pair Trading)

00:05:42利用统计模型或技巧

00:05:44使用统计学方法论

00:05:46通过寻找历史模式

00:05:48在均值回归的假设下

00:05:50进行交易的一个类别

00:05:52还有因子投资 (Factor Investing)。

00:05:54这通常更偏中长期，涵盖动量因子、价值因子、利差 (Carry) 等

00:05:59旨在找出驱动价格波动的因子

00:06:01寻找阿尔法收益 (Alpha) 等等

00:06:03而近几年成为热门话题的是

00:06:06量化基本面 (Quantamental)

00:06:07即将基本面分析进行量化和自动化

00:06:10加入各种数据分析、另类数据 (Alternative Data)

00:06:12这是一种尝试进行长期投资的方式

00:06:16在同样的脉络下，机器学习、

00:06:18大数据、另类数据等技术

00:06:20也正在向各个领域扩展。

00:06:23这些分类只是为了方便说明

00:06:26实际上界限非常模糊，对吧？

00:06:28也有人将这整个范畴都称为算法交易

00:06:30大概就是这样。

00:06:31因此，对于一般的量化交易

00:06:33我会从宏观的角度

00:06:35将它们放在一起讨论。

00:06:37量化交易的基本原则是

00:06:40首先，必须有投资想法或假设，对吧？

00:06:42接着进行回测 (Backtesting)。

00:06:44在历史数据中对该投资想法

00:06:47或假设进行验证。

00:06:50如果觉得“这样做好像能赚钱”

00:06:51那就把这种做法代入历史数据

00:06:54看看过去这样做是否

00:06:56真的赚到了钱。

00:06:57如果回测结果良好

00:07:00就开始实盘交易

00:07:01同时进行风险管理

00:07:03整个流程大致由这四个部分组成。

00:07:06其实直到 2010 年代中期

00:07:09量化交易几乎还是机构的专利，而且是机构中

00:07:13拥有众多理工科博士量化人才的

00:07:16量化基金的专利

00:07:18但随着机构在交易执行 (Execution)

00:07:21等方面逐渐普及化

00:07:23加上美国出现了像 Quantopian

00:07:25这样让回测变得非常简单的服务

00:07:28自从这些服务推出后，普通个人

00:07:30也能轻松利用量化交易

00:07:33这已成为一种日益普及的趋势。

00:07:35但与此同时，对量化投资的一些错误理解

00:07:38最近似乎也在不断增加

00:07:40我们可以举个例子

00:07:42比如：在过去 15 年里，投资于 PBR 低于 0.92

00:07:46且在过去 12 个月内上涨的上市公司

00:07:48年化收益率可达 20.2%。

00:07:51如果把 PBR 数值稍作调整

00:07:53收益率可能会变成 14% 或 17.8%。

00:07:56通过这一系列的回测

00:07:58发现第一个结果是最好的

00:08:01于是得出结论：按照第一个结果的规则

00:08:03来进行投资吧

00:08:04我经常看到这种得出结论的方式。

00:08:07但实际上，这是一个错误的示范。

00:08:09请大家仔细思考一下

00:08:12回测的过程其实是基于

00:08:14“历史模式在未来也会重复”

00:08:16这样一个无法保证的假设

00:08:18去寻找过去盈利性良好的模式。

00:08:21但是，无论是过去的 10 年、20 年还是 30 年

00:08:24如果以这样的时间段来看

00:08:26在这期间，盈利性良好的模式数量

00:08:29大约会有多少个呢？

00:08:30大家可以先暂停视频思考一下

00:08:32答案是无限的。

00:08:34实际上这也是可以证明的。

00:08:36由于各种策略的参数是连续的

00:08:38事实上存在着无数个过去盈利良好的策略。

00:08:42但问题是，这其中有多少在未来也能保持盈利？

00:08:46这才是量化投资最核心的部分。

00:08:50寻找过去盈利良好的模式

00:08:52只要有回测工具

00:08:55任何人都能找得到。

00:08:56但要找到那个“过去表现好且未来也表现好”的策略

00:09:00其实是非常困难的

00:09:02简直就是大海捞针。

00:09:04我浏览了许多博客和网站

00:09:07发现韩国的一些网站上

00:09:09乔尔·格林布拉特的“神奇公式”

00:09:12非常有名。

00:09:13他通过非常简单的

00:09:15市值等筛选条件

00:09:17通过设定这种选股公式

00:09:20他写了一本关于“神奇公式”投资法的书

00:09:24那本书引起了巨大的轰动

00:09:25在普通个人投资者中似乎流传甚广

00:09:28但其实这位在对冲基金界也极其有名

00:09:31他从20世纪80年代就开始投资了

00:09:33在他投资的这段期间，比亚里士多德——哦不对，比巴菲特

00:09:35记录了更高的收益率

00:09:37所以这个“神奇公式”似乎更受关注了

00:09:40但先说结论

00:09:42格林布拉特并不是量化交易员

00:09:44而且他的对冲基金也并非只靠“神奇公式”来投资

00:09:47他那优秀的收益率并不是靠“神奇公式”投出来的

00:09:50他的基金在进行价值投资的同时

00:09:52也进行了所谓的“特殊情况投资”

00:09:54例如像“分拆上市”这类情况

00:09:57比如某家公司进行拆分时

00:09:59捕捉其中产生的价格偏差

00:10:01通过这些“优势（Edge）”来获取收益

00:10:04他是将这些方法论结合在一起使用的

00:10:07而且我认为在价值投资部分，他也不会只使用

00:10:10这种如此简单的公式

00:10:12当然，那套框架肯定被反映在其中了

00:10:14但绝不会只是机械地套用这种公式去买入

00:10:18我不认为收益是那样产生的

00:10:20所以，在“神奇公式”公开以后

00:10:22如果对2005年以来的收益进行回测

00:10:26灰色的这条线是标普指数

00:10:28绿色这条线是“神奇公式”

00:10:29可以看到，它只是处于高波动状态

00:10:32然后一直处于跑输大盘的状态

00:10:34这些部分是因为出现了像系统性权益ETF

00:10:37这类类似的投资工具

00:10:40随着市场变得更加有效

00:10:42也可以看作是那种“优势”消失了

00:10:44从如此著名的公式也只能表现出这种水平就能看出

00:10:48寻找过去收益良好的模式是非常容易的

00:10:50甚至还可以据此写一本书

00:10:53但是要寻找未来也能保持高收益的模式

00:10:56真的需要耗费极其巨大的心力

00:11:00所以，靠几天的思考和点几次鼠标就能得出的

00:11:03年化20%的策略，在这个世界上是不存在的

00:11:06另一个例子是Quantopian

00:11:08Quantopian是一家在2011年左右成立的初创公司

00:11:12它是美国一个让回测变得非常容易的平台

00:11:16当时有30万人通过1200万次回测

00:11:20在那上面测试并创造了极其大量的量化策略

00:11:24著名的亿万富翁史蒂夫·科恩也投资了它

00:11:27他就是那位著名的对冲基金交易员

00:11:29而且Quantopian的那些顶尖量化分析师们

00:11:32甚至还发表了论文

00:11:34研究在这些策略中，未来仍能盈利的策略

00:11:37应该基于什么标准、使用什么样的统计方法

00:11:40来进行筛选

00:11:41他们真的对此进行了非常集中的研究

00:11:44筛选出策略后

00:11:46想着用这些策略来运作一个新的对冲基金

00:11:48虽然想法是这样的

00:11:49但结果却惨败

00:11:51最终在去年倒闭了

00:11:53为什么会发生这种现象呢？

00:11:55对于想要进行量化交易或量化投资的观众来说

00:11:58该如何避免这种结果呢？

00:12:02当然，无法完全避免

00:12:03我也认为这是一项相当艰巨的任务

00:12:07即便如此，如果您仍想尝试挑战

00:12:10至少请务必记住这10点

00:12:12并保持谨慎

00:12:13我将从这个角度逐一为大家说明

00:12:16只要记住这10点

00:12:17应该就能避免因错误回测而浪费时间

00:12:22以及遭受损失的情况

00:12:24当然，做好回测并不保证一定能盈利

00:12:27首先，第一点是必须怀疑数据

00:12:31我看到有些人使用谷歌或雅虎的数据

00:12:34但那些数据其实非常非常“脏”

00:12:37所以对于那些想从零开始做量化交易的人来说

00:12:41真的会在数据上遇到很多阻碍

00:12:45这种免费数据很脏，错误也很多

00:12:47其次，在让数据变干净的

00:12:50“数据清洗”作业中

00:12:51你可能以为只要找出错误就行了

00:12:54但实际上，人的主观判断

00:12:57和偏见也难免会渗入其中

00:12:59我来举一个例子

00:13:01假设某只股票在41到43美元区间交易

00:13:05然后收盘了

00:13:06但在临近收盘时

00:13:08某位交易员因为下单失误

00:13:11导致一股以28美元成交了

00:13:14那么严格来说

00:13:16当天的最低价就是28美元

00:13:18虽然这个人在28美元价位因失误蒙受了巨大损失

00:13:21但无论如何，最低价应该被记录为28美元

00:13:24因为那是事实

00:13:25那么该如何设定最高价和最低价呢？

00:13:28如果删除这一笔，把最低价定为41美元

00:13:31实际上也是删除了真实存在的交易

00:13:34删除了真实的最低价

00:13:36但如果不删除它

00:13:38举个例子，在当天的波动范围内

00:13:40如果股价在5分钟内暴跌超过5%

00:13:44就下达买入指令

00:13:45在对这种策略进行回测时

00:13:47回测程序可能会识别为

00:13:48在28美元买入了

00:13:51那么我以28美元买入

00:13:53并在收盘价42美元

00:13:55立即卖出，回测会这样识别

00:13:58从而导致该策略的收益

00:13:59被极大地夸大

00:14:01当然，因为只有1股，你可以选择删除

00:14:03但如果这位交易员的下单失误

00:14:06是10股、100股，甚至是1万股呢？

00:14:09实际上确实有过这样的案例

00:14:11这类案例偶尔会发生几次

00:14:14虽然那种损失数百亿韩元的

00:14:17大规模案例确实存在

00:14:20但这种100股、1000股的

00:14:21失误其实比想象中更频繁

00:14:23当然，最近几年

00:14:24随着算法

00:14:25接管了交易执行

00:14:27安全机制也更加完善

00:14:29不像以前那么频繁了

00:14:31但无论如何，回测数据中

00:14:33如果是算法执行普及之前的数据

00:14:36比如追溯到2011年、2005年

00:14:37甚至更久以前

00:14:39经常能看到这类案例

00:14:41那么该如何处理这些数据呢？

00:14:43此外，还有在多个交易所

00:14:44进行交易的商品

00:14:45如果是这类商品

00:14:47那些来自不同交易所的数据

00:14:49是否已经被整合

00:14:50成为包含最低价、最高价

00:14:52以及交易数据、交易量等

00:14:53经过清洗和整合的数据呢？

00:14:56或者

00:14:57你只是获取了几个交易所的数据

00:14:59在用不完整的交易数据

00:15:01进行回测？

00:15:02如果数据成本很低

00:15:04就很有可能存在这种情况

00:15:05另外，在计算最大回撤（MDD）时

00:15:07是基于收盘价还是最低价？

00:15:09例如，在对每月

00:15:11进行调仓的策略

00:15:13进行回测时

00:15:14虽然使用的是日度数据

00:15:15但也有人只用收盘价

00:15:17但事实上

00:15:18为了计算这种资产回撤

00:15:20必须也要观察

00:15:21日内回撤（Intraday Drawdown）

00:15:22这些细微的部分

00:15:24或者是用期货进行回测时

00:15:26如果是带有到期日的商品

00:15:27该如何处理展期（Rollover）？

00:15:29或者在回测中

00:15:31将连续的期货到期合约连接起来

00:15:33创建出数据后

00:15:34进行回测

00:15:35但对于到期展期

00:15:37该如何界定和处理

00:15:38这类问题

00:15:39除了这些，还有非常多类似的问题

00:15:40但是对于这些数据问题

00:15:42您是否曾深思熟虑过？

00:15:44或者如果您使用某些回测服务

00:15:47是否只是盲目相信那家公司已经处理好了数据？

00:15:51这些部分都有必要去确认

00:15:53数据问题引发的错误远比想象中多

00:15:57导致回测结果

00:15:59出现失真的情况非常普遍

00:16:01除此之外，数据带来的另一个问题是

00:16:04幸存者偏差

00:16:06这是回测中最具代表性的错误之一

00:16:08这张图展示的是

00:16:10我不确定是一战还是二战

00:16:12当时空军想要加固飞机

00:16:16在考虑甲板的哪个部位

00:16:18需要把防御层做得更厚

00:16:20为了弄清楚这一点

00:16:21工程师们把经历过空战后

00:16:24返航的所有飞机集中起来

00:16:26统计了哪里挨的子弹最多

00:16:28并对此进行了分析

00:16:29于是得出结论：啊，这些部位挨子弹最多

00:16:33所以要把这些部位

00:16:34用更厚的铁板加固

00:16:36他们本来打算这样做

00:16:38但这是一个极其严重的错误

00:16:40因为实际上像这个部分

00:16:42那个部分

00:16:42或者是这些部位

00:16:44在那些位置被击中的飞机

00:16:46全部都坠毁了，根本没能返航

00:16:49所以，仅凭手头现有的数据下结论有多危险

00:16:50通过已有数据得出结论

00:16:52是多么危险的一件事，这是一个很好的例子

00:16:54如果在股票投资中提到“生存者偏差”

00:16:56比如

00:16:57现在回头看

00:16:59如果当初在80年代买了苹果和微软

00:17:02现在肯定发大财了

00:17:03因为有了这种想法

00:17:05假设我们制定了一个专门购买这类科技股的策略

00:17:08但在80年代当时

00:17:10和苹果、微软一样有潜力的公司

00:17:13当时超过了30家

00:17:14而其中有28家已经销声匿迹了

00:17:17结果只有2家存活了下来

00:17:19虽然最后只剩下了这两家

00:17:22但人们看着这两家会想

00:17:23“啊，现在这么投资就能发财”

00:17:27这种只针对目前幸存的公司

00:17:30进行回测（Backtesting）的做法

00:17:32收益率必然会被夸大

00:17:35而且回测的时间跨度越长

00:17:38问题就会越严重

00:17:40因为在那么长的时间里

00:17:41肯定有很多公司在初期是存在的

00:17:43但后来破产倒闭了

00:17:45但意想不到的是，很多股市新手

00:17:47在开始这种回测时

00:17:48首先要设定股票池（Stock Universe）

00:17:51即确定要对哪些股票进行回测

00:17:54在设定这个范围时

00:17:55往往是用现在依然存在的公司来构成的

00:17:58然后在那个范围内

00:17:59通过各种标准进行回测

00:18:02试图判断如何从中挑选出好公司

00:18:05这种判断方式

00:18:07会导致

00:18:08从回测开始到现在的这段时间里

00:18:11所有破产的公司都会被排除在外

00:18:13这等于是假设自己拥有

00:18:16某种“神之预知力”后再进行的回测

00:18:18那么收益率自然会比实际情况虚高

00:18:21所以进行回测时

00:18:23如果要回测20年的数据

00:18:25应该以2001年当时存在的公司为对象

00:18:29开始回测

00:18:30并以此作为考察范围

00:18:32我想强调的是这一点

00:18:33顺便说一下

00:18:34YouTube上出现的那些“超级散户”

00:18:37可能也存在生存者偏差的问题

00:18:40虽然有些确实是靠实力成为超级散户的

00:18:43但也有人是冒了极大的风险

00:18:45重仓买入了某一只股票

00:18:48结果正好赶上大涨

00:18:49从而成为了超级散户

00:18:51但采取过这种冒险行为的人

00:18:53当时可能还有30个、50个

00:18:55在50个做了高风险行为的人中

00:18:58只有一个人活了下来

00:18:59而观众看到的可能只是那一个人

00:19:02这或许也是生存者偏差的问题

00:19:05如果此时此刻

00:19:06抱着“我也要变成那样”的想法

00:19:08去进行极高风险的投资

00:19:11并不能保证一定会成功

00:19:13而是必须成为50个人中那个幸运儿才行

00:19:17所以，仅仅是意识到这些偏差的存在

00:19:20就能帮你进行更理性、更明智的投资

00:19:22因此，在使用回测平台时

00:19:24刚才提到的数据问题

00:19:27或者是生存者偏差的问题

00:19:28很多人会天真地认为相关机构已经处理好了

00:19:31就这样全权委托给他们

00:19:32但问题是，那些机构

00:19:33是否真的针对这些部分或数据问题

00:19:35非常非常严谨地

00:19:37站在用户的立场上，担心用户的收益率

00:19:39甚至是实战中的收益率

00:19:41而投入了大量的资本

00:19:43去把数据清洗得干净准确呢？

00:19:45这些部分是必须要去确认的

00:19:48接下来，第二个需要注意的点是

00:19:50“前瞻性偏差”（Look-ahead Bias）

00:19:52也就是不要偷看未来

00:19:54给“Look-ahead Bias”起个简单的名字

00:19:57可以叫“未来先知偏差”？

00:19:58大概可以这样解释

00:20:00在交易发生时还无法获得的信息

00:20:03因为回测是基于历史数据进行的

00:20:05所以从时间点的角度来看

00:20:07有些信息在去年其实并不存在

00:20:09但在编写去年那个时间点的交易逻辑时

00:20:12却参考了这些信息并进行了交易

00:20:14这种情况并不少见

00:20:15这就是所谓的前瞻性偏差

00:20:18这类偏差中一个代表性的错误是

00:20:21比如，以本月（2021年9月）为准

00:20:24觉得回测所有的韩国股票太辛苦了

00:20:27那就只测100个吧

00:20:29用户可能会产生这种想法

00:20:30于是筛选出KOSPI市值排名前100的公司

00:20:34并以此进行回测

00:20:35比如制定“PER达到某种程度就买入”的策略

00:20:38然后这样

00:20:39进行了10年的回测

00:20:41结果发现收益率非常好

00:20:42但这里哪里错了呢？

00:20:44你是以2021年9月为基准筛选出的市值前100名

00:20:50只选了那些特定的股票

00:20:51如果回测10年的话，就意味着在2011年

00:20:55你就已经预先知道了2021年哪些公司

00:20:59会排在市值前100名以内

00:21:01因为市值排名靠前

00:21:03本质上意味着该股票的价格在持续上涨

00:21:06但人们往往不太留意这些

00:21:08觉得只要按市值切分

00:21:11选出几百个就行

00:21:12在这种思维方式中

00:21:14非常容易犯错

00:21:15还有另一个例子

00:21:17在使用企业的财务报表、基本面或业绩数据进行回测时

00:21:21每个季度各家企业发布业绩的

00:21:24具体日期其实都是不一样的

00:21:26但在这些企业发布业绩之后

00:21:29是否紧接着进行了仓位调整

00:21:31或者进行了其他交易

00:21:33比如这家企业直到下个月初才发布业绩

00:21:36但在回测中，你在知道这个信息的情况下，早在几天前的月底

00:21:40就进行了调仓

00:21:41这等于是在预知未来的情况下进行交易

00:21:44这类情况很容易混入回测中

00:21:46再举一个例子

00:21:48比如设定根据收盘价进行交易

00:21:50并假设

00:21:52进行每日（Daily）调仓

00:21:54但收盘价是必须在一天结束后才能知道的信息

00:21:57然而在回测中，如果设定成

00:22:00在收盘前5分钟执行成交

00:22:03这样在时间节点上

00:22:05就产生了提前获知未来的

00:22:07这类偏差

00:22:09接下来第三点非常、非常重要

00:22:11那就是避免“过拟合”（Overfitting）

00:22:13这是一个无论怎么强调都不为过的部分

00:22:16过拟合是什么呢？

00:22:18简单说就是让模型

00:22:19仅在给定的样本数据上表现得异常出色

00:22:23例如，现在有这样一组样本

00:22:25而我们真正想了解的

00:22:27是其背后的“总体”（Population）

00:22:29我们想要推测出

00:22:32整体性的实际总体情况

00:22:34可能有人不太清楚什么是总体

00:22:36我简单解释一下

00:22:38假设我们要针对选举结果

00:22:40进行舆论调查

00:22:41如果对全国所有民众进行调查

00:22:44那就会是一个完美的舆论调查

00:22:46准确度高达100%

00:22:48但由于无法对所有民众进行调查

00:22:50所以会从全国民众中抽取样本

00:22:53只抽取部分人口，并假设该样本能代表其背后的总体

00:22:58即具有代表性

00:22:59并以此进行推论

00:23:02在这些数据中，背后的实际总体数据

00:23:06可能是这样分布的

00:23:08我们从中抽取几个样本

00:23:10并利用样本来推测背后的总体是什么形状

00:23:16现在看到的是为了符合那个形状而进行模型拟合（Fitting）的过程

00:23:20所谓模型拟合

00:23:22是指要找到一条能让当前的样本

00:23:25与该模型趋势线之间的误差最小的线

00:23:30就像这些线一样

00:23:30但如果你像这样用一条极其扭曲、

00:23:34极其复杂的模型去进行拟合

00:23:37在样本数据上，它的误差是零

00:23:39因为它触及了每一个样本点

00:23:41所以在该样本中，它是完美无缺的

00:23:44零误差模型

00:23:47但实际上，这真的是一个能很好表达背后总体的模型吗？

00:23:51肯定不是吧？

00:23:51如果再抽取一组新样本，误差就会变得非常大

00:23:54所以必须进行“适度拟合”

00:23:58这样当新的样本进入时

00:24:00其总误差才会相对较小

00:24:03反之，如果像这样用一条过于简单的直线

00:24:06进行拟合的话

00:24:08就是“欠拟合”，即优化不足

00:24:10那么仅在样本上，误差就已经很大了

00:24:13所以在任何建模中，最关键的

00:24:16就是进行适度的优化

00:24:18但很多人在进行回测时

00:24:20面对历史数据，某种程度上就是样本数据

00:24:24针对那些样本数据

00:24:26为了让样本内的收益率实现最大化

00:24:29会强行塞入各种规则

00:24:32从而把收益率拉到最高

00:24:35比如，对2015年到2021年的数据进行回测后得出

00:24:39如果买入PER在13.75以上、17.23以下

00:24:43市值在517亿以上、623亿以下

00:24:46如果购买市净率 (PBR) 低于 1.17 的股票

00:24:50年化收益率可达 70%。

00:24:52这就是回测出来的结果。

00:24:54这很明显是完全的过拟合 (Overfitting)。

00:24:57也就是过度优化了。

00:24:58可能是因为某只市盈率 (PER) 为 17.24 且盈利很差的股票

00:25:04被包含在了这组数据中

00:25:05或者是某股市值恰好为 515 亿

00:25:09却是一个非常负面的案例，才这样设定规则

00:25:12像这样极其细致地只盯着样本数据、历史数据

00:25:16不顾一切地想要把收益率最大化

00:25:19就会得出这种模型

00:25:21那么未来当这种分布的数据真正出现时

00:25:25误差范围就会变得很大。

00:25:27就是这个道理

00:25:28我们来更详细地了解一下。

00:25:29这也是一个过度优化的例子。

00:25:31我们想要学习出一条能很好区分红色和蓝色的

00:25:34那样的线条。

00:25:36也就是线条的模型。

00:25:37现在的这条黑线学习得恰到好处

00:25:40但这条绿色的波浪线

00:25:42以目前看到的蓝色和红色圆点为基准

00:25:46实现了完美的分割。

00:25:48所以在这些样本数据中

00:25:50它是误差为零的完美线条

00:25:52但实际背后的总体

00:25:55如果蓝色圆点大概在这里出现

00:25:57红色圆点又在这里出现的话

00:25:59当未来新的数据进入时

00:26:03这条绿线将会产生巨大的误差。

00:26:05我们可以这样推测。

00:26:07所以如果跟历史数据嵌套得太死

00:26:10在未来就无法适用。

00:26:11这还有一个类似的例子

00:26:13收集了 100 名在校学生的个人信息

00:26:15以及相关的详细数据。

00:26:16并以此为基础，在今年 100 名在校生中

00:26:19判断谁的成绩会更好。

00:26:20如果设定规则说：姓郑

00:26:22身高在这个区间

00:26:23像这样过度针对去年成绩优秀的学生数据

00:26:26进行过度优化

00:26:28并以此制定判断规则

00:26:30那么把这套规则应用到今年的学生身上

00:26:32结果可能会极其离谱。

00:26:34如果只是单纯以“学习时间超过几小时”

00:26:37来作为判断规则的话

00:26:39套用在去年在校生数据上时

00:26:42比起那些细碎的规则

00:26:44准确度可能会低一些。

00:26:45虽然准确度稍低

00:26:47但即使应用到今年的学生身上

00:26:49依然有很高的概率保持不错的准确度。

00:26:53那么，我们该如何缓解这种过度优化的问题呢？

00:26:56所有的回测都在某种程度上存在过度优化问题

00:27:00想要完全消除是不可能的。

00:27:01比如，根据过去 5 年数据回测的策略收益率

00:27:06如何知道它在未来 3 年是否依然有效？

00:27:08针对这个问题的完美答案

00:27:11就是直接交易 3 年试试看，对吧？

00:27:12但这属于事后诸葛亮

00:27:15如果交易了 3 年却亏损了

00:27:17那这种验证就没意义了，对吧？

00:27:17所以有一种方法是

00:27:19利用所谓的“样本外数据 (Out of Sample Data)”

00:27:21也就是利用样本之外的数据。

00:27:23我不确定这个翻译是否准确

00:27:25但通常被称为 OOS 数据。

00:27:27举个例子

00:27:28从 2015 年 9 月到 2021 年 9 月

00:27:31也就是在 6 年的数据中

00:27:33寻找收益率好的策略

00:27:34然后从 2021 年 10 月开始实盘交易，这样做并不理想。

00:27:38不应该这样做，而是

00:27:39利用 2014 年 9 月到 2020 年 9 月

00:27:42这 6 年的数据

00:27:44找到收益率好的策略后

00:27:46接着在 2020 年 10 月到

00:27:492021 年 9 月这段时间再做一次回测。

00:27:52也就是先在 2014 年起的 6 年数据中

00:27:55通过回测找到收益好的方案

00:27:57然后假设从 2020 年 10 月开始进行实盘交易

00:28:02并针对这 1 年的数据进行回测。

00:28:04如果结果依然良好

00:28:06那么再从 2021 年 10 月开始真正的实盘交易。

00:28:09当然，如果这样划分

00:28:10又会产生其他问题

00:28:12我们稍后再讨论那个

00:28:13我现在想要传达的核心是

00:28:16如果有这么多的样本数据

00:28:18就把其中的这一小块单独拿出来。

00:28:19先单独放在一边

00:28:21利用剩余的数据努力寻找策略

00:28:23进行大量的回测

00:28:24并针对这些数据进行优化

00:28:26优化完后不要直接投入实盘

00:28:28而是把刚才寻找策略时

00:28:30没有用到的那部分数据拿出来

00:28:31想象这是在实战中

00:28:33在那里测试一下。

00:28:34这就是所谓的利用样本外数据

00:28:35即利用 OOS 数据。

00:28:38在数据科学中

00:28:39会有训练集、验证集

00:28:41Train Data、Test Data

00:28:42或者是 Development Data

00:28:44这些术语

00:28:45其实并不那么重要

00:28:46接下来的第 4 点是第 3 点的延伸

00:28:48即：验证机会只有一次。

00:28:50这一点非常、非常、非常重要。

00:28:53真的是无论怎么强调

00:28:58都不为过的一句极其重要的话

00:29:01关于这套样本外数据的测试

00:29:03我们再来深入探讨一下。

00:29:04关于样本数据和样本外数据

00:29:06虽然有各种各样的称呼

00:29:08但在本视频中

00:29:09我们将统一称之为

00:29:11训练数据和验证数据。

00:29:12回顾刚才的例子

00:29:132014 年到 2020 年的

00:29:16数据就是训练数据

00:29:18所谓训练数据

00:29:19就是用来寻找策略的数据

00:29:20找到策略之后

00:29:22用来测试这套策略的数据

00:29:24也就是最后那 1 年的

00:29:26回测数据

00:29:28我们就称之为验证数据。

00:29:30那么这张图表代表什么呢？

00:29:32它展示了规则或模型的复杂度

00:29:35越往右

00:29:36模型就越复杂。

00:29:38比如像刚才说的，把规则定为

00:29:40173cm 到 173.25cm 之间

00:29:42像这样去设定规则

00:29:44做得越细

00:29:45复杂度就越高；

00:29:47而纵轴代表预测误差

00:29:49也就是投入实战时

00:29:50误差有多大

00:29:52大家可以看到

00:29:53在 Training Sample

00:29:54也就是训练数据中

00:29:55模型越复杂

00:29:58误差就越小。

00:29:59就像刚才那些样本点

00:30:02线画得越弯曲

00:30:03复杂度越高

00:30:05在样本数据内部

00:30:06就能把误差降为零。

00:30:08所以如果把模型做得极其复杂

00:30:12误差会趋向于 0；

00:30:14但是把这样学习出来的模型

00:30:16放到单独预留出来的验证数据中

00:30:18进行测试的话

00:30:19误差会是多少呢？

00:30:21起初模型非常简单

00:30:23比如只是一条直线

00:30:24或是欠拟合 (Underfitting) 的时候

00:30:26两者的误差差不多。

00:30:28但是随着模型或规则变得越来越复杂

00:30:31在这些训练数据的样本中

00:30:33误差虽然在持续减少

00:30:35但在验证数据中

00:30:37误差会在触底后，从过度复杂的节点开始

00:30:40重新开始增加。

00:30:42如果拿投资回测来类比

00:30:45就是进行了大量的回测

00:30:47设定了各种极其细致的规则

00:30:51尝试了无数次回测

00:30:52并极其精确地

00:30:55调整了参数

00:30:56比如 PER 值必须在多少以上。

00:30:59越是把规则做得这么细、这么复杂

00:31:02在历史数据上的收益率就会不断攀升。

00:31:05因为这是误差图，所以越低越好。

00:31:08总之，这种过度嵌套历史数据的回测

00:31:12嵌套得越深，收益率看起来就越好

00:31:15但把它应用到实战时

00:31:17如果规则过于复杂

00:31:18从某个点开始，规则越复杂

00:31:21实战中的收益率反而会降低。

00:31:23就是这样的趋势。

00:31:24刚才我把误差降低描述为

00:31:26收益率提高

00:31:28把误差升高描述为收益率恶化

00:31:31虽然这样表达了

00:31:32但严谨地说

00:31:33误差增大

00:31:34和收益率降低是有微小差别的。

00:31:37即回测做得越烂

00:31:39过拟合越严重

00:31:42回测收益率与未来真实收益率之间的鸿沟

00:31:45即误差就会越大

00:31:47这种误差在随机情况下

00:31:49可能更高

00:31:50也可能更低。

00:31:51但通常如果出现这种误差

00:31:53实际收益率往往会更差。

00:31:55因为在拟合过去的数据时

00:31:57为了尽可能提高收益率

00:31:59进行了过度的强行拟合

00:32:00所以一旦收益率出现偏差

00:32:02通常都是向下的偏差。

00:32:03那么，回测时该如何划分

00:32:06训练数据和验证数据呢？

00:32:08例如，用2011年到2021年

00:32:11这11年的数据进行训练，然后从明年开始应用

00:32:15这就意味着不打算划分出验证数据。

00:32:18而是把全部数据都当作训练数据来使用

00:32:21这种做法是不推荐的。

00:32:22刚才提到的那种划分方式是

00:32:25把这10年的数据作为训练数据进行学习

00:32:28再用2021年最后这一年进行验证

00:32:31然后从2022年开始正式应用的方法。

00:32:34但这一点稍后我会提到

00:32:36这并不是一个特别好的方法。

00:32:38除此之外，还有哪些改进的方法呢？

00:32:40有一种叫做“向前走测试”(Walk-Forward Testing)的方式

00:32:43它的原理是

00:32:44例如从99年开始，取3年的数据

00:32:46在其中进行学习并优化参数

00:32:49以此为基础验证之后的一年

00:32:52然后像这样以滚动的方式进行。

00:32:55如果用这种方式来制定策略

00:32:58事实上，假设是一个非常简单的模型

00:33:01虽然我认为仅以市盈率(PER)为基准进行回测

00:33:04是非常荒谬的事情

00:33:05但假设有一个购买市盈率低于一定水平的股票策略。

00:33:08那么在10年的数据基础上

00:33:11去优化市盈率数值时

00:33:13每一年表现最佳的市盈率基准都会有所不同

00:33:17其中你会选择一个平均表现还不错的数值。

00:33:20但如果把范围缩小一点

00:33:22根据过去3年的情况来确定市盈率并进行交易

00:33:26如果以这种方式进行测试

00:33:28就能让这个参数更加灵活地

00:33:30随着时间的推移而不断调整。

00:33:32这就是其中一种测试方式

00:33:35可以用这种方式测试，也可以用

00:33:37被称为“K折交叉验证”(K-Fold Cross Validation)的方法

00:33:38也就是Cross Validation

00:33:39它是这样操作的

00:33:41这个K值代表要分成多少个单位

00:33:45看图的话，这里的K值应该是5。

00:33:47如果把K值定为5，就是把数据分成5等份

00:33:50在其中的4年数据上进行训练

00:33:53然后在剩下1年的验证数据中查看收益率是多少

00:33:56接着再在另外4份数据上训练

00:33:59验证在对应年份的表现如何

00:34:01重复此过程后，将这些收益率取平均值，即除以5。

00:34:05也就是说，把这些收益率进行平均。

00:34:09我们认为这与可以期待的收益率相似。

00:34:12这就是该方法背后的思路。

00:34:13除此之外，比如使用过去10年的数据

00:34:16有时也会用偶数年份的数据进行训练

00:34:19用奇数年份的数据进行验证。

00:34:22这些方法都各有优缺点

00:34:23要说这种方式的优点

00:34:26就是参数对于“市场环境变化”(Market Regime Change)非常稳定。

00:34:30这是什么意思呢？

00:34:31当金融危机或新冠疫情爆发时

00:34:33市场的性质会发生改变。

00:34:35比如，2008年爆发了金融危机

00:34:39如果你用1998年到2007年的数据进行训练

00:34:43找到了收益率最好的方案

00:34:45然后再拿来验证

00:34:46由于市场性质已经发生了翻天覆地的变化

00:34:49数据的分布也会变得不同

00:34:51后期市场的情况

00:34:52前期的那些模式将无法反映出来。

00:34:55所以如果按这种方式划分数据

00:34:57即使发生了巨大的突发事件

00:35:00导致市场性质和模式彻底改变

00:35:02也能进行相对更稳定的验证。

00:35:06所以有人会采用这种方式

00:35:08但使用这种方式时，必须注意刚才提到的“偷看未来”的问题

00:35:11这一点需要格外警惕。

00:35:13因为根据交易周期的不同

00:35:16假设是以月为单位进行交易

00:35:18如果当前的训练数据中

00:35:19已经反映了2014年的训练数据

00:35:22但根据你在2013年使用的规则或数据

00:35:26原本到了2014年才能知晓的信息

00:35:28可能会混入到验证数据中。

00:35:30这样一来，验证数据的收益率就会虚高。

00:35:34因为你已经在“预知未来”的情况下进行了学习。

00:35:36所以这部分需要特别注意

00:35:39虽然我刚才讲得比较粗略

00:35:41但在机器学习(Machine Learning)等领域

00:35:44涉及到“超参数”(Hyperparameter)等概念。

00:35:46通常来说，参数是模型为了

00:35:50减少样本数据的误差而自行调节的部分

00:35:54而超参数则是需要人来确定的部分。

00:35:57例如做回归分析时

00:35:59是使用直线还是曲线

00:36:03也就是说，参数有多少、公式有多复杂

00:36:07使用什么样的模型

00:36:09这些是由人来决定的。

00:36:11那么这些参数的数量等就是超参数；

00:36:15一旦确定了这些

00:36:18模型就会根据数据情况

00:36:22朝着优化数据误差的方向去拟合这条线。

00:36:23于是，斜率或者截距等部分就会根据数据

00:36:28由模型进行学习，这些斜率值等部分就叫参数。

00:36:33因此，超参数也需要尝试多种组合。

00:36:36所以不仅仅是简单划分为训练(Train)和测试(Test)数据

00:36:40还会再划分出一个叫“开发集”(Dev Data)的部分。

00:36:42在开发集上进行优化

00:36:45在这里对超参数进行调优

00:36:48然后再用测试数据进行验证，有这样的做法。

00:36:51懂机器学习的人肯定都已经理解了

00:36:55而不懂的人，光凭这点解释大概还是不明白

00:36:58所以这部分我就先带过了。

00:37:00但在做这项工作时，有一点非常、非常、非常重要

00:37:04无论怎么强调都不为过。

00:37:08那就是验证数据

00:37:10验证数据绝对、绝对、绝对不能看第二次。

00:37:15关于那个结果

00:37:16我们在训练数据中反复训练、多次回测，以此找到收益率好的策略对吧。

00:37:22虽然这个策略在训练数据上表现很好

00:37:26但为了验证在实战中是否真的同样有效

00:37:31我们才会使用训练数据中未包含的期间或数据来进行回测。

00:37:38但是，这个回测绝对不能跑第二次。

00:37:41只能跑一次，如果跑这一次的结果很糟糕

00:37:45那么无论你为此努力了多少年，或者为了制定这个策略吃了多少苦

00:37:50都必须放弃整个策略。

00:37:52为什么？因为在实战应用中，你盈亏的机会也只有一次。

00:37:57时间是无法倒流的。

00:37:58即便如此，很多人因为觉得可惜，看到验证数据结果不好

00:38:03就回到训练数据去调整参数

00:38:07重新跑一遍，直到验证数据的收益率变好为止。

00:38:10就在那一瞬间，验证数据已经不再是验证数据了

00:38:14它已经沦为了训练数据的一部分。

00:38:16因为你在寻找参数时，连验证数据也包含进去进行优化了。

00:38:21所以，这个策略到了实战中到底能产生多少收益

00:38:26我们已经无法提供任何保证了。

00:38:29所以这一点至关重要

00:38:31接下来是回测时的另一个要点，也是一脉相承的话题

00:38:34那就是“时代在变”，即“市场环境”(Market Regime)的概念。

00:38:37我想问大家一个问题。

00:38:3920年的回测和3年的回测中

00:38:42哪一个更有意义呢？

00:38:44其实看我的标题，答案已经出来了

00:38:47很多股市新手觉得回测做得越长越好

00:38:50认为数据越多就越可靠。

00:38:54但如果是我的话，在这两种回测中

00:38:57当然这取决于时间跨度以及交易频率

00:39:00会有所不同

00:39:01但通常我会选择3年的数据。

00:39:03数据量确实是越多越好。

00:39:06但前提是，这些数据必须来自同一种分布。

00:39:09数据绝对是越多越好

00:39:11但如果混入了环境已经改变后的其他数据，反而不好。

00:39:17所以回测时间拉得太长，面临的问题是

00:39:20市场的性质会发生变化。

00:39:22这可能是……实际利率图表吗？

00:39:26总之是一个关于利率的图表

00:39:28大家可以看到，所谓的“适度利率”这个概念

00:39:33虽然一直在波动

00:39:34但在不同体制下的利率水平会发生剧变。

00:39:38那时在这个水平，这是石油危机吗？

00:39:41总之以那个时期为界，后来到了这个水平

00:39:45而到了80年代以后

00:39:47这一带成了普遍通用的利率水平。

00:39:51假设你在做债券相关的交易

00:39:53你在这一段时期内学习并制定了交易策略

00:39:57然后想应用到后面这段时期。

00:39:59那么，一旦市场环境发生了改变

00:40:02基于之前数据制定的高收益策略

00:40:07在这里就不再适用了。

00:40:08这就是所谓的“市场环境变化”(Market Regime Change)。

00:40:11即市场性质、市场体制的变化

00:40:14市场性质的改变

00:40:17有时是随市场参与者的变化而发生的。

00:40:20例如新冠疫情后大量散户涌入

00:40:23发生了游戏驿站(GameStop)事件

00:40:25在新冠疫情之前

00:40:27那些做空策略(Short Selling)

00:40:30甚至有专门做空的对冲基金。

00:40:32原本是非常有效的策略

00:40:34但由于市场性质突然改变

00:40:37有的甚至落到了破产的境地。

00:40:39其次是制度及监管的变化，比如金融危机爆发后

00:40:43禁止了投资银行的自营交易

00:40:45衍生品市场也因为各种监管而发生变化

00:40:49那么用金融危机之前的训练数据

00:40:50所学习得到的策略

00:40:52在危机之后可能就不再奏效了。

00:40:54还有就是外生性事件

00:40:55像石油危机那种足以

00:40:57改变市场本身的

00:40:59宏观经济事件

00:41:01以及各种宏观经济的演变

00:41:03随着债务比例不断攀升

00:41:06以前的利率水平还在这个高度

00:41:08现在却进入了极低利率的时代

00:41:11同时也因为量化宽松等政策

00:41:13进一步助推了这种低利率环境

00:41:15使得成长股在过去十年间

00:41:17表现得极其出色。

00:41:19但如果利用量化宽松前的训练数据

00:41:22寻找高收益的投资策略

00:41:24可能会得出购买价值股之类的结论。

00:41:25那么在随后的十年里

00:41:27表现肯定会非常糟糕。

00:41:28此外还包括新技术的出现

00:41:30或是产业结构的转变

00:41:32等等这些因素。

00:41:33所以回测20年的数据时

00:41:352001年的数据是否还有意义呢？

00:41:38当然，所谓“市场状态切换”

00:41:40取决于你观察哪些因素

00:41:42结论也会有所不同。

00:41:43归根结底，取决于策略逻辑、

00:41:45规则或是模型

00:41:47观察了哪些维度

00:41:49使用了哪些数据

00:41:51根据这些情况

00:41:52来观察数据的状态（Regime）

00:41:53是否发生了切换。

00:41:55因此，有的数据性质

00:41:56可能按月就会发生快速变化

00:41:58变化得非常频繁

00:41:59而有的数据可能在10到15年内

00:42:01都保持得非常稳定。

00:42:03由于各种周期的性质都不同

00:42:05所以一般来说

00:42:07不能简单认为新冠疫情爆发了

00:42:09之前所有的模式

00:42:09就全都失去意义了。

00:42:12但无论如何，如果跨度达20年

00:42:14这么长的时间

00:42:15肯定会存在一些问题。

00:42:17你可以这样理解

00:42:18如果你想利用非常久远的数据

00:42:20来进行推断

00:42:22虽然市场状态

00:42:23在中间发生过多次切换

00:42:24但如果那些久远的数据

00:42:25在某些特征上能反映当前时点

00:42:29那么它们

00:42:30依然是具有参考价值的。

00:42:32所以有人会说

00:42:33现在的情况和1940年代很像。

00:42:35虽然这只是题外话

00:42:37但也是一种视角。

00:42:38如今量化交易

00:42:41已经变得非常普及

00:42:42甚至普通散户也在参与

00:42:44但对于长期投资而言

00:42:45量化投资的一个盲点在于

00:42:47将这种定量分析方法

00:42:49应用于长期投资时

00:42:51很难在获取大量数据的同时

00:42:53避开市场状态切换带来的风险。

00:42:55举个例子，假设有一个

00:42:57使用分钟级数据的算法交易策略。

00:42:591分钟、不，1小时内

00:43:01就有60个数据点。

00:43:02因为有60分钟

00:43:03所以有60个数据

00:43:04如果以

00:43:0524小时交易的期货为例。

00:43:0824乘以60的话

00:43:09是1440个

00:43:10我算得对吗？

00:43:10会有1440个数据点。

00:43:12既然一天有1440个数据点

00:43:15假设每周交易5天，一年算250天

00:43:17如果有250个交易日

00:43:20那么一年就能获取30多万个

00:43:21这种量级的数据

00:43:23在一年之内就能攒够。

00:43:25仅仅一年的时间

00:43:26就能确保有30多万个数据样本

00:43:29因此可以在足够丰富的数据中

00:43:32进行有效验证

00:43:33也可以尝试使用更复杂的模型

00:43:35这些都是可行的。

00:43:36但如果是按月操作的

00:43:37某种定期平衡仓位的策略

00:43:39一年就只有12个数据点。

00:43:41哪怕做20年的回测

00:43:42也只有240个样本。

00:43:44由于无法在时间轴上增加数据量

00:43:47所以只能通过观察多个股票标的

00:43:49试图在横向上进行扩展

00:43:51以确保结论的统计显著性

00:43:53但终究在时间轴上

00:43:54很难避开市场状态切换的问题。

00:43:57所以这部分确实非常困难。

00:43:58新冠疫情爆发后

00:44:00很多量化交易员，比如

00:44:02这位名叫 Inigo Fraser-Jenkins 的人

00:44:05据我所知他是一家知名公司的量化部门主管

00:44:09他曾解释过“为什么我不再是一名量化分析师”

00:44:11并对此发表了看法

00:44:13其核心观点大致是

00:44:15量化的本质是基于历史模式预测未来

00:44:19但像

00:44:20新冠这种突发事件会让历史模式失效

00:44:23当市场状态发生剧变时

00:44:25量化分析能发挥的作用微乎其微。

00:44:28甚至有人谈到了“量化分析师的存在危机”

00:44:30这类话题

00:44:31而且去年量化策略的表现确实不佳。

00:44:34虽然少数策略表现不错

00:44:36但平均而言，业绩非常惨淡。

00:44:38讲到现在大概完成了一半

00:44:40不知不觉已经过去一个半小时了

00:44:43所以第一部分就先讲到这里。

00:44:45明天在第二部分，我们会讨论余下的第6到10点

00:44:49包括其优势与局限性

00:44:50以及学习量化交易的课程建议

00:44:52我们到时候再详细探讨。

00:44:54那我们第二部分见。

00:44:55谢谢大家。

Key Takeaway

量化投资并非万能的科学，投资者必须警惕数据偏误、过度拟合及市场环境切换带来的虚假回测结果，以防在实战中遭受巨额损失。

Highlights

量化投资的核心难点不在于寻找过去盈利的模式，而在于筛选未来依然有效的策略。

回测数据中普遍存在“脏数据”和“幸存者偏差”，盲目信任低成本数据会导致收益率虚高。

前瞻性偏差（Look-ahead Bias）通过偷看未来信息，使回测结果产生严重的失真。

过拟合（Overfitting）是量化投资的死穴，模型越复杂且越贴合历史样本，实战表现往往越差。

验证数据（Out of Sample）只能使用一次，一旦根据验证结果修改参数，该数据即失去验证价值。

市场环境（Market Regime）的切换会导致历史模式失效，长期回测未必比短期回测更有意义。

Timeline

量化投资的误区与视频初衷

主讲人 Wall Street Guy 开篇指出量化投资领域存在夸大宣传和误导性营销的现象，许多付费课程美化了回测结果。他强调制作此视频并非针对个人，而是为了保护想认真理财的普通投资者免受“科学”包装下的非科学陷阱伤害。视频旨在分享 10 个量化投资中需要警惕的要点，帮助观众识别虚假的复利错觉。通过这些常识性的避坑指南，投资者可以避免在错误的方法论上虚耗金钱和时间。主讲人以自身早期亏损的经历作为背景，呼吁博主们应更沉重地看待他人资金的分量。

量化交易的分类与基本流程

本段详细介绍了量化投资的广泛定义及五大主要分类：超高频交易、算法交易、统计套利、因子投资以及量化基本面。主讲人解释了量化的基本运作原则，即从投资假设出发，经过回测验证、实盘交易到最终的风险管理。虽然量化投资曾是拥有顶尖博士人才的机构专利，但随着回测平台的普及，个人投资者也开始广泛参与。然而，这种普及化也带来了理解上的偏差，许多人误以为简单的规则堆砌就能产生稳健收益。了解这些分类和流程是进行深入量化分析的基础前提。

回测的真相：寻找未来盈利的模式

主讲人通过具体案例揭示了回测的残酷真相：在历史数据中寻找盈利模式是无限且容易的，但找到未来能持续盈利的策略却如大海捞针。他以著名的“神奇公式”和 Quantopian 平台的倒闭为例，证明了即使是经过严密研究和大规模测试的策略，也可能在实战中惨败。市场有效性的提高会迅速消解已公开策略的“优势（Edge）”，使其表现回归平庸。这段内容强调了对回测结果产生“信仰”的危险性，尤其是在未考虑未来不确定性的情况下。寻找过去表现好且未来也表现好的策略，才是量化投资最核心且最艰巨的任务。

警惕要点一：数据质量与幸存者偏差

第一点警示是必须怀疑数据的真实性，特别是谷歌或雅虎等免费数据中存在的“脏数据”和清洗误差。主讲人举例说明了下单失误产生的极端低价如何通过回测程序虚增收益。重点讨论了“幸存者偏差”，即只针对目前存续的公司进行回测，而忽略了过去已破产的公司。这种做法相当于假设投资者拥有预知未来的能力，会导致回测年化收益率严重虚高。他提醒观众，无论是回测平台还是所谓的超级散户，都可能在无意中掩盖了那些未能“返航”的失败案例。

警惕要点二：前瞻性偏差（偷看未来）

第二点需要警惕的是“前瞻性偏差”，即在回测逻辑中使用了在交易发生时点还无法获取的信息。典型的错误包括以当前的市值排名来回溯十年前的选股池，这本质上是预知了哪些公司会成长。此外，企业业绩发布日期的不确定性，以及使用收盘后才能确定的价格在收盘前成交，都是常见的前瞻性偏误。这些逻辑上的漏洞会让回测结果看起来完美无缺，但在现实时间轴上却完全无法执行。主讲人强调，任何涉及时间维度的信息错配都会让量化策略瞬间失效。

警惕要点三：过拟合与样本外验证

第三点探讨了量化投资的头号大敌——过拟合，即模型为了贴合历史样本而变得异常复杂，导致其失去普适性。主讲人通过图表展示了“适度拟合”与“过度优化”的区别，指出强行塞入过多细微规则（如 PER 精确到小数点）会导致预测误差剧增。为了缓解这一问题，他提出了使用“样本外数据（OOS）”的策略，即预留一部分数据不参与策略开发。开发者应先在训练集上寻找策略，再在从未见过的验证集中测试其表现。这种方法虽然不能完全消除过拟合，但能有效过滤掉那些仅在历史中偶然成功的垃圾策略。

警惕要点四：验证机会只有一次

第四点强调了“验证数据绝对不能看第二次”的铁律，这是量化纪律的核心。如果验证结果不理想，开发者必须彻底放弃该策略，而不是回到训练集修改参数重新验证。一旦反复调优直至验证集表现良好，验证集就变成了训练集的一部分，失去了真实预测力。主讲人还介绍了“向前走测试（Walk-Forward Testing）”等动态优化参数的方法。这些方法试图让参数随着时间滚动调整，以应对不断变化的市场节奏。坚持这种一次性验证的原则，是为了模拟现实中无法倒流的时间和只有一次的盈亏机会。

警惕要点五：市场环境切换与总结

最后一点讨论了“市场环境（Market Regime）”的变化如何导致量化策略失效。主讲人指出，20 年的长周期回测未必优于 3 年的短周期，因为不同时期的利率、监管和参与者结构可能完全不同。新冠疫情等外生性突发事件是量化分析的盲点，会导致基于历史模式的预测彻底失灵。他对比了高频交易与低频投资在数据点显著性上的巨大差异，指出了长期量化投资在时间轴上难以避开环境切换的困境。视频第一部分在此结束，预告了下一部将继续讲解余下的警示点及量化课程建议。主讲人最后提醒，量化分析师在面临市场剧变时常会遭遇存在危机，投资者需保持理性视角。

Community Posts

量化投资回测的致命欺骗：2026年实战生存策略

makedreamMar 8, 20267520

Write about this video