00:00:00但是,无论是过去的10年、20年还是30年
00:00:03如果以这样的时间段来看
00:00:04在这期间,展现出良好盈利能力的模式大约有多少个呢?
00:00:09答案是无限的。实际上这也是可以证明的。
00:00:12大家好,我是 Wall Street Guy。
00:00:21今天我们要探讨的是量化投资。
00:00:24在我的 YouTube 评论区、提问和邮件中
00:00:26一直有人希望我讲解关于量化交易的内容
00:00:29根据我未来的目标、方向以及频道课程规划
00:00:33关于算法交易或量化交易
00:00:36原本没打算在近期内涉及。
00:00:38但由于我们频道的订阅者中
00:00:40有大约 15% 的人正在进行量化交易
00:00:44加上最近对量化投资领域有一些令人担忧的现象
00:00:48所以制作了这段视频。
00:00:50今天的内容大纲首先是量化的分类和原则
00:00:53在概括性地了解这些部分后
00:00:56我将列举量化交易中需要警惕的 10 件事。
00:00:59只要记住这 10 点,就能避免在量化交易中
00:01:04浪费大量的时间
00:01:06或者在回测和方法论上
00:01:09因为使用了错误的方法
00:01:11而导致巨额损失的情况发生。
00:01:15虽然这些都是最基本的常识
00:01:18但目前市面上一些价格不菲的付费课程
00:01:21似乎并没有详细讲解这些内容。
00:01:24相反,那些课程往往会对回测和量化投资
00:01:27进行某种程度的美化
00:01:31只要您能牢记今天分享的这 10 点,无论关于量化投资
00:01:35听到什么样的信息,或者使用什么样的服务
00:01:39都能在一定程度上保护自己,确保安全。
00:01:43在开始之前,其实几天前我曾以略显激动的语气
00:01:47发布过一篇简短的帖子
00:01:49我觉得自己当时可能有些失策。
00:01:51当时写的是,近期关于量化投资的病毒式营销和夸大广告
00:01:54似乎有些过头了。
00:01:55结果评论区里出现了一些针对特定个人
00:01:59或特定机构的恶意评论。
00:02:02担心会对那些人或机构造成负面影响,所以我删除了帖子
00:02:06说实话,那些内容并不像非法荐股群
00:02:09或非法配资公司那样属于违法乱纪的行为
00:02:12我也觉得自己可能有些管得太宽了。
00:02:16但另一方面,配资账户之类的问题
00:02:19使用者本身也知道那是违法的
00:02:22说白了,也要为自己的贪念承担一部分责任。
00:02:25但观察最近关于量化投资的讨论氛围
00:02:28我觉得这可能会让那些只是想通过正当努力
00:02:33来做好理财的普通人
00:02:35在刚进入量化投资领域时
00:02:37遭受不必要的损失。
00:02:40因为量化投资常与“科学”和“统计”等关键词挂钩
00:02:46即使其中包含非科学成分,也容易让人产生误解
00:02:51非法荐股或配资账户一眼就能看出是违法的
00:02:55想躲还是能躲开的
00:02:56但这(量化误导)可能会产生想努力学习的善良受害者。
00:03:01比如宣称只要学习几天就能成为量化投资高手
00:03:04或者说这是经过数十年数据验证的策略
00:03:08又或者是通过暗示“过去 10 年实现了 20% 的复利”
00:03:11来传达“未来也会如此”的错觉
00:03:14虽然说这些话的人未必带有恶意,可能只是随口一说
00:03:18但在众多的听众中,那些投资小白
00:03:20很可能会产生误会或错觉
00:03:23从而在回测上虚耗大量时间
00:03:25甚至导致金钱上的亏损。
00:03:27如果对回测结果产生过度信任甚至是某种信仰
00:03:32根据美国证券交易委员会(SEC)的规定,如果基金产品
00:03:35以这种方式向客户进行营销,会被直接判定为违法。
00:03:38因此,我希望那些谈论量化投资的人
00:03:41能更沉重地看待他人资金的分量。
00:03:45虽然不知道我的 YouTube 频道会做多久
00:03:47但我说这些话并不是为了塑造正义的形象
00:03:51也不是为了装好人
00:03:52而是因为我自己在 20 多岁时也曾为钱所困,吃过不少苦
00:03:56我很清楚那种感受。
00:03:58而且因为我经常分享亏损后的心态管理
00:04:01以及我 20 多岁时遭遇巨大亏损的经历和故事
00:04:05所以似乎特别多的人找我咨询这类问题
00:04:09每周都会收到好几封订阅者的咨询邮件
00:04:14说自己亏损了上亿韩元,非常苦恼。
00:04:16所以,涉及金钱的理财、股票、房产类博主
00:04:20我认为至少应该进行一次自我审视。
00:04:24我最近在做“80天投资环游记”的过程中
00:04:26也渐渐觉得自己有点像在带单
00:04:29我想着等这次熊市结束,一定要找回初心。
00:04:33总之,我是出于这样的初衷才制作这个视频的
00:04:37绝非针对特定的个人或机构
00:04:40从事量化投资营销的人
00:04:43可能也有自己并不知情的部分
00:04:46我希望能以此为契机,大家共同意识到这些问题
00:04:49并一起努力改进
00:04:51所以请各位观众不要在评论区猜测是在针对谁
00:04:55或是发表类似的言论。
00:04:57开场白有些长了
00:04:58我们先来看看量化的分类。
00:05:01首先,“量化”是一个定义非常广泛且多样的概念。
00:05:04为了方便理解,大致按时间维度
00:05:07可以分为:超高频交易 (HFT)
00:05:10在高频交易中,还有一种叫作
00:05:12极速高频交易 (Ultra HFT)
00:05:14这涉及到将服务器托管在交易所内部
00:05:19使用机器语言级别的编码
00:05:20追求极致的硬件性能
00:05:22这属于那个层级的交易
00:05:24接下来是时间跨度稍长一些的
00:05:28算法交易 (Algorithmic Trading)
00:05:29使用技术指标或基于规则 (Rule-based) 的策略
00:05:33个人投资者参与较多
00:05:35也是目前回测平台等工具中最为普及的部分。
00:05:39然后是统计套利 (Statistical Arbitrage)
00:05:41比如配对交易 (Pair Trading)
00:05:42利用统计模型或技巧
00:05:44使用统计学方法论
00:05:46通过寻找历史模式
00:05:48在均值回归的假设下
00:05:50进行交易的一个类别
00:05:52还有因子投资 (Factor Investing)。
00:05:54这通常更偏中长期,涵盖动量因子、价值因子、利差 (Carry) 等
00:05:59旨在找出驱动价格波动的因子
00:06:01寻找阿尔法收益 (Alpha) 等等
00:06:03而近几年成为热门话题的是
00:06:06量化基本面 (Quantamental)
00:06:07即将基本面分析进行量化和自动化
00:06:10加入各种数据分析、另类数据 (Alternative Data)
00:06:12这是一种尝试进行长期投资的方式
00:06:16在同样的脉络下,机器学习、
00:06:18大数据、另类数据等技术
00:06:20也正在向各个领域扩展。
00:06:23这些分类只是为了方便说明
00:06:26实际上界限非常模糊,对吧?
00:06:28也有人将这整个范畴都称为算法交易
00:06:30大概就是这样。
00:06:31因此,对于一般的量化交易
00:06:33我会从宏观的角度
00:06:35将它们放在一起讨论。
00:06:37量化交易的基本原则是
00:06:40首先,必须有投资想法或假设,对吧?
00:06:42接着进行回测 (Backtesting)。
00:06:44在历史数据中对该投资想法
00:06:47或假设进行验证。
00:06:50如果觉得“这样做好像能赚钱”
00:06:51那就把这种做法代入历史数据
00:06:54看看过去这样做是否
00:06:56真的赚到了钱。
00:06:57如果回测结果良好
00:07:00就开始实盘交易
00:07:01同时进行风险管理
00:07:03整个流程大致由这四个部分组成。
00:07:06其实直到 2010 年代中期
00:07:09量化交易几乎还是机构的专利,而且是机构中
00:07:13拥有众多理工科博士量化人才的
00:07:16量化基金的专利
00:07:18但随着机构在交易执行 (Execution)
00:07:21等方面逐渐普及化
00:07:23加上美国出现了像 Quantopian
00:07:25这样让回测变得非常简单的服务
00:07:28自从这些服务推出后,普通个人
00:07:30也能轻松利用量化交易
00:07:33这已成为一种日益普及的趋势。
00:07:35但与此同时,对量化投资的一些错误理解
00:07:38最近似乎也在不断增加
00:07:40我们可以举个例子
00:07:42比如:在过去 15 年里,投资于 PBR 低于 0.92
00:07:46且在过去 12 个月内上涨的上市公司
00:07:48年化收益率可达 20.2%。
00:07:51如果把 PBR 数值稍作调整
00:07:53收益率可能会变成 14% 或 17.8%。
00:07:56通过这一系列的回测
00:07:58发现第一个结果是最好的
00:08:01于是得出结论:按照第一个结果的规则
00:08:03来进行投资吧
00:08:04我经常看到这种得出结论的方式。
00:08:07但实际上,这是一个错误的示范。
00:08:09请大家仔细思考一下
00:08:12回测的过程其实是基于
00:08:14“历史模式在未来也会重复”
00:08:16这样一个无法保证的假设
00:08:18去寻找过去盈利性良好的模式。
00:08:21但是,无论是过去的 10 年、20 年还是 30 年
00:08:24如果以这样的时间段来看
00:08:26在这期间,盈利性良好的模式数量
00:08:29大约会有多少个呢?
00:08:30大家可以先暂停视频思考一下
00:08:32答案是无限的。
00:08:34实际上这也是可以证明的。
00:08:36由于各种策略的参数是连续的
00:08:38事实上存在着无数个过去盈利良好的策略。
00:08:42但问题是,这其中有多少在未来也能保持盈利?
00:08:46这才是量化投资最核心的部分。
00:08:50寻找过去盈利良好的模式
00:08:52只要有回测工具
00:08:55任何人都能找得到。
00:08:56但要找到那个“过去表现好且未来也表现好”的策略
00:09:00其实是非常困难的
00:09:02简直就是大海捞针。
00:09:04我浏览了许多博客和网站
00:09:07发现韩国的一些网站上
00:09:09乔尔·格林布拉特的“神奇公式”
00:09:12非常有名。
00:09:13他通过非常简单的
00:09:15市值等筛选条件
00:09:17通过设定这种选股公式
00:09:20他写了一本关于“神奇公式”投资法的书
00:09:24那本书引起了巨大的轰动
00:09:25在普通个人投资者中似乎流传甚广
00:09:28但其实这位在对冲基金界也极其有名
00:09:31他从20世纪80年代就开始投资了
00:09:33在他投资的这段期间,比亚里士多德——哦不对,比巴菲特
00:09:35记录了更高的收益率
00:09:37所以这个“神奇公式”似乎更受关注了
00:09:40但先说结论
00:09:42格林布拉特并不是量化交易员
00:09:44而且他的对冲基金也并非只靠“神奇公式”来投资
00:09:47他那优秀的收益率并不是靠“神奇公式”投出来的
00:09:50他的基金在进行价值投资的同时
00:09:52也进行了所谓的“特殊情况投资”
00:09:54例如像“分拆上市”这类情况
00:09:57比如某家公司进行拆分时
00:09:59捕捉其中产生的价格偏差
00:10:01通过这些“优势(Edge)”来获取收益
00:10:04他是将这些方法论结合在一起使用的
00:10:07而且我认为在价值投资部分,他也不会只使用
00:10:10这种如此简单的公式
00:10:12当然,那套框架肯定被反映在其中了
00:10:14但绝不会只是机械地套用这种公式去买入
00:10:18我不认为收益是那样产生的
00:10:20所以,在“神奇公式”公开以后
00:10:22如果对2005年以来的收益进行回测
00:10:26灰色的这条线是标普指数
00:10:28绿色这条线是“神奇公式”
00:10:29可以看到,它只是处于高波动状态
00:10:32然后一直处于跑输大盘的状态
00:10:34这些部分是因为出现了像系统性权益ETF
00:10:37这类类似的投资工具
00:10:40随着市场变得更加有效
00:10:42也可以看作是那种“优势”消失了
00:10:44从如此著名的公式也只能表现出这种水平就能看出
00:10:48寻找过去收益良好的模式是非常容易的
00:10:50甚至还可以据此写一本书
00:10:53但是要寻找未来也能保持高收益的模式
00:10:56真的需要耗费极其巨大的心力
00:11:00所以,靠几天的思考和点几次鼠标就能得出的
00:11:03年化20%的策略,在这个世界上是不存在的
00:11:06另一个例子是Quantopian
00:11:08Quantopian是一家在2011年左右成立的初创公司
00:11:12它是美国一个让回测变得非常容易的平台
00:11:16当时有30万人通过1200万次回测
00:11:20在那上面测试并创造了极其大量的量化策略
00:11:24著名的亿万富翁史蒂夫·科恩也投资了它
00:11:27他就是那位著名的对冲基金交易员
00:11:29而且Quantopian的那些顶尖量化分析师们
00:11:32甚至还发表了论文
00:11:34研究在这些策略中,未来仍能盈利的策略
00:11:37应该基于什么标准、使用什么样的统计方法
00:11:40来进行筛选
00:11:41他们真的对此进行了非常集中的研究
00:11:44筛选出策略后
00:11:46想着用这些策略来运作一个新的对冲基金
00:11:48虽然想法是这样的
00:11:49但结果却惨败
00:11:51最终在去年倒闭了
00:11:53为什么会发生这种现象呢?
00:11:55对于想要进行量化交易或量化投资的观众来说
00:11:58该如何避免这种结果呢?
00:12:02当然,无法完全避免
00:12:03我也认为这是一项相当艰巨的任务
00:12:07即便如此,如果您仍想尝试挑战
00:12:10至少请务必记住这10点
00:12:12并保持谨慎
00:12:13我将从这个角度逐一为大家说明
00:12:16只要记住这10点
00:12:17应该就能避免因错误回测而浪费时间
00:12:22以及遭受损失的情况
00:12:24当然,做好回测并不保证一定能盈利
00:12:27首先,第一点是必须怀疑数据
00:12:31我看到有些人使用谷歌或雅虎的数据
00:12:34但那些数据其实非常非常“脏”
00:12:37所以对于那些想从零开始做量化交易的人来说
00:12:41真的会在数据上遇到很多阻碍
00:12:45这种免费数据很脏,错误也很多
00:12:47其次,在让数据变干净的
00:12:50“数据清洗”作业中
00:12:51你可能以为只要找出错误就行了
00:12:54但实际上,人的主观判断
00:12:57和偏见也难免会渗入其中
00:12:59我来举一个例子
00:13:01假设某只股票在41到43美元区间交易
00:13:05然后收盘了
00:13:06但在临近收盘时
00:13:08某位交易员因为下单失误
00:13:11导致一股以28美元成交了
00:13:14那么严格来说
00:13:16当天的最低价就是28美元
00:13:18虽然这个人在28美元价位因失误蒙受了巨大损失
00:13:21但无论如何,最低价应该被记录为28美元
00:13:24因为那是事实
00:13:25那么该如何设定最高价和最低价呢?
00:13:28如果删除这一笔,把最低价定为41美元
00:13:31实际上也是删除了真实存在的交易
00:13:34删除了真实的最低价
00:13:36但如果不删除它
00:13:38举个例子,在当天的波动范围内
00:13:40如果股价在5分钟内暴跌超过5%
00:13:44就下达买入指令
00:13:45在对这种策略进行回测时
00:13:47回测程序可能会识别为
00:13:48在28美元买入了
00:13:51那么我以28美元买入
00:13:53并在收盘价42美元
00:13:55立即卖出,回测会这样识别
00:13:58从而导致该策略的收益
00:13:59被极大地夸大
00:14:01当然,因为只有1股,你可以选择删除
00:14:03但如果这位交易员的下单失误
00:14:06是10股、100股,甚至是1万股呢?
00:14:09实际上确实有过这样的案例
00:14:11这类案例偶尔会发生几次
00:14:14虽然那种损失数百亿韩元的
00:14:17大规模案例确实存在
00:14:20但这种100股、1000股的
00:14:21失误其实比想象中更频繁
00:14:23当然,最近几年
00:14:24随着算法
00:14:25接管了交易执行
00:14:27安全机制也更加完善
00:14:29不像以前那么频繁了
00:14:31但无论如何,回测数据中
00:14:33如果是算法执行普及之前的数据
00:14:36比如追溯到2011年、2005年
00:14:37甚至更久以前
00:14:39经常能看到这类案例
00:14:41那么该如何处理这些数据呢?
00:14:43此外,还有在多个交易所
00:14:44进行交易的商品
00:14:45如果是这类商品
00:14:47那些来自不同交易所的数据
00:14:49是否已经被整合
00:14:50成为包含最低价、最高价
00:14:52以及交易数据、交易量等
00:14:53经过清洗和整合的数据呢?
00:14:56或者
00:14:57你只是获取了几个交易所的数据
00:14:59在用不完整的交易数据
00:15:01进行回测?
00:15:02如果数据成本很低
00:15:04就很有可能存在这种情况
00:15:05另外,在计算最大回撤(MDD)时
00:15:07是基于收盘价还是最低价?
00:15:09例如,在对每月
00:15:11进行调仓的策略
00:15:13进行回测时
00:15:14虽然使用的是日度数据
00:15:15但也有人只用收盘价
00:15:17但事实上
00:15:18为了计算这种资产回撤
00:15:20必须也要观察
00:15:21日内回撤(Intraday Drawdown)
00:15:22这些细微的部分
00:15:24或者是用期货进行回测时
00:15:26如果是带有到期日的商品
00:15:27该如何处理展期(Rollover)?
00:15:29或者在回测中
00:15:31将连续的期货到期合约连接起来
00:15:33创建出数据后
00:15:34进行回测
00:15:35但对于到期展期
00:15:37该如何界定和处理
00:15:38这类问题
00:15:39除了这些,还有非常多类似的问题
00:15:40但是对于这些数据问题
00:15:42您是否曾深思熟虑过?
00:15:44或者如果您使用某些回测服务
00:15:47是否只是盲目相信那家公司已经处理好了数据?
00:15:51这些部分都有必要去确认
00:15:53数据问题引发的错误远比想象中多
00:15:57导致回测结果
00:15:59出现失真的情况非常普遍
00:16:01除此之外,数据带来的另一个问题是
00:16:04幸存者偏差
00:16:06这是回测中最具代表性的错误之一
00:16:08这张图展示的是
00:16:10我不确定是一战还是二战
00:16:12当时空军想要加固飞机
00:16:16在考虑甲板的哪个部位
00:16:18需要把防御层做得更厚
00:16:20为了弄清楚这一点
00:16:21工程师们把经历过空战后
00:16:24返航的所有飞机集中起来
00:16:26统计了哪里挨的子弹最多
00:16:28并对此进行了分析
00:16:29于是得出结论:啊,这些部位挨子弹最多
00:16:33所以要把这些部位
00:16:34用更厚的铁板加固
00:16:36他们本来打算这样做
00:16:38但这是一个极其严重的错误
00:16:40因为实际上像这个部分
00:16:42那个部分
00:16:42或者是这些部位
00:16:44在那些位置被击中的飞机
00:16:46全部都坠毁了,根本没能返航
00:16:49所以,仅凭手头现有的数据下结论有多危险
00:16:50通过已有数据得出结论
00:16:52是多么危险的一件事,这是一个很好的例子
00:16:54如果在股票投资中提到“生存者偏差”
00:16:56比如
00:16:57现在回头看
00:16:59如果当初在80年代买了苹果和微软
00:17:02现在肯定发大财了
00:17:03因为有了这种想法
00:17:05假设我们制定了一个专门购买这类科技股的策略
00:17:08但在80年代当时
00:17:10和苹果、微软一样有潜力的公司
00:17:13当时超过了30家
00:17:14而其中有28家已经销声匿迹了
00:17:17结果只有2家存活了下来
00:17:19虽然最后只剩下了这两家
00:17:22但人们看着这两家会想
00:17:23“啊,现在这么投资就能发财”
00:17:27这种只针对目前幸存的公司
00:17:30进行回测(Backtesting)的做法
00:17:32收益率必然会被夸大
00:17:35而且回测的时间跨度越长
00:17:38问题就会越严重
00:17:40因为在那么长的时间里
00:17:41肯定有很多公司在初期是存在的
00:17:43但后来破产倒闭了
00:17:45但意想不到的是,很多股市新手
00:17:47在开始这种回测时
00:17:48首先要设定股票池(Stock Universe)
00:17:51即确定要对哪些股票进行回测
00:17:54在设定这个范围时
00:17:55往往是用现在依然存在的公司来构成的
00:17:58然后在那个范围内
00:17:59通过各种标准进行回测
00:18:02试图判断如何从中挑选出好公司
00:18:05这种判断方式
00:18:07会导致
00:18:08从回测开始到现在的这段时间里
00:18:11所有破产的公司都会被排除在外
00:18:13这等于是假设自己拥有
00:18:16某种“神之预知力”后再进行的回测
00:18:18那么收益率自然会比实际情况虚高
00:18:21所以进行回测时
00:18:23如果要回测20年的数据
00:18:25应该以2001年当时存在的公司为对象
00:18:29开始回测
00:18:30并以此作为考察范围
00:18:32我想强调的是这一点
00:18:33顺便说一下
00:18:34YouTube上出现的那些“超级散户”
00:18:37可能也存在生存者偏差的问题
00:18:40虽然有些确实是靠实力成为超级散户的
00:18:43但也有人是冒了极大的风险
00:18:45重仓买入了某一只股票
00:18:48结果正好赶上大涨
00:18:49从而成为了超级散户
00:18:51但采取过这种冒险行为的人
00:18:53当时可能还有30个、50个
00:18:55在50个做了高风险行为的人中
00:18:58只有一个人活了下来
00:18:59而观众看到的可能只是那一个人
00:19:02这或许也是生存者偏差的问题
00:19:05如果此时此刻
00:19:06抱着“我也要变成那样”的想法
00:19:08去进行极高风险的投资
00:19:11并不能保证一定会成功
00:19:13而是必须成为50个人中那个幸运儿才行
00:19:17所以,仅仅是意识到这些偏差的存在
00:19:20就能帮你进行更理性、更明智的投资
00:19:22因此,在使用回测平台时
00:19:24刚才提到的数据问题
00:19:27或者是生存者偏差的问题
00:19:28很多人会天真地认为相关机构已经处理好了
00:19:31就这样全权委托给他们
00:19:32但问题是,那些机构
00:19:33是否真的针对这些部分或数据问题
00:19:35非常非常严谨地
00:19:37站在用户的立场上,担心用户的收益率
00:19:39甚至是实战中的收益率
00:19:41而投入了大量的资本
00:19:43去把数据清洗得干净准确呢?
00:19:45这些部分是必须要去确认的
00:19:48接下来,第二个需要注意的点是
00:19:50“前瞻性偏差”(Look-ahead Bias)
00:19:52也就是不要偷看未来
00:19:54给“Look-ahead Bias”起个简单的名字
00:19:57可以叫“未来先知偏差”?
00:19:58大概可以这样解释
00:20:00在交易发生时还无法获得的信息
00:20:03因为回测是基于历史数据进行的
00:20:05所以从时间点的角度来看
00:20:07有些信息在去年其实并不存在
00:20:09但在编写去年那个时间点的交易逻辑时
00:20:12却参考了这些信息并进行了交易
00:20:14这种情况并不少见
00:20:15这就是所谓的前瞻性偏差
00:20:18这类偏差中一个代表性的错误是
00:20:21比如,以本月(2021年9月)为准
00:20:24觉得回测所有的韩国股票太辛苦了
00:20:27那就只测100个吧
00:20:29用户可能会产生这种想法
00:20:30于是筛选出KOSPI市值排名前100的公司
00:20:34并以此进行回测
00:20:35比如制定“PER达到某种程度就买入”的策略
00:20:38然后这样
00:20:39进行了10年的回测
00:20:41结果发现收益率非常好
00:20:42但这里哪里错了呢?
00:20:44你是以2021年9月为基准筛选出的市值前100名
00:20:50只选了那些特定的股票
00:20:51如果回测10年的话,就意味着在2011年
00:20:55你就已经预先知道了2021年哪些公司
00:20:59会排在市值前100名以内
00:21:01因为市值排名靠前
00:21:03本质上意味着该股票的价格在持续上涨
00:21:06但人们往往不太留意这些
00:21:08觉得只要按市值切分
00:21:11选出几百个就行
00:21:12在这种思维方式中
00:21:14非常容易犯错
00:21:15还有另一个例子
00:21:17在使用企业的财务报表、基本面或业绩数据进行回测时
00:21:21每个季度各家企业发布业绩的
00:21:24具体日期其实都是不一样的
00:21:26但在这些企业发布业绩之后
00:21:29是否紧接着进行了仓位调整
00:21:31或者进行了其他交易
00:21:33比如这家企业直到下个月初才发布业绩
00:21:36但在回测中,你在知道这个信息的情况下,早在几天前的月底
00:21:40就进行了调仓
00:21:41这等于是在预知未来的情况下进行交易
00:21:44这类情况很容易混入回测中
00:21:46再举一个例子
00:21:48比如设定根据收盘价进行交易
00:21:50并假设
00:21:52进行每日(Daily)调仓
00:21:54但收盘价是必须在一天结束后才能知道的信息
00:21:57然而在回测中,如果设定成
00:22:00在收盘前5分钟执行成交
00:22:03这样在时间节点上
00:22:05就产生了提前获知未来的
00:22:07这类偏差
00:22:09接下来第三点非常、非常重要
00:22:11那就是避免“过拟合”(Overfitting)
00:22:13这是一个无论怎么强调都不为过的部分
00:22:16过拟合是什么呢?
00:22:18简单说就是让模型
00:22:19仅在给定的样本数据上表现得异常出色
00:22:23例如,现在有这样一组样本
00:22:25而我们真正想了解的
00:22:27是其背后的“总体”(Population)
00:22:29我们想要推测出
00:22:32整体性的实际总体情况
00:22:34可能有人不太清楚什么是总体
00:22:36我简单解释一下
00:22:38假设我们要针对选举结果
00:22:40进行舆论调查
00:22:41如果对全国所有民众进行调查
00:22:44那就会是一个完美的舆论调查
00:22:46准确度高达100%
00:22:48但由于无法对所有民众进行调查
00:22:50所以会从全国民众中抽取样本
00:22:53只抽取部分人口,并假设该样本能代表其背后的总体
00:22:58即具有代表性
00:22:59并以此进行推论
00:23:02在这些数据中,背后的实际总体数据
00:23:06可能是这样分布的
00:23:08我们从中抽取几个样本
00:23:10并利用样本来推测背后的总体是什么形状
00:23:16现在看到的是为了符合那个形状而进行模型拟合(Fitting)的过程
00:23:20所谓模型拟合
00:23:22是指要找到一条能让当前的样本
00:23:25与该模型趋势线之间的误差最小的线
00:23:30就像这些线一样
00:23:30但如果你像这样用一条极其扭曲、
00:23:34极其复杂的模型去进行拟合
00:23:37在样本数据上,它的误差是零
00:23:39因为它触及了每一个样本点
00:23:41所以在该样本中,它是完美无缺的
00:23:44零误差模型
00:23:47但实际上,这真的是一个能很好表达背后总体的模型吗?
00:23:51肯定不是吧?
00:23:51如果再抽取一组新样本,误差就会变得非常大
00:23:54所以必须进行“适度拟合”
00:23:58这样当新的样本进入时
00:24:00其总误差才会相对较小
00:24:03反之,如果像这样用一条过于简单的直线
00:24:06进行拟合的话
00:24:08就是“欠拟合”,即优化不足
00:24:10那么仅在样本上,误差就已经很大了
00:24:13所以在任何建模中,最关键的
00:24:16就是进行适度的优化
00:24:18但很多人在进行回测时
00:24:20面对历史数据,某种程度上就是样本数据
00:24:24针对那些样本数据
00:24:26为了让样本内的收益率实现最大化
00:24:29会强行塞入各种规则
00:24:32从而把收益率拉到最高
00:24:35比如,对2015年到2021年的数据进行回测后得出
00:24:39如果买入PER在13.75以上、17.23以下
00:24:43市值在517亿以上、623亿以下
00:24:46如果购买市净率 (PBR) 低于 1.17 的股票
00:24:50年化收益率可达 70%。
00:24:52这就是回测出来的结果。
00:24:54这很明显是完全的过拟合 (Overfitting)。
00:24:57也就是过度优化了。
00:24:58可能是因为某只市盈率 (PER) 为 17.24 且盈利很差的股票
00:25:04被包含在了这组数据中
00:25:05或者是某股市值恰好为 515 亿
00:25:09却是一个非常负面的案例,才这样设定规则
00:25:12像这样极其细致地只盯着样本数据、历史数据
00:25:16不顾一切地想要把收益率最大化
00:25:19就会得出这种模型
00:25:21那么未来当这种分布的数据真正出现时
00:25:25误差范围就会变得很大。
00:25:27就是这个道理
00:25:28我们来更详细地了解一下。
00:25:29这也是一个过度优化的例子。
00:25:31我们想要学习出一条能很好区分红色和蓝色的
00:25:34那样的线条。
00:25:36也就是线条的模型。
00:25:37现在的这条黑线学习得恰到好处
00:25:40但这条绿色的波浪线
00:25:42以目前看到的蓝色和红色圆点为基准
00:25:46实现了完美的分割。
00:25:48所以在这些样本数据中
00:25:50它是误差为零的完美线条
00:25:52但实际背后的总体
00:25:55如果蓝色圆点大概在这里出现
00:25:57红色圆点又在这里出现的话
00:25:59当未来新的数据进入时
00:26:03这条绿线将会产生巨大的误差。
00:26:05我们可以这样推测。
00:26:07所以如果跟历史数据嵌套得太死
00:26:10在未来就无法适用。
00:26:11这还有一个类似的例子
00:26:13收集了 100 名在校学生的个人信息
00:26:15以及相关的详细数据。
00:26:16并以此为基础,在今年 100 名在校生中
00:26:19判断谁的成绩会更好。
00:26:20如果设定规则说:姓郑
00:26:22身高在这个区间
00:26:23像这样过度针对去年成绩优秀的学生数据
00:26:26进行过度优化
00:26:28并以此制定判断规则
00:26:30那么把这套规则应用到今年的学生身上
00:26:32结果可能会极其离谱。
00:26:34如果只是单纯以“学习时间超过几小时”
00:26:37来作为判断规则的话
00:26:39套用在去年在校生数据上时
00:26:42比起那些细碎的规则
00:26:44准确度可能会低一些。
00:26:45虽然准确度稍低
00:26:47但即使应用到今年的学生身上
00:26:49依然有很高的概率保持不错的准确度。
00:26:53那么,我们该如何缓解这种过度优化的问题呢?
00:26:56所有的回测都在某种程度上存在过度优化问题
00:27:00想要完全消除是不可能的。
00:27:01比如,根据过去 5 年数据回测的策略收益率
00:27:06如何知道它在未来 3 年是否依然有效?
00:27:08针对这个问题的完美答案
00:27:11就是直接交易 3 年试试看,对吧?
00:27:12但这属于事后诸葛亮
00:27:15如果交易了 3 年却亏损了
00:27:17那这种验证就没意义了,对吧?
00:27:17所以有一种方法是
00:27:19利用所谓的“样本外数据 (Out of Sample Data)”
00:27:21也就是利用样本之外的数据。
00:27:23我不确定这个翻译是否准确
00:27:25但通常被称为 OOS 数据。
00:27:27举个例子
00:27:28从 2015 年 9 月到 2021 年 9 月
00:27:31也就是在 6 年的数据中
00:27:33寻找收益率好的策略
00:27:34然后从 2021 年 10 月开始实盘交易,这样做并不理想。
00:27:38不应该这样做,而是
00:27:39利用 2014 年 9 月到 2020 年 9 月
00:27:42这 6 年的数据
00:27:44找到收益率好的策略后
00:27:46接着在 2020 年 10 月到
00:27:492021 年 9 月这段时间再做一次回测。
00:27:52也就是先在 2014 年起的 6 年数据中
00:27:55通过回测找到收益好的方案
00:27:57然后假设从 2020 年 10 月开始进行实盘交易
00:28:02并针对这 1 年的数据进行回测。
00:28:04如果结果依然良好
00:28:06那么再从 2021 年 10 月开始真正的实盘交易。
00:28:09当然,如果这样划分
00:28:10又会产生其他问题
00:28:12我们稍后再讨论那个
00:28:13我现在想要传达的核心是
00:28:16如果有这么多的样本数据
00:28:18就把其中的这一小块单独拿出来。
00:28:19先单独放在一边
00:28:21利用剩余的数据努力寻找策略
00:28:23进行大量的回测
00:28:24并针对这些数据进行优化
00:28:26优化完后不要直接投入实盘
00:28:28而是把刚才寻找策略时
00:28:30没有用到的那部分数据拿出来
00:28:31想象这是在实战中
00:28:33在那里测试一下。
00:28:34这就是所谓的利用样本外数据
00:28:35即利用 OOS 数据。
00:28:38在数据科学中
00:28:39会有训练集、验证集
00:28:41Train Data、Test Data
00:28:42或者是 Development Data
00:28:44这些术语
00:28:45其实并不那么重要
00:28:46接下来的第 4 点是第 3 点的延伸
00:28:48即:验证机会只有一次。
00:28:50这一点非常、非常、非常重要。
00:28:53真的是无论怎么强调
00:28:58都不为过的一句极其重要的话
00:29:01关于这套样本外数据的测试
00:29:03我们再来深入探讨一下。
00:29:04关于样本数据和样本外数据
00:29:06虽然有各种各样的称呼
00:29:08但在本视频中
00:29:09我们将统一称之为
00:29:11训练数据和验证数据。
00:29:12回顾刚才的例子
00:29:132014 年到 2020 年的
00:29:16数据就是训练数据
00:29:18所谓训练数据
00:29:19就是用来寻找策略的数据
00:29:20找到策略之后
00:29:22用来测试这套策略的数据
00:29:24也就是最后那 1 年的
00:29:26回测数据
00:29:28我们就称之为验证数据。
00:29:30那么这张图表代表什么呢?
00:29:32它展示了规则或模型的复杂度
00:29:35越往右
00:29:36模型就越复杂。
00:29:38比如像刚才说的,把规则定为
00:29:40173cm 到 173.25cm 之间
00:29:42像这样去设定规则
00:29:44做得越细
00:29:45复杂度就越高;
00:29:47而纵轴代表预测误差
00:29:49也就是投入实战时
00:29:50误差有多大
00:29:52大家可以看到
00:29:53在 Training Sample
00:29:54也就是训练数据中
00:29:55模型越复杂
00:29:58误差就越小。
00:29:59就像刚才那些样本点
00:30:02线画得越弯曲
00:30:03复杂度越高
00:30:05在样本数据内部
00:30:06就能把误差降为零。
00:30:08所以如果把模型做得极其复杂
00:30:12误差会趋向于 0;
00:30:14但是把这样学习出来的模型
00:30:16放到单独预留出来的验证数据中
00:30:18进行测试的话
00:30:19误差会是多少呢?
00:30:21起初模型非常简单
00:30:23比如只是一条直线
00:30:24或是欠拟合 (Underfitting) 的时候
00:30:26两者的误差差不多。
00:30:28但是随着模型或规则变得越来越复杂
00:30:31在这些训练数据的样本中
00:30:33误差虽然在持续减少
00:30:35但在验证数据中
00:30:37误差会在触底后,从过度复杂的节点开始
00:30:40重新开始增加。
00:30:42如果拿投资回测来类比
00:30:45就是进行了大量的回测
00:30:47设定了各种极其细致的规则
00:30:51尝试了无数次回测
00:30:52并极其精确地
00:30:55调整了参数
00:30:56比如 PER 值必须在多少以上。
00:30:59越是把规则做得这么细、这么复杂
00:31:02在历史数据上的收益率就会不断攀升。
00:31:05因为这是误差图,所以越低越好。
00:31:08总之,这种过度嵌套历史数据的回测
00:31:12嵌套得越深,收益率看起来就越好
00:31:15但把它应用到实战时
00:31:17如果规则过于复杂
00:31:18从某个点开始,规则越复杂
00:31:21实战中的收益率反而会降低。
00:31:23就是这样的趋势。
00:31:24刚才我把误差降低描述为
00:31:26收益率提高
00:31:28把误差升高描述为收益率恶化
00:31:31虽然这样表达了
00:31:32但严谨地说
00:31:33误差增大
00:31:34和收益率降低是有微小差别的。
00:31:37即回测做得越烂
00:31:39过拟合越严重
00:31:42回测收益率与未来真实收益率之间的鸿沟
00:31:45即误差就会越大
00:31:47这种误差在随机情况下
00:31:49可能更高
00:31:50也可能更低。
00:31:51但通常如果出现这种误差
00:31:53实际收益率往往会更差。
00:31:55因为在拟合过去的数据时
00:31:57为了尽可能提高收益率
00:31:59进行了过度的强行拟合
00:32:00所以一旦收益率出现偏差
00:32:02通常都是向下的偏差。
00:32:03那么,回测时该如何划分
00:32:06训练数据和验证数据呢?
00:32:08例如,用2011年到2021年
00:32:11这11年的数据进行训练,然后从明年开始应用
00:32:15这就意味着不打算划分出验证数据。
00:32:18而是把全部数据都当作训练数据来使用
00:32:21这种做法是不推荐的。
00:32:22刚才提到的那种划分方式是
00:32:25把这10年的数据作为训练数据进行学习
00:32:28再用2021年最后这一年进行验证
00:32:31然后从2022年开始正式应用的方法。
00:32:34但这一点稍后我会提到
00:32:36这并不是一个特别好的方法。
00:32:38除此之外,还有哪些改进的方法呢?
00:32:40有一种叫做“向前走测试”(Walk-Forward Testing)的方式
00:32:43它的原理是
00:32:44例如从99年开始,取3年的数据
00:32:46在其中进行学习并优化参数
00:32:49以此为基础验证之后的一年
00:32:52然后像这样以滚动的方式进行。
00:32:55如果用这种方式来制定策略
00:32:58事实上,假设是一个非常简单的模型
00:33:01虽然我认为仅以市盈率(PER)为基准进行回测
00:33:04是非常荒谬的事情
00:33:05但假设有一个购买市盈率低于一定水平的股票策略。
00:33:08那么在10年的数据基础上
00:33:11去优化市盈率数值时
00:33:13每一年表现最佳的市盈率基准都会有所不同
00:33:17其中你会选择一个平均表现还不错的数值。
00:33:20但如果把范围缩小一点
00:33:22根据过去3年的情况来确定市盈率并进行交易
00:33:26如果以这种方式进行测试
00:33:28就能让这个参数更加灵活地
00:33:30随着时间的推移而不断调整。
00:33:32这就是其中一种测试方式
00:33:35可以用这种方式测试,也可以用
00:33:37被称为“K折交叉验证”(K-Fold Cross Validation)的方法
00:33:38也就是Cross Validation
00:33:39它是这样操作的
00:33:41这个K值代表要分成多少个单位
00:33:45看图的话,这里的K值应该是5。
00:33:47如果把K值定为5,就是把数据分成5等份
00:33:50在其中的4年数据上进行训练
00:33:53然后在剩下1年的验证数据中查看收益率是多少
00:33:56接着再在另外4份数据上训练
00:33:59验证在对应年份的表现如何
00:34:01重复此过程后,将这些收益率取平均值,即除以5。
00:34:05也就是说,把这些收益率进行平均。
00:34:09我们认为这与可以期待的收益率相似。
00:34:12这就是该方法背后的思路。
00:34:13除此之外,比如使用过去10年的数据
00:34:16有时也会用偶数年份的数据进行训练
00:34:19用奇数年份的数据进行验证。
00:34:22这些方法都各有优缺点
00:34:23要说这种方式的优点
00:34:26就是参数对于“市场环境变化”(Market Regime Change)非常稳定。
00:34:30这是什么意思呢?
00:34:31当金融危机或新冠疫情爆发时
00:34:33市场的性质会发生改变。
00:34:35比如,2008年爆发了金融危机
00:34:39如果你用1998年到2007年的数据进行训练
00:34:43找到了收益率最好的方案
00:34:45然后再拿来验证
00:34:46由于市场性质已经发生了翻天覆地的变化
00:34:49数据的分布也会变得不同
00:34:51后期市场的情况
00:34:52前期的那些模式将无法反映出来。
00:34:55所以如果按这种方式划分数据
00:34:57即使发生了巨大的突发事件
00:35:00导致市场性质和模式彻底改变
00:35:02也能进行相对更稳定的验证。
00:35:06所以有人会采用这种方式
00:35:08但使用这种方式时,必须注意刚才提到的“偷看未来”的问题
00:35:11这一点需要格外警惕。
00:35:13因为根据交易周期的不同
00:35:16假设是以月为单位进行交易
00:35:18如果当前的训练数据中
00:35:19已经反映了2014年的训练数据
00:35:22但根据你在2013年使用的规则或数据
00:35:26原本到了2014年才能知晓的信息
00:35:28可能会混入到验证数据中。
00:35:30这样一来,验证数据的收益率就会虚高。
00:35:34因为你已经在“预知未来”的情况下进行了学习。
00:35:36所以这部分需要特别注意
00:35:39虽然我刚才讲得比较粗略
00:35:41但在机器学习(Machine Learning)等领域
00:35:44涉及到“超参数”(Hyperparameter)等概念。
00:35:46通常来说,参数是模型为了
00:35:50减少样本数据的误差而自行调节的部分
00:35:54而超参数则是需要人来确定的部分。
00:35:57例如做回归分析时
00:35:59是使用直线还是曲线
00:36:03也就是说,参数有多少、公式有多复杂
00:36:07使用什么样的模型
00:36:09这些是由人来决定的。
00:36:11那么这些参数的数量等就是超参数;
00:36:15一旦确定了这些
00:36:18模型就会根据数据情况
00:36:22朝着优化数据误差的方向去拟合这条线。
00:36:23于是,斜率或者截距等部分就会根据数据
00:36:28由模型进行学习,这些斜率值等部分就叫参数。
00:36:33因此,超参数也需要尝试多种组合。
00:36:36所以不仅仅是简单划分为训练(Train)和测试(Test)数据
00:36:40还会再划分出一个叫“开发集”(Dev Data)的部分。
00:36:42在开发集上进行优化
00:36:45在这里对超参数进行调优
00:36:48然后再用测试数据进行验证,有这样的做法。
00:36:51懂机器学习的人肯定都已经理解了
00:36:55而不懂的人,光凭这点解释大概还是不明白
00:36:58所以这部分我就先带过了。
00:37:00但在做这项工作时,有一点非常、非常、非常重要
00:37:04无论怎么强调都不为过。
00:37:08那就是验证数据
00:37:10验证数据绝对、绝对、绝对不能看第二次。
00:37:15关于那个结果
00:37:16我们在训练数据中反复训练、多次回测,以此找到收益率好的策略对吧。
00:37:22虽然这个策略在训练数据上表现很好
00:37:26但为了验证在实战中是否真的同样有效
00:37:31我们才会使用训练数据中未包含的期间或数据来进行回测。
00:37:38但是,这个回测绝对不能跑第二次。
00:37:41只能跑一次,如果跑这一次的结果很糟糕
00:37:45那么无论你为此努力了多少年,或者为了制定这个策略吃了多少苦
00:37:50都必须放弃整个策略。
00:37:52为什么?因为在实战应用中,你盈亏的机会也只有一次。
00:37:57时间是无法倒流的。
00:37:58即便如此,很多人因为觉得可惜,看到验证数据结果不好
00:38:03就回到训练数据去调整参数
00:38:07重新跑一遍,直到验证数据的收益率变好为止。
00:38:10就在那一瞬间,验证数据已经不再是验证数据了
00:38:14它已经沦为了训练数据的一部分。
00:38:16因为你在寻找参数时,连验证数据也包含进去进行优化了。
00:38:21所以,这个策略到了实战中到底能产生多少收益
00:38:26我们已经无法提供任何保证了。
00:38:29所以这一点至关重要
00:38:31接下来是回测时的另一个要点,也是一脉相承的话题
00:38:34那就是“时代在变”,即“市场环境”(Market Regime)的概念。
00:38:37我想问大家一个问题。
00:38:3920年的回测和3年的回测中
00:38:42哪一个更有意义呢?
00:38:44其实看我的标题,答案已经出来了
00:38:47很多股市新手觉得回测做得越长越好
00:38:50认为数据越多就越可靠。
00:38:54但如果是我的话,在这两种回测中
00:38:57当然这取决于时间跨度以及交易频率
00:39:00会有所不同
00:39:01但通常我会选择3年的数据。
00:39:03数据量确实是越多越好。
00:39:06但前提是,这些数据必须来自同一种分布。
00:39:09数据绝对是越多越好
00:39:11但如果混入了环境已经改变后的其他数据,反而不好。
00:39:17所以回测时间拉得太长,面临的问题是
00:39:20市场的性质会发生变化。
00:39:22这可能是……实际利率图表吗?
00:39:26总之是一个关于利率的图表
00:39:28大家可以看到,所谓的“适度利率”这个概念
00:39:33虽然一直在波动
00:39:34但在不同体制下的利率水平会发生剧变。
00:39:38那时在这个水平,这是石油危机吗?
00:39:41总之以那个时期为界,后来到了这个水平
00:39:45而到了80年代以后
00:39:47这一带成了普遍通用的利率水平。
00:39:51假设你在做债券相关的交易
00:39:53你在这一段时期内学习并制定了交易策略
00:39:57然后想应用到后面这段时期。
00:39:59那么,一旦市场环境发生了改变
00:40:02基于之前数据制定的高收益策略
00:40:07在这里就不再适用了。
00:40:08这就是所谓的“市场环境变化”(Market Regime Change)。
00:40:11即市场性质、市场体制的变化
00:40:14市场性质的改变
00:40:17有时是随市场参与者的变化而发生的。
00:40:20例如新冠疫情后大量散户涌入
00:40:23发生了游戏驿站(GameStop)事件
00:40:25在新冠疫情之前
00:40:27那些做空策略(Short Selling)
00:40:30甚至有专门做空的对冲基金。
00:40:32原本是非常有效的策略
00:40:34但由于市场性质突然改变
00:40:37有的甚至落到了破产的境地。
00:40:39其次是制度及监管的变化,比如金融危机爆发后
00:40:43禁止了投资银行的自营交易
00:40:45衍生品市场也因为各种监管而发生变化
00:40:49那么用金融危机之前的训练数据
00:40:50所学习得到的策略
00:40:52在危机之后可能就不再奏效了。
00:40:54还有就是外生性事件
00:40:55像石油危机那种足以
00:40:57改变市场本身的
00:40:59宏观经济事件
00:41:01以及各种宏观经济的演变
00:41:03随着债务比例不断攀升
00:41:06以前的利率水平还在这个高度
00:41:08现在却进入了极低利率的时代
00:41:11同时也因为量化宽松等政策
00:41:13进一步助推了这种低利率环境
00:41:15使得成长股在过去十年间
00:41:17表现得极其出色。
00:41:19但如果利用量化宽松前的训练数据
00:41:22寻找高收益的投资策略
00:41:24可能会得出购买价值股之类的结论。
00:41:25那么在随后的十年里
00:41:27表现肯定会非常糟糕。
00:41:28此外还包括新技术的出现
00:41:30或是产业结构的转变
00:41:32等等这些因素。
00:41:33所以回测20年的数据时
00:41:352001年的数据是否还有意义呢?
00:41:38当然,所谓“市场状态切换”
00:41:40取决于你观察哪些因素
00:41:42结论也会有所不同。
00:41:43归根结底,取决于策略逻辑、
00:41:45规则或是模型
00:41:47观察了哪些维度
00:41:49使用了哪些数据
00:41:51根据这些情况
00:41:52来观察数据的状态(Regime)
00:41:53是否发生了切换。
00:41:55因此,有的数据性质
00:41:56可能按月就会发生快速变化
00:41:58变化得非常频繁
00:41:59而有的数据可能在10到15年内
00:42:01都保持得非常稳定。
00:42:03由于各种周期的性质都不同
00:42:05所以一般来说
00:42:07不能简单认为新冠疫情爆发了
00:42:09之前所有的模式
00:42:09就全都失去意义了。
00:42:12但无论如何,如果跨度达20年
00:42:14这么长的时间
00:42:15肯定会存在一些问题。
00:42:17你可以这样理解
00:42:18如果你想利用非常久远的数据
00:42:20来进行推断
00:42:22虽然市场状态
00:42:23在中间发生过多次切换
00:42:24但如果那些久远的数据
00:42:25在某些特征上能反映当前时点
00:42:29那么它们
00:42:30依然是具有参考价值的。
00:42:32所以有人会说
00:42:33现在的情况和1940年代很像。
00:42:35虽然这只是题外话
00:42:37但也是一种视角。
00:42:38如今量化交易
00:42:41已经变得非常普及
00:42:42甚至普通散户也在参与
00:42:44但对于长期投资而言
00:42:45量化投资的一个盲点在于
00:42:47将这种定量分析方法
00:42:49应用于长期投资时
00:42:51很难在获取大量数据的同时
00:42:53避开市场状态切换带来的风险。
00:42:55举个例子,假设有一个
00:42:57使用分钟级数据的算法交易策略。
00:42:591分钟、不,1小时内
00:43:01就有60个数据点。
00:43:02因为有60分钟
00:43:03所以有60个数据
00:43:04如果以
00:43:0524小时交易的期货为例。
00:43:0824乘以60的话
00:43:09是1440个
00:43:10我算得对吗?
00:43:10会有1440个数据点。
00:43:12既然一天有1440个数据点
00:43:15假设每周交易5天,一年算250天
00:43:17如果有250个交易日
00:43:20那么一年就能获取30多万个
00:43:21这种量级的数据
00:43:23在一年之内就能攒够。
00:43:25仅仅一年的时间
00:43:26就能确保有30多万个数据样本
00:43:29因此可以在足够丰富的数据中
00:43:32进行有效验证
00:43:33也可以尝试使用更复杂的模型
00:43:35这些都是可行的。
00:43:36但如果是按月操作的
00:43:37某种定期平衡仓位的策略
00:43:39一年就只有12个数据点。
00:43:41哪怕做20年的回测
00:43:42也只有240个样本。
00:43:44由于无法在时间轴上增加数据量
00:43:47所以只能通过观察多个股票标的
00:43:49试图在横向上进行扩展
00:43:51以确保结论的统计显著性
00:43:53但终究在时间轴上
00:43:54很难避开市场状态切换的问题。
00:43:57所以这部分确实非常困难。
00:43:58新冠疫情爆发后
00:44:00很多量化交易员,比如
00:44:02这位名叫 Inigo Fraser-Jenkins 的人
00:44:05据我所知他是一家知名公司的量化部门主管
00:44:09他曾解释过“为什么我不再是一名量化分析师”
00:44:11并对此发表了看法
00:44:13其核心观点大致是
00:44:15量化的本质是基于历史模式预测未来
00:44:19但像
00:44:20新冠这种突发事件会让历史模式失效
00:44:23当市场状态发生剧变时
00:44:25量化分析能发挥的作用微乎其微。
00:44:28甚至有人谈到了“量化分析师的存在危机”
00:44:30这类话题
00:44:31而且去年量化策略的表现确实不佳。
00:44:34虽然少数策略表现不错
00:44:36但平均而言,业绩非常惨淡。
00:44:38讲到现在大概完成了一半
00:44:40不知不觉已经过去一个半小时了
00:44:43所以第一部分就先讲到这里。
00:44:45明天在第二部分,我们会讨论余下的第6到10点
00:44:49包括其优势与局限性
00:44:50以及学习量化交易的课程建议
00:44:52我们到时候再详细探讨。
00:44:54那我们第二部分见。
00:44:55谢谢大家。