阿尔法多因子模型系列之三：模型拟合答案

背景介绍：

果仁网推出股指对冲功能，应果仁邀请，本人准备写一些关于如何构建对冲阿尔法策略组合的系列帖子。

本人在一家小型对冲私募工作，研究对冲阿尔法策略，此系列由于本人才疏学浅，粗陋之处，尚请见谅。

各位朋友如果有问题需要咨询，可以联系QQ2270788668或微信FooltrdeNow。

如果有资金愿意合作，请直接联系果仁客服QQ3432772199。

下面是阿尔法多因子模型系列之一：专业水平测试题的模型拟合的参考答案（网上大神的答案汇总），大家共同学习。

1.拟合多因子模型的综合目标是什么？

l 增强模型的解释能力，提高模型对风险的预测。

l 通过拟合多因子模型，来筛选显著、有逻辑的因子达到解释股票的价格变动，预测其未来的变化情况，最后目标是赚大钱（笑）。

我的答案：模型拟合的综合目标：策略能够预测未来的市场行情。

2.如何选择样本空间？例如对初上市股票、ST股票、指数成分股变动、停牌股票等异常情况的处理方法。

l 每一期进行回归时的样本空间都需要动态处理，对于明显不合理且没有代表性的股票可以直接剔除，比如初上市的股票，ST股票、停牌股票等，保证最终所选出来的股票是最具有代表性的。同时需要注意，剔除时需要考虑行业问题，不能剔除不合理之后某个行业下面就没有代表股了，比如A股的保险业，对于这种情况就需要综合考虑。

l 连续的、无缺失值的足够分析精度的频率样本是最好的，如果不满足其中的一项或者几项，可以采用插值、舍去等方法进行处理，这都是数据清洗的内容。对于初上市的股票、ST股票由于没有足够的历史数据进行回测，或者适用的模型和一般的不同，我个人的建议是能不碰就不碰，承认量化的局限性。指数成分股变动、停牌等，应对应修正我们在对冲系统风险时的头寸，避免不必要的风险暴露。

我的答案：数据清洗这种脏活累活苦活，当然得果仁干，洗完炒得喷喷香放在盘子里端上来。

3.如何选取因子组？有什么可以参考的经典理论？

l 所选取的因子要保证合乎投资逻辑且经过长期市场检验，参考理论多来自于经济金融教科书、论文期刊等，比如Fama-French三因子模型。

l 可以通过阅读研报、内部讨论等方式进行因子选取检验；最经典的应该就是三因子以及三因子扩展模型了吧。

我的答案：

1、只有永恒不变的人性规律，可以在长周期内预测市场行情。

2、短期内的过度拟合，如同追逐蝴蝶的小猫，终究是水中花镜中月。

3、拟合的逻辑是相关性，但只有真正的因果逻辑才能让我们赚钱。

4.从选择因子到多因子策略回测，一般有哪几个环节？哪些可以省去，哪些不能？

l 单因子测试，多因子合成，预测个股收益率、交易成本估算、组合构建

l （1）、有一个大致的可能性思路；（2）、根据这个思路去查阅文献，检索哪些因子是可能被加入模型的；（3）、根据现有数据集，确定可以被量化加入的因子数；（4）、预估计，并检验各因子有效性；（5）、共线性、异方差、自相关、显著性检验和修正；（6）、残差检验，是否存在遗漏变量；（7）、完成并归档。

我的答案：订阅《跟我学对冲》公众号，学习券商的研究流程

5.每一期的因子暴露度，如果不进行离群值、缺失值以及标准化处理，会有什么后果？如果选择进行处理，又会带来哪些需要注意的模型扭曲？

l 极值在回归中会影响整体的情况，若不进行标准化处理会导致因子间的量纲相差甚远，缺失值过多也回影响模型整体情况；对于极值的处理要考虑合理性，特别异常的极值可以直接去掉，缺失值剔除太多也不行，标准化要考虑行业之间在某些因子上固有的差异。

l 不处理的话可能会造成模型的预测收益虚高/虚低、模型的时间频度不一致导致被估计参数错误/不稳健等后果。进行处理主要是插值、取对数、拉回n倍标准差等等，可能会存在过拟合等问题。

我的答案：不处理，会把偶然当必然，导致策略收益不稳定。如果处理，又会导致偶然的可以带来大收益的因子被过滤（正向黑天鹅）。

如果策略研究，必须处理。如果是实盘交易，可以放开不处理，然后看这些极值是否符合经济逻辑。比如：银行普遍折价20%附近，工行由于意外事件冲击导致折价50%（当然这是幻想），如果处理，就有可能选择不到工行，不处理，人工判断，这个意外是偶然事件，还是会导致工行破产（天朝工行当然不会破产啦），所以买入工行才是最合理的。

6.离群值处理方法有那几种？一种比较常用的办法是将离开均值N倍标准差距离以外的离群值拉回N倍标准差的位置上，这时候N一般取值多少？

l 离群值处理有分位数去极值、标准正态分布去极值；若用标准正态分布，常见的N取3。

l 无论是拉回2倍Std（95%置信区间）、3倍Std（99%置信区间）或者其他位置，这无一个公允的定论，我认为，在处理的过程中，我们要明确这样处理的目标是什么。如果是避免一些离群的过高收益来误导我们高估了模型的收益率，那我们应该选择较小的倍数。但这样做的同时，也增大了我们低估模型收益率的可能。反之亦然。因此根据基金自身所设立的风险偏好、收益预期来选择各自的处理准则，我认为是比较合适的。

我的答案：这些处理的前提都是正态分布，实际上很多时候不是正态分布，需要事先处理把数据转换为正态分布，如BOX-COX变换。

7.缺失值的处理方法有哪几种？现提供三种参考方式：一是把空置设为NaN，回归涉及NaN项时用程序自动忽略；二是把所有含NaN项的个股从当期票池中剔除；三是把所有NaN（在标准化后）设为零（或中位数）。它们有什么区别？哪种好？或者有没有更好的？

l 回归时有NaN的项，程序也会自动忽略，和剔除所达到的效果一样；直接将NaN设置为0或者中位数也是一个可选方案，但这种替代是否合理还要具体情况具体分析；个人经验是，若因为某些原因缺失值不能直接去掉则建议用某个值替换，反之没有这个限制则可以剔除。

l 剔除各股是最稳健、保守的处理方法，缺点是排除了可能存在alpha的股票；一般的做法是标准化后做技术处理，这样可能导致模型过拟合；自动忽略不太建议使用，因为数据的连续性上会出现问题。如果可行的话，可以采用和缺失值因子相关度较高的、数据质量较好的另外一个或者一组因子来代替含油缺失值的因子，可以避免以上问题。但现实不一定满足，满足不一定能获取。

我的答案：果仁网两位老大都是数据处理的大咖，不用我们费神了。

8.标准化的方法有哪些？标准化后数据近似呈现何种分布规律？各种标准化方法的利弊？

l 常用的是假设因子值服从正态分布，用(x-u)/sigma来进行标准化；在因子值明显不服从正态分布时，可以采用中位数标准化方法。

l 一般就是将因子减去均值除以方差，标准化后呈现N（0，1）分布。我仅知这一种标准化方法。另外，根据我计量经济学上的知识，标准化在模型的处理中不一定是必要的，在未标准化时，也可以直接采用回归方法进行处理。

我的答案：答案同上，标准化的后果是美女都成了网红脸。

9.带权重的标准化，权重怎么设置？是否需要和回归时的个股权重保持一致？

l 可以选用流通市值作为权重，回归时个股设置的权重是为了剔除异方差的影响，没有必要和带全标准化这时的一样。

l 可以根据具体的经济学意义设置权重，应和回归时的个股权重保持一致。

我的答案：我不懂

10.标准化、离群值处理、缺失值处理，三个环节如何确立先后顺序？

l 一般来说，处理顺序为极值处理、缺失值处理、标准化。

l 先处理离群值、再标准化、最后处理缺失值。

我的答案：果仁网两位老大都是数据处理的大咖，不用我们费神了。

11.因子之间或多或少具有一些相关性，若把所有因子进行正交化处理，会发生什么情况？这样做或不这样做的理由是什么？

l 类似于主成分分析法，若把所有因子进行正交化则会失去因子的投资逻辑，会使得模型的解释性不够强也没有原始因子那么直观。

l 我们必须要处理相关性是因为，若模型的几个因子之间存在线性相关，则这些因子的被估计参数不稳健，容易导致错误的被估计参数。那么，一般来说，多少相关度以下的因子相关性是可以被接受的呢？一般认为是0.7。对于高相关性的因子，我们可以采用主成份分析法或者正交化处理。但都会丧失一部分因子在逻辑上的解释性，应慎重应用。

我的答案：各个大类中的因子都是沾亲带故的，全部正交化等于断绝所有亲戚关系六亲不认，以后想寻宗问祖就很难了（解释收益的来源）。

12.如何选择截面回归的频率？依据是什么？

l 截面回归的频率决定了对风险预测的horizon，这也对应了后续构建组合的调仓频率，需要联系起来考虑；常用的计算截面回归的一般是日频。

l 应至少不低于每次调整仓位的频率。依据是根据该量化策略的策略时效性、基金的风险控制要求、数据的精细程度等。

我的答案：这个我真不懂，个人感觉与因子半衰期有关，比如通胀因子、利率因子是非常长期的，市盈率因子、市净率因子这些是中期的，MACD因子、BOLL因子这些就是短期的。

13.回归模型涉及的个股收益率怎么计算？最简单的（又能保证一定精确度的）方法是什么？

l 可以用复权收盘价，精确结果应该是利用市场价格和分红、配股等影响收益的因素结合计算。

l 可以根据复盘价格进行计算。

我的答案：数一数赚到我口袋的钱，除以本金，就是我的个股收益率，精确度绝对最高（偷笑中）。

14.回归模型是否需要加入截距项（即常数项）？在什么情况下可以取，什么情况下不能取？

l 有行业因子时不能加入截距项，因为行业因子之和为全1向量，再加截距项就会导致回归系数不唯一确定

l 根据模型，截距项是否有具体的经济意义，有需要即可加入，一般如市场无风险收益率等即可作为常数加入。

15.回归时用OLS和WLS的区别在哪里？使用WLS的依据是什么？

l WLS主要是消除异方差的影响，得到的factor return更有效，在现实中确实存在不同市值股票的波动表现差异很大，大市值蓝筹股波动明显小于小市值股票，WLS有其合理的意义。

l 当残差序列存在异方差性时，用OLS估计的估计参数不稳健，此时应采用WLS对各项参数进行加权，以保证残差序列的无偏、一致、有效性。加权的一般方法是采用OLS估计下的残差、残差平方来做加权。

我的答案：上面这两题都不精通。

16.如何评估或衡量多因子模型的效果？

l 常见的有两种方式，一个是进行典型的bias test，构建组合计算BS统计量，看其波动率是否为1；另一个是直接绘图，xy轴分别为组合实际波动率和组合预测波动率。

l 各因子具有明显的经济学意义、因子前被估计参数的显著性良好、方程整体F检验显著性良好、残差序列满足独立同分布。

我的答案：在我看来，只有真实帐户的长期盈亏能评估。

17.如何判断现有因子是否足够解释收益率？

l R^2值的绝对水平以及稳定性，最直观的标准当然是R^2；但是R^2的缺点在于没有考虑因子的数量，因此可以使用Adjusted R^2，也可以使用RSME。当然对于Alpha模型来说，更重要的是预测能力，可以通过factor return的t值和IC来判断。

l 一是可以通过经济学解释来判断是否存在遗漏变量，另外也可以通过对残差分析来检验是否有遗漏因子。若残差项存在异方差性，也有可能是遗漏变量引起的。

我的答案：经济规律（宏观面因子轮动，比如全天候阿尔法，老巴的经济低谷抄底）、价值规律（基本面因子轮动）、波动规律（技术面因子轮动，群体博弈形成的规律），只要这些因子大类都覆盖到了，足够解释收益率，个人不太相信纯粹从统计角度出发的解释

18.中国股票市场多因子模型的R^2通常在什么量级？

l BARRA CNE5 Model的R^2在0.4左右

l 不清楚。但就单因子来说，如果因子的R2低于0.3，该因子可能就通不过T分布的显著性检验。

19. 为了提高R^2，尽可能多地加入各种因子，会导致什么问题？

l 加入更多的因子一定会提升R^2，但是会导致过拟合的问题

l 因子不具备经济学意义、显著性无法通过、模型过拟合，回测很美，预测很烂。

20. 如果一个因子与现有因子组均低相关，而且能够显著提高R^2，那么什么样的理由可能会使我们选择不加入这个因子？

l 因子收益率不稳定，即在统计上因子收益率均值不显著。

l 在逻辑上不具备经济学意义。

21. 对于回归法因子测试，能否直接用不同截面的数据叠加在一起进行回归（即面板回归）？可能产生的后果是什么？

l 不能。因为市场可能会产生结构性调整，牛市和熊市中因子收益率会产生巨大变化。

l 可以。但应注意各因子在时间序列上的自相关性，截面相关和自相关会导致被估计参数的不稳定，而且目前在数学上没有很好的解决办法。可能导致的后果即被估计参数不稳健，导致模型预测能力差。

22. 进行多元回归时，如何检验共线性、异方差问题？如何解决？

l 用VIF来判断是否存在多重共线性；异方差和自相关可以用white-robust或者Newey-West-robust解决

l 可以观察各变量之间的相关系数来判断是否尊在共线性；异方差可以采用white检验来判断；在发现共线性后，可以通过减少变量、主成份分析法、正交变换等方法解决；异方差可以通过WLS回归来解决。

23. 无风险资产在各个市场应该如何选择？中国市场有哪些选择？各自的利弊（例如历史长度、数据完整性、代表性等）？

l 无风险资产是指具有确定的收益率，并且不存在违约风险的资产。在中国，可以用中国固定利率国债作为无风险资产。

l 具体有哪些选择不知道。但猜测有国债、定期、活期存款利率等。

24. 计算beta值的基准（benchmark）如何选择？不同选择对整个模型影响有哪些方面？

l 根据投资目标和投资股票池来选择。

l 应根据“希望对冲的风险和暴露的因子”来选择beta。举例而言，若研究某股票在该行业中是否存在alpha，那beta就是该行业的股票价格。

25. 似乎研究者已经惯于用线性模型来解释收益率，为什么不用更复杂的模型？（或者已经存在什么非线性的结果？）

l 线性模型的可解释性较好

l 采用非线性模型无法保证被估计参数和残差的良好性质（无偏一致有效），或许随机微分方程的求解是一种可能的方法。

我的答案：交易是假设、验证、纠错的闭环，复杂模型在纠错环节找不到根源，亏损了不知道是哪个因子导致的。

26. 拟合多因子模型时，数据挖掘问题有多严重？怎样降低过拟合的程度？

l 选取不同大类的因子、因子构建需要有经济学逻辑、控制因子的数量等等

l 数据挖掘应当是在数据探索，也就是挑选可能的因子时采用的技术手段。在真正建立多因子量化模型时，一定要确认因子的经济学意义。

我的答案：只选有因果逻辑的因子，符合规律的因子。

打赏