背景介绍:



        果仁网推出股指对冲功能,应果仁邀请,本人准备写一些关于如何构建对冲阿尔法策略组合的系列帖子。

        本人在一家小型对冲私募工作,研究对冲阿尔法策略,此系列由于本人才疏学浅,粗陋之处,尚请见谅。



        各位朋友如果有问题需要咨询,可以联系QQ2270788668或微信FooltrdeNow。

        如果有资金愿意合作,请直接联系果仁客服QQ3432772199。



下面是阿尔法多因子模型系列之一:专业水平测试题的模型拟合的参考答案(网上大神的答案汇总),大家共同学习。


1.拟合多因子模型的综合目标是什么?

l  增强模型的解释能力,提高模型对风险的预测。

l  通过拟合多因子模型,来筛选显著、有逻辑的因子达到解释股票的价格变动,预测其未来的变化情况,最后目标是赚大钱(笑)。


我的答案:模型拟合的综合目标:策略能够预测未来的市场行情。


2.如何选择样本空间?例如对初上市股票、ST股票、指数成分股变动、停牌股票等异常情况的处理方法。

l  每一期进行回归时的样本空间都需要动态处理,对于明显不合理且没有代表性的股票可以直接剔除,比如初上市的股票,ST股票、停牌股票等,保证最终所选出来的股票是最具有代表性的。同时需要注意,剔除时需要考虑行业问题,不能剔除不合理之后某个行业下面就没有代表股了,比如A股的保险业,对于这种情况就需要综合考虑。

l  连续的、无缺失值的足够分析精度的频率样本是最好的,如果不满足其中的一项或者几项,可以采用插值、舍去等方法进行处理,这都是数据清洗的内容。对于初上市的股票、ST股票由于没有足够的历史数据进行回测,或者适用的模型和一般的不同,我个人的建议是能不碰就不碰,承认量化的局限性。指数成分股变动、停牌等,应对应修正我们在对冲系统风险时的头寸,避免不必要的风险暴露。


 我的答案:数据清洗这种脏活累活苦活,当然得果仁干,洗完炒得喷喷香放在盘子里端上来。


3.如何选取因子组?有什么可以参考的经典理论?

l  所选取的因子要保证合乎投资逻辑且经过长期市场检验,参考理论多来自于经济金融教科书、论文期刊等,比如Fama-French三因子模型。

l  可以通过阅读研报、内部讨论等方式进行因子选取检验;最经典的应该就是三因子以及三因子扩展模型了吧。


我的答案:

1、只有永恒不变的人性规律,可以在长周期内预测市场行情。

2、短期内的过度拟合,如同追逐蝴蝶的小猫,终究是水中花镜中月。

3、拟合的逻辑是相关性,但只有真正的因果逻辑才能让我们赚钱。


4.从选择因子到多因子策略回测,一般有哪几个环节?哪些可以省去,哪些不能?

l  单因子测试,多因子合成,预测个股收益率、交易成本估算、组合构建

l  1)、有一个大致的可能性思路;(2)、根据这个思路去查阅文献,检索哪些因子是可能被加入模型的;(3)、根据现有数据集,确定可以被量化加入的因子数;(4)、预估计,并检验各因子有效性;(5)、共线性、异方差、自相关、显著性检验和修正;(6)、残差检验,是否存在遗漏变量;(7)、完成并归档。


我的答案:订阅《跟我学对冲》公众号,学习券商的研究流程


5.每一期的因子暴露度,如果不进行离群值、缺失值以及标准化处理,会有什么后果?如果选择进行处理,又会带来哪些需要注意的模型扭曲?

l  极值在回归中会影响整体的情况,若不进行标准化处理会导致因子间的量纲相差甚远,缺失值过多也回影响模型整体情况;对于极值的处理要考虑合理性,特别异常的极值可以直接去掉,缺失值剔除太多也不行,标准化要考虑行业之间在某些因子上固有的差异。

l  不处理的话可能会造成模型的预测收益虚高/虚低、模型的时间频度不一致导致被估计参数错误/不稳健等后果。进行处理主要是插值、取对数、拉回n倍标准差等等,可能会存在过拟合等问题。


 我的答案:不处理,会把偶然当必然,导致策略收益不稳定。如果处理,又会导致偶然的可以带来大收益的因子被过滤(正向黑天鹅)。

如果策略研究,必须处理。如果是实盘交易,可以放开不处理,然后看这些极值是否符合经济逻辑。比如:银行普遍折价20%附近,工行由于意外事件冲击导致折价50%(当然这是幻想),如果处理,就有可能选择不到工行,不处理,人工判断,这个意外是偶然事件,还是会导致工行破产(天朝工行当然不会破产啦),所以买入工行才是最合理的。


6.离群值处理方法有那几种?一种比较常用的办法是将离开均值N倍标准差距离以外的离群值拉回N倍标准差的位置上,这时候N一般取值多少?

l  离群值处理有分位数去极值、标准正态分布去极值;若用标准正态分布,常见的N3

l  无论是拉回2Std95%置信区间)、3Std99%置信区间)或者其他位置,这无一个公允的定论,我认为,在处理的过程中,我们要明确这样处理的目标是什么。如果是避免一些离群的过高收益来误导我们高估了模型的收益率,那我们应该选择较小的倍数。但这样做的同时,也增大了我们低估模型收益率的可能。反之亦然。因此根据基金自身所设立的风险偏好、收益预期来选择各自的处理准则,我认为是比较合适的。


 我的答案:这些处理的前提都是正态分布,实际上很多时候不是正态分布,需要事先处理把数据转换为正态分布,如BOX-COX变换。


7.缺失值的处理方法有哪几种?现提供三种参考方式:一是把空置设为NaN,回归涉及NaN项时用程序自动忽略;二是把所有含NaN项的个股从当期票池中剔除;三是把所有NaN(在标准化后)设为零(或中位数)。它们有什么区别?哪种好?或者有没有更好的?

l  回归时有NaN的项,程序也会自动忽略,和剔除所达到的效果一样;直接将NaN设置为0或者中位数也是一个可选方案,但这种替代是否合理还要具体情况具体分析;个人经验是,若因为某些原因缺失值不能直接去掉则建议用某个值替换,反之没有这个限制则可以剔除。

l  剔除各股是最稳健、保守的处理方法,缺点是排除了可能存在alpha的股票;一般的做法是标准化后做技术处理,这样可能导致模型过拟合;自动忽略不太建议使用,因为数据的连续性上会出现问题。如果可行的话,可以采用和缺失值因子相关度较高的、数据质量较好的另外一个或者一组因子来代替含油缺失值的因子,可以避免以上问题。但现实不一定满足,满足不一定能获取。


我的答案:果仁网两位老大都是数据处理的大咖,不用我们费神了。


8.标准化的方法有哪些?标准化后数据近似呈现何种分布规律?各种标准化方法的利弊?

l  常用的是假设因子值服从正态分布,用(x-u)/sigma来进行标准化;在因子值明显不服从正态分布时,可以采用中位数标准化方法。

l  一般就是将因子减去均值除以方差,标准化后呈现N01)分布。我仅知这一种标准化方法。另外,根据我计量经济学上的知识,标准化在模型的处理中不一定是必要的,在未标准化时,也可以直接采用回归方法进行处理。


 我的答案:答案同上,标准化的后果是美女都成了网红脸。/static/images/emoji/face_grinning


9.带权重的标准化,权重怎么设置?是否需要和回归时的个股权重保持一致?

l  可以选用流通市值作为权重,回归时个股设置的权重是为了剔除异方差的影响,没有必要和带全标准化这时的一样。

l  可以根据具体的经济学意义设置权重,应和回归时的个股权重保持一致。


我的答案:我不懂


10.标准化、离群值处理、缺失值处理,三个环节如何确立先后顺序?

l  一般来说,处理顺序为极值处理、缺失值处理、标准化。

l  先处理离群值、再标准化、最后处理缺失值。


我的答案:果仁网两位老大都是数据处理的大咖,不用我们费神了。


11.因子之间或多或少具有一些相关性,若把所有因子进行正交化处理,会发生什么情况?这样做或不这样做的理由是什么?

l  类似于主成分分析法,若把所有因子进行正交化则会失去因子的投资逻辑,会使得模型的解释性不够强也没有原始因子那么直观。

l  我们必须要处理相关性是因为,若模型的几个因子之间存在线性相关,则这些因子的被估计参数不稳健,容易导致错误的被估计参数。那么,一般来说,多少相关度以下的因子相关性是可以被接受的呢?一般认为是0.7。对于高相关性的因子,我们可以采用主成份分析法或者正交化处理。但都会丧失一部分因子在逻辑上的解释性,应慎重应用。

 

我的答案:各个大类中的因子都是沾亲带故的,全部正交化等于断绝所有亲戚关系六亲不认,以后想寻宗问祖就很难了(解释收益的来源)。


12.如何选择截面回归的频率?依据是什么?

l  截面回归的频率决定了对风险预测的horizon,这也对应了后续构建组合的调仓频率,需要联系起来考虑;常用的计算截面回归的一般是日频。

l  应至少不低于每次调整仓位的频率。依据是根据该量化策略的策略时效性、基金的风险控制要求、数据的精细程度等。


我的答案:这个我真不懂,个人感觉与因子半衰期有关,比如通胀因子、利率因子是非常长期的,市盈率因子、市净率因子这些是中期的,MACD因子、BOLL因子这些就是短期的。


13.回归模型涉及的个股收益率怎么计算?最简单的(又能保证一定精确度的)方法是什么?

l  可以用复权收盘价,精确结果应该是利用市场价格和分红、配股等影响收益的因素结合计算。

l  可以根据复盘价格进行计算。


我的答案:数一数赚到我口袋的钱,除以本金,就是我的个股收益率,精确度绝对最高(偷笑中)。


14.回归模型是否需要加入截距项(即常数项)?在什么情况下可以取,什么情况下不能取?

l  有行业因子时不能加入截距项,因为行业因子之和为全1向量,再加截距项就会导致回归系数不唯一确定

l  根据模型,截距项是否有具体的经济意义,有需要即可加入,一般如市场无风险收益率等即可作为常数加入。


15.回归时用OLSWLS的区别在哪里?使用WLS的依据是什么?

l  WLS主要是消除异方差的影响,得到的factor return更有效,在现实中确实存在不同市值股票的波动表现差异很大,大市值蓝筹股波动明显小于小市值股票,WLS有其合理的意义。

l  当残差序列存在异方差性时,用OLS估计的估计参数不稳健,此时应采用WLS对各项参数进行加权,以保证残差序列的无偏、一致、有效性。加权的一般方法是采用OLS估计下的残差、残差平方来做加权。


我的答案:上面这两题都不精通。


16.如何评估或衡量多因子模型的效果?

l  常见的有两种方式,一个是进行典型的bias test,构建组合计算BS统计量,看其波动率是否为1;另一个是直接绘图,xy轴分别为组合实际波动率和组合预测波动率。

l  各因子具有明显的经济学意义、因子前被估计参数的显著性良好、方程整体F检验显著性良好、残差序列满足独立同分布。


我的答案:在我看来,只有真实帐户的长期盈亏能评估。


17.如何判断现有因子是否足够解释收益率?

l  R^2值的绝对水平以及稳定性,最直观的标准当然是R^2;但是R^2的缺点在于没有考虑因子的数量,因此可以使用Adjusted R^2,也可以使用RSME。当然对于Alpha模型来说,更重要的是预测能力,可以通过factor returnt值和IC来判断。

l  一是可以通过经济学解释来判断是否存在遗漏变量,另外也可以通过对残差分析来检验是否有遗漏因子。若残差项存在异方差性,也有可能是遗漏变量引起的。


我的答案:经济规律(宏观面因子轮动,比如全天候阿尔法,老巴的经济低谷抄底)、价值规律(基本面因子轮动)、波动规律(技术面因子轮动,群体博弈形成的规律),只要这些因子大类都覆盖到了,足够解释收益率,个人不太相信纯粹从统计角度出发的解释


18.中国股票市场多因子模型的R^2通常在什么量级?

l  BARRA CNE5 ModelR^20.4左右

l  不清楚。但就单因子来说,如果因子的R2低于0.3,该因子可能就通不过T分布的显著性检验。


19. 为了提高R^2,尽可能多地加入各种因子,会导致什么问题?

l  加入更多的因子一定会提升R^2,但是会导致过拟合的问题

l  因子不具备经济学意义、显著性无法通过、模型过拟合,回测很美,预测很烂。

 

20. 如果一个因子与现有因子组均低相关,而且能够显著提高R^2,那么什么样的理由可能会使我们选择不加入这个因子?

l  因子收益率不稳定,即在统计上因子收益率均值不显著。

l  在逻辑上不具备经济学意义。


21. 对于回归法因子测试,能否直接用不同截面的数据叠加在一起进行回归(即面板回归)?可能产生的后果是什么?

l  不能。因为市场可能会产生结构性调整,牛市和熊市中因子收益率会产生巨大变化。

l  可以。但应注意各因子在时间序列上的自相关性,截面相关和自相关会导致被估计参数的不稳定,而且目前在数学上没有很好的解决办法。可能导致的后果即被估计参数不稳健,导致模型预测能力差。

 

22. 进行多元回归时,如何检验共线性、异方差问题?如何解决?

l  VIF来判断是否存在多重共线性;异方差和自相关可以用white-robust或者Newey-West-robust解决

l  可以观察各变量之间的相关系数来判断是否尊在共线性;异方差可以采用white检验来判断;在发现共线性后,可以通过减少变量、主成份分析法、正交变换等方法解决;异方差可以通过WLS回归来解决。

 

23. 无风险资产在各个市场应该如何选择?中国市场有哪些选择?各自的利弊(例如历史长度、数据完整性、代表性等)?

l  无风险资产是指具有确定的收益率,并且不存在违约风险的资产。在中国,可以用中国固定利率国债作为无风险资产。

l  具体有哪些选择不知道。但猜测有国债、定期、活期存款利率等。


24. 计算beta值的基准(benchmark)如何选择?不同选择对整个模型影响有哪些方面?

l  根据投资目标和投资股票池来选择。

l  应根据希望对冲的风险和暴露的因子来选择beta。举例而言,若研究某股票在该行业中是否存在alpha,那beta就是该行业的股票价格。


25. 似乎研究者已经惯于用线性模型来解释收益率,为什么不用更复杂的模型?(或者已经存在什么非线性的结果?)

l  线性模型的可解释性较好

l  采用非线性模型无法保证被估计参数和残差的良好性质(无偏一致有效),或许随机微分方程的求解是一种可能的方法。


我的答案:交易是假设、验证、纠错的闭环,复杂模型在纠错环节找不到根源,亏损了不知道是哪个因子导致的。


26. 拟合多因子模型时,数据挖掘问题有多严重?怎样降低过拟合的程度?

l  选取不同大类的因子、因子构建需要有经济学逻辑、控制因子的数量等等

l  数据挖掘应当是在数据探索,也就是挑选可能的因子时采用的技术手段。在真正建立多因子量化模型时,一定要确认因子的经济学意义。


我的答案:只选有因果逻辑的因子,符合规律的因子。