引言

经常有人问我:“你工作干啥的?”
“研究量化投资。”
对方经常是


“简单说就是。。。研究炒股的。”
“不早说,这个我懂!哪只股票好啊,推荐几个呗。600149这支票咋样?”
轮到我一脸懵逼了,“这个。。。说不好哪只股票好。”
(“不知道哪只股票好你炒毛的股票”)

唉,本人确实不太懂股票,不过好在学了点统计,今天就简单谈谈咋用统计学中最简单的线性模型进行股票投资(线性模型虽然简单,但并不代表就不好用;反之,在大多数时候,只要对问题的理解正确,线性模型是最好用的)。不过,本人自知才疏学浅,对诸多问题理解有限,所以基本也就是瞎扯胡说,大家随便看看就好。



一、收益的来源

股票投资的收益来自哪里?
大概每个人都能说出一些见解,谁对谁错这个事基本也说不清。但基本上,有一个大家都能接受的影响因素——市场(这里说的市场指股票市场的整体情况,可以通过市场指数进行反映,譬如A股市场的上证指数)。
每只股票在一段时间内的收益情况或多或少地都跟这段时间内的市场指数收益情况有相关性,这种相关性的强弱我们一般用一个量化的数值表示,就是“市场贝塔(market beta)”,记为\beta_M

假如,一只股票的\beta_M=1.1,那么当市场指数的收益率是r_M=5\%的时候,在这只股票的收益里面市场贡献的部分就是1.1*5% = 5.5%。但实际上,这支股票的真实收益率不一定就正好是5.5%,假设它的实际收益率是r=6%,那么多出来的部分6% - 5.5% = 0.5% 就是市场之外因素贡献的部分,一般称之为“阿尔法(alpha)”,记为\alpha。整体上写作公式的话,就是
r=\alpha+\beta_M r_M

伟大的“资本资产定价模型(capital asset pricing model, CAPM)”在上面公式的基础上认为所有股票的阿尔法部分的期望值是零,也就是说股票的期望收益只跟市场期望收益,以及该股票与市场的相关性(市场贝塔)有关。这个说法看似简单,但却极为牛X(不然也不能是诺奖呀),让后来的一堆经济金融学家争论了好多年,同时也为其他重要理论和模型的发展奠定了基础,其中一个就是“套利定价理论(arbitrage pricing theory, APT)”。

套利定价理论拓展了上面的思路,认为不仅仅是市场因素,我们可以使用更多的“共有因素”来解释股票收益。在这个思想的指引下,一些人(当然都是些牛人)提出了宏观经济因素,譬如通货膨胀率、工业生产变化率、信用风险变化率等等,他们研究发现这些因素都还是挺有效的。如此一来,上面那个公式就可以变成,
r_i = u_i + \sum^{K}_{k=1}{\beta_{ik} f_k}

f_k表示共同因素的变化情况,\beta_{ik}表示这只股票受这种因素的影响程度,u_i 表示共同因素影响之外的收益部分,这个模型也就是常说的“宏观经济因子模型(macroeconomic factor model, MFM)”。除此之外,常用的还有“基本面因子模型(fundamental factor model, FFM)”和“统计因子模型(statistical factor model, SFM)”,这几个模型的公式形式完全一样,只是因子内容和构造方式各有不同,这里就不多废话了(小小的声明一下:本系列主要是介绍基本的思想,后面的相关介绍默认以MFM为例,实际应用中FFM和SFM的使用有各自的套路,这个不是本系列打算涉及的内容)。

考虑国内市场的话,上面提到的几种因素是否仍然有效?还能不能加其他因素?这个仁者见仁,毕竟中国A股市场是个比较奇葩的市场,今天主要介绍构造模型的思路,真正好用并且适合自己投资目标的模型还是得靠大家回家自己摸索。

这里也简单介绍一个著名的商用模型(这个是FFM模型,当然暂时可以不用管这些)供大家有个直观的感受,BARRA China Equity Model CNE5。这是大名如雷贯耳的BARRA公司(2004年被摩根斯坦利旗下的MSCI收购)编制的中国股票市场第五代模型CNE5(前身是CNE2,第三、四代模型貌似没有为中国市场编制),它包括三类共同因素:
1) 国家因素(country factor):1个,类似于全市场因素,反映整体的收益情况;
2) 行业因素(industry factor):32个,反映各行业的收益情况;
3) 风格因素(style factor):10个,反映各种风格特征的收益情况。
详细信息大家可以参看《CNE5 Empirical Notes》。

使用哪些因素确定了,下一步就是估计每个因素对每只股票的影响程度,也就是估算\beta_{ik},这里可以参考之前的文章“线性回归参数的估计”。当然实际投资过程中,需要考虑特殊情况、信息时效性、参数robustness等问题,一般使用更复杂一些的统计方法,包括贝叶斯的估计方法。

二、模型的局限

好了,因素(f_k)确定了,参数(\beta_{ik})估计好了,我们能开始赚钱了吗?
答案是:不能!
因为,有两个残酷的现实我们必须要面对:
1) 所有的统计模型都是错的!
2) 所有的统计结论都是不确定的!

能坚持看到这的同学们可能要开始骂我了,模型是错的,结论不确定,那搞毛啊,忽悠我们看了这么久!

我真不是故意想忽悠大家,只是统计学实在是门奇妙的学科,容我慢慢解释。
首先,统计模型虽然都是“错的”,无法精确地反映事物之间的真实关系,但是当我们还无法直接理论推导出事物之间的真实关系,同时又能观察到不少相关数据的时候,建立统计模型可以在一定程度上反映它们之间的大概关联情况(不是因果情况,统计模型我觉得是不能反映因果关系的,欢迎拍砖)。反正,总比两眼一抹黑好,是吧。

插播两个图,一眼看明白统计模型和物理模型的区别:第一个图显示变量Y关于变量X的一些观测结果,可以想象Y与X之间的实际关系是非常复杂的,甚至关系到很多其他的潜藏变量,但实际应用中我们建立的统计模型基本就是图中的3根直线(包含了趋势信息和波动信息),这3根线肯定不是Y与X的真实关系。根据统计模型,即便下一个观测结果中的X告诉我们了,我们也不能确定Y到底在哪,一不小心跑到天边都有概率。第二图是天体物理模型根据经典力学定律计算的行星及其卫星的运行轨道,它们之间的关系是完全真实和确定的。给定初始条件,随便未来哪个时刻,我们都能精确地指出每个星星跑到哪里了、运行状态是怎么样。


其次,虽然所有的统计结论都带有不确定性,但是如果坚持使用,当次数足够多(怎么感觉是在推销假药-_-||),这个不确定性是可以降低到一定程度的。这里就不得不提统计学中最著名的一剂居家旅行忽悠骗人“必备良方”——大数定律:弄一次、几次、几十次会有很大的不确定性,那就弄几百次、几千次、几万次嘛;只要条件不变,模型稳定,很多次的结果整体上会是稳定靠谱的。

下面让我们设计一个实验,来直观地看看大数定律的效果:首先找一定数目的人(譬如n个),每个人都对着一个正方形幕布投飞镖。假设每个人都是随机投,也就是投在哪个点的概率都差不多(为了简化问题,不考虑投出去)。然后我们统计这n个人飞镖的平均位置,在幕布上用“X”标记出来。我们重复这个实验很多次,观察最终结果。

1) 如果我们就找了1个人(n=1)做这个实验,结果如下:


2) 如果我们找了5个人(n=5)做这个实验,结果如下:

3) 如果我们找了10个人(n=10)做这个实验,结果如下:

4) 如果我们找了100个人(n=100)做这个实验,结果如下:

是不是天道恢恢,偶然中包含着某种必然。

所以,让我们暂时保持对统计学的信仰,相信上面的模型有较大的概率、在一定程度上能够反映股票收益率和给定因素之间的关系。这也是为什么应用上面的模型很难回答关于单只或少数几只股票相关问题的原因之一,我们最好同时投资一大批股票,应用模型去分析这一篮子股票(专业些的称呼叫做股票组合)整体上的相关特征。