前情回顾

 
上次在第一章:一般性投资(1)中,我们主要介绍了:
(1) 一般性的投资逻辑;
(2) 关于价格本身的一些数量化分析,包括:时间序列分析、技术分析
本节将继续前面的内容,主要介绍关于价格收益的统计分析。
 
收益的统计分析
 
就价格本身的数量化分析而言,我们上次讲到了“时间序列分析”和“(量化)技术分析”。除此之外还有很多可用的量化分析方法,我们今天来看看一个很基本又非常重要的方法——“收益的统计分析”。这里需要说明,收益跟价格其实是一回事,绝对收益是终结时间点和起始时间点上的价格之差,收益率是绝对收益再除以起始时间点上的价格。做量化投资的时候,我们分析得更多的是收益率,因为它和初始投资资本无关,方便进行比较,需要的时候也很容易转化成绝对收益。
 
回到房价这个话题,一般报道中使用的最多的是“环比”和“同比”,它们也是收益率:环比一般默认指以月为周期的环比,就是本月相对于上个月的收益率;同比一般默认指目前时间点相对于去年这个时间点的收益率。
对于房产投资这种宏观性强、偏长期的投资,一般针对房价本身的量化分析不需要复杂的数量化分析方法,所以这么看看几个收益率也可以。但做其他量化投资的时候,我们更多的是分析一个固定时间周期上的收益率,譬如日收益率、月收益率、年收益率。这样,每个时间周期上都有一个收益率的数值,收益率就是一个变量,也有自己的统计分布。
 
下面我们以沪深300指数自2005年5月(它是同年4月8号开始发布的)至今的月收益率为例做一些简单的说明,总计有138个月,最差的月份收益率为-25.85%(2008年10月),最好的为27.93%(2007年4月),平均月收益率1.37%,波动的幅度(标准差,这个东西非常有用,下面会详细讲)为9.51%,具体的数据和分布图如下图所示。
对收益率做了这些统计分析后,我们再来看看如何理解这几个统计特征的含义:
 
1) 平均收益率是统计上“期望收益率”的具体表征,一般可以看作是这个资产的长期收益能力。由于资产的长期期望收益率一般是较为稳定的,所以平均收益率的统计对于中长期投资比短期绝对收益率更有意义。同时,对于短期投资来说,它也非常重要,因为可以把它作为一个基准的收益情况,资产的短期收益和它的差异作为资产短期特异收益。这两种收益的影响因素一般是不同的,需要区别开来进行分析。以一个中学物理题做比方,一群人在一辆运行的小车上踢皮球,对于路边的吃瓜群众来说,这个皮球的绝对运行速度是挺难琢磨的,但如果他懂得使用参照系的方法,以小车为参照系再来分析皮球的运行速度,问题会简单一些。更重要的是,此时把难解的问题剥离成了两个部分,可以分别分析影响小车运行和踢球人动作的因素。
 
在考虑投资基准(benchmark)的情况下,对于期望收益率的考虑有更多的分析方法和实际意义,这个我们后面的章节再详细讲。
 
2) 波动幅度,即收益率的标准差,用来度量收益率可能变化的区间。对于大多数人来说,投资风险直观上的感受就是产生了负的收益率,可能的负收益率越大风险就越大。而收益率的标注差正是描述收益率负向(以及正向)运动可能的幅度,所以它是度量风险的一个最重要的指标。下面我们来简单看看标准差是如何度量波动幅度的。
一般情况下,在粗略估计的时候,大多数变量都可以近似认为服从自然界最常见的“正态分布”。在正态分布情况下,变量比平均值大1个标准差或小1个标准差的概率是1-68.26%=31.74%(约三分之一的概率),大2个或小2个标准差的概率是1–95.44%=4.56%(约二十分之一的概率),大3个或小3个标准差的概率是1–99.74%=0.26%(约四百分之一的概率)。所以,绝大部分情况下收益率都在平均值3个标准差的范围内“蹦达”。
投资过程中,我们绝大部分时间也是在正负3个标准差之间寻找机会。当出现3个标准差之外的情况时,就是比较极端的行情了,这时我们一方面要严控投资风险,另一方面也可以积极把握它有很大概率“跑回”3个标准差以内这个正常区间的潜在投资机会。
 
这里需要着重强调一下,平均收益率和收益率的标准差可以说是量化投资中最为重要的两个东西,前者代表长期收益能力,后者代表收益波动程度(也可以说是引发风险的能力)。围绕这两个概念的金融理论、量化方法和模型举不胜数,而且很多都是基本核心的东西,我们后面深入了解量化投资的时候再回过头来细说。
 
还是插话的时间:这里我想说说自然界中最常见的分布——正态分布。统计全国人口的身高、体重、工资、每天撒尿的量。。。,基本都是近似这个神奇的正态分布。不仅如此,其实只要数据量够大的话,很多变量的分布都是近似正态分布(因为同样神奇的“中心极限定理”),是不是非常神奇,冥冥之中是不是感觉这是上天定下来的“规矩”?1894年的时候闲得蛋疼的FrancisGalton爵士就醉心于研究这个规律,并发明了一个叫做“Galton盒子”的装置来进行演示:这个盒子(很像小时候玩的弹珠台)实际上就是一个竖立的板子,板子上面的部分有很多等间距的小杠,下面的部分是等间距的轨道,然后把小钢珠从顶部放入,钢珠就会在小杠上撞来撞去后会落入下面的轨道。当不断这样放入小钢珠的时候,小钢珠在底部最终一定会形成正态分布的形状!(牛顿被苹果砸发现万有引力,Galton玩弹珠台研究正态分布,人和人差距为啥这么大呢。。。)
在收益率的统计分析中,除了着重于分析期望值和标准差,分布的“尾部”也是一个重要的分析方向。收益率分布的尾部就是收益率偏离期望值较远的部分,也就是发生极端行情的时候,在这里有3个现象值得我们注意:
 
1) 肥尾特征(fattail):投资中一般收益率的分布不严格服从正态分布,它的分布的尾部要更“肥”一些,这就是俗称的“肥尾特征”,这也说明发生极端行情的概率比上面说到的正太分布3个标准差以外的概率要高。
 
2) 长尾效应(longtail):指分布的这个“尾巴”特别的长,不止3个标准差的事件会发生,各种多个标准差的事件都有可能发生。长尾效应最早由美国《连线》杂志主编Anderson在2004年的时候提出,他当初想表达的是未来的商业和文化需求将由差异化需求主导,需求的主要部分不在传统需求曲线的头部,而在那条无穷长的尾部。举个例子,在以前,由于各种条件的限制,人们对歌曲的需求主要都集中在几种类型、几个歌手、甚至主要的几首歌上面,需求的主体部分都集中在头部。但是现在,歌曲类型、歌手、歌的数量都极为庞大,很生僻的歌也有听它的人,需求被拉伸开来,形成了一个长长的尾巴。
 
3) 黑天鹅事件(blackswan):指极为稀有,甚至以前从未发生,一般认为不会发生,一旦发生会引起重大影响的事件。远有1998年俄罗斯宣布债务违约导致大名鼎鼎的长期资本管理公司复杂模型失效,公司巨亏破产,近有2013年光大证券的乌龙指事件,使用的程序化套利系统出现问题,瞬时产生巨额交易单,急速拉高指数。
 
这些存在于尾部的收益率现象很多都是由一个个独立的事件引起的,有些是可预见的事件,有些不是。对于可预见的事件或可侦测的事件,可以使用数量化方法进行“事件驱动投资”(event-drivinginvesting)。对于事件,有一个常见的现象就是“过度反应”(over-reacting),如下图所示(请原谅我拙劣的手绘):价格在事件前有一个相对均衡的状态;事件发生后,迅速影响价格;不过由于过度反应,价格上涨到远高于事后正常的位置,之后回落的时候也经常过度回落;最后才逐渐回复到一个新的相对均衡状态。在事件发生过程中,老司机们可能可以根据经验和直觉,直接做出判断,但是数量化的方法可以帮助我们从过去发生的类似事件中挖掘具体的、量化的判断依据,通过模型进行判断。
关于价格本身的数量化分析就先介绍到这,后面有机会再细说。分析价格的目的很明了,因为它跟投资结果直接挂钩,了解价格本身就像你要进行“撩妹子”这项危险活动之前需要对妹子的情绪变化规律有个基本了解一样:她是温和型的还是暴躁型的,能有多温和能有多暴躁,情绪变化有哪些基本规律,哪些情绪表现是发飙的前兆等等。当然,光知道这些还是很难让你成功,下一步你还需要摸清楚影响妹子情绪变化的因素。所以,让我们继续量化投资的漫谈,来看看“影响价格的因素”。