量化投资：策略与技术（修订版）最新章节_丁鹏著

2.1 多因子

◆ 摘要 ◆

市场上的投资者，不管是价值投资者，还是投机者，或者短线交易者，都会根据某些因子来判断股票的涨跌。当有一群交易者同时采用某个因子的时候，就会造成该因子有效。例如，当很多投资者认为低PE的价值型的股票是好的投资标时，他们纷纷买入低PE的股票，会使得该股票出现上涨，或者超越大市。这样就使得低PE这个因子的有效性得到体现。

市场上有很多这样的因子，它们在不同的市场环境下，或多或少会起作用，从量化分析的角度来看，这些因子和收益率之间存在因果关系。本节的多因子模型就是要研究市场上有哪些因子对最终收益率的作用比较大，它们在不同市场阶段的表现如何。

2.1.1 基本概念

多因子模型是一类重要的选股模型，它的优点是能够综合很多信息最后得出一个选股结果。多因子模型的表现相对来说也比较稳定，因为在不同的市场情况下，总有一些因子会发挥作用。因此，在量化投资界，不同的投资者和研究者都开发了很多不同的多因子模型。各种多因子模型核心的区别一是在因子的选取上，二是在如何用多因子综合得到一个最终的判断。

一般而言，多因子选股模型有两种判断方法，一是打分法，二是回归法。

打分法就是根据各个因子的大小对股票进行打分，然后按照一定的权重加权得到一个总分，根据总分再对股票进行筛选。打分法根据加权方法的不同又可以分为静态加权和动态加权。打分法的优点是相对比较稳健，不容易受到极端值的影响。

回归法就是用过去的股票的收益率对多因子进行回归，得到一个回归方程，然后把最新的因子值代入回归方程得到一个对未来股票收益的预判，最后以此为依据进行选股。回归法的优点是能够比较及时地调整股票对各因子的敏感性，而且不同的股票对不同的因子的敏感性也可以不同。回归法的缺点是容易受到极端值的影响，在股票对因子敏感度变化较大的市场情况下效果也比较差。

2.1.2 策略模型

多因子选股模型的建立过程主要分为候选因子的选取、选股因子有效性的检验、有效但冗余因子的剔除、综合评分模型的建立和模型的评价及持续改进5个步骤。

1.候选因子的选取

候选因子可能是一些基本面指标，如PB、PE、EPS增长率等，也可能是一些技术面指标，如动量、换手率、波动等，或者是其他指标，如预期收益增长、分析师一致预期变化、宏观经济变量等。候选因子的选择主要依赖于经济逻辑和市场经验，但选择更多和更有效的因子无疑是增强模型信息捕获能力，提高收益的关键因素之一。

2.选股因子有效性的检验

一般检验方法主要采用排序的方法检验候选因子的选股有效性。具体而言，对于任意一个候选因子，在模型形成期的第一个月初开始计算市场中每只正常交易股票的该因子的大小，按从小到大的顺序对样本股票进行排序，并平均分为 n 个组合，一直持有到月末，在下月初再按同样的方法重新构建 n 个组合并持有到月末，每月如此，一直重复到模型形成期末。

组合构建完毕后，计算这 n 个组合的年化复合收益、相对于业绩基准的超出收益、在不同市场状况下的高收益组合跑赢基准和低收益组合跑输基准的概率等。为确定选股因子的有效性，建立如下数量标准：

（1）序数为1到 n 的组合年化复合收益应满足一定的排序关系，即组合因子的大小与收益应具有较大的相关关系，从统计的角度看，因子能较为显著地影响组合预期收益。假设序数为 i 的组合年化复合收益为 x _i ，那么 x _i 与 i 的相关性绝对值Abs （Corr （ x _i ， i ））应满足如下关系：

Abs(Corr( x _i , i ))≥MinCorr

其中，MinCorr为模型所设定的收益和序数最小相关性阈值。

（2）令序数为1和 n 的两个极端组合相对基准的超额收益分别为 AR ₁ 和 AR _n ，如果 AR ₁ ＞ AR _n （该假设表示因子越小，收益越大），那么两者应满足如下条件：

AR ₁ ＞Min AR _to _p ＞0和 AR _n ＜Min AR _bottom ＜0

反之，如果 AR ₁ ＜AR _n （该假设表示因子越大，收益越小），那么与上面不等式类似，两者应满足：

AR _n ＞Min AR _top ＞0和 AR ₁ ＜Min AR _bottom ＜0

其中Min AR _top 、Min AR _bottom 分别为两个极端组合的最小超出收益阈值，以上条件保证因子最大和最小的两个组合中，一个是明显跑赢市场的赢家组合，另一个是明显跑输市场的输家组合。

（3）无论在上涨、下跌还是整个模型形成期，序数为1和 n 的两个极端组合中，较高收益的组合应该能以较高的概率跑赢市场，而较低收益的组合则能以较高概率跑输市场。

符合以上3个条件的因子至少说明在过去的一段时期内表现出较好的选股能力，可以作为进一步筛选的有效选股因子。

3.有效但冗余因子的剔除

不同的选股因子可能由于内在的驱动因素大致相同等原因，所选出的组合在个股构成和收益等方面具有较高的一致性，因此其中的一些因子需要作为冗余因子剔除，而只保留同类因子中收益最好，区分度最高的一个因子。假设需要选出 k 个有效因子，样本期共 m 月，那么具体的冗余因子剔除步骤如下：

（1）先对不同因子下的 n 个组合进行打分，分值与该组合在整个模型形成期的收益相关，收益越大，分值越高，具体方法：令组合1和 n 相对基准的超额收益分别为 AR ₁ 和 AR _n ，如果 AR ₁ ＜ AR _n ，则将组合 i 的分值设为 i ；反之， AR ₁ ＞ AR _n ，组合 i 的分值为 n-i +1，即所有组合的分值取1到 n 间的连续整数。组合得分确定后，再将其赋给每月该组合内的所有个股。

（2）按月计算个股的不同因子得分间的相关性矩阵，令第 t 月的个股因子得分相关性矩阵为：（Score_Corr _t,u,v ）， u，v =1，2，...， k ， u 和 v 为因子序号。

（3）在计算完每月因子得分相关性矩阵后，计算整个样本期内相关性矩阵的平均值，计算公式为：（ Score_Corr _t,uv ）, u , v= 1,2，…， k 。

（4）设定一个得分相关性阈值MinScoreCorr，对得分相关性平均值矩阵中大于该阈值的元素所对应的因子只保留与其他因子相关性较小、有效性更强的因子，而其他因子则作为冗余因子剔除。

4.综合评分模型的建立和选股

综合评分模型选取去除冗余后的有效因子，在模型运行期的每个月初对市场中正常交易的个股计算每个因子的最新得分，并按照一定的权重求得所有因子的平均分。如果有的因子在某些月份可能无法取值（例如，有的个股因缺少分析师预期数据无法计算预期相关因子），那么按剩下的因子分值求加权平均。最后，根据模型所得出的综合平均分对股票进行排序，然后根据需要选择排名靠前的股票。例如，选取得分最高的前20%股票，或者选取得分最高的50～100只股票等。

5.模型的评价及持续改进

一方面，由于量化选股方法是建立在市场无效或弱有效的前提之下，随着使用多因子选股模型的投资者数量的不断增加，有的因子会逐渐失效，而另一些新的因素可能被验证有效而加入到模型中；另一方面，一些因子可能在过去的市场环境下比较有效，而随着市场风格的改变，这些因子可能短期内失效，而另外一些以前无效的因子会在当前市场环境下表现较好。

另外，计算综合评分的过程中，各因子得分的权重设计、交易成本考虑和风险控制等都存在进一步改进的空间。因此在综合评分选股模型的使用过程中，会对选用的因子、模型本身做持续的再评价和不断改进以适应变化的市场环境。

2.1.3 实证案例：多因子选股模型

本案例选取1997—2010年共14年作为样本期，其中1997—2004年作为因子检验筛选期（共8年），2005—2010年作为选股模型的样本外检验期（共6年）。所选股票样本为所有正常交易且上市时间超过一个季度的A股股票，业绩基准为上证指数。

1.候选因子的选取

案例从估值、成长性、资本结构、技术面等角度，选取了30个较为常见的指标作为模型的候选因子，具体的因子选取如表2-1所示。

表2-1 多因子选股模型候选因子

数据来源： [ 潘凡 2011]

注：再投资率=[（过去12个月每股收益-每股分红）/期初每股净资产]，反映了公司将盈利留存并进行再投资的情况。

震荡指标=[（前月最高价-最低价）/（前月月初股价+月末股价）]，来源于一个简单的市场经验：横有多长，竖有多高。

2.选股因子有效性的检验

首先，在1997年1月到2006年12月间的每个月初，根据表2-1所列的候选因子，分别计算每只个股相应的因子得分，具体步骤如下：

（1）在每个月初计算每支个股的各因子指标，在涉及财务指标的计算上尽量采用最新报表以反应最新的财务信息，例如，EPS的计算采用12个月的EPS。

（2）根据因子指标的计算结果，从小到大对样本股票进行排序并分为5个等份组合，从而在整个样本期内形成不同因子下的5个排序组合。

（3）分别计算不同因子下的5个排序组合的流通市值加权年化复合平均收益、相对于业绩基准的平均年化超额收益、在不同市场环境下第1和第5组合战胜或跑输基准的概率，如表2-2所示。

表2-2 多因子模型候选因子初步检验

续表

数据来源： [ 潘凡 2011]

从表2-2中可以看出，表现最好的是盈利收益率这个指标，8年的年化复合平均收益为8.29%，而同期的上证指数年化复合平均收益只有4.12%。

综合考虑了复合收益、超额收益及相关性后，获得如表2-3所示的经过检验过的有效因子。

表2-3 多因子模型中通过检验的有效因子

数据来源： [ 潘凡 2011]

3.有效但冗余因子的剔除

对这些初步有效的因子计算相关性矩阵，假定得分相关性阈值取0.5，表2-3中的盈利收益率和PEG相关性为0.89，ROA变动和ROE变动相关性为0.70，盈利收益率和收入净利率相关性为0.59，这些项目的相关性均超过阈值，因此取其中超额收益相对较高的因子，最终剔除的因子为PEG、ROE变动和收入净利率，总共剩下9个选股因子，如表2-4所示。

表2-4 多因子模型中剔除冗余后的因子

数据来源： [ 潘凡 2011]

4.综合评分模型的建立和选股

最终的综合评分模型由9个分值相关性较小的有效因子组成。为了评估个股的综合表现，模型在选股日对所有正常交易的股票按9个因子分别评分后再按照一定的权重计算加权平均值，如果有的因子没有取值，那么该因子不参与平均值的计算。在综合打分后，去掉所有的ST、PT股票，将市场所有股票按平均分重新排序，选取其中得分最高的若干股票进入当月组合，即完成了模型选股的完整过程。

5.模型的检验

本案例采用2005年1月到2010年12月共6年的数据验证该模型的有效性。每月初将样本股票按最新的综合评分从大到小排序，分为Q1到Q5共5个股票数量相同的流通市值加权组合，持有到月末，再在下月初用同样的方法重新构建组合，一直到检验期末。假设在2005年初将1000元投资于这5个组合及上证指数，那么在2010年末，Q1到Q5的净值分别为6184.51、4863.20、3562.70、2309.13和2138.92，而投资于上证指数的组合净值仅为2217.20。另外，如果投资于沪深300指数，则期末净值为3128.26；如果投资于中证500小市值公司指数，则期末净值为5002.09。详细的组合收益描述如表2-5所示。

表2-5 多因子模型组合分段收益率

数据来源： [ 潘凡 2011]

组合及各指数的净值走势如图2-1所示。得分最高的Q1组合年化复合收益为35.48%，而同期上证指数年化收益为14.19%，超出指数21.29%；信息比率为1.14，大约68.06%的月份跑赢上证指数，其中上证指数上涨的月份中，大概有76.09%的月份跑赢指数，而指数下跌的月份中有53.85%的月份跑赢指数，总体而言，上升市场中的表现要好于下跌市场。

图2-1 多因子模型净值表现

数据来源： [ 潘凡 2011]

本节小结

总体而言，本案例所建立的多因子选股模型简单易行，有较好的稳健性，样本外的表现也很好，当然，也仍然存在较大的改进空间。

首先，在因子选择上还可以选取更多的指标，例如，可以在候选因子中增加分析师预期因子，如6个月一致预期的改变、未来两年分析师每股收益预测相对前两年的复合增长、基于一致预期的市盈率等，也可以加入一些宏观指标，使得选股模型能包含更多的信息，提高选股能力。

其次，本案例采取静态的因子评分加权平均的方法，而在实际模型构建中，可以根据因子在前期的表现、个股所在行业、市场状况等，动态调整因子评分的比重，使得选股模型能更加贴近市场的现实状况。

最后，组合持有期长短的动态调整、交易成本的优化、模型运行过程中的风险控制等都可以考虑到选股模型中，使得模型具有更大的灵活度和更有操作性。