单因子测试之成长类因子 华泰证券-20161031
由small_q创建,最终由small_q 被浏览 114 用户
摘要
成长因子在不同行业间差异较大,与市值相关性不大
成长因子是一类非常重要的风格因子,本报告中我们选取了十二个具有代表性的成长因子——Sales_G_q、Sales_G_ttm、Sales_G_3y、Profit_G_q、Profit_G_ttm、Profit_G_3y、OCF_G_q、OCF_G_ttm、OCF_G_3y、ROE_G_q、ROE_G_ttm、ROE_G_3y,首先经实证分析发现,不同一级行业间成长因子差异较大,并且随时间推移同一行业的成长因子水平也在不断变化。通过计算成长因子与市值因子的相关性发现,除四个长期增长率因子Sales_G_3y、Profit_G_3y、OCF_G_3y、ROE_G_3y与市值因子略呈正相关性外,其余因子与市值相关性不大。
各成长因子间存在不同程度的相关性,总体比估值因子间相关性弱
各成长因子间正相关性较强的只有Profit_G_3y和ROE_G_3y这一对因子,因为长期来看净资产变动不大,ROE的变动主要体现在净利润的变动上。其余成长因子之间大部分呈正相关性,偶尔出现负相关性的地方相关强度都不大。总体来讲,成长因子间相关性比估值因子间相关性要弱。
单因子测试框架:分层回测、回归法、因子IC值分析
首先,我们对各成长因子依次进行详细的分层模型回测,分析各分层组合的业绩表现和多空组合的表现,判别因子区分度、单调性、稳定性和在不同规模公司、不同一级行业间的业绩强弱。接下来我们使用回归法进行因子测试,对因子收益率序列和回归产生的t值序列进行统计层面上的分析,鉴别有效因子。我们还计算了各因子的IC值序列、IR比率,辅助因子筛选。
测试结果:Sales_G_q、Profit_G_q、ROE_G_q三个因子表现较好
在分层模型回测中,从TOP组合信息比率、多空组合年化收益率、多空组合夏普比率等角度来说,都是Sales_G_q、Profit_G_q、ROE_G_q三个因子表现出众。在回归法测试和IC值分析的结果中也是上述三个因子效果最突出,与分层测试的结果一致。除上述三个因子外,OCF_G_q因子表现较好,另外Sales_G_ttm、Profit_G_ttm、ROE_G_ttm因子可以酌情使用,其余因子效果不佳可以排除了。与前期报告中估值因子的测试结果对比,上述三个因子整体效果与SP因子相差不远,比BP因子有一定差距。不过,成长因子的好处在于它完全源于财务数据,逻辑清楚,且与市值因子和其他量价信息相关性低,能够避免共线性现象,是可以备选的优质因子。
风险提示:单因子测试结果是历史经验的总结,存在失效的可能。
成长因子在A股市场实证分析
成长因子的选取及测试框架
本文是我们的多因子系列研究第三篇,是单因子测试系列的第二篇,在多因子系列首篇报告中,我们系统地阐述了多因子模型的基本理论,详细描述了多因子模型构建的流程,从多因子系列第二篇报告开始,我们对不同的风格因子单独进行详细的研究和检验,通过综合对比评价,筛选出能持续获得稳健收益的优质因子,这正是构建多因子选股模型的关键一步。在上篇报告中,我们对估值类因子进行了详细的测试分析,在本文中,我们将主要针对成长因子进行分析,找出其在二级市场不同行业、不同规模上市公司中的分布规律,并通过分层回测、回归法、计算因子IC值等测试因子有效性。
成长因子是一类非常重要的风格因子,投资者有理由相信,只有稳定成长的公司的股价才能表现优秀。我们引入营业收入增长率、净利润增长率等十二个因子,如表1所示:
如果某只股票的成长类因子值明显高于同类型股票的平均水平,则它的股价在未来存在较大上涨可能性。所以,我们第一步将先观察成长因子在A股市场的分布规律,通过分析成长因子在不同行业及不同规模上市公司间的差异,判断在单因子回归测试中是否应该处理行业、规模因素的影响。第二步我们将建立分层模型进行回测,详细观察因子区分度、单调性等规律。第三步我们将使用回归法进行单因子测试,结合因子IC值分析,选出有效且稳健的因子。第四步,根据以上分析结果进行对比总结,探讨各因子的特点和优劣。
成长因子的行业间差异
成长因子在不同行业间存在显著差异。我们选取营业收入、净利润、经营现金流、ROE的ttm值的同比增长率作为成长因子的代表,观察它们在各行业间的分布规律(2016年9月30日),如图2所示。
图2说明了,在同一时间点,不同行业间成长因子的水平存在明显差异。事实上,随时间变化,同一行业的成长因子的绝对大小和与其他行业对比的相对大小也在不断变化中。以营业收入(ttm)同比增长率为例,在2005年至2015年间,每年末行业因子值在所有29个一级行业中的排位变化如表2所示。
[
\
从表2可以看出,同估值因子类似,成长率因子在A股市场也存在比较明显的行业轮动现象,例如:钢铁、煤炭、有色金属行业在2008年以前成长率很高,从2009年左右开始衰落;近几年非银行金融、通信、传媒、计算机等行业正在崛起;其他行业也存在年份间的波动,是当时政治、金融环境等多重因素影响的结果。
成长因子与市值因子的相关性
除去行业对因子存在较大影响外,上市公司的规模也是对各大类因子产生作用的潜在因素。我们在上一篇报告中对估值类因子进行了详细分析,发现市值因子与大部分估值类因子具有一定相关性,这里面的逻辑也是比较明晰的。但成长因子不同于估值因子,其与市值因子间相关性主要源于两方面:规模较小的上市公司更容易获得高成长率;同时规模较小的上市公司风险也比较大,竞争环境更激烈,也更容易发生亏损。所以成长因子与市值因子的相关性并不明确,需要通过计算来进行分析。
我们针对表1中列出的十二个因子,详细计算了它们从2005年到2015年(在每年最后一个交易日核算)与市值因子之间的相关系数,见表3。经观察发现,成长类因子(与估值类因子对比)确实与市值因子的相关性不大;与市值因子稍显正相关性的四个因子为营业收入、净利润、经营现金流、ROE的ttm值的三年复合增长率,原因可能有两点:能获得长期稳定增长的公司更倾向为规模较大的公司;规模较大的公司更倾向于是由长期增长率高的公司发展而来的。因为此处计算的是当前市值和过去三年复合增长率的相关系数,所以我们认为更可能是第二个原因。
成长因子间相关性分析
在本章前两个小节中,我们分析了成长因子在不同行业的分布差异性及成长因子与市值因子的相关性,接下来,我们将计算各成长因子之间的相关性。假设因子A和B之间的月度相关系数序列为{Corr^{AB}_i},其中Corr^{AB}_i是在第i个月月末这一截面上因子A、B在所有个股上的因子暴露度的相关系数,我们构造了一个相关强度指标:
该指标结合了因子平均相关系数和相关系数的稳定性,能够综合反映因子之间的相关情况。我们分别计算各因子两两之间在过去36个月(2013年10月到2016年9月)内的相关强度指标,如表4所示。计算过程中涉及的相关系数均值和方差详细展示在表5和表6中。通过观察可以发现,正相关性较强的只有Profit_G_3y和ROE_G_3y这一对因子,因为长期来看净资产变动不大,ROE的变动主要体现在净利润的变动上。其余因子之间大部分呈正相关性,偶尔出现负相关性的地方相关强度都不大。总体来讲,成长因子两两间相关性比估值因子两两间相关性要弱。
单因子测试流程
在多因子系列首篇报告《华泰多因子模型体系初探》(2016.09)中,我们系统地介绍了有效因子识别(即单因子测试)的理论基础和研究思路,在多因子系列第二篇报告《华泰单因子测试之估值类因子》中我们着眼于实践过程,给出了详细的流程操作说明。为避免阅读障碍,我们此处将单因子详细测试流程再复述一遍。
回归法
回归法是一种最常用的测试因子有效性的方法,具体做法是将因子在第T期的暴露度与T+1期的股票收益进行线性回归,所得到的回归系数即为因子在T期的因子收益率,同时还能得到该因子收益率在本期回归中的显著度水平——t值。我们的回归模型为
在所有截面期上,我们对因子d进行回归测试,能够得到该因子的因子收益率序列(即所有截面期回归系数X^T_d构成的序列)和对应的t值序列。t值指的是对单个回归系数的t检验统计量,描述的是单个变量显著性,t值的绝对值大于临界值说明该变量是显著的,即该解释变量(T期个股在因子d的暴露度)是真正影响因变量(T+1期个股收益率)的一个因素。也就是说,在每个截面期上,对于每个因子的回归方程,我们设
该假设检验对应的t统计量为
其中SE(X^T_d)代表回归系数X^T_d的标准差的无偏估计量。一般t值绝对值大于2我们就认为本期回归系数是显著异于零的(也就是说,本期因子d对下期收益率具有显著的解释作用)。
注意,我们在回归模型中加入了行业因素,能在一定程度上规避行业因素对估值因子的影响。并且回归法单因子测试中并未对市值因素的影响进行调整,但是在后续计算因子IC值的部分会做一些调整。
测试模型构建方法如下:
1. 股票池:全A股,剔除ST、PT股票,剔除每个截面期下一交易日停牌的股票。
2. 回溯区间:2005-04-29至2016-08-31。
3. 截面期:每个自然月的最后一个交易日计算因子暴露度,与下一整个自然月的个股超额收益(以沪深300指数为基准)进行回归。
4. 数据处理方法:
a) 因子暴露度具体计算公式详见表7,Wind因子如有缺失值暂时不处理;
b) 中位数去极值:设第T期某因子在所有个股上的暴露度序列为 D_i , D_M 为该序列中位数,D_M1 为序列 |D_i - D_M| 的中位数,则将序列 D_i中所有大于 D_M + 5D_M1 的数重设为 D_M + 5D_M1,将序列 D_i 中所有小于 D_M - 5D_M1的数重设为 D_M - 5D_M1;
c) 标准化:将去极值处理后的因子暴露度序列减去其现在的均值、除以其标准差,得到一个新的近似服从 N(0,1) 分布的序列,这样做可以让不同因子的暴露度之间具有可比性;
d) 缺失值处理:得到新的因子暴露度序列后,将因子暴露度缺失的地方设为0(这里解释一下,由于不同因子可能在不同个股处存在缺失值,若不对缺失值进行处理则每个单因子回归的票池并不完全相同,不同单因子回归结果的可比性较差,但如果将所有出现缺失值的个股都从回归票池中剔除,当数据源质量不佳时可能会造成票池大幅减少,回归结果同样不可信,所以这里折中处理,将因子暴露度缺失的地方设为新序列的均值,即设为零,可视作当存在缺失值时我们认为此个股的因子值与全市场平均情况相同,即持中性看法)。注:Wind的operatecashflow_ttm因子目前存在大片缺失的地方,暂时使用最近一期非缺失值代替。
5. 回归权重:由于普通最小二乘回归(OLS)可能会夸大小盘股的影响(因为小盘股的估值等因子出现极端值概率较大,且小盘股数目很多,但占全市场的交易量比重较小),并且回归可能存在异方差性,故我们参考Barra手册,采用加权最小二乘回归(WLS),使用个股流通市值的平方根作为权重,此举也有利于消除异方差性。
6. 因子评价方法:
a) t值序列绝对值平均值——因子显著性的重要判据;
b) t值序列绝对值大于2的占比——判断因子的显著性是否稳定;
c) 因子收益率序列平均值,以及该均值零假设检验的t值——判断因子收益率序列是否方向一致,并且显著不为零;
d) t值序列均值的绝对值除以t值序列的标准差——结合显著性和波动性,辅助判断因子是否有效、稳健。
因子IC值的计算
因子的IC值是指因子在第T期的暴露度与T+1期的股票收益的相关系数,即
其中,ICd^T代表因子d在第T期的IC值,R^{T+1}代表所有个股第T+1期的收益率向量,d^T代表所有个股第T期在因子d上的暴露度向量。
测试模型构建方法如下:
- \
股票池、回溯区间、截面期均与回归法相同。
- \
因子值在去极值、标准化、去空值处理后,在截面期上用其做因变量对市值因子及行业因子(哑变量)做线性回归,取残差作为因子值的一个替代。这样做可以消除行业因素和市值因素对因子的影响。计算残差序列和T+1期股票收益序列的相关系数作为T期因子IC值。
- \
因子评价方法:
a) IC值序列的均值大小——因子显著性;
b) IC值序列的标准差——因子稳定性;
c) IR比率(IC值序列均值与标准差的比值)——因子有效性;
d) IC值累积曲线——随时间变化效果是否稳定;
e) IC值序列大于零的占比——因子作用方向是否稳定。
因子收益率、t 值与 IC 值之间 的关系
前两小节分别介绍了用回归法、IC值评价因子有效性的两套思路,那它们之间到底具有怎样的区别和联系呢?为了说明这个问题,我们先介绍一个引理:
设X,Y为两个向量,则
其中R^2为线性回归Y=aX+b或线性回归X=aY+b的可决系数(其中a,b是待回归系数)。
如果我们在单因子测试(线性回归法)中使用模型
(r是股票收益率,X是因子暴露度,c是常数项,c可以理解为市场因子)并且假设我们在计算因子IC值的时候,不预先对因子暴露度进行市值、行业调整了,就使用原始的因子暴露度X,则本期因子IC值为corr(X,r),根据引理,因子IC值的平方就等于单因子测试的回归模型的R^2。
所以,因子IC值本质上反映的是下期收益率和本期因子暴露度的线性相关程度(R^2的平方根),是使用该因子预测收益率的稳健性(IC值越大,这个因子的收益越稳定,波动越小);而回归法中计算出的因子收益率本质上是一个斜率,反映的是从该因子可能获得的收益率的大小,这并不能说明任何关于线性拟合优度的信息(也就是说,因子收益率很大时,也可能出现R^2很小的情形);至于回归法中计算出的t值,在一元线性回归中t值与反映的信息一致(二者对应关系为,当R^2 = 0时t值也为0,当R^2 = 1时t值为无穷大),但是由于我们所采用的回归模型包括了行业变量,所以t值仅代表被测因子对股票收益的解释能力(而不能代表模型的整体拟合优度)。
总结一下,IC值反映模型整体线性拟合优度,t值反映被测单因子对模型的解释能力是否显著,这两者反映的信息都属于因子稳健性信息;因子收益率与前两者差别较大,它反映的是可能获得的收益率的大小,而对这个收益是否稳健未知。
事实上,我们在计算因子IC值时也对因子暴露度进行市值、行业预调整了,情况还比上面分析的要复杂一些,但是精髓不变,我们的结论仍然大致正确。
分层模型回测
依照因子值对股票进行打分,构建投资组合回测,是最直观的衡量指标优劣的手段。一般来说,通过回归法和计算因子IC值都无法确定因子的单调性(例如,某因子值排名在中间1/3的个股表现比前1/3和后1/3的个股表现要好),但是分层回测法是可以确定因子单调性的。分层回测法逻辑简单,结果清晰,操作方便,并且具有能区分因子单调性的独特优势,是接受度非常高的一种单因子测试手段。
测试模型构建方法如下:
- \
股票池、回溯区间都与回归法相同。
- \
换仓期:在每个自然月最后一个交易日核算因子值,在下个自然月首个交易日按当日收盘价换仓。
- \
数据处理方法:不进行任何加工(注:因Wind的operatecashflow_ttm因子目前存在大片缺失的地方,暂时使用最近一期非缺失值代替),因子值为空的股票不参与分层。
- \
分层方法:在每个一级行业内部对所有个股按因子大小进行排序,每个行业内均分成N个分层组合。如图4所示,黄色方块代表各行业内个股初始权重,可以相等也可以不等(我们直接取相等权重进行测试),分层具体操作方法为N等分行业内个股权重累加值,例如图示行业1中,5只个股初始权重相等(不妨设每只个股权重为0.2),假设我们欲分成3层,则分层组合1在权重累加值1/3处截断,即分层组合1包含个股1和个股2,它们的权重配比为0.2:(1/3-0.2)=3:2,同样推理,分层组合2包含个股2、3、4,配比为(0.4-1/3):0.2:(2/3-0.6)=1:3:1,分层组合4包含个股4、5,配比为2:3。以上方法是用来计算各个一级行业内部个股权重配比的,行业间权重配比与基准组合(我们使用沪深300)相同,也即行业中性。
- \
评价方法:回测年化收益率、夏普比率、信息比率、最大回撤、胜率等。
分层回测结果分析
Sales_G_q因子
图4展示了Sales_G_q因子分五层回测净值曲线,其中组合1~组合5为按Sales_G_q因子从大到小排序构造的行业中性的分层组合(构建方法参见上一章“分层模型回测”小节)。基准组合为所有分层组合中个股合并,一级行业内部个股等权配置,行业权重按当期沪深300行业权重配置。回测模型于每月末核算因子值,下月初调仓。
观察图4和表8可以发现,Sales_G_q因子具备选股能力。从收益率的角度来看,组合1年化超额收益率3.07%为五组中最高;从夏普比率、信息比率、相对基准月胜率的角度来看,组合1都是最优的;从超额收益最大回撤的角度来看,组合1排第三,但与前两名(组合3、组合2)的值相差不远。
图5中展示了组合1~组合5滚动12个月收益率曲线,图6展示了多空组合(做多组合1、做空组合5)月度收益和累积收益曲线,可以发现,随时间变化,Sales_G_q因子效果尚可,2014年至2015年上半年失效,最大回撤约15%,累积收益曲线波动略大。
图7是组合1~组合5的重要绩效指标(年化收益率、夏普比率、信息比率)对比图,同样地,我们还进行了Sales_G_q因子分十层回测,将重要绩效指标对比展示在图8中。通过以上两图可以发现,Sales_G_q因子单调性表现不错,从组合1到组合10基本维持收益单调下降的趋势。
在图9中,我们将全市场股票按市值排名前1/3,1/3~2/3,后1/3分成三个大类,在这三类股票中分别进行分层测试(分十层),基准组合构成方法同前面所述(注意每个大类对应的基准组合并不相同)。我们发现,Sales_G_q因子对于大市值、中等市值股票具有较好区分效果,收益率、夏普比率、信息比率从组合1到组合10整体趋势是单调下降的;对于小市值股票,Sales_G_q因子的区分效果有所下降,但还尚可。
我们在不同一级行业内部都做了分层测试(详见表9),基准组合为各行业内Sales_G_q因子非空值的个股等权组合。从结果来看,Sales_G_q因子在汽车、有色金属行业中选股效果较好,组合1年化超额收益率超过6%,其他绩效指标也都表现突出。29个一级行业中,组合1收益率排第一的行业有14个,排前二的行业为25个,可见Sales_G_q因子在各行业中基本上是稳定有效的。
[
Sales_G_ttm因子
图10展示了Sales_G_ttm因子分五层回测净值曲线,其中组合1~组合5为按Sales_G_ttm因子从大到小排序构造的行业中性的分层组合(构建方法参见上一章“分层模型回测”小节)。
观察图10和表10可以发现,Sales_G_ttm因子具备一定选股能力。观察图11、12发现,随时间变化,Sales_G_ttm因子的效果并不是非常稳定,多空组合的累积收益很低。
通过13、14两图可以发现,Sales_G_ttm因子表现出一定的非线性特征,全市场排名在60%~80%的股票表现较差,排名后20%的股票表现反而有所回升。然而这一现象并不符合逻辑,利用价值不大。
在图15中,我们发现,Sales_G_ttm因子对于大市值股票还算具有一些区分效果,对于中等市值股票和小市值股票的区分效果很差。
我们在不同一级行业内部都做了分层测试(详见表11),基准组合为各行业内Sales_G_ttm因子非空值的个股等权组合。从结果来看,Sales_G_ttm因子在家电行业中选股效果很好,组合1年化超额收益率为8.53%,其次是商贸零售、电子元器件等行业。29个一级行业中,组合1收益率排第一的行业只有11个,排前二的行业为18个,Sales_G_ttm因子在各行业中并不是稳定有效的。并且在绝大部分行业中该因子的单调性表现都不太好。
[
Sales_G_3y因子
图16展示了Sales_G_3y因子分五层回测净值曲线,其中组合1~组合5为按Sales_G_3y因子从大到小排序构造的行业中性的分层组合(构建方法参见上一章“分层模型回测”小节)。
观察图16和表12可以发现,Sales_G_3y因子基本不具备选股能力。组合2~组合5的表现基本没有区分度,组合1的表现反而要更差一点。
图17、18说明,随时间变化,Sales_G_3y因子并不存在显著稳定有效的时段,再次证实其不具备选股能力,没有必要进行更深度的测试。
[
Profit_G_q因子
图19展示了Profit_G_q因子分五层回测净值曲线,其中组合1~组合5为按Profit_G_q因子从大到小排序构造的行业中性的分层组合(构建方法参见上一章“分层模型回测”小节)。
观察图19和表14可以发现,Profit_G_q因子具备较好的选股能力。从收益率的角度来看,组合1年化超额收益率3.22%为五组中最高;从夏普比率、信息比率、相对基准月胜率、超额收益最大回撤的角度来看,组合1都是最优的。
图20、21说明,随时间变化,Profit_G_q因子的效果基本上稳定,2009年以后处于直线上升态势(除了在2013中至2014年中出现一次较大的回撤)。总体来说效果还是比较优秀的。
通过22、23两图可以发现,Profit_G_q因子在排名后20%区段单调性不太好,在排名前80%区段单调性表现很好。
在图24中,我们将全市场股票按市值排名前1/3,1/3~2/3,后1/3分成三个大类,在这三类股票中分别进行分层测试(分十层),基准组合构成方法同前面所述(注意每个大类对应的基准组合并不相同)。我们发现,Profit_G_q因子对于大市值股票和中等市值股票具有良好区分效果,收益率、夏普比率、信息比率从组合1到组合10基本上呈下降态势,而且区分度较高;对于小市值股票,Profit_G_q因子的区分效果不佳。
我们在不同一级行业内部都做了分层测试(详见表15),基准组合为各行业内Profit_G_q因子非空值的个股等权组合。从收益率来看,Profit_G_q因子在商贸零售、有色金属行业中选股效果很好,组合1年化超额收益率超过8%,信息比率较高,最大回撤、胜率也都不错。29个一级行业中,组合1收益率排第一的行业为16个,排前二的行业为21个,可见Profit_G_q因子在各行业中效果比较稳定。
[
Profit_G_ttm因子
图25展示了Profit_G_ttm因子分五层回测净值曲线,其中组合1~组合5为按Profit_G_ttm因子从大到小排序构造的行业中性的分层组合(构建方法参见上一章“分层模型回测”小节)。
观察图25和表16可以发现,Profit_G_ttm因子具备一定选股能力。从收益率的角度来看,组合1年化超额收益率1.34%为五组中最高,但数值绝对大小不是很大;从夏普比率、信息比率、相对基准月胜率、超额收益最大回撤的角度来看,组合1都是最优的;但除了组合1之外,组合2~组合5的表现几乎没有区分度。
图26、27说明,随时间变化,Profit_G_ttm因子的效果并不稳定,多空组合累积收益较低,除了在2010年~2013年收益比较可观,其余时段内波动很大且没有明显效果,总体来看表现一般。
通过28、29两图可以发现,Profit_G_ttm因子在Profit_G_ttm排名前50%的区段单调性表现较好,在排名后50%的区段单调性较差,整体来看具有一定的非线性性,但由于各组收益区分度不高,亦不能确认具有某种特定的非线性特征。
在图30中,我们将全市场股票按市值排名前1/3,1/3~2/3,后1/3分成三个大类,在这三类股票中分别进行分层测试(分十层),基准组合构成方法同前面所述(注意每个大类对应的基准组合并不相同)。我们发现,Profit_G_ttm因子对于大市值股票和中等市值股票整体来讲具有一定区分度,但效果不是很好;对于小市值股票,Profit_G_ttm因子几乎没有区分效果。
我们在不同一级行业内部都做了分层测试(详见表17),基准组合为各行业内Profit_G_ttm因子非空值的个股等权组合。从收益率来看,Profit_G_ttm因子在有色金属行业中选股效果最好,虽然组合1年化超额收益率7.47%不是最高的,但信息比率、超额收益最大回撤、胜率表现都是最好的;其次是机械、传媒行业。29个一级行业中,组合1收益率排前二的行业为14个,可见Profit_G_ttm因子在各行业中效果并不稳定。
[
Profit_G_3y因子
图31展示了Profit_G_3y因子分五层回测净值曲线,其中组合1~组合5为按Profit_G_3y因子从大到小排序构造的行业中性的分层组合(构建方法参见上一章“分层模型回测”小节)。
观察图31和表18可以发现,Profit_G_3y因子基本不具备选股能力。组合3~组合5的表现基本没有区分度,组合1和组合2的表现反而要更差一点。
图32、33说明,随时间变化,Profit_G_3y因子并不存在显著稳定有效的时段,再次证实其不具备选股能力,没有必要进行更深度的测试。
[
OCF_G_q因子
图34展示了OCF_G_q因子分五层回测净值曲线,其中组合1~组合5为按OCF_G_q因子从大到小排序构造的行业中性的分层组合(构建方法参见上一章“分层模型回测”小节)。
观察图34和表20可以发现,OCF_G_q因子具备较好的选股能力。从收益率的角度来看,组合1年化超额收益率1.64%为五组中最高,但该数值的绝对大小并不是很大;从夏普比率、信息比率、相对基准月胜率、超额收益最大回撤的角度来看,组合1都是最优的。
图35、36说明,随时间变化,OCF_G_q因子的效果基本上稳定,2010年中期以后处于直线上升态势,而且波动较小。虽然累积收益不高,但总体来说效果还是比较优秀的。
通过37、38两图可以发现,OCF_G_q因子整体单调性表现不错,虽然局部略有瑕疵,但从组合1到组合10的收益率基本维持单调下降态势。
在图39中,我们将全市场股票按市值排名前1/3,1/3~2/3,后1/3分成三个大类,在这三类股票中分别进行分层测试(分十层),基准组合构成方法同前面所述(注意每个大类对应的基准组合并不相同)。我们发现,OCF_G_q因子对于大市值股票和中等市值股票区分效果尚可,收益率、夏普比率、信息比率从组合1到组合10整体上是下降态势;对于小市值股票,OCF_G_q因子的区分效果不佳。
我们在不同一级行业内部都做了分层测试(详见表21),基准组合为各行业内OCF_G_q因子非空值的个股等权组合。从收益率来看,OCF_G_q因子在有色金属、轻工制造行业中选股效果很好,组合1年化超额收益率超过7%,信息比率较高。29个一级行业中,组合1收益率排第一的行业为11个,排前二的行业为19个,可见OCF_G_q因子在各行业中效果还算稳定。
[
OCF_G_ttm因子
图40展示了OCF_G_ttm因子分五层回测净值曲线,其中组合1~组合5为按OCF_G_ttm因子从大到小排序构造的行业中性的分层组合(构建方法参见上一章“分层模型回测”小节)。
观察图40和表22可以发现,OCF_G_ttm因子基本不具备选股能力。除了组合3的表现略差之外,其余4个组合的表现几乎没有区分度。不过,组合1的年化超额收益率0.65%仍然是所有组合里最高的。
图41、42说明,从2010年至今,OCF_G_ttm因子的效果尚可,多空组合年化收益约3%,且波动较低。长期来看表现一般。
图43是组合1~组合5的重要绩效指标(年化收益率、夏普比率、信息比率)对比图,同样地,我们还进行了OCF_G_ttm因子分十层回测,将重要绩效指标对比展示在图44中。由于各组合收益率区分度不高,所以难以确认OCF_G_ttm因子的单调性表现。虽然目测具有一定的非线性性,亦不能确认具有某种特定的非线性特征。
在图45中,我们将全市场股票按市值排名前1/3,1/3~2/3,后1/3分成三个大类,在这三类股票中分别进行分层测试(分十层),基准组合构成方法同前面所述(注意每个大类对应的基准组合并不相同)。我们发现,OCF_G_ttm因子对于不同规模的三类股票整体来讲都具有一定区分度,但效果不是很好。
我们在不同一级行业内部都做了分层测试(详见表23),基准组合为各行业内OCF_G_ttm因子非空值的个股等权组合。从收益率来看,OCF_G_ttm因子在商贸零售、食品饮料行业中选股效果较好,虽然组合1年化超额收益率不太高,但信息比率还不错。29个一级行业中,组合1收益率排第一的行业为8个,排前二的行业为11个,可见OCF_G_ttm因子在各行业中效果并不稳定。
[
OCF_G_3y因子
图46展示了OCF_G_3y因子分五层回测净值曲线,其中组合1~组合5为按OCF_G_3y因子从大到小排序构造的行业中性的分层组合(构建方法参见上一章“分层模型回测”小节)。
观察图46和表24可以发现,OCF_G_3y因子基本不具备选股能力。组合1~组合4的表现基本没有区分度,组合5的表现反而是最好的,年化超额收益率达到2.12%,但该结果不符合直观逻辑,在多因子模型中利用价值有限。
图47、48说明,随时间变化,OCF_G_3y因子并不存在显著稳定有效的时段,再次证实其不具备选股能力,没有必要进行更深度的测试。
[
ROE_G_q 因子
图49展示了ROE_G_q因子分五层回测净值曲线,其中组合1~组合5为按ROE_G_q因子从大到小排序构造的行业中性的分层组合(构建方法参见上一章“分层模型回测”小节)。
观察图49和表26可以发现,ROE_G_q因子具备较好的选股能力。从收益率的角度来看,组合1年化超额收益率3.52%为五组中最高;从夏普比率、信息比率、相对基准月胜率、超额收益最大回撤的角度来看,组合1都是最优的。
图50、51说明,随时间变化,ROE_G_q因子的效果比较稳定,在回测期基本处于稳步上升状态,多空组合累积收益也较高,总体来说效果不错。
通过52、53两图可以发现,除了十层组合的最后一组收益率出现异常波动,组合1~组合9的收益率基本上是单调下降的,ROE_G_q因子单调性表现很好。
在图54中,我们将全市场股票按市值排名前1/3,1/3~2/3,后1/3分成三个大类,在这三类股票中分别进行分层测试(分十层),基准组合构成方法同前面所述(注意每个大类对应的基准组合并不相同)。我们发现,ROE_G_q因子对于不同市值区间的三类股票都具有良好区分效果,收益率、夏普比率、信息比率从组合1到组合10基本上呈下降态势。
我们在不同一级行业内部都做了分层测试(详见表27),基准组合为各行业内ROE_G_q因子非空值的个股等权组合。从收益率来看,ROE_G_q因子在有色金属行业中选股效果非常优秀,组合1年化超额收益率为12.56%,信息比率很高,其次在商贸零售等行业中也有不错表现。29个一级行业中,组合1收益率排第一的行业为17个,排前二的行业为20个,可见ROE_G_q因子在各行业中效果比较稳定。
[
ROE_G_ttm因子
图55展示了ROE_G_ttm因子分五层回测净值曲线,其中组合1~组合5为按ROE_G_ttm因子从大到小排序构造的行业中性的分层组合(构建方法参见上一章“分层模型回测”小节)。
观察图55和表28可以发现,ROE_G_ttm因子具备一定选股能力。从收益率的角度来看,组合1年化超额收益率1.38%为五组中最高,但数值绝对大小不是很大;从夏普比率、信息比率、相对基准月胜率的角度来看,组合1都是最优的;但总体来说,组合1~组合5的区分度比较低。
图56、57说明,随时间变化,ROE_G_ttm因子的效果并不稳定,多空组合累积收益较低,除了在2010年~2013年收益比较可观,其余时段内波动很大且没有明显效果,总体来看表现一般。
通过58、59两图可以发现,ROE_G_ttm因子在ROE_G_ttm排名前80%的区段单调性表现较好,在排名后20%的区段单调性较差,整体来看具有一定的非线性性,但由于各组收益区分度不高,亦不能确认具有某种特定的非线性特征。
在图60中,我们将全市场股票按市值排名前1/3,1/3~2/3,后1/3分成三个大类,在这三类股票中分别进行分层测试(分十层),基准组合构成方法同前面所述(注意每个大类对应的基准组合并不相同)。我们发现,ROE_G_ttm因子对于大市值股票和中等市值股票整体来讲具有一定区分度,但效果不是很好;对于小市值股票,ROE_G_ttm因子的区分效果还要更差一些。
我们在不同一级行业内部都做了分层测试(详见表29),基准组合为各行业内ROE_G_ttm因子非空值的个股等权组合。从收益率来看,ROE_G_ttm因子在机械行业中选股效果最好,组合1年化超额收益率7.22%虽然不是最高的,但信息比率、超额收益最大回撤、胜率表现都是最好的;其次是传媒、煤炭行业。29个一级行业中,组合1收益率排第一代行业为10个,排前二的行业为19个,可见ROE_G_ttm因子在各行业中效果还算稳定。
[
ROE_G_3y因子
图61展示了ROE_G_3y因子分五层回测净值曲线,其中组合1~组合5为按ROE_G_3y因子从大到小排序构造的行业中性的分层组合(构建方法参见上一章“分层模型回测”小节)。
观察图61和表30可以发现,ROE_G_3y因子基本不具备选股能力。组合1、组合4、组合5的表现基本没有区分度,组合2和组合3的表现要略差一点。
图62、63说明,随时间变化,ROE_G_3y因子并不存在显著稳定有效的时段,再次证实其不具备选股能力,没有必要进行更深度的测试。
[
\
回归法测试与IC值分析
回归法测试结果分析
上一章中,我们依次展示了十二个成长因子分层回测的结果,本章我们将使用回归法进行截面规律统计。回归法是多因子模型领域应用最广的方法,回归法单因子测试的结果不仅用于初步因子筛选,在后续构建收益预测模型时还会进一步应用。具体模型设置和表32中各指标含义参见第二章“单因子测试流程”的第一小节“回归法”。
我们还列出了前期报告因子回归测试结果(估值类)与本期成长因子回归结果进行对比,如表33所示。
从上面的图表可以看出,营业收入、净利润、经营现金流、ROE增长率的效果都是当季最优,ttm其次,三年复合增长率已经基本无效了。取假设检验H:月均因子收益率显著异于0。则假设检验H对应的t值在表32中最后一列,能通过该假设检验的因子只有Sales_G_q、 Profit_G_q、OCF_G_q、ROE_G_q这四个因子。以上结论从某种程度上表明市场对于财务数据的消化、反应速度是很灵敏的。这四种成长率之间进行对比,净利润、ROE增长率的效果最好,其次是营业收入增长率,经营现金流增长率最末。观察t值绝对值均值,经营现金流增长率对应的三个因子都没有超过2,可以被排除了。综合判断,成长类因子中只有Sales_G_q、Profit_G_q、ROE_G_q可以从统计意义上认为是有效的因子,其余因子效果均不佳。
与前一篇单因子测试的报告结果进行对比,我们发现成长因子的整体效果不如估值因子。尤其在t值绝对值均值和|t|>2占比方面,成长因子中表现最好的Profit_G_q在十个估值因子中也只能排在中下游,但Profit_G_q因子的t均值/t标准差却要好于所有估值因子。这或许意味着成长因子虽然累积收益不是很高,但随时间推移稳定性表现不错。
因子IC值的计算与分析
在回归法因子测试完成之后,我们还将进行因子IC值的计算与分析。具体计算方法详见第二章“单因子测试流程”的第二小节“因子IC值的计算”。
我们还仿照回归法分析过程,画出各因子IC值累积曲线,可以从图中观察成长因子在各段历史时期的表现(图66、67)。
表34中IR比率是指因子IC值均值与标准差的比值的绝对值,能够衡量因子有效性,根据计算结果,Profit_G_q、ROE_G_q因子的效果比较好,从IR比率的角度看,Sales_G_q、OCF_G_q因子的效果也还不错,其余因子效果一般,这与回归法的结果是一致的。
与前一篇单因子测试的报告结果进行对比,我们发现整体来讲成长因子的IC值也不如估值因子。唯有在IC>0占比方面,成长因子的表现略强,这说明成长因子的作用方向一致性更高。这一点可能是回归结果中成长因子的t均值/t标准差这一项表现不错的原因之一。
成长因子效果对比总结
我们将分层测试的结果汇总在表36中,其中TOP组合是指分五层组合中的组合1。从TOP组合信息比率、多空组合年化收益率、多空组合夏普比率等角度来说,都是Sales_G_q、Profit_G_q、ROE_G_q三个因子表现出众。同时我们将回归法测试和IC值分析的结果汇总在表38中,对比观察可以发现,在统计意义下也是上述三个因子效果最突出,与分层测试的结果是一致的。
我们将上一篇单因子测试报告中估值因子的结果展示在表37和表39中,互相对比发现,三个比较突出的成长因子整体效果大致与估值因子中的SP相差不远,比BP有一定差距。不过,成长因子的好处在于它完全源于财务数据,与量价信息不相关,经前文验证与市值因子也基本不相关,在构建多因子模型过程中不易发生共线性现象,是比较优质的因子。而且成长因子逻辑清楚,在基本面选股模型中也可多加利用。
总结一下,Sales_G_q、Profit_G_q、ROE_G_q三个因子是成长类因子中表现较好的,其次是OCF_G_q因子,另外Sales_G_ttm、Profit_G_ttm、ROE_G_ttm因子可以酌情使用,其余因子效果不佳可以排除了。
目前我们正在陆续推出单因子测试系列报告,后续规划包括财务质量因子、杠杆因子、规模因子、动量因子、波动率因子、换手率因子、分析师情绪因子、股东因子、技术因子等大类因子的测试,在单因子测试系列之后我们将深入探讨如何在大类因子中进行因子精选并赋予合适权重从而构造优秀的风格因子,敬请关注。
作者:华泰证券金融工程组