华泰人工智能系列之六:人工智能选股之Boosting模型-华泰证券-20170911
由qxiao创建,最终由qxiao 被浏览 189 用户
摘要
报告对各种Boosting集成学习模型进行系统测试
Boosting集成学习模型将多个弱学习器串行结合,能够很好地兼顾模型的偏差和方差,该类模型在最近几年获得了长足的发展,主要包括AdaBoost、GBDT、XGBoost。本篇报告我们将对这三种Boosting集成学习模型进行系统性的测试,并分析它们应用于多因子选股的异同,希望对本领域的投资者产生有实用意义的参考价值。
Boosting集成学习模型构建:7阶段样本内训练与交叉验证、样本外测试
Boosting集成学习模型的构建包括特征和标签提取、特征预处理、样本内训练、交叉验证和样本外测试等步骤。最终在每个月底可以产生对全部个股下期上涨概率的预测值,然后根据正确率、AUC等指标以及策略回测结果对模型进行评价。为了让模型及时学习到市场特征的变化,我们采用了7阶段滚动回测方法。我们还根据模型的预测结果构建了沪深300成份内选股、中证500成份内选股和全A选股策略,通过年化收益率、信息比率、最大回撤等指标综合评价策略效果。
XGBoost模型超额收益和信息比率的表现优于线性回归
对于沪深300成份股内选股的行业中性策略(每个行业选6只个股),XGBoost分类模型的超额收益为6.4%,信息比率为1.78。对于中证500成份股内选股的行业中性策略,XGBoost分类模型的超额收益为7.2%,信息比率为2.03。对于全A选股的行业中性策略,XGBoost分类模型相对于中证500的超额收益为31.5%,信息比率为4.4。总体而言,XGBoost分类模型在超额收益和信息比率方面表现不错,各种策略构建方式下都能稳定地优于线性回归模型;最大回撤方面XGBoost分类相比于线性回归不具备明显优势。
XGBoost模型预测能力与其他集成学习模型持平,但运算速度有明显优势
我们比较了不同的Boosting集成学习模型的预测能力,发现XGBoost模型和其他模型持平。AdaBoost、GBDT、XGBoost三种模型样本外平均AUC分别为0.5695,0.5699,0.5696,样本外平均正确率分别为53.94%,54.12%,54.02%。但XGBoost模型在运算速度上有明显优势,其他集成学习模型训练所需时间普遍在XGBoost模型的2~8倍。
Boosting模型比Bagging模型(随机森林)更简单
在达到相近预测能力和回测绩效时,Boosting模型比Bagging模型(随机森林)要简单。本文的Boosting模型中,每个决策树的深度都为3,决策树总数为100。而Bagging模型中每个决策树的深度普遍在20以上,决策树总数有数百个,模型的复杂程度远大于Boosting模型。
正文
/wiki/static/upload/32/321c6177-ce74-4e53-b00b-a90ac0101af1.pdf
\