用树模型提取分析师预期数据中的非线性alpha信息

由kyrie_fu创建，最终由kyrie_fu更新于2022-10-09 10:58 被浏览 47 用户

摘要

研究目的

用分析师预期数据设计的因子，结构复杂、数据缺失多、与盈利因子、市值类因子相关性高，线性模型未必能够充分提炼其中独有的alpha信息。提升树模型是一种被广泛使用的机器学习方法，模型可以拟合非线性关系，可以自动处理数据缺失问题，使用方法灵活。报告将提升树模型应用于对分析师预期数据因子和股票收益率建模之中，在确保与盈利类因子、市值类因子低相关的前提下，尝试提取因子中或有的非线性alpha信息

测试方法

报告采用滚动建模的方法，同时使用线性模型和提升树模型，用分析师预期数据因子构建股票收益预测模型。在模型构建过程中，采用统计技术手段，降低模型预测值与盈利类因子和市值类因子之间的相关性，提高预测结果的独立性。另外，为验证预测结果的有效性，报告用盈利类因子和市值类因子构建了基础股票收益率预测模型，分析预测结果对基础模型的增量效果。

测试结果

测试的数据周期为2007年初至2020年10月。通过测试发现，提升树模型可稳定有效地预测股票收益率，预测值与基础模型预测值相关性均值为10%。另外，提升树模型与线性模型预测值相关性均值为50%，提升树模型预测值更适合中小市值股票、而线性模型更适合大市值股票。等权使用两个模型构建的股票组合，其收益表现显著优于单独使用线性模型构建的股票组合，增量收益部分独立，且增量收益部分自2016年以来大幅提升。另外，报告测试了等权模型对基础模型的增量效果。结果显示，在沪深300指数增强和中证500指数增强策略中，增量收益的年化收益率分别为1.7%和2.8%、夏普率分别为1.65和2.20，增量收益与原策略收益相关性分别为-7%和16%，增量部分独立、稳定、有效。

其他内容

报告构建了完整的滚动训练股票收益率预测模型的流程，介绍和尝试了几种去除相关性的技术方法，丰富了一些数据建模的技术细节，分析了预测模型的风险来源和评估、调整方法。其中提出的一些技术方法和评价指标，适用于一般性的股票收益率预测模型

正文

/wiki/static/upload/43/4341777b-c5c7-4435-9ec7-a5fe32883869.pdf