华泰人工智能系列之二十九：提升超额收益，另类标签和集成学习-华泰证券-20200319 (副本)

由keketheartist创建，最终由keketheartist更新于2022-02-28 03:33 被浏览 72 用户

摘要

另类标签和集成学习有助于提升人工智能选股模型的超额收

对于量化选股模型来说，另类标签指有别于收益率的标签，也可视为一种“另类数据”。本文通过设置多种测试情形，对比了另类标签(信息比率和Calmar比率)与传统收益率标签在构建人工智能选股模型的优劣。相比收益率标签，另类标签在全A股优势显著，能明显提升选股模型的超额收益和信息比率；另类标签在指数成分股内优势较小，仅对超额收益的提升有一定作用。本文进一步使用集成学习对多种标签构建的模型进行集成。集成模型的超额收益和信息比率有稳定提升，Calmar比率也有较好表现。集成学习也可避免使用单一模型的风险，起到“模型分散化”的效果。

本文认为使用另类标签有三个方面的合理性

(1)另类标签相比收益率包含更多信息。传统的收益率标签只利用了时间区间两端的价格信息，忽略了区间内的价格走势。本文测试的另类标签包含了股票在区间内的收益、波动和回撤信息，具有更大信息量。(2) 标签也是一种指标，过度使用存在交易拥挤的可能性。标签通过损失函数的作用可以直接影响到输入选股因子的权重，不同的标签对于因子权重的影响不同。如果市场中大量的投资者使用收益率为标签，则存在交易拥挤的可能，此时如果使用一些另类标签，则可能开辟一片投资的“蓝海”。(3)现有的一些研究中，也使用有别于收益率的另类标签来构建模型。

本文使用了在多种训练期长度下测试的方法对比不同标签构建的模型

如果仅对不同标签构建的模型进行单次测试对比，所得出的结论未必可靠。此时有必要进行多次对比测试来获得统计意义上的“确定结果”。本文在多种不同训练期长度下进行测试对比，训练期长度从6个月到72个月共67种情形，在67种情形中，可以统计不同标签构建的模型在各个评价指标上的分布情况，从而得到更具有说服力的结果。此外，多种训练期长度训练的模型也为集成学习提供了大量可用的子模型

相比收益率标签，另类标签在全A股优势显著，在指数成分股内优势较小

在全A股中，另类标签相比收益率标签构建的模型在年化超额收益率、信息比率、Calmar比率上表现都更好，年化超额收益率上的胜率在90%左右。在中证500和中证800成分股中，另类标签相比收益率标签构建的模型仅在年化超额收益率上有较稳定的优势，胜率在58.21%~76.12%之间。此外在以上所有测试中，另类标签相比收益率标签构建的模型在超额收益最大回撤上都表现更差。对模型进行因子重要性分析，另类标签相比收益率标签构建的模型，三大量价因子(动量反转、波动率、换手率)的重要性下降，财务质量和一致预期因子的重要性上升。

集成学习能充分利用不同模型的优点，在多个股票池内回测效果最好

为了充分利用不同模型的优点，本文将各个子模型的预测结果视为单因子，使用3种传统因子合成的方法(等权，历史IC加权，历史因子收益率加权)进行模型集成。相比使用单一模型的平均回测绩效，集成模型的超额收益和信息比率有稳定提升，Calmar比率也有较好表现。集成学习也可避免使用单一模型的风险，起到“模型分散化”的效果。

正文

/wiki/static/upload/30/30505413-ff85-475b-8db0-88a574f8e6b4.pdf