机器学习实战系列之一:TS~Boost因子选股框架初探-长江证券-20171129 (副本)
由bqynynt8创建,最终由bqynynt8 被浏览 40 用户
摘要
机器学习选股的两个痛点
通过总结近年来机器学习应用较为成功的领域的共同点,我们发现“样本同分布”和“数据信噪比高”是决定机器学习适用性的重要条件。然而对于金融数据来说,“样本非同分布”以及“数据信噪比低”是无法回避的,因此,照搬传统的机器学习方法或者硬套“深度学习”概念,期待算法自动完成因子评价,因子配置和投资组合优化的想法显得过于工具崇
TS-Boost因子选股框架设计
TS-Boost因子选股框架包含三部分:截面模型选择,时间结构设计以及目标函数设计。常见的机器学习因子选股是把过去不同截面的数据进行合并,然后集中训练,而TS-Boost算法最大的特点在于引入“时间流和截面模型”的概念,模型的做法是对每一个截面分别进行训练,然后综合多个截面模型的预测结果作为最终预测,从而解决“样本非同分布”的问题。与此同时,在目标函数的设计中,我们引入“排序学习”的概念来解决“数据信噪比低”的问题。
TS-Boost模型的超额收益,信息比率和最大回撤均优于线性回归
对于全A选股的行业中性策略,TS-Boost模型相对等权组合超额收益为21.9%,信息比率为3.34,超额收益最大回撤为6.9%;对于中证800成分内选股的行业中性策略,TS-Boost模型相对等权组合超额收益为11.8%,信息比率为3.06,超额收益最大回撤为4.1%。在全A选股和中证800成分选股中,TS-Boost模型在超额收益,信息比率以及最大回撤上均显著优于传统的线性回归模型。
TS-Boost模型可以更好地捕获因子间的非线性关系
我们将机器学习预测得分与线性模型预测得分的差异定义为非线性效应因子,该因子在全A选股中能创造7.1%的年化超额收益,信息比率为1.50,在中证800成分选股中可以创造5.3%的年化超额收益,信息比率为1.47。非线性效应因子对股票未来收益的区分度较为显著,从2007年以来,非线性效应因子长期稳定地提供超额收益,并无明显的失效阶段
正文
/wiki/static/upload/e8/e8b837d6-2a2a-4018-b647-003da72b9533.pdf
\