华泰人工智能系列之二：人工智能选股之广义线性模型-华泰证券-20170622

由qxiao创建，最终由qxiao更新于2021-12-10 16:54 被浏览 348 用户

摘要

采用统一的视角解释与测试所有的广义线性模型

多因子模型的本质是关于股票当期因子暴露和未来收益之间的线性回归模型。我们希望引入机器学习的思想，对传统多因子模型进行优化，最自然的想法正是从简单的线性模型入手。本文中，我们试图采用统一的视角解释与测试所有的广义线性模型，并分析它们应用于多因子选股的异同，希望对本领域的投资者产生有实用意义的参考价值。

广义线性模型的构建和回测

广义线性模型的构建包括特征和标签提取、特征预处理、训练集合成和滚动训练等步骤。最终在每个月底可以产生对全部个股下期收益的预测值，也可以将广义线性模型看作一个因子合成模型，即在每个月底将因子池中所有因子合成为一个“因子”。我们对该模型合成的这个“因子”进行分层回测，随后根据模型构建出基于沪深300行业中性、中证500行业中性和不做行业中性的选股策略。根据模型回测结果以及测试集IC或正确率对模型进行评价。

对滚动训练集长度等重要参数进行参数敏感性分析

我们对线性回归模型的滚动训练集长度、主成分分析选取的主成分个数和训练集样本量进行参数敏感性分析。结果表明滚动训练集长度为12~24个月时回测效果较好；主成分分析保留的成分越多，回测效果越好；选取全部样本在沪深300行业中性基准下表现最好，选取前后排名20%的样本在中证500行业中性基准下表现最好。

正则化对选股效果没有明显的提升

正则化对选股效果没有明显的提升作用。岭回归、Lasso回归和弹性网络的表现和线性回归类似。可能的原因是样本的所有特征都是已被证明有效的因子，不存在使用正则化筛选有效因子的必要。其次预处理过程中包含去极值和标准化等步骤，减少了极端样本的出现概率，进一步削弱正则化的价值。

逻辑回归和随机梯度下降分类器（SGD）的表现优于线性回归将回归

问题转换为分类问题能够提升模型表现。逻辑回归、SGD+hinge损失函数、SGD+modified Huber损失函数这三个分类器的回测效果均优于传统的线性回归模型。三者之中又以SGD +hinge损失模型表现最佳，以中证500作为行业中性基准，每个行业选10~15只个股的策略，信息比率和Calmar比率均在4左右，超额收益最大回撤在5%左右。三种分类器之所以优于线性回归，可能的原因是对原始收益率进行二值化处理后，在损失部分信息的同时消除了大量噪音，使得模型能够更准确地捕捉数据中蕴含的规律。风险提示：广义线性模型是历史经验的总结，存在失效的可能。相关研究

正文

/wiki/static/upload/3e/3e0e9443-58ff-4796-b714-5d1f8d7a464f.pdf