研报&论文

机器学习流程和算法介绍及金融领域应用实例-长江证券-20180207

由qxiao创建,最终由qxiao 被浏览 144 用户

摘要

机器学习问题和其流程

机器学习问题本质上在于找出使得经验风险泛函(样本误差)最小的建模流程,基本的流程可以分为特征工程、模型训练和模型融合。本篇就上述三个过程,给出相关算法的介绍,并补充了之前系列报告中未详细介绍的内

机器学习三大步骤

特征工程包含特征构建、特征提取和特征选择三个过程,以选择相对最优的特征空间。特征工程往往会采用无监督和有监督的机器学习算法。机器学习模型可以分为线性模型、树模型和深度学习模型。线性模型主要体现了数据中的线性关系,如输入与输出的线性关系,点集的线性可分;树模型可以很好的捕捉输入与输出的非线性关系,和线性模型相辅相成。一些改进的随机梯度下降法可以很好地训练深度学习模型。模型融合有横向拼接和纵向拼接两种方式,在模型融合过程中,往往要求模型表现好,且之间的相关性小。深度学习可以将模型融合通过网络结构的设计在模型训练中完成

多因子选股案例

目前多因子选股模型多以单个模型在整个特征空间上的预测构建策略,往往很难保证函数空间上的一致性,而机器学习流程选股通过在大的函数空间中选择多个小的函数空间进行合并,得到更为完善的模型,可以在估计函数空间上更加逼近实际函数空间。本文以提升树模型、ExtraTrees模型和深度神经网络模型进行横向拼接,加权平均模型输出的伪概率,构建投资组合。融合模型超额年化收益为25.91%,夏普比为1.06,信息比为2.26,月度超额胜率为0.76,在超额收益、夏普比、信息比及月度超额胜率上表现略优于单个模型,且在分组投资组合的区分上更为明显

正文

/wiki/static/upload/05/057d86bd-4a19-4d9a-bedc-4846727574cf.pdf

\

标签

特征工程模型训练特征提取
{link}