平台常用AI机器学习模型
由clearyf创建,最终由bqxqzfmk 被浏览 1355 用户
导语
BigQuant平台会不断封装机器学习算法策略,方便用户直接使用策略生成器开发策略,降低策略开发难度。本文对BigQuant平台上策略生成器已经支持的机器学习模型进行简单介绍。
目前,BigQuant策略研究平台支持的机器学习模型有分类模型、回归模型、排序模型和聚类模型四类。
常用AI机器学习模型
分类模型
分类模型主要包含以下模型:
模型名称 | 模块名称 |
---|---|
线性分类 | M.logistic_regression. |
线性随机梯度下降分类 | M.linear_sgd_classifier |
支持向量机分类 | M.svc |
多层感知器分类 | M.mlp_classifier |
梯度提升树分类 | M.gradient_boosting_classifier |
极端随机数分类 | M.extra_trees_classifier |
自适应提升树分类 | M.adaboost_classifier |
随机森林分类 | M.random_forest_classifier |
XGBoost分类 | M.xgboost |
Bagging分类 | M.bagging_classifier |
k近邻分类 | M.kneighbors_classifier |
回归模型
回归模型主要包含以下模型:
模型名称 | 模块名称 |
---|---|
线性回归 | M.linear_regression. |
线性随机梯度下降回归 | M.linear_sgd_regressor |
支持向量机回归 | M.svr |
多层感知器回归 | M. mlp_regressor |
极端随机数回归 | M.extra_trees_regressor |
自适应提升树回归 | M.adaboost_regressor |
随机森林回归 | M. random_forest_regressor |
梯度提升树回归 | M.gradient_boosting_regressor |
Bagging回归 | M.bagging_regressor |
XGBoost回归 | M.xgboost |
k近邻回归 | M.kneighbors_regressor |
排序模型
排序模型主要包含以下模型:
模型名称 | 模块名称 |
---|---|
XGBoost排序 | M.xgboost |
Stock_ranker排序 | M.stock_ranker |
聚类模型
聚类模型主要包含以下模型:
模型名称 | 模块名称 |
---|---|
层次聚类排序 | M.cluster_agglomerative |
近邻传播聚类 | M.cluster_affinity_propagation |
谱聚类 | M.cluster_spectral |
Birch聚类 | M.cluster_birch |
DBSCAN聚类 | M.cluster_dbscan |
K均值聚类 | M.cluster_kmeans |
线性模型
常见的线性模型之间的比较如下图所示。
树模型
常见的树模型之间的比较如下图所示。
重点模型介绍
下面,我们着重介绍几个模型,其余的模型可以在文档中查看介绍和使用方法。
StockRanker 模型
StockRanker 是 BigQuant为量化选股而设计,核心算法主要是排序学习和梯度提升树。
StockRanker = 选股 + 排序学习 + 梯度提升树
StockRanker有如下特点:
- 选股:股票市场和图像识别、机器翻译等机器学习场景有很大不同。StockRanker充分考虑股票市场的特殊性,可以同时对~3000只股票的数据进行学习,并预测出股票排序
- 排序学习 (Learning to Rank):排序学习是一种广泛使用的监督学习方法 (Supervised Learning),比如推荐系统的候选产品、用户排序,搜索引擎的文档排序,机器翻译中的候选结果排序等等。StockRanker 开创性的将排序学习和选股结合,并取得显著的效果。
- 梯度提升树 (GBDT):有多种算法可以用来完成排序学习任务,比如VSM、逻辑回归、概率模型等等。StockRanker使用了GBDT,GBDT是一种集成学习算法,在行业里使用广泛。
StockRanker的领先效果还得益于优秀的工程实现,我们在学习速度、学习能力和泛化性等方面,都做了大量的优化,并且提供了参数配置,让用户可以进一步根据需要调优。
随机森林模型
Bagging 算法是 bootstrap aggregation 的缩写,其核心思想是通过随机有放回的抽样构建训练数据集训练模型,最后组合,典型例子代表为随机森林模型。 随机森林模型使用多棵树进行单独预测,最后的结论由这些树预测结果的组合共同来决定,这也是“森林”名字的来源。每个基分类器可以很弱,但最后组合的结果通常能很强,这也类似于:“三个臭皮匠顶个诸葛亮”的思想。
随机森林模型有如下特点:
- 很少的数据预处理。随机森林继承决策树的全部优点,只需做很少的数据准备,其他算法往往需要数据归一化。
- 功能强大。随机森林模型能处理连续变量,还能处理离散变量,当然也能处理多分类问题 。
- 鲁棒性更强。随机森林解决了决策树的过拟合问题,使模型的稳定性增加,对噪声更加鲁棒,从而使得整体预测精度得以提升。
线性回归模型(SGD)
用回归方程定量地刻画一个因变量与多个自变量间的线性依存关系,称为多元线性回归分析。多元线性回归分析是多变量分析的基础,也是理解监督类分析方法的入口!实际上大部分学习统计分析和市场研究的人的都会用回归分析,操作比较简单。
在BigQuant上的线性回归模型的独特之处在于,在最小化损失函数——均分误差的时候,采取的是随机梯度下降法(stochastic gradient descent),因此更高效。
最后,大家可以参考BigQuant平台算法策略案例初步熟悉平台上各类算法的可视化流程。
小结: 本文对三种机器学习算法模型特点进行简单介绍,帮助大家进一步了解常用模型特点,在进行构建策略时做出最优选择。