历史文档

机器学习 (副本)

由qxiao创建,最终由qxiao 被浏览 3 用户

{{use_style}}

分类

自适应提升树-分类

adaboost自适应提升树算法,用于分类,此算法基于boosting,根据上次分类的准确率确定下次训练每个样本的权值,将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器融合,作为最后的决策分类器。

使用示例

表名:adaboost_classifier.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 弱学习器个数 n_estimators int 弱学习器个数,弱学习器最大迭代次数,太小容易欠拟合,太大容易过拟合,默认为50 50
分类算法 algorithm choice 分类算法,SAMME.R使用了对样本集分类的预测概率大小来作为弱学习器权重,迭代一般比SAMME快 SAMME.R
学习率 learning_rate float 学习率,该值缩减每个弱学习器的权重,通常较小的系数需要更多的迭代,因此n_estimators和learning_rate要一起调参 1.0
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列名用英文逗号分隔 date,instrument
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

Bagging-分类

Bagging有放回随机抽样算法,用于分类,有放回随机抽取小样本,训练弱学习器,采取多数投票机制获得最终分类结果。

使用示例

表名:bagging_classifier.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 弱学习器个数 n_estimators int 弱学习器个数,基准估计器个数,默认为10 10
随机子集比重 subsample float 随机子集比重,训练基准估计器使用该随机子集 1.0
特征使用率 feature_fraction float 特征使用率,寻找最佳分割时要考虑的特征比率,float类型,默认考虑所有特征数,即取值1.0 1.0
数据有放回抽样 bootstrap bool 数据有放回抽样,是否有放回采样,默认为True True
特征有放回抽样 bootstrap_features bool 特征有放回抽样,是否对特征有放回采样,默认为False False
采用袋外样本来评估误差 oob_score bool 采用袋外样本来评估误差,是否使用袋外样本估计泛化误差,默认为False,评估结果保存在oob_score_ False
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
并行作业数 workers int 并行作业数,同时使用多少个进程进行计算,默认是1 1
随机数种子 random_state int 随机数种子,默认是0 0
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

决策树-分类

决策树算法,用于分类,决策树从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。

使用示例

表名:decision_tree_classifier.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 决定分割的标准 criterion choice 决定分割的标准,支持基尼不纯度gini和熵不纯度entropy,默认是gini gini
特征使用率 feature_fraction float 特征使用率,寻找最佳分割时要考虑的特征比率 1
树的最大深度 max_depth int 树的最大深度,限制每棵树的最大深度,数值大拟合能力强,数值小泛化能力强。设置为0则不限制 30
每叶节点最小样本数 min_samples_per_leaf int 每叶节点最小样本数,每个叶节点最少需要的样本数量,一般值越大,泛化性性越好 200
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

极端随机森林-分类

对于随机森林的优化。

使用示例

表名:extra_trees_classifier.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 决定分割的标准 criterion choice 决定分割的标准,支持基尼不纯度gini和熵不纯度entropy,默认是gini gini
树的数量 iterations int 树的数量,数量越大,则模型越复杂,学习能力越强,更有可能过拟合,需要更多的计算资源 10
特征使用率 feature_fraction float 特征使用率:寻找最佳分割时要考虑的特征比率 1
树的最大深度 max_depth int 树的最大深度,限制每棵树的最大深度,数值大拟合能力强,数值小泛化能力强。设置为0则不限制 30
每叶节点最小样本数 min_samples_per_leaf int 每叶节点最小样本数:每个叶节点最少需要的样本数量,一般值越大,泛化性性越好 200
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
并行作业数 workers int 并行作业数,同时使用多少个进程进行计算,默认是1 1
随机数种子 random_state int 随机数种子,默认是0 0
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

梯度提升树-分类

梯度提升树-分类。

使用示例

表名: gradient_boosting_classifier.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定特征输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 损失函数 loss choice 损失函数,对于分类模型,有对数似然损失函数deviance和指数损失函数exponential deviance
学习率 learning_rate float 学习率,这个参数决定着每一个决策树对于最终结果的影响。GBM设定了初始的权重值之后,每一次树分类都会更新这个值,较小的值使得模型对不同的树更加稳健 0.1
树的数量 iterations int 树的数量,数量越大,则模型越复杂,学习能力越强,更有可能过拟合,需要更多的计算资源 10
训练每个决策树所用到的子样本占总样本的比例 subsample float 训练每个决策树所用到的子样本占总样本的比例,稍小于1的值能够使模型更稳健,因为这样减少了方差 1.0
树中终点节点所需要的最少的样本数 min_samples_per_leaf int 树中终点节点所需要的最少的样本数,也可以用来防止过度拟合 1
树的最大深度 max_depth int 树的最大深度,限制每棵树的最大深度,数值大拟合能力强,数值小泛化能力强 3
特征使用率 feature_fraction float 特征使用率,寻找最佳分割时要考虑的特征比率,float类型,默认考虑所有特征数,即取值1.0 1.0
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

k近邻-分类

用于分类

使用示例

表名:kneighbors_classifier.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 近邻数 n_neighbors int 近邻数,int类型,可选参数,默认值为5 5
K近邻权重类型 weights choice K近邻权重类型,用于预测。默认值为uniform uniform
计算分类使用的算法 algorithm choice 计算分类使用的算法,可选参数,ball_tree为算法BallTree,kd_tree为KDTree,brute使用暴力搜索,auto基于传入内容使用合适算法。默认值为auto auto
BallTree或者KDTree算法的叶子数量 leaf_size int BallTree或者KDTree算法的叶子数量,int类型,可选参数,此参数会影响构建、查询BallTree或者KDTree的速度,以及存储BallTree或KDTree所需要的内存大小。默认值30 30
距离度量 metric choice 距离度量,默认为minkowski,也称欧式距离 minkowski
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
并行作业数 workers int 并行作业数,同时使用多少个进程进行计算,默认是1 1
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

线性随机梯度下降-分类

线性随机梯度下降算法,用于分类。

使用示例

表名:linear_sgd_classifier.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要特征指定输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 损失函数 loss choice 损失函数 log
正则类型 penalty choice 正则类型 l2
L2 惩罚项(正则项) 参数 alpha float L2 惩罚项(正则项) 参数 0.0001
最大迭代次数 max_iter int 最大迭代次数 5
是否先随机打乱 shuffle bool 是否先随机打乱 True
初始学习率 eta0 float 初始学习率 0.1
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

线性-分类

逻辑斯蒂回归。

使用示例

表名:logistic_regression.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 指定惩罚项中使用的规范 penalty choice 指定惩罚项中使用的规范 l2
对偶或原始方法 dual bool 对偶或原始方法,bool类型,默认为False。对偶方法只用在求解线性多核(liblinear)的L2惩罚项上。当样本数量>样本特征的时候,dual通常设置为False False
是否存在截距或偏差 fit_intercept bool 是否存在截距或偏差,默认为True True
停止求解的标准 tol float 停止求解的标准 0.0001
正则化系数λ的倒数 C float 正则化系数λ的倒数 1.0
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
并行作业数 workers int 并行作业数,同时使用多少个进程进行计算,默认是1 1
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

多层感知器-分类

用于分类的机器学习算法。多层感知器(Multilayer Perceptron,缩写MLP)是一种前向结构的人工神经网络,映射一组输入向量到一组输出向量。可用于线性不可分数据。

使用示例

表名:mlp_classifier.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要特征指定输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 输入该隐藏层的神经元个数 hidden_layer_sizes str 输入该隐藏层的神经元个数,用英文逗号(,)分隔的整数元组,例如 100,100,表示有两层隐藏层,第一层隐藏层有100个神经元,第二层也有100个神经元 100
隐藏层的激活函数类型 activation choice 隐藏层的激活函数类型 relu
优化器 solver choice 优化器,用于优化权重,默认为adam adam
L2 惩罚项(正则项) 参数 alpha float L2 惩罚项(正则项) 参数 0.0001
随机优化算法的批量大小 batch_size int 随机优化算法的批量大小,如果优化器是 ‘lbfgs’, 将不会生效 200
学习率的初始默认值 learning_rate_init float 学习率的初始默认值,当且仅当优化策略是SGD或者ADAM时,才有意义。本参数控制着更新权重时的步长 0.001
最大可迭代次数 max_iter int 最大可迭代次数,优化器直至收敛(视最小容忍度而定)或者到达最大迭代次数时,算法停止 200
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

随机森林-分类

随机森林算法,可以用做分类和回归类的训练。

使用示例

表名:random_forest_classifier.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 树的数量 iterations int 树的数量,数量越大,则模型越复杂,学习能力越强,更有可能过拟合,需要更多的计算资源 10
特征使用率 feature_fraction float 特征使用率:寻找最佳分割时要考虑的特征比率 1.0
树的最大深度 max_depth int 树的最大深度,限制每棵树的最大深度,数值大拟合能力强,数值小泛化能力强。设置为0则不限制 30
每叶节点最小样本数 min_samples_per_leaf int 每叶节点最小样本数:每个叶节点最少需要的样本数量,一般值越大,泛化性性越好 200
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
并行作业数 workers int 并行作业数,同时使用多少个进程进行计算,默认是1 1
随机数种子 random_state int 随机数种子,默认是0 0
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

支持向量机-分类

支持向量分类。

使用示例

表名:svc.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定特征输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 C-SVC惩罚系数 C float C-SVC惩罚系数,即对误差的宽容度,C越高,说明越不能容忍出现误差,容易过拟合。C越小,容易欠拟合。C过大或过小,泛化能力变差 1.0
核函数类型 kernel choice 核函数类型 rbf
多项式poly函数的维度 degree int 多项式poly函数的维度,默认是3,选择其他核函数时会被忽略 3
核函数参数gamma gamma float 核函数参数gamma,gamma是选择RBF函数作为kernel后,该函数自带的一个参数。隐含地决定了数据映射到新的特征空间后的分布,gamma越大,支持向量越少,gamma值越小,支持向量越多。支持向量的个数影响训练与预测的速度,-1表示默认值为1/n_features -1
核函数的常数项 coef0 float 核函数的常数项,对于poly和 sigmoid有用 0.0
停止训练的误差值大小 tol float 停止训练的误差值大小,默认为1e-3 0.001
最大迭代次数 max_iter int 最大迭代次数,-1为无限制 -1
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

回归

自适应提升树-回归

adaboost自适应提升树算法,用于回归,此算法基于boosting,根据上次回归的效果确定下次训练每个样本的权值,将修改过权值的新数据集送给下层分类器进行训练,最后将每次训练得到的弱学习器融合,作为最后的回归模型。

使用示例

表名:adaboost_regressor.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 弱学习器个数 n_estimators int 弱学习器个数,弱学习器最大迭代次数,太小容易欠拟合,太大容易过拟合,默认为50 50
学习率 learning_rate float 学习率,该值缩减每个弱学习器的权重,通常较小的系数需要更多的迭代,因此n_estimators和learning_rate要一起调参 1.0
损失函数 loss choice 损失函数,每次增强迭代后更新权重时使用的损失函数,默认为线性 linear
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

Bagging-回归

Bagging有放回随机抽样算法,用于回归,有放回随机抽取小样本,训练弱学习器,通过平均获得最终回归结果。

使用示例

表名:bagging_regressor.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 弱学习器个数 n_estimators int 弱学习器个数,基准估计器个数,默认为10 10
随机子集比重 subsample float 随机子集比重,训练基准估计器使用该随机子集 1.0
特征使用率 feature_fraction float 特征使用率,寻找最佳分割时要考虑的特征比率,float类型,默认考虑所有特征数,即取值1.0 1.0
数据有放回抽样 bootstrap bool 数据有放回抽样,是否有放回采样,默认为True True
特征有放回抽样 bootstrap_features bool 特征有放回抽样,是否对特征有放回采样,默认为False False
采用袋外样本来评估误差 oob_score bool 采用袋外样本来评估误差,是否使用袋外样本估计泛化误差,默认为False,评估结果保存在oob_score_ False
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
并行作业数 workers int 并行作业数,同时使用多少个进程进行计算,默认是1 1
随机数种子 random_state int 随机数种子,默认是0 0
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

决策树-回归

决策树算法,用于回归,回归树遍历所有特征对空间进行划分,直到取到某个特征的某个值使损失函数最小,从而得到划分点。回归结果为子空间内的样本平均数。

表名:decision_tree_regressor.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 决定分割的标准 criterion choice 决定分割的标准,支持均方误差mse,平均绝对误差mae及弗里德曼改进均方误差friedman_mse。默认是mse mse
特征使用率 feature_fraction float 特征使用率:寻找最佳分割时要考虑的特征比率 1
树的最大深度 max_depth int 树的最大深度,限制每棵树的最大深度,数值大拟合能力强,数值小泛化能力强。设置为0则不限制 30
每叶节点最小样本数 min_samples_per_leaf int 每叶节点最小样本数:每个叶节点最少需要的样本数量,一般值越大,泛化性性越好 200
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

极端随机森林-回归

对于随机森林的优化。

表名:extra_trees_regressor.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 决定分割的标准 criterion choice 决定分割的标准,支持均方误差mse和平均绝对误差mae。默认是mse mse
树的数量 iterations int 树的数量,数量越大,则模型越复杂,学习能力越强,更有可能过拟合,需要更多的计算资源 10
特征使用率 feature_fraction float 特征使用率:寻找最佳分割时要考虑的特征比率 1
树的最大深度 max_depth int 树的最大深度,限制每棵树的最大深度,数值大拟合能力强,数值小泛化能力强。设置为0则不限制 30
每叶节点最小样本数 min_samples_per_leaf int 每叶节点最小样本数:每个叶节点最少需要的样本数量,一般值越大,泛化性性越好 200
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
并行作业数 workers int 并行作业数,同时使用多少个进程进行计算,默认是1 1
随机数种子 random_state int 随机数种子,默认是0 0
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

梯度提升树-回归

梯度提升树-回归。

表名:gradient_boosting_regressor.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 损失函数 loss choice 损失函数,对于分类模型,有对数似然损失函数deviance和指数损失函数exponential ls
学习率 learning_rate float 学习率,这个参数决定着每一个决策树对于最终结果的影响。GBM设定了初始的权重值之后,每一次树分类都会更新这个值,较小的值使得模型对不同的树更加稳健 0.1
树的数量 iterations int 树的数量,数量越大,则模型越复杂,学习能力越强,更有可能过拟合,需要更多的计算资源 10
训练每个决策树所用到的子样本占总样本的比例 subsample float 训练每个决策树所用到的子样本占总样本的比例,稍小于1的值能够使模型更稳健,因为这样减少了方差 1.0
叶子节点最小样本数 min_samples_per_leaf int 叶子节点最小样本数,int类型 1
树的最大深度 max_depth int 树的最大深度,限制每棵树的最大深度,数值大拟合能力强,数值小泛化能力强 3
特征使用率 feature_fraction float 特征使用率,寻找最佳分割时要考虑的特征比率,float类型,默认考虑所有特征数,即取值1.0 1.0
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

k近邻-回归

用于回归

表名:kneighbors_regressor.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 近邻数 n_neighbors int 近邻数,int类型,可选参数,默认值为5 5
K近邻权重类型 weights choice K近邻权重类型,用于预测。默认值为uniform uniform
计算分类使用的算法 algorithm choice 计算分类使用的算法,可选参数,ball_tree为算法BallTree,kd_tree为KDTree,brute使用暴力搜索,auto基于传入内容使用合适算法。默认值为auto auto
BallTree或者KDTree算法的叶子数量 leaf_size int BallTree或者KDTree算法的叶子数量,int类型,可选参数,此参数会影响构建、查询BallTree或者KDTree的速度,以及存储BallTree或KDTree所需要的内存大小。默认值30 30
距离度量 metric choice 距离度量,默认为minkowski,也称欧式距离 minkowski
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
并行作业数 workers int 并行作业数,同时使用多少个进程进行计算,默认是1 1
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

线性-回归

线性回归模型。

表名:linear_regression.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要特征指定输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 是否计算该模型的截距 fit_intercept bool 是否计算该模型的截距 True
回归X是否被规范化 normalize bool 回归X是否被规范化,如果为True,回归X被规范化 False
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
并行作业数 workers int 并行作业数,同时使用多少个进程进行计算,默认是1 1
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

线性随机梯度下降-回归

线性随机梯度下降算法,用于回归。

表名:linear_sgd_regressor.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要特征指定输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 损失函数 loss choice 损失函数 huber
正则类型 penalty choice 正则类型 l2
L2 惩罚项(正则项) 参数 alpha float L2 惩罚项(正则项) 参数 0.0001
最大迭代次数 max_iter int 最大迭代次数 5
是否先随机打乱 shuffle bool 是否先随机打乱 True
初始学习率 eta0 float 初始学习率 0.1
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

多层感知器-回归

用于回归的机器学习算法。多层感知器(Multilayer Perceptron,缩写MLP)是一种前向结构的人工神经网络,映射一组输入向量到一组输出向量。可用于线性不可分数据。

表名:mlp_regressor.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要特征指定输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 输入该隐藏层的神经元个数 hidden_layer_sizes str 输入该隐藏层的神经元个数,用英文逗号(,)分隔的整数元组,例如 100,100,表示有两层隐藏层,第一层隐藏层有100个神经元,第二层也有100个神经元 100
隐藏层的激活函数类型 activation choice 隐藏层的激活函数类型 relu
优化器 solver choice 优化器,用于优化权重,默认为adam adam
L2 惩罚项(正则项) 参数 alpha float L2 惩罚项(正则项) 参数 0.0001
随机优化算法的批量大小 batch_size int 随机优化算法的批量大小,如果优化器是 ‘lbfgs’, 将不会生效 200
学习率的初始默认值 learning_rate_init float 学习率的初始默认值,当且仅当优化策略是SGD或者ADAM时,才有意义。本参数控制着更新权重时的步长 0.001
最大可迭代次数 max_iter int 最大可迭代次数,优化器直至收敛(视最小容忍度而定)或者到达最大迭代次数时,算法停止 200
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果, 如果predict_ds为None, predictions也为None

随机森林-回归

随机森林算法,可以用做分类和回归类的训练。

表名:random_forest_regressor.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 树的数量 iterations int 树的数量,数量越大,则模型越复杂,学习能力越强,更有可能过拟合,需要更多的计算资源 10
特征使用率 feature_fraction float 特征使用率:寻找最佳分割时要考虑的特征比率 1
树的最大深度 max_depth int 树的最大深度,限制每棵树的最大深度,数值大拟合能力强,数值小泛化能力强。设置为0则不限制 30
每叶节点最小样本数 min_samples_per_leaf int 每叶节点最小样本数:每个叶节点最少需要的样本数量,一般值越大,泛化性性越好 200
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
并行作业数 workers int 并行作业数,同时使用多少个进程进行计算,默认是1 1
随机数种子 random_state int 随机数种子,默认是0 0
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

支持向量机-回归

支持向量回归。

表名:svr.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 惩罚参数 C float 惩罚参数,默认值1.0 1.0
核函数 kernel choice 核函数 rbf
多项式poly函数的维度 degree int 多项式poly函数的维度,int类型,默认是3,使用其他核函数时会被忽略 3
核函数系数 gamma float 核函数系数,rbf/poly/sigmoid的系数,float类型,默认为1/n_features -1
核函数的常数项 coef0 float 核函数的常数项,float类型,对于poly和sigmoid有用 0.0
停止训练的误差值大小 tol float 停止训练的误差值大小,float类型 0.001
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

排序

StockRanker

StockRanker训练和预测,该模块将训练和预测整合到一起,返回模型和预测结果。

表名:stock_ranker.v2

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练-数据(如果传入则需要指定模型输入) training_ds 通用 训练-数据(如果传入则需要指定模型输入) None
训练-特征 features 通用 训练-特征 None
训练-基础模型(可以在此模型上做继续训练(continue train)) base_model 通用 训练-基础模型(可以在此模型上做继续训练(continue train)) None
训练-测试数据集 test_ds 通用 训练-测试数据集,可用于在训练阶段查看训练效果,来做模型参数和特征等的调优;通过配置early stop参数可以让训练提前终止 None
预测-模型 input_model 通用 预测-模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测-数据 predict_ds 通用 预测-数据,如果不设置,则不做预测 None
输入参数 学习算法 learning_algorithm choice 学习算法,机器学习优化算法 排序
叶节点数量 number_of_leaves int 叶节点数量:每棵树最大叶节点数量。一般情况下,叶子节点越多,则模型越复杂,表达能力越强,过拟合的可能性也越高 30
每叶节点最小样本数 minimum_docs_per_leaf int 每叶节点最小样本数:每个叶节点最少需要的样本数量,一般值越大,泛化性性越好 1000
树的数量 number_of_trees int 树的数量,一般情况下,树越多,则模型越复杂,表达能力越强,过拟合的可能性也越高 20
学习率 learning_rate float 学习率,学习率如果太大,可能会使结果越过最优值,如果太小学习会很慢 0.1
特征值离散化数量 max_bins int 特征值离散化数量:一般情况下,max_bins越大,则学的越细,过拟合的可能性也越高 1023
特征列采样率 feature_fraction float 特征列采样率:在构建每一颗树时,每个特征被使用的概率,如果为1,则每棵树都会使用所有特征列 1
数据行采样率 data_row_fraction float 数据行采样率:在构建每一颗树时,每个样本数据被使用的概率,如果为1,则每棵树都会使用所有数据行 1
NDCG discount base ndcg_discount_base float NDCG discount base:用于计算NDCG的 discount = log2(base + position),其中position从1开始。base越大,位置的影响越小 1
压缩数据列 slim_data bool 压缩数据列,移除不需要使用的列。一般设置为True True
滚动运行参数 rolling_input doc 滚动运行参数,接收来自滚动运行的输入,用于训练数据过滤 None
输出端 训练出来的模型 model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

StockRanker模型组合

表名:stock_ranker_combine.v2

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 基础模型 base_model_id 通用 基础模型 *必填
继续训练的模型 combine_model_id 通用 继续训练的模型 *必填
输入参数 条件表达式 combine_condition str 条件表达式 *必填
输出端 模型 model_id 通用 模型

StockRanker预测

表名:stock_ranker_predict.v5

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 模型 model 通用 模型 *必填
数据 data 通用 数据 *必填
输出端 预测结果 predictions 通用 预测结果
延迟运行 m_lazy_run 通用 延迟运行,将当前模块打包,可以作为其他模块的输入,在其他模块里运行。启用需要勾选模块的 延迟运行 参数。

StockRanker预测(GBDT)

表名:stock_ranker_predict_gbdt.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 模型 model 通用 模型 *必填
数据 data 通用 数据 *必填
输出端 预测结果 predictions 通用 预测结果
延迟运行 m_lazy_run 通用 延迟运行,将当前模块打包,可以作为其他模块的输入,在其他模块里运行。启用需要勾选模块的 延迟运行 参数。

StockRanker训练

表名:stock_ranker_train.v6

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,需要包含所有用到的特征数据,包括基础特征和衍生特征 *必填
特征列表 features 通用 特征列表 *必填
评估测试数据集 test_ds 通用 评估测试数据集,可用于在训练阶段查看训练效果,来做模型参数和特征等的调优;通过配置early stop参数可以让训练提前终止 None
基础模型 base_model 通用 基础模型,可以在此模型上继续训练 None
输入参数 学习算法 learning_algorithm choice 学习算法,机器学习优化算法 排序
叶节点数量 number_of_leaves int 叶节点数量:每棵树最大叶节点数量。一般情况下,叶子节点越多,则模型越复杂,表达能力越强,过拟合的可能性也越高 30
每叶节点最小样本数 minimum_docs_per_leaf int 每叶节点最小样本数:每个叶节点最少需要的样本数量,一般值越大,泛化性性越好 1000
树的数量 number_of_trees int 树的数量:一般情况下,树越多,则模型越复杂,表达能力越强,过拟合的可能性也越高 20
学习率 learning_rate float 学习率:学习率如果太大,可能会使结果越过最优值,如果太小学习会很慢 0.1
特征值离散化数量 max_bins int 特征值离散化数量:一般情况下,max_bins越大,则学的越细,过拟合的可能性也越高 1023
特征列采样率 feature_fraction float 特征列采样率:在构建每一颗树时,每个特征被使用的概率,如果为1,则每棵树都会使用所有特征列 1
数据行采样率 data_row_fraction float 数据行采样率:在构建每一颗树时,每个样本数据被使用的概率,如果为1,则每棵树都会使用所有数据行 1
NDCG discount base ndcg_discount_base float NDCG discount base:用于计算NDCG的 discount = log2(base + position),其中position从1开始。base越大,位置的影响越小 1
滚动运行参数 rolling_input doc 滚动运行参数,接收来自滚动运行的输入,用于训练数据过滤 None
输出端 模型 model 通用 模型
特征贡献 feature_gains 通用 特征贡献
延迟运行 m_lazy_run 通用 延迟运行,将当前模块打包,可以作为其他模块的输入,在其他模块里运行。启用需要勾选模块的 延迟运行 参数。

StockRanker训练(GBDT)

表名:stock_ranker_train_gbdt.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,需要包含所有用到的特征数据,包括基础特征和衍生特征 *必填
特征列表 features 通用 特征列表 *必填
输入参数 学习算法 learning_algorithm choice 学习算法,机器学习优化算法 排序
叶节点数量 number_of_leaves int 叶节点数量:每棵树最大叶节点数量。一般情况下,叶子节点越多,则模型越复杂,表达能力越强,过拟合的可能性也越高 30
每叶节点最小样本数 minimum_docs_per_leaf int 每叶节点最小样本数:每个叶节点最少需要的样本数量,一般值越大,泛化性性越好 30
树的数量 number_of_trees int 树的数量:一般情况下,树越多,则模型越复杂,表达能力越强,过拟合的可能性也越高 100
学习率 learning_rate float 学习率:学习率如果太大,可能会使结果越过最优值,如果太小学习会很慢 0.1
特征值离散化数量 max_bins int 特征值离散化数量:一般情况下,max_bins越大,则学的越细,过拟合的可能性也越高 256
滚动运行参数 rolling_input doc 滚动运行参数,接收来自滚动运行的输入,用于训练数据过滤 None
输出端 模型 model 通用 模型
特征贡献 feature_gains 通用 特征贡献
延迟运行 m_lazy_run 通用 延迟运行,将当前模块打包,可以作为其他模块的输入,在其他模块里运行。启用需要勾选模块的 延迟运行 参数。

聚类

近邻传播-聚类

近邻传播算法,用于聚类,此算法为半监督,首先通过消息传递机制来搜索网络中各个数据点的聚类中心以及数据点与数据中心之间的隶属关系,然后根据数据中心和顶点之间的隶属关系来对待聚类数据集进行划分,形成若干个具有特定意义的子集。

表名:cluster_affinity_propagation.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 阻尼系数 damping float 阻尼系数,取值在0.5到1之间,减少算法迭代产生震荡 0.5
最大迭代次数 iterations int 最大迭代次数,默认为200 200
算法收敛迭代次数 convergence_iter int 算法收敛迭代次数,直到分类数没有变化时算法的迭代次数,默认为15 15
复制输入数据 copy bool 复制输入数据,是否复制输入数据,默认为True True
距离度量方法 affinity choice 距离度量方法,距离度量,目前支持precomputed和euclidean euclidean
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
训练数据集 transform_trainds 通用 训练数据集,聚类训练结果为列label
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

层次-聚类

层次算法,用于聚类,通过计算不同类别的相似度类创建一个有层次的嵌套的树。在聚类树中,先找出和每个点最近似的点两两聚类,然后反复迭代这一过程,直到聚类完成。

表名:cluster_agglomerative.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 分类簇数量 n_clusters int 分类簇数量,默认为2 2
距离度量方法 affinity choice 距离度量方法,度量的方法,包括cosine,manhattan,euclidean等 euclidean
连接算法 linkage choice 连接算法,如果使用ward,则距离度量只能使用euclidean ward
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
训练数据集 transform_trainds 通用 训练数据集,聚类训练结果为列label
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

Birch-聚类

Birch算法,用于聚类,作为一种层次聚类算法,BIRCH只需要单遍扫描数据集就能进行聚类。

其他参数:n_clusters:分类簇的数量,在类别数特别多,没有先验知识的情况下,n_clusters可用None,即直接读取叶子结点中的子聚类。默认为3

表名:cluster_birch.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 输出时表示类别 compute_labels bool 输出时表示类别,是否标示类别输出,默认为True True
簇半径阈值 threshold float 簇半径阈值,限制新加入的样本和存在与现有子集群中样本的最大距离,默认为0.5 0.5
分支因子 branching_factor int 分支因子,限制一个节点中的子集群的数量,默认是50 50
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
训练数据集 transform_trainds 通用 训练数据集,聚类训练结果为列label
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

DBSCAN-聚类

DBSCAN算法,用于聚类,

表名:cluster_dbscan.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 邻域的距离阈值 eps float 邻域的距离阈值,两样本间最大距离 0.5
最小样本数 min_samples int 最小样本数,核心点邻域中最小样本数,包括点本身 5
k-means算法调节 algorithm choice k-means算法调节,支持蛮力实现、KD树实现、球树实现,默认为自动选取最优 auto
关键列的数据会复制到预测结果里 key_cols str 关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
并行作业数 workers int 并行作业数,同时使用多少个进程进行计算,默认是1 1
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
训练数据集 transform_trainds 通用 训练数据集,聚类训练结果为列label
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

K均值-聚类 (cluster_kmeans.v1)

K-means算法,用于聚类,先随机初始化各自的中心点,然后计算每个数据点到中心点的距离,将数据点划分到最近的中心点类别。然后用每一类的中心点作为新的中心点,重复迭代,直到迭代后变化不大为止。

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 簇的个数 n_clusters int 簇的个数,聚类中心数量,默认为8 8
质心初始化方法 init choice 质心初始化方法,默认为k-means++ k-means++
质心初始化次数 n_init int 质心初始化次数,初始化质心的次数,默认为10 10
最大迭代次数 iterations int 最大迭代次数,迭代得到最终质心的次数 300
K-Means算法 algorithm choice K-Means算法,auto选择elkan表示密集数据,full表示稀疏数据 auto
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
并行作业数 workers int 并行作业数,同时使用多少个进程进行计算,默认是1 1
随机数种子 random_state int 随机数种子,默认是0 0
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
训练数据集 transform_trainds 通用 训练数据集,聚类训练结果为列label
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

谱-聚类

用于聚类,将图论应用于聚类。把所有的数据看做空间中的点,这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。

表名:cluster_spectral.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要指定模型输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 分类簇的数量 n_clusters int 分类簇的数量,切图时降到的维数 3
相似矩阵的建立方式 affinity choice 相似矩阵的建立方式,为nearest_neighbors时忽略参数gamma,默认为rbf rbf
近邻个数 n_neighbors int 近邻个数,KNN算法的K的个数,默认是10,affinity为nearest_neighbors忽略此参数 10
特征值分解策略 eigen_solver choice 特征值分解策略,amg存在稳定性问题,平台暂不支持 None
停止拉普拉斯矩阵特征分解条件 eigen_tol float 停止拉普拉斯矩阵特征分解条件,当eigen_solver为eigen_solver时生效 0.0
K-Means聚类的运行次数 n_init int K-Means聚类的运行次数,最终结果是连续运行后的最佳输出 10
核系数 gamma float 核系数,rbf,poly,sigmoid,laplacian和chi2的核系数 1.0
聚类方法 assign_labels choice 聚类方法,常用kmeans,但对质心初始化较敏感,discretize则不敏感 kmeans
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
并行作业数 workers int 并行作业数,同时使用多少个进程进行计算,默认是1 1
随机数种子 random_state int 随机数种子,默认是0 0
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
训练数据集 transform_trainds 通用 训练数据集,聚类训练结果为列label
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

特征预处理

主成分分析降维

主成分分析,主要功能为降维,是数据预处理的一个步骤。通过主成分分析对于原特征进行线性组合,得到影响力最大的新特征并输出。

表名:decomposition_pca.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要特征指定输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 主成分特征个数 n_components int 主成分特征个数,希望PCA降维后的特征维度数目 1
白化 whiten bool 白化,使得每个特征具有相同的方差 False
其他训练参数 other_train_parameters code 其他训练参数,字典格式,例:{'criterion': 'mse'} [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
降维后的特征 pca_features 通用 降维后的特征
降维后训练集 transform_trainds 通用 降维后训练集,降维特征通过属性pca_features查看
降维后预测集 transform_predictds 通用 降维后预测集,降维特征通过属性pca_features查看

最大绝对值归一化

最大绝对值归一化。

表名:preprocessing_max_abs_scaler.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要特征指定输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输出端 训练出来的模型 output_model 通用 训练出来的模型
转换后训练集 transform_trainds 通用 转换后训练集
转换后预测集 transform_predictds 通用 转换后预测集

特征缩放

将特征值缩放到一定范围内。

表名:preprocessing_min_max_scaler.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要特征指定输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 特征缩放下限 feature_range_low int 特征缩放下限,将特征缩放到执行范围之间 0
特征缩放上限 feature_range_high int 特征缩放上限,将特征缩放到执行范围之间 1
输出端 训练出来的模型 output_model 通用 训练出来的模型
转换后训练集 transform_trainds 通用 转换后训练集
转换后预测集 transform_predictds 通用 转换后预测集

标准化

标准化处理。

表名:preprocessing_normalizer.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要特征指定输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 标准化方法 norm choice 标准化方法 l2
输出端 训练出来的模型 output_model 通用 训练出来的模型
标准化训练集 transform_trainds 通用 标准化训练集
标准化预测集 transform_predictds 通用 标准化预测集

序数编码

序数编码。

表名:preprocessing_ordinal_encoder.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要特征指定输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输出端 训练出来的模型 output_model 通用 训练出来的模型
转换后训练集 transform_trainds 通用 转换后训练集
转换后预测集 transform_predictds 通用 转换后预测集

RobustScaler标准化

RobustScaler 针对离群点做标准化处理。

表名:preprocessing_robust_scaler.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要特征指定输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 中心化 with_centering bool 中心化 True
数据是否按分位数缩放 with_scaling bool 数据是否按分位数缩放 True
缩放分位数下限 quantile_range_min float 缩放分位数下限,介于0.0到100.0之间 25.0
缩放分位数上限 quantile_range_max float 缩放分位数上限,介于0.0到100.0之间 75.0
输出端 训练出来的模型 output_model 通用 训练出来的模型
转换后训练集 transform_trainds 通用 转换后训练集
转换后预测集 transform_predictds 通用 转换后预测集

StandardScaler标准化

标准化处理,使得数据平均值是0并且有相同阶数的方差。

表名:preprocessing_standard_scaler.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据,如果传入,则需要特征指定输入 None
特征 features 通用 特征,用于训练 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 中心化 with_mean bool 中心化 True
缩放到单位标准差 with_std bool 缩放到单位标准差 True
输出端 训练出来的模型 output_model 通用 训练出来的模型
转换后训练集 transform_trainds 通用 转换后训练集
转换后预测集 transform_predictds 通用 转换后预测集

其他

GBDT预测

表名:GBDT_predict.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 模型 model 通用 模型,参考 :doc:随机森林模型 M.random_forest_train<module_random_forest_train> *必填
待预测数据集 data 通用 待预测数据集 *必填
输入参数 日期列名 date_col str 日期列名,如果在表达式中用到切面相关函数时,比如 rank,会用到此列名 date
证券代码列名 instrument_col str 证券代码列名,如果在表达式中用到时间序列相关函数时,比如 shift,会用到此列名 instrument
是否对结果排序 sort bool 是否对结果排序 True
输出端 预测结果 predictions 通用 预测结果

GBDT训练

表名:GBDT_train.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据 *必填
因子/特征 features 通用 因子/特征,支持基础特征和衍生特征 *必填
验证数据 test_ds 通用 验证数据 None
输入参数 迭代次数 num_boost_round int 迭代次数 120
提前停止检测次数 early_stopping_rounds int 提前停止检测次数,停止训练的的检测次数 None
损失函数类型 objective choice 损失函数类型 reg:linear
类别个数 num_class int 类别个数,如果使用multi:softprob需要设置 None
评价指标 eval_metric choice 评价指标 error
模型 booster choice 模型 gbtree
学习率 eta float 学习率 0.1
最小节点分裂损失值 gamma float 最小节点分裂损失值 0.0001
L2正则 _lambda float L2正则 0
L2正则偏置 lambda_bias float L2正则偏置 0
L1正则 alpha float L1正则 0
树的最大深度 max_depth int 树的最大深度 6
树最多叶子个数 max_leaf_nodes int 树最多叶子个数 30
随机采样比例 subsample float 随机采样比例 0.8
参数字典 xgb_param code 参数字典 [默认代码](javascript:void(0);)
输出端 训练出来的模型 model 通用 训练出来的模型

LightGBM

LightGBM模块,可以用做排序、分类和回归类的训练。

表名:lightgbm.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据 None
因子/特征 features 通用 因子/特征,支持基础特征和衍生特征 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 迭代次数 num_boost_round int 迭代次数 30
损失函数类型 objective choice 损失函数类型 排序(ndcg)
树最大叶子个数 num_leaves int 树最大叶子个数 30
学习率 learning_rate float 学习率 0.1
每个叶子最少样本数 min_data_in_leaf int 每个叶子最少样本数 200
特征值离散化数量 max_bin int 特征值离散化数量 255
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
群组标识列 group_col str 群组标识列,排序类任务,只有group_col相同的才需要排序, 默认不需要改 date
参数字典 other_train_parameters code 参数字典 [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None
特征贡献 feature_gains 通用 特征贡献

线性模型预测(SGD)

表名:linear_sgd_predict.v2

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 模型 model 通用 模型,参考 :doc:线性随机梯度下降模型 M.linear_sgd_train<module_linear_sgd_train> *必填
待预测数据集 data 通用 待预测数据集 *必填
输出端 预测结果 predictions 通用 预测结果

线性模型训练(SGD)

表名:linear_sgd_train.v2

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据 *必填
因子/特征 features 通用 因子/特征,支持基础特征和衍生特征 *必填
训练时用的测试集 test_ds 通用 训练时用的测试集,可以根据此数据集上的预测效果,来做模型参数和特征等的调整 None
输入参数 损失函数类型 loss choice 损失函数类型 auto
正则类型 penalty choice 正则类型 l2
正则损失函数的系数 alpha float 正则损失函数的系数 0.0001
训练迭代次数 n_iter int 训练迭代次数 5
训练时 shuffle bool 训练时,是否先随机打乱 True
初始学习率 eta0 float 初始学习率 0.1
算法类型 algo choice 算法类型,classifier是分类算法,regressor是回归算法 classifier
输出端 训练出来的模型 model 通用 训练出来的模型

随机森林预测

表名:random_forest_predict.v2

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 模型 model 通用 模型,参考 :doc:随机森林模型 M.random_forest_train<module_random_forest_train> *必填
待预测数据集 data 通用 待预测数据集 *必填
输入参数 日期列名 date_col str 日期列名,如果在表达式中用到切面相关函数时,比如 rank,会用到此列名 date
证券代码列名 instrument_col str 证券代码列名,如果在表达式中用到时间序列相关函数时,比如 shift,会用到此列名 instrument
是否对结果排序 sort bool 是否对结果排序 True
输出端 预测结果 predictions 通用 预测结果

随机森林训练

表名:random_forest_train.v2

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据 *必填
因子/特征 features 通用 因子/特征,支持基础特征和衍生特征 *必填
训练时用的测试集 test_ds 通用 训练时用的测试集,可以根据此数据集上的预测效果,来做模型参数和特征等的调整。为None,表示不使用测试集 None
输入参数 树的个数 n_estimators int 树的个数,个数越多,则模型越复杂,计算速度越慢 10
最多考虑特征个数 max_features str 最多考虑特征个数,新建节点时,最多考虑的特征个数。默认为auto,一般不需要更改 auto
数据的最大深度 max_depth int 数据的最大深度,限制每棵树的最大深度,数值大拟合能力强,数值小泛化能力强。设置为None则不限制 30
每个叶子节点最少样本数 min_samples_leaf int 每个叶子节点最少样本数,数值大泛化能力强,数值小拟合能力强 200
并行度 n_jobs int 并行度,同时使用多少个进程进行计算 1
随机数种子 random_state int 随机数种子,默认是0 0
算法类型 algo choice 算法类型,classifier是分类算法,regressor是回归算法 regressor
输出端 训练出来的模型 model 通用 训练出来的模型

XGBoost

xgboost模块,可以用做排序、分类和回归类的训练。

表名:xgboost.v1

使用示例

类别 显示名称 名称 类型 描述 必填/默认
输入端 训练数据 training_ds 通用 训练数据 None
因子/特征 features 通用 因子/特征,支持基础特征和衍生特征 None
模型 model 通用 模型,用于预测,如果不指定训练数据,则使用此模型预测 None
预测数据 predict_ds 通用 预测数据,如果不设置,则不做预测 None
输入参数 迭代次数 num_boost_round int 迭代次数 30
损失函数类型 objective choice 损失函数类型 排序(pairwise)
模型 booster choice 模型 gbtree
树的最大深度 max_depth int 树的最大深度 6
关键列 key_cols str 关键列,关键列的数据会复制到预测结果里,多个列用英文逗号分隔 date,instrument
群组标识列 group_col str 群组标识列,排序类任务,只有group_col相同的才需要排序, 默认不需要改 date
并行线程数 nthread int 并行线程数,默认为1 1
gpu个数 n_gpus int gpu个数,本模块使用的gpu个数,-1表示自动,0表示不用GPU,1表示使用1个GPU -1
参数字典 other_train_parameters code 参数字典 [默认代码](javascript:void(0);)
输出端 训练出来的模型 output_model 通用 训练出来的模型
预测结果 predictions 通用 预测结果,如果predict_ds为None,predictions也为None

\

{link}