【历史文档】算子-机器学习

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	弱学习器个数	n_estimators	int	弱学习器个数，弱学习器最大迭代次数，太小容易欠拟合，太大容易过拟合，默认为50	50
分类算法	algorithm	choice	分类算法，SAMME.R使用了对样本集分类的预测概率大小来作为弱学习器权重，迭代一般比SAMME快	SAMME.R
学习率	learning_rate	float	学习率，该值缩减每个弱学习器的权重，通常较小的系数需要更多的迭代，因此n_estimators和learning_rate要一起调参	1.0
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列名用英文逗号分隔	date,instrument
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

Bagging-分类

Bagging有放回随机抽样算法，用于分类，有放回随机抽取小样本，训练弱学习器，采取多数投票机制获得最终分类结果。

表名：bagging_classifier.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	弱学习器个数	n_estimators	int	弱学习器个数，基准估计器个数，默认为10	10
随机子集比重	subsample	float	随机子集比重，训练基准估计器使用该随机子集	1.0
特征使用率	feature_fraction	float	特征使用率，寻找最佳分割时要考虑的特征比率，float类型，默认考虑所有特征数，即取值1.0	1.0
数据有放回抽样	bootstrap	bool	数据有放回抽样，是否有放回采样，默认为True	True
特征有放回抽样	bootstrap_features	bool	特征有放回抽样，是否对特征有放回采样，默认为False	False
采用袋外样本来评估误差	oob_score	bool	采用袋外样本来评估误差，是否使用袋外样本估计泛化误差，默认为False，评估结果保存在oob_score_	False
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
并行作业数	workers	int	并行作业数，同时使用多少个进程进行计算，默认是1	1
随机数种子	random_state	int	随机数种子，默认是0	0
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

决策树-分类

决策树算法，用于分类，决策树从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

表名：decision_tree_classifier.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	决定分割的标准	criterion	choice	决定分割的标准，支持基尼不纯度gini和熵不纯度entropy，默认是gini	gini
特征使用率	feature_fraction	float	特征使用率，寻找最佳分割时要考虑的特征比率	1
树的最大深度	max_depth	int	树的最大深度，限制每棵树的最大深度，数值大拟合能力强，数值小泛化能力强。设置为0则不限制	30
每叶节点最小样本数	min_samples_per_leaf	int	每叶节点最小样本数，每个叶节点最少需要的样本数量，一般值越大，泛化性性越好	200
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

极端随机森林-分类

对于随机森林的优化。

表名：extra_trees_classifier.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	决定分割的标准	criterion	choice	决定分割的标准，支持基尼不纯度gini和熵不纯度entropy，默认是gini	gini
树的数量	iterations	int	树的数量，数量越大，则模型越复杂，学习能力越强，更有可能过拟合，需要更多的计算资源	10
特征使用率	feature_fraction	float	特征使用率：寻找最佳分割时要考虑的特征比率	1
树的最大深度	max_depth	int	树的最大深度，限制每棵树的最大深度，数值大拟合能力强，数值小泛化能力强。设置为0则不限制	30
每叶节点最小样本数	min_samples_per_leaf	int	每叶节点最小样本数：每个叶节点最少需要的样本数量，一般值越大，泛化性性越好	200
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
并行作业数	workers	int	并行作业数，同时使用多少个进程进行计算，默认是1	1
随机数种子	random_state	int	随机数种子，默认是0	0
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

梯度提升树-分类

梯度提升树-分类。

表名： gradient_boosting_classifier.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定特征输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	损失函数	loss	choice	损失函数，对于分类模型，有对数似然损失函数deviance和指数损失函数exponential	deviance
学习率	learning_rate	float	学习率，这个参数决定着每一个决策树对于最终结果的影响。GBM设定了初始的权重值之后，每一次树分类都会更新这个值，较小的值使得模型对不同的树更加稳健	0.1
树的数量	iterations	int	树的数量，数量越大，则模型越复杂，学习能力越强，更有可能过拟合，需要更多的计算资源	10
训练每个决策树所用到的子样本占总样本的比例	subsample	float	训练每个决策树所用到的子样本占总样本的比例，稍小于1的值能够使模型更稳健，因为这样减少了方差	1.0
树中终点节点所需要的最少的样本数	min_samples_per_leaf	int	树中终点节点所需要的最少的样本数，也可以用来防止过度拟合	1
树的最大深度	max_depth	int	树的最大深度，限制每棵树的最大深度，数值大拟合能力强，数值小泛化能力强	3
特征使用率	feature_fraction	float	特征使用率，寻找最佳分割时要考虑的特征比率，float类型，默认考虑所有特征数，即取值1.0	1.0
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

k近邻-分类

用于分类

表名：kneighbors_classifier.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	近邻数	n_neighbors	int	近邻数，int类型，可选参数，默认值为5	5
K近邻权重类型	weights	choice	K近邻权重类型，用于预测。默认值为uniform	uniform
计算分类使用的算法	algorithm	choice	计算分类使用的算法，可选参数，ball_tree为算法BallTree，kd_tree为KDTree，brute使用暴力搜索，auto基于传入内容使用合适算法。默认值为auto	auto
BallTree或者KDTree算法的叶子数量	leaf_size	int	BallTree或者KDTree算法的叶子数量，int类型，可选参数，此参数会影响构建、查询BallTree或者KDTree的速度，以及存储BallTree或KDTree所需要的内存大小。默认值30	30
距离度量	metric	choice	距离度量，默认为minkowski，也称欧式距离	minkowski
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
并行作业数	workers	int	并行作业数，同时使用多少个进程进行计算，默认是1	1
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

线性随机梯度下降-分类

线性随机梯度下降算法，用于分类。

表名：linear_sgd_classifier.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要特征指定输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	损失函数	loss	choice	损失函数	log
正则类型	penalty	choice	正则类型	l2
L2 惩罚项(正则项) 参数	alpha	float	L2 惩罚项(正则项) 参数	0.0001
最大迭代次数	max_iter	int	最大迭代次数	5
是否先随机打乱	shuffle	bool	是否先随机打乱	True
初始学习率	eta0	float	初始学习率	0.1
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

线性-分类

逻辑斯蒂回归。

表名：logistic_regression.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	指定惩罚项中使用的规范	penalty	choice	指定惩罚项中使用的规范	l2
对偶或原始方法	dual	bool	对偶或原始方法，bool类型，默认为False。对偶方法只用在求解线性多核(liblinear)的L2惩罚项上。当样本数量>样本特征的时候，dual通常设置为False	False
是否存在截距或偏差	fit_intercept	bool	是否存在截距或偏差，默认为True	True
停止求解的标准	tol	float	停止求解的标准	0.0001
正则化系数λ的倒数	C	float	正则化系数λ的倒数	1.0
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
并行作业数	workers	int	并行作业数，同时使用多少个进程进行计算，默认是1	1
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

多层感知器-分类

用于分类的机器学习算法。多层感知器（Multilayer Perceptron,缩写MLP）是一种前向结构的人工神经网络，映射一组输入向量到一组输出向量。可用于线性不可分数据。

表名：mlp_classifier.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要特征指定输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	输入该隐藏层的神经元个数	hidden_layer_sizes	str	输入该隐藏层的神经元个数，用英文逗号(,)分隔的整数元组，例如 100,100，表示有两层隐藏层，第一层隐藏层有100个神经元，第二层也有100个神经元	100
隐藏层的激活函数类型	activation	choice	隐藏层的激活函数类型	relu
优化器	solver	choice	优化器，用于优化权重，默认为adam	adam
L2 惩罚项(正则项) 参数	alpha	float	L2 惩罚项(正则项) 参数	0.0001
随机优化算法的批量大小	batch_size	int	随机优化算法的批量大小，如果优化器是 ‘lbfgs’, 将不会生效	200
学习率的初始默认值	learning_rate_init	float	学习率的初始默认值，当且仅当优化策略是SGD或者ADAM时，才有意义。本参数控制着更新权重时的步长	0.001
最大可迭代次数	max_iter	int	最大可迭代次数，优化器直至收敛（视最小容忍度而定）或者到达最大迭代次数时，算法停止	200
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

随机森林-分类

随机森林算法，可以用做分类和回归类的训练。

表名：random_forest_classifier.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	树的数量	iterations	int	树的数量，数量越大，则模型越复杂，学习能力越强，更有可能过拟合，需要更多的计算资源	10
特征使用率	feature_fraction	float	特征使用率：寻找最佳分割时要考虑的特征比率	1.0
树的最大深度	max_depth	int	树的最大深度，限制每棵树的最大深度，数值大拟合能力强，数值小泛化能力强。设置为0则不限制	30
每叶节点最小样本数	min_samples_per_leaf	int	每叶节点最小样本数：每个叶节点最少需要的样本数量，一般值越大，泛化性性越好	200
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
并行作业数	workers	int	并行作业数，同时使用多少个进程进行计算，默认是1	1
随机数种子	random_state	int	随机数种子，默认是0	0
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

支持向量机-分类

支持向量分类。

表名：svc.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定特征输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	C-SVC惩罚系数	C	float	C-SVC惩罚系数，即对误差的宽容度,C越高，说明越不能容忍出现误差,容易过拟合。C越小，容易欠拟合。C过大或过小，泛化能力变差	1.0
核函数类型	kernel	choice	核函数类型	rbf
多项式poly函数的维度	degree	int	多项式poly函数的维度，默认是3，选择其他核函数时会被忽略	3
核函数参数gamma	gamma	float	核函数参数gamma，gamma是选择RBF函数作为kernel后，该函数自带的一个参数。隐含地决定了数据映射到新的特征空间后的分布，gamma越大，支持向量越少，gamma值越小，支持向量越多。支持向量的个数影响训练与预测的速度，-1表示默认值为1/n_features	-1
核函数的常数项	coef0	float	核函数的常数项，对于poly和 sigmoid有用	0.0
停止训练的误差值大小	tol	float	停止训练的误差值大小，默认为1e-3	0.001
最大迭代次数	max_iter	int	最大迭代次数，-1为无限制	-1
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

回归

自适应提升树-回归

adaboost自适应提升树算法，用于回归，此算法基于boosting，根据上次回归的效果确定下次训练每个样本的权值，将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的弱学习器融合，作为最后的回归模型。

表名：adaboost_regressor.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	弱学习器个数	n_estimators	int	弱学习器个数，弱学习器最大迭代次数，太小容易欠拟合，太大容易过拟合，默认为50	50
学习率	learning_rate	float	学习率，该值缩减每个弱学习器的权重，通常较小的系数需要更多的迭代，因此n_estimators和learning_rate要一起调参	1.0
损失函数	loss	choice	损失函数，每次增强迭代后更新权重时使用的损失函数，默认为线性	linear
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

Bagging-回归

Bagging有放回随机抽样算法，用于回归，有放回随机抽取小样本，训练弱学习器，通过平均获得最终回归结果。

表名：bagging_regressor.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	弱学习器个数	n_estimators	int	弱学习器个数，基准估计器个数，默认为10	10
随机子集比重	subsample	float	随机子集比重，训练基准估计器使用该随机子集	1.0
特征使用率	feature_fraction	float	特征使用率，寻找最佳分割时要考虑的特征比率，float类型，默认考虑所有特征数，即取值1.0	1.0
数据有放回抽样	bootstrap	bool	数据有放回抽样，是否有放回采样，默认为True	True
特征有放回抽样	bootstrap_features	bool	特征有放回抽样，是否对特征有放回采样，默认为False	False
采用袋外样本来评估误差	oob_score	bool	采用袋外样本来评估误差，是否使用袋外样本估计泛化误差，默认为False，评估结果保存在oob_score_	False
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
并行作业数	workers	int	并行作业数，同时使用多少个进程进行计算，默认是1	1
随机数种子	random_state	int	随机数种子，默认是0	0
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

决策树-回归

决策树算法，用于回归，回归树遍历所有特征对空间进行划分，直到取到某个特征的某个值使损失函数最小，从而得到划分点。回归结果为子空间内的样本平均数。

表名：decision_tree_regressor.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	决定分割的标准	criterion	choice	决定分割的标准，支持均方误差mse，平均绝对误差mae及弗里德曼改进均方误差friedman_mse。默认是mse	mse
特征使用率	feature_fraction	float	特征使用率：寻找最佳分割时要考虑的特征比率	1
树的最大深度	max_depth	int	树的最大深度，限制每棵树的最大深度，数值大拟合能力强，数值小泛化能力强。设置为0则不限制	30
每叶节点最小样本数	min_samples_per_leaf	int	每叶节点最小样本数：每个叶节点最少需要的样本数量，一般值越大，泛化性性越好	200
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

极端随机森林-回归

对于随机森林的优化。

表名：extra_trees_regressor.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	决定分割的标准	criterion	choice	决定分割的标准，支持均方误差mse和平均绝对误差mae。默认是mse	mse
树的数量	iterations	int	树的数量，数量越大，则模型越复杂，学习能力越强，更有可能过拟合，需要更多的计算资源	10
特征使用率	feature_fraction	float	特征使用率：寻找最佳分割时要考虑的特征比率	1
树的最大深度	max_depth	int	树的最大深度，限制每棵树的最大深度，数值大拟合能力强，数值小泛化能力强。设置为0则不限制	30
每叶节点最小样本数	min_samples_per_leaf	int	每叶节点最小样本数：每个叶节点最少需要的样本数量，一般值越大，泛化性性越好	200
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
并行作业数	workers	int	并行作业数，同时使用多少个进程进行计算，默认是1	1
随机数种子	random_state	int	随机数种子，默认是0	0
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

梯度提升树-回归

梯度提升树-回归。

表名：gradient_boosting_regressor.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	损失函数	loss	choice	损失函数，对于分类模型，有对数似然损失函数deviance和指数损失函数exponential	ls
学习率	learning_rate	float	学习率，这个参数决定着每一个决策树对于最终结果的影响。GBM设定了初始的权重值之后，每一次树分类都会更新这个值，较小的值使得模型对不同的树更加稳健	0.1
树的数量	iterations	int	树的数量，数量越大，则模型越复杂，学习能力越强，更有可能过拟合，需要更多的计算资源	10
训练每个决策树所用到的子样本占总样本的比例	subsample	float	训练每个决策树所用到的子样本占总样本的比例，稍小于1的值能够使模型更稳健，因为这样减少了方差	1.0
叶子节点最小样本数	min_samples_per_leaf	int	叶子节点最小样本数，int类型	1
树的最大深度	max_depth	int	树的最大深度，限制每棵树的最大深度，数值大拟合能力强，数值小泛化能力强	3
特征使用率	feature_fraction	float	特征使用率，寻找最佳分割时要考虑的特征比率，float类型，默认考虑所有特征数，即取值1.0	1.0
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

k近邻-回归

用于回归

表名：kneighbors_regressor.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	近邻数	n_neighbors	int	近邻数，int类型，可选参数，默认值为5	5
K近邻权重类型	weights	choice	K近邻权重类型，用于预测。默认值为uniform	uniform
计算分类使用的算法	algorithm	choice	计算分类使用的算法，可选参数，ball_tree为算法BallTree，kd_tree为KDTree，brute使用暴力搜索，auto基于传入内容使用合适算法。默认值为auto	auto
BallTree或者KDTree算法的叶子数量	leaf_size	int	BallTree或者KDTree算法的叶子数量，int类型，可选参数，此参数会影响构建、查询BallTree或者KDTree的速度，以及存储BallTree或KDTree所需要的内存大小。默认值30	30
距离度量	metric	choice	距离度量，默认为minkowski，也称欧式距离	minkowski
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
并行作业数	workers	int	并行作业数，同时使用多少个进程进行计算，默认是1	1
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

线性-回归

线性回归模型。

表名：linear_regression.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要特征指定输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	是否计算该模型的截距	fit_intercept	bool	是否计算该模型的截距	True
回归X是否被规范化	normalize	bool	回归X是否被规范化，如果为True，回归X被规范化	False
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
并行作业数	workers	int	并行作业数，同时使用多少个进程进行计算，默认是1	1
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

线性随机梯度下降-回归

线性随机梯度下降算法，用于回归。

表名：linear_sgd_regressor.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要特征指定输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	损失函数	loss	choice	损失函数	huber
正则类型	penalty	choice	正则类型	l2
L2 惩罚项(正则项) 参数	alpha	float	L2 惩罚项(正则项) 参数	0.0001
最大迭代次数	max_iter	int	最大迭代次数	5
是否先随机打乱	shuffle	bool	是否先随机打乱	True
初始学习率	eta0	float	初始学习率	0.1
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

多层感知器-回归

用于回归的机器学习算法。多层感知器（Multilayer Perceptron,缩写MLP）是一种前向结构的人工神经网络，映射一组输入向量到一组输出向量。可用于线性不可分数据。

表名：mlp_regressor.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要特征指定输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	输入该隐藏层的神经元个数	hidden_layer_sizes	str	输入该隐藏层的神经元个数，用英文逗号(,)分隔的整数元组，例如 100,100，表示有两层隐藏层，第一层隐藏层有100个神经元，第二层也有100个神经元	100
隐藏层的激活函数类型	activation	choice	隐藏层的激活函数类型	relu
优化器	solver	choice	优化器，用于优化权重，默认为adam	adam
L2 惩罚项(正则项) 参数	alpha	float	L2 惩罚项(正则项) 参数	0.0001
随机优化算法的批量大小	batch_size	int	随机优化算法的批量大小，如果优化器是 ‘lbfgs’, 将不会生效	200
学习率的初始默认值	learning_rate_init	float	学习率的初始默认值，当且仅当优化策略是SGD或者ADAM时，才有意义。本参数控制着更新权重时的步长	0.001
最大可迭代次数	max_iter	int	最大可迭代次数，优化器直至收敛（视最小容忍度而定）或者到达最大迭代次数时，算法停止	200
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None， predictions也为None

随机森林-回归

随机森林算法，可以用做分类和回归类的训练。

表名：random_forest_regressor.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	树的数量	iterations	int	树的数量，数量越大，则模型越复杂，学习能力越强，更有可能过拟合，需要更多的计算资源	10
特征使用率	feature_fraction	float	特征使用率：寻找最佳分割时要考虑的特征比率	1
树的最大深度	max_depth	int	树的最大深度，限制每棵树的最大深度，数值大拟合能力强，数值小泛化能力强。设置为0则不限制	30
每叶节点最小样本数	min_samples_per_leaf	int	每叶节点最小样本数：每个叶节点最少需要的样本数量，一般值越大，泛化性性越好	200
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
并行作业数	workers	int	并行作业数，同时使用多少个进程进行计算，默认是1	1
随机数种子	random_state	int	随机数种子，默认是0	0
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

支持向量机-回归

支持向量回归。

表名：svr.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	惩罚参数	C	float	惩罚参数，默认值1.0	1.0
核函数	kernel	choice	核函数	rbf
多项式poly函数的维度	degree	int	多项式poly函数的维度，int类型，默认是3，使用其他核函数时会被忽略	3
核函数系数	gamma	float	核函数系数，rbf/poly/sigmoid的系数，float类型，默认为1/n_features	-1
核函数的常数项	coef0	float	核函数的常数项，float类型，对于poly和sigmoid有用	0.0
停止训练的误差值大小	tol	float	停止训练的误差值大小，float类型	0.001
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

排序

StockRanker

StockRanker训练和预测,该模块将训练和预测整合到一起，返回模型和预测结果。

表名：stock_ranker.v2

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练-数据(如果传入则需要指定模型输入)	training_ds	通用	训练-数据(如果传入则需要指定模型输入)	None
训练-特征	features	通用	训练-特征	None
训练-基础模型(可以在此模型上做继续训练(continue train))	base_model	通用	训练-基础模型(可以在此模型上做继续训练(continue train))	None
训练-测试数据集	test_ds	通用	训练-测试数据集，可用于在训练阶段查看训练效果，来做模型参数和特征等的调优；通过配置early stop参数可以让训练提前终止	None
预测-模型	input_model	通用	预测-模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测-数据	predict_ds	通用	预测-数据，如果不设置，则不做预测	None
输入参数	学习算法	learning_algorithm	choice	学习算法，机器学习优化算法	排序
叶节点数量	number_of_leaves	int	叶节点数量：每棵树最大叶节点数量。一般情况下，叶子节点越多，则模型越复杂，表达能力越强，过拟合的可能性也越高	30
每叶节点最小样本数	minimum_docs_per_leaf	int	每叶节点最小样本数：每个叶节点最少需要的样本数量，一般值越大，泛化性性越好	1000
树的数量	number_of_trees	int	树的数量，一般情况下，树越多，则模型越复杂，表达能力越强，过拟合的可能性也越高	20
学习率	learning_rate	float	学习率，学习率如果太大，可能会使结果越过最优值，如果太小学习会很慢	0.1
特征值离散化数量	max_bins	int	特征值离散化数量：一般情况下，max_bins越大，则学的越细，过拟合的可能性也越高	1023
特征列采样率	feature_fraction	float	特征列采样率：在构建每一颗树时，每个特征被使用的概率，如果为1，则每棵树都会使用所有特征列	1
数据行采样率	data_row_fraction	float	数据行采样率：在构建每一颗树时，每个样本数据被使用的概率，如果为1，则每棵树都会使用所有数据行	1
NDCG discount base	ndcg_discount_base	float	NDCG discount base：用于计算NDCG的 discount = log2(base + position)，其中position从1开始。base越大，位置的影响越小	1
压缩数据列	slim_data	bool	压缩数据列，移除不需要使用的列。一般设置为True	True
滚动运行参数	rolling_input	doc	滚动运行参数，接收来自滚动运行的输入，用于训练数据过滤	None
输出端	训练出来的模型	model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

StockRanker模型组合

表名：stock_ranker_combine.v2

类别	显示名称	名称	类型	描述	必填/默认
输入端	基础模型	base_model_id	通用	基础模型	*必填
继续训练的模型	combine_model_id	通用	继续训练的模型	*必填
输入参数	条件表达式	combine_condition	str	条件表达式	*必填
输出端	模型	model_id	通用	模型

StockRanker预测

表名：stock_ranker_predict.v5

类别	显示名称	名称	类型	描述	必填/默认
输入端	模型	model	通用	模型	*必填
数据	data	通用	数据	*必填
输出端	预测结果	predictions	通用	预测结果
延迟运行	m_lazy_run	通用	延迟运行，将当前模块打包，可以作为其他模块的输入，在其他模块里运行。启用需要勾选模块的延迟运行参数。

StockRanker预测(GBDT)

表名：stock_ranker_predict_gbdt.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	模型	model	通用	模型	*必填
数据	data	通用	数据	*必填
输出端	预测结果	predictions	通用	预测结果
延迟运行	m_lazy_run	通用	延迟运行，将当前模块打包，可以作为其他模块的输入，在其他模块里运行。启用需要勾选模块的延迟运行参数。

StockRanker训练

表名：stock_ranker_train.v6

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，需要包含所有用到的特征数据，包括基础特征和衍生特征	*必填
特征列表	features	通用	特征列表	*必填
评估测试数据集	test_ds	通用	评估测试数据集，可用于在训练阶段查看训练效果，来做模型参数和特征等的调优；通过配置early stop参数可以让训练提前终止	None
基础模型	base_model	通用	基础模型，可以在此模型上继续训练	None
输入参数	学习算法	learning_algorithm	choice	学习算法，机器学习优化算法	排序
叶节点数量	number_of_leaves	int	叶节点数量：每棵树最大叶节点数量。一般情况下，叶子节点越多，则模型越复杂，表达能力越强，过拟合的可能性也越高	30
每叶节点最小样本数	minimum_docs_per_leaf	int	每叶节点最小样本数：每个叶节点最少需要的样本数量，一般值越大，泛化性性越好	1000
树的数量	number_of_trees	int	树的数量：一般情况下，树越多，则模型越复杂，表达能力越强，过拟合的可能性也越高	20
学习率	learning_rate	float	学习率：学习率如果太大，可能会使结果越过最优值，如果太小学习会很慢	0.1
特征值离散化数量	max_bins	int	特征值离散化数量：一般情况下，max_bins越大，则学的越细，过拟合的可能性也越高	1023
特征列采样率	feature_fraction	float	特征列采样率：在构建每一颗树时，每个特征被使用的概率，如果为1，则每棵树都会使用所有特征列	1
数据行采样率	data_row_fraction	float	数据行采样率：在构建每一颗树时，每个样本数据被使用的概率，如果为1，则每棵树都会使用所有数据行	1
NDCG discount base	ndcg_discount_base	float	NDCG discount base：用于计算NDCG的 discount = log2(base + position)，其中position从1开始。base越大，位置的影响越小	1
滚动运行参数	rolling_input	doc	滚动运行参数，接收来自滚动运行的输入，用于训练数据过滤	None
输出端	模型	model	通用	模型
特征贡献	feature_gains	通用	特征贡献
延迟运行	m_lazy_run	通用	延迟运行，将当前模块打包，可以作为其他模块的输入，在其他模块里运行。启用需要勾选模块的延迟运行参数。

StockRanker训练(GBDT)

表名：stock_ranker_train_gbdt.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，需要包含所有用到的特征数据，包括基础特征和衍生特征	*必填
特征列表	features	通用	特征列表	*必填
输入参数	学习算法	learning_algorithm	choice	学习算法，机器学习优化算法	排序
叶节点数量	number_of_leaves	int	叶节点数量：每棵树最大叶节点数量。一般情况下，叶子节点越多，则模型越复杂，表达能力越强，过拟合的可能性也越高	30
每叶节点最小样本数	minimum_docs_per_leaf	int	每叶节点最小样本数：每个叶节点最少需要的样本数量，一般值越大，泛化性性越好	30
树的数量	number_of_trees	int	树的数量：一般情况下，树越多，则模型越复杂，表达能力越强，过拟合的可能性也越高	100
学习率	learning_rate	float	学习率：学习率如果太大，可能会使结果越过最优值，如果太小学习会很慢	0.1
特征值离散化数量	max_bins	int	特征值离散化数量：一般情况下，max_bins越大，则学的越细，过拟合的可能性也越高	256
滚动运行参数	rolling_input	doc	滚动运行参数，接收来自滚动运行的输入，用于训练数据过滤	None
输出端	模型	model	通用	模型
特征贡献	feature_gains	通用	特征贡献
延迟运行	m_lazy_run	通用	延迟运行，将当前模块打包，可以作为其他模块的输入，在其他模块里运行。启用需要勾选模块的延迟运行参数。

聚类

近邻传播-聚类

近邻传播算法，用于聚类，此算法为半监督，首先通过消息传递机制来搜索网络中各个数据点的聚类中心以及数据点与数据中心之间的隶属关系，然后根据数据中心和顶点之间的隶属关系来对待聚类数据集进行划分，形成若干个具有特定意义的子集。

表名：cluster_affinity_propagation.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	阻尼系数	damping	float	阻尼系数，取值在0.5到1之间，减少算法迭代产生震荡	0.5
最大迭代次数	iterations	int	最大迭代次数，默认为200	200
算法收敛迭代次数	convergence_iter	int	算法收敛迭代次数，直到分类数没有变化时算法的迭代次数，默认为15	15
复制输入数据	copy	bool	复制输入数据，是否复制输入数据，默认为True	True
距离度量方法	affinity	choice	距离度量方法，距离度量，目前支持precomputed和euclidean	euclidean
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
训练数据集	transform_trainds	通用	训练数据集，聚类训练结果为列label
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

层次-聚类

层次算法，用于聚类，通过计算不同类别的相似度类创建一个有层次的嵌套的树。在聚类树中，先找出和每个点最近似的点两两聚类，然后反复迭代这一过程，直到聚类完成。

表名：cluster_agglomerative.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	分类簇数量	n_clusters	int	分类簇数量，默认为2	2
距离度量方法	affinity	choice	距离度量方法，度量的方法，包括cosine,manhattan,euclidean等	euclidean
连接算法	linkage	choice	连接算法，如果使用ward，则距离度量只能使用euclidean	ward
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
训练数据集	transform_trainds	通用	训练数据集，聚类训练结果为列label
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

Birch-聚类

Birch算法，用于聚类，作为一种层次聚类算法，BIRCH只需要单遍扫描数据集就能进行聚类。

其他参数：n_clusters：分类簇的数量，在类别数特别多，没有先验知识的情况下，n_clusters可用None，即直接读取叶子结点中的子聚类。默认为3

表名：cluster_birch.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	输出时表示类别	compute_labels	bool	输出时表示类别，是否标示类别输出，默认为True	True
簇半径阈值	threshold	float	簇半径阈值，限制新加入的样本和存在与现有子集群中样本的最大距离，默认为0.5	0.5
分支因子	branching_factor	int	分支因子，限制一个节点中的子集群的数量，默认是50	50
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
训练数据集	transform_trainds	通用	训练数据集，聚类训练结果为列label
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

DBSCAN-聚类

DBSCAN算法，用于聚类，

表名：cluster_dbscan.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	邻域的距离阈值	eps	float	邻域的距离阈值，两样本间最大距离	0.5
最小样本数	min_samples	int	最小样本数，核心点邻域中最小样本数，包括点本身	5
k-means算法调节	algorithm	choice	k-means算法调节，支持蛮力实现、KD树实现、球树实现，默认为自动选取最优	auto
关键列的数据会复制到预测结果里	key_cols	str	关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
并行作业数	workers	int	并行作业数，同时使用多少个进程进行计算，默认是1	1
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
训练数据集	transform_trainds	通用	训练数据集，聚类训练结果为列label
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

K均值-聚类 (cluster_kmeans.v1)

K-means算法，用于聚类，先随机初始化各自的中心点，然后计算每个数据点到中心点的距离，将数据点划分到最近的中心点类别。然后用每一类的中心点作为新的中心点，重复迭代，直到迭代后变化不大为止。

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	簇的个数	n_clusters	int	簇的个数，聚类中心数量，默认为8	8
质心初始化方法	init	choice	质心初始化方法，默认为k-means++	k-means++
质心初始化次数	n_init	int	质心初始化次数，初始化质心的次数，默认为10	10
最大迭代次数	iterations	int	最大迭代次数，迭代得到最终质心的次数	300
K-Means算法	algorithm	choice	K-Means算法，auto选择elkan表示密集数据，full表示稀疏数据	auto
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
并行作业数	workers	int	并行作业数，同时使用多少个进程进行计算，默认是1	1
随机数种子	random_state	int	随机数种子，默认是0	0
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
训练数据集	transform_trainds	通用	训练数据集，聚类训练结果为列label
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

谱-聚类

用于聚类，将图论应用于聚类。把所有的数据看做空间中的点，这些点之间可以用边连接起来。距离较远的两个点之间的边权重值较低，而距离较近的两个点之间的边权重值较高，通过对所有数据点组成的图进行切图，让切图后不同的子图间边权重和尽可能的低，而子图内的边权重和尽可能的高，从而达到聚类的目的。

表名：cluster_spectral.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要指定模型输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	分类簇的数量	n_clusters	int	分类簇的数量，切图时降到的维数	3
相似矩阵的建立方式	affinity	choice	相似矩阵的建立方式，为nearest_neighbors时忽略参数gamma，默认为rbf	rbf
近邻个数	n_neighbors	int	近邻个数，KNN算法的K的个数，默认是10，affinity为nearest_neighbors忽略此参数	10
特征值分解策略	eigen_solver	choice	特征值分解策略，amg存在稳定性问题，平台暂不支持	None
停止拉普拉斯矩阵特征分解条件	eigen_tol	float	停止拉普拉斯矩阵特征分解条件，当eigen_solver为eigen_solver时生效	0.0
K-Means聚类的运行次数	n_init	int	K-Means聚类的运行次数，最终结果是连续运行后的最佳输出	10
核系数	gamma	float	核系数，rbf，poly，sigmoid，laplacian和chi2的核系数	1.0
聚类方法	assign_labels	choice	聚类方法，常用kmeans，但对质心初始化较敏感，discretize则不敏感	kmeans
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
并行作业数	workers	int	并行作业数，同时使用多少个进程进行计算，默认是1	1
随机数种子	random_state	int	随机数种子，默认是0	0
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
训练数据集	transform_trainds	通用	训练数据集，聚类训练结果为列label
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

特征预处理

主成分分析降维

主成分分析，主要功能为降维，是数据预处理的一个步骤。通过主成分分析对于原特征进行线性组合，得到影响力最大的新特征并输出。

表名：decomposition_pca.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要特征指定输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	主成分特征个数	n_components	int	主成分特征个数，希望PCA降维后的特征维度数目	1
白化	whiten	bool	白化，使得每个特征具有相同的方差	False
其他训练参数	other_train_parameters	code	其他训练参数，字典格式，例:{'criterion': 'mse'}	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
降维后的特征	pca_features	通用	降维后的特征
降维后训练集	transform_trainds	通用	降维后训练集，降维特征通过属性pca_features查看
降维后预测集	transform_predictds	通用	降维后预测集，降维特征通过属性pca_features查看

最大绝对值归一化

最大绝对值归一化。

表名：preprocessing_max_abs_scaler.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要特征指定输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输出端	训练出来的模型	output_model	通用	训练出来的模型
转换后训练集	transform_trainds	通用	转换后训练集
转换后预测集	transform_predictds	通用	转换后预测集

特征缩放

将特征值缩放到一定范围内。

表名：preprocessing_min_max_scaler.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要特征指定输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	特征缩放下限	feature_range_low	int	特征缩放下限，将特征缩放到执行范围之间	0
特征缩放上限	feature_range_high	int	特征缩放上限，将特征缩放到执行范围之间	1
输出端	训练出来的模型	output_model	通用	训练出来的模型
转换后训练集	transform_trainds	通用	转换后训练集
转换后预测集	transform_predictds	通用	转换后预测集

标准化

标准化处理。

表名：preprocessing_normalizer.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要特征指定输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	标准化方法	norm	choice	标准化方法	l2
输出端	训练出来的模型	output_model	通用	训练出来的模型
标准化训练集	transform_trainds	通用	标准化训练集
标准化预测集	transform_predictds	通用	标准化预测集

序数编码

序数编码。

表名：preprocessing_ordinal_encoder.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要特征指定输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输出端	训练出来的模型	output_model	通用	训练出来的模型
转换后训练集	transform_trainds	通用	转换后训练集
转换后预测集	transform_predictds	通用	转换后预测集

RobustScaler标准化

RobustScaler 针对离群点做标准化处理。

表名：preprocessing_robust_scaler.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要特征指定输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	中心化	with_centering	bool	中心化	True
数据是否按分位数缩放	with_scaling	bool	数据是否按分位数缩放	True
缩放分位数下限	quantile_range_min	float	缩放分位数下限，介于0.0到100.0之间	25.0
缩放分位数上限	quantile_range_max	float	缩放分位数上限，介于0.0到100.0之间	75.0
输出端	训练出来的模型	output_model	通用	训练出来的模型
转换后训练集	transform_trainds	通用	转换后训练集
转换后预测集	transform_predictds	通用	转换后预测集

StandardScaler标准化

标准化处理，使得数据平均值是0并且有相同阶数的方差。

表名：preprocessing_standard_scaler.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据，如果传入，则需要特征指定输入	None
特征	features	通用	特征，用于训练	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	中心化	with_mean	bool	中心化	True
缩放到单位标准差	with_std	bool	缩放到单位标准差	True
输出端	训练出来的模型	output_model	通用	训练出来的模型
转换后训练集	transform_trainds	通用	转换后训练集
转换后预测集	transform_predictds	通用	转换后预测集

其他

GBDT预测

表名：GBDT_predict.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	模型	model	通用	模型，参考 :doc:`随机森林模型 M.random_forest_train<module_random_forest_train>`	*必填
待预测数据集	data	通用	待预测数据集	*必填
输入参数	日期列名	date_col	str	日期列名，如果在表达式中用到切面相关函数时，比如 rank，会用到此列名	date
证券代码列名	instrument_col	str	证券代码列名，如果在表达式中用到时间序列相关函数时，比如 shift，会用到此列名	instrument
是否对结果排序	sort	bool	是否对结果排序	True
输出端	预测结果	predictions	通用	预测结果

GBDT训练

表名：GBDT_train.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据	*必填
因子/特征	features	通用	因子/特征，支持基础特征和衍生特征	*必填
验证数据	test_ds	通用	验证数据	None
输入参数	迭代次数	num_boost_round	int	迭代次数	120
提前停止检测次数	early_stopping_rounds	int	提前停止检测次数，停止训练的的检测次数	None
损失函数类型	objective	choice	损失函数类型	reg:linear
类别个数	num_class	int	类别个数，如果使用multi:softprob需要设置	None
评价指标	eval_metric	choice	评价指标	error
模型	booster	choice	模型	gbtree
学习率	eta	float	学习率	0.1
最小节点分裂损失值	gamma	float	最小节点分裂损失值	0.0001
L2正则	_lambda	float	L2正则	0
L2正则偏置	lambda_bias	float	L2正则偏置	0
L1正则	alpha	float	L1正则	0
树的最大深度	max_depth	int	树的最大深度	6
树最多叶子个数	max_leaf_nodes	int	树最多叶子个数	30
随机采样比例	subsample	float	随机采样比例	0.8
参数字典	xgb_param	code	参数字典	[默认代码](javascript:void(0);)
输出端	训练出来的模型	model	通用	训练出来的模型

LightGBM

LightGBM模块，可以用做排序、分类和回归类的训练。

表名：lightgbm.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据	None
因子/特征	features	通用	因子/特征，支持基础特征和衍生特征	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	迭代次数	num_boost_round	int	迭代次数	30
损失函数类型	objective	choice	损失函数类型	排序(ndcg)
树最大叶子个数	num_leaves	int	树最大叶子个数	30
学习率	learning_rate	float	学习率	0.1
每个叶子最少样本数	min_data_in_leaf	int	每个叶子最少样本数	200
特征值离散化数量	max_bin	int	特征值离散化数量	255
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
群组标识列	group_col	str	群组标识列，排序类任务，只有group_col相同的才需要排序, 默认不需要改	date
参数字典	other_train_parameters	code	参数字典	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None
特征贡献	feature_gains	通用	特征贡献

线性模型预测(SGD)

表名：linear_sgd_predict.v2

类别	显示名称	名称	类型	描述	必填/默认
输入端	模型	model	通用	模型，参考 :doc:`线性随机梯度下降模型 M.linear_sgd_train<module_linear_sgd_train>`	*必填
待预测数据集	data	通用	待预测数据集	*必填
输出端	预测结果	predictions	通用	预测结果

线性模型训练(SGD)

表名：linear_sgd_train.v2

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据	*必填
因子/特征	features	通用	因子/特征，支持基础特征和衍生特征	*必填
训练时用的测试集	test_ds	通用	训练时用的测试集，可以根据此数据集上的预测效果，来做模型参数和特征等的调整	None
输入参数	损失函数类型	loss	choice	损失函数类型	auto
正则类型	penalty	choice	正则类型	l2
正则损失函数的系数	alpha	float	正则损失函数的系数	0.0001
训练迭代次数	n_iter	int	训练迭代次数	5
训练时	shuffle	bool	训练时，是否先随机打乱	True
初始学习率	eta0	float	初始学习率	0.1
算法类型	algo	choice	算法类型，classifier是分类算法，regressor是回归算法	classifier
输出端	训练出来的模型	model	通用	训练出来的模型

随机森林预测

表名：random_forest_predict.v2

类别	显示名称	名称	类型	描述	必填/默认
输入端	模型	model	通用	模型，参考 :doc:`随机森林模型 M.random_forest_train<module_random_forest_train>`	*必填
待预测数据集	data	通用	待预测数据集	*必填
输入参数	日期列名	date_col	str	日期列名，如果在表达式中用到切面相关函数时，比如 rank，会用到此列名	date
证券代码列名	instrument_col	str	证券代码列名，如果在表达式中用到时间序列相关函数时，比如 shift，会用到此列名	instrument
是否对结果排序	sort	bool	是否对结果排序	True
输出端	预测结果	predictions	通用	预测结果

随机森林训练

表名：random_forest_train.v2

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据	*必填
因子/特征	features	通用	因子/特征，支持基础特征和衍生特征	*必填
训练时用的测试集	test_ds	通用	训练时用的测试集，可以根据此数据集上的预测效果，来做模型参数和特征等的调整。为None，表示不使用测试集	None
输入参数	树的个数	n_estimators	int	树的个数，个数越多，则模型越复杂，计算速度越慢	10
最多考虑特征个数	max_features	str	最多考虑特征个数，新建节点时，最多考虑的特征个数。默认为auto，一般不需要更改	auto
数据的最大深度	max_depth	int	数据的最大深度，限制每棵树的最大深度，数值大拟合能力强，数值小泛化能力强。设置为None则不限制	30
每个叶子节点最少样本数	min_samples_leaf	int	每个叶子节点最少样本数，数值大泛化能力强，数值小拟合能力强	200
并行度	n_jobs	int	并行度，同时使用多少个进程进行计算	1
随机数种子	random_state	int	随机数种子，默认是0	0
算法类型	algo	choice	算法类型，classifier是分类算法，regressor是回归算法	regressor
输出端	训练出来的模型	model	通用	训练出来的模型

XGBoost

xgboost模块，可以用做排序、分类和回归类的训练。

表名：xgboost.v1

类别	显示名称	名称	类型	描述	必填/默认
输入端	训练数据	training_ds	通用	训练数据	None
因子/特征	features	通用	因子/特征，支持基础特征和衍生特征	None
模型	model	通用	模型，用于预测，如果不指定训练数据，则使用此模型预测	None
预测数据	predict_ds	通用	预测数据，如果不设置，则不做预测	None
输入参数	迭代次数	num_boost_round	int	迭代次数	30
损失函数类型	objective	choice	损失函数类型	排序(pairwise)
模型	booster	choice	模型	gbtree
树的最大深度	max_depth	int	树的最大深度	6
关键列	key_cols	str	关键列，关键列的数据会复制到预测结果里，多个列用英文逗号分隔	date,instrument
群组标识列	group_col	str	群组标识列，排序类任务，只有group_col相同的才需要排序, 默认不需要改	date
并行线程数	nthread	int	并行线程数，默认为1	1
gpu个数	n_gpus	int	gpu个数，本模块使用的gpu个数，-1表示自动，0表示不用GPU，1表示使用1个GPU	-1
参数字典	other_train_parameters	code	参数字典	[默认代码](javascript:void(0);)
输出端	训练出来的模型	output_model	通用	训练出来的模型
预测结果	predictions	通用	预测结果，如果predict_ds为None，predictions也为None

文档

模型解释

这表头都没对齐吧，看了半天才看懂