【历史文档】算子-特征抽取
由polll创建,最终由small_q 被浏览 1749 用户
{{use_style}}
更新
本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明
新版量化开发IDE(AIStudio):
https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW
新版模版策略:
https://bigquant.com/wiki/doc/demos-ecdRvuM1TU
新版数据平台:
https://bigquant.com/data/home
https://bigquant.com/wiki/doc/dai-PLSbc1SbZX
新版表达式算子:
https://bigquant.com/wiki/doc/dai-sql-Rceb2JQBdS
新版因子平台:
https://bigquant.com/wiki/doc/bigalpha-EOVmVtJMS5
\
衍生特征抽取
表名: derived_feature_extractor.v3
类别 | 显示名称 | 名称 | 类型 | 描述 | 必填/默认 |
---|---|---|---|---|---|
输入端 | 输出数据 | input_data | 通用 | 输出数据,抽取后特征数据,包含用于构建衍生因子的基础因子数据,一般来自基础特征抽取或者衍生特征抽取模块 | *必填 |
特征列表 | features | 通用 | 特征列表,需要抽取的衍生特征,由表达式构建。可用数据字段来自输入的data,可用操作符和函数见表达式引擎 | *必填 | |
输入参数 | 日期列名 | date_col | str | 日期列名,如果在表达式中用到切面相关函数时,比如 rank,会用到此列名 | date |
代码列名 | instrument_col | str | 代码列名,如果在表达式中用到时间序列相关函数时,比如 shift,会用到此列名 | instrument | |
删除na数据 | drop_na | bool | 删除na数据,删除存在空数据(NA)的行 | False | |
删除多余的列 | remove_extra_columns | bool | 删除多余的列,删除不在输入特征、日期和代码的列 | False | |
自定义表达式函数 | user_functions | code | 自定义表达式函数,字典格式,例:{'user_rank':user_rank},字典的key是方法名称,字符串类型,字典的value是方法的引用,参考文档表达式引擎 | [默认代码](javascript:void(0);) | |
输出端 | 输出数据 | data | 通用 | 输出数据,抽取后特征数据 |
高频特征抽取-分钟到日频
表名: feature_extractor_1m.v1
类别 | 显示名称 | 名称 | 类型 | 描述 | 必填/默认 |
---|---|---|---|---|---|
输入端 | 代码列表 | instruments | 通用 | 代码列表 | *必填 |
特征列表 | features | 通用 | 特征列表 | *必填 | |
表达式引擎自定义函数 | user_functions | 通用 | 表达式引擎自定义函数,字典格式,例: {'user_rank':user_rank},字典的key是函数名称,字符串类型,字典的value是函数方法 | {} | |
输入参数 | 开始日期 | start_date | str | 开始日期,示例 2017-02-12,一般不需要指定,使用 代码列表 里的开始日期 | |
结束日期 | end_date | str | 结束日期,示例 2017-02-12,一般不需要指定,使用 代码列表 里的结束日期 | ||
向前取数据天数 | before_start_days | float | 向前取数据天数,比如,用户通过表达式计算的衍生特征,可能需要用到开始日期之前的数据,可以通过设置此值实现,则数据将从 开始日期-向前取数据天数 开始取。考虑到节假日等,建议将此值得大一些 | 90 | |
并行计算数量 | workers | int | 并行计算数量 | 2 | |
并行模式 | parallel_mode | choice | 并行模式:集群模式,使用集群多机并行;单机模式,使用单机多进程并行;测试模式,仅随机选择少量数据做特征抽取,一般用于测试表达式是否正确 | 集群 | |
分钟数据源 | table_1m | str | 分钟数据源,分钟数据源表id | level2_bar1m_CN_STOCK_A | |
输出端 | 基础特征数据 | data | 通用 | 基础特征数据 |
表达式引擎自定义函数
表达式引擎用户自定义函数
表名: feature_extractor_user_function.v1
类别 | 显示名称 | 名称 | 类型 | 描述 | 必填/默认 |
---|---|---|---|---|---|
输入端 | 自定义函数集 | input_functions | 通用 | 自定义函数集,可用于多个自定义函数组合为一个集合 | None |
输入参数 | 函数名 | name | str | 函数名 | *必填 |
函数代码 | func | code | 函数代码 | [默认代码](javascript:void(0);) | |
输出端 | 函数 | functions | 通用 | 函数 |
基础特征抽取
表名: general_feature_extractor.v7
类别 | 显示名称 | 名称 | 类型 | 描述 | 必填/默认 |
---|---|---|---|---|---|
输入端 | 代码列表 | instruments | 通用 | 代码列表 | *必填 |
特征列表 | features | 通用 | 特征列表 | *必填 | |
输入参数 | 开始日期 | start_date | str | 开始日期,示例 2017-02-12,一般不需要指定,使用 代码列表 里的开始日期 | |
结束日期 | end_date | str | 结束日期,示例 2017-02-12,一般不需要指定,使用 代码列表 里的结束日期 | ||
向前取数据天数 | before_start_days | float | 向前取数据天数,比如,用户通过表达式计算的衍生特征,可能需要用到开始日期之前的数据,可以通过设置此值实现,则数据将从 开始日期-向前取数据天数 开始取。考虑到节假日等,建议将此值得大一些 | 90 | |
输出端 | 基础特征数据 | data | 通用 | 基础特征数据 |
\