历史文档

【历史文档】算子-特征抽取

由polll创建,最终由small_q 被浏览 1749 用户

{{use_style}}

更新

本文内容对应旧版平台与旧版资源,其内容不再适合最新版平台,请查看新版平台的使用说明

新版量化开发IDE(AIStudio):

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略:

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平台:

https://bigquant.com/data/home

https://bigquant.com/wiki/doc/dai-PLSbc1SbZX

新版表达式算子:

https://bigquant.com/wiki/doc/dai-sql-Rceb2JQBdS

新版因子平台:

https://bigquant.com/wiki/doc/bigalpha-EOVmVtJMS5

\

衍生特征抽取

表名: derived_feature_extractor.v3

类别 显示名称 名称 类型 描述 必填/默认
输入端 输出数据 input_data 通用 输出数据,抽取后特征数据,包含用于构建衍生因子的基础因子数据,一般来自基础特征抽取或者衍生特征抽取模块 *必填
特征列表 features 通用 特征列表,需要抽取的衍生特征,由表达式构建。可用数据字段来自输入的data,可用操作符和函数见表达式引擎 *必填
输入参数 日期列名 date_col str 日期列名,如果在表达式中用到切面相关函数时,比如 rank,会用到此列名 date
代码列名 instrument_col str 代码列名,如果在表达式中用到时间序列相关函数时,比如 shift,会用到此列名 instrument
删除na数据 drop_na bool 删除na数据,删除存在空数据(NA)的行 False
删除多余的列 remove_extra_columns bool 删除多余的列,删除不在输入特征、日期和代码的列 False
自定义表达式函数 user_functions code 自定义表达式函数,字典格式,例:{'user_rank':user_rank},字典的key是方法名称,字符串类型,字典的value是方法的引用,参考文档表达式引擎 [默认代码](javascript:void(0);)
输出端 输出数据 data 通用 输出数据,抽取后特征数据

高频特征抽取-分钟到日频

表名: feature_extractor_1m.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 代码列表 instruments 通用 代码列表 *必填
特征列表 features 通用 特征列表 *必填
表达式引擎自定义函数 user_functions 通用 表达式引擎自定义函数,字典格式,例: {'user_rank':user_rank},字典的key是函数名称,字符串类型,字典的value是函数方法 {}
输入参数 开始日期 start_date str 开始日期,示例 2017-02-12,一般不需要指定,使用 代码列表 里的开始日期
结束日期 end_date str 结束日期,示例 2017-02-12,一般不需要指定,使用 代码列表 里的结束日期
向前取数据天数 before_start_days float 向前取数据天数,比如,用户通过表达式计算的衍生特征,可能需要用到开始日期之前的数据,可以通过设置此值实现,则数据将从 开始日期-向前取数据天数 开始取。考虑到节假日等,建议将此值得大一些 90
并行计算数量 workers int 并行计算数量 2
并行模式 parallel_mode choice 并行模式:集群模式,使用集群多机并行;单机模式,使用单机多进程并行;测试模式,仅随机选择少量数据做特征抽取,一般用于测试表达式是否正确 集群
分钟数据源 table_1m str 分钟数据源,分钟数据源表id level2_bar1m_CN_STOCK_A
输出端 基础特征数据 data 通用 基础特征数据

表达式引擎自定义函数

表达式引擎用户自定义函数

表名: feature_extractor_user_function.v1

类别 显示名称 名称 类型 描述 必填/默认
输入端 自定义函数集 input_functions 通用 自定义函数集,可用于多个自定义函数组合为一个集合 None
输入参数 函数名 name str 函数名 *必填
函数代码 func code 函数代码 [默认代码](javascript:void(0);)
输出端 函数 functions 通用 函数

基础特征抽取

表名: general_feature_extractor.v7

类别 显示名称 名称 类型 描述 必填/默认
输入端 代码列表 instruments 通用 代码列表 *必填
特征列表 features 通用 特征列表 *必填
输入参数 开始日期 start_date str 开始日期,示例 2017-02-12,一般不需要指定,使用 代码列表 里的开始日期
结束日期 end_date str 结束日期,示例 2017-02-12,一般不需要指定,使用 代码列表 里的结束日期
向前取数据天数 before_start_days float 向前取数据天数,比如,用户通过表达式计算的衍生特征,可能需要用到开始日期之前的数据,可以通过设置此值实现,则数据将从 开始日期-向前取数据天数 开始取。考虑到节假日等,建议将此值得大一些 90
输出端 基础特征数据 data 通用 基础特征数据

\

评论
  • 表格一直都是错的,能不能改一下?仔细看一下就知道错在哪了,“结束日期”那行开始错位了,我看到很多表格都有这种错位的问题。
  • 特征提取能不能rename呢?
{link}