精华帖子

策略分享-基于随机森林的半自动量价多因子策略

由sywgfuture01创建,最终由bqskg8kx 被浏览 30 用户

0.策略名词解释

0.1 随机森林

随机森林是以决策树为基学习器的集成学习算法。随机森林非常简单,易于实现,计算开销也很小,更令人惊奇的是它在分类和回归上表现出了十分惊人的性能。

1、用有抽样放回的方法(bugging)从样本集中选取n个样本作为一个训练集

2、用抽样得到的样本集生成一棵决策树。在生成数的每一个结点:

  • 随机不重复地选择d个特征
  • 利用这d个特征分别对样本集进行划分,找到最佳的划分特征

3、重复步骤1到步骤2共k次,k即为随机森林中决策树的个数。

4、用训练得到的随机森林对测试样本进行预测,并用票选法决定预测的结果。

下图比较直观地展示了随机森林算法:

0.2 量价因子

量价因子是通过分析股票的交易价格(价)和成交量(量)数据构建的量化指标,用于预测股票未来收益。这类因子主要反映市场交易行为和信息传递过程,可大致分为以下几类:

1)动量&反转

2)波动率

3)流动性

4)量价相关性

1.市场观察和机会发现

量价数据Alpha价值解析​

量价数据蕴含传统分析难以捕捉的短期定价信号。高频交易普及使换手率、波动率等微观指标更具预测价值,能灵敏反映资金动向和市场情绪。通过机器学习技术,可以系统性地识别这些因子与收益之间的复杂关联模式,并持续优化因子组合。相比基本面数据,量价指标更新更快、时效性更强,为短线投资提供独特优势。这种数据驱动的分析方法能够持续捕捉市场中的有效信号,获取稳定超额收益。

机器学习应用成熟​​:

  • 随机森林等算法在因子挖掘中的优势已被实证
  • 自适应市场环境变化,持续优化选股模型
  • 深度挖掘因子组合的协同效应(如量价背离信号)
  • 自动特征选择​​,通过重要性排序,规避人工筛选的主观性,降低过拟合风险。

2.假设提出

  • 假设一:量价因子是优于基本面因子的选择
  • 假设二:随机森林计算出的因子特征值代表因子对收益率的重要程度
  • 假设三:IC值更高的因子和低相关性的因子按重要性组合成的新因子可以很好的预测股票收益率

3.策略逻辑

3.1策略思想

先用随机森林的特征工程,从大量的量价因子中得到前N个对股票收益率最为重要的量价因子,对这些因子进行IC值分析以及相关性分析,选取高IC值以及低相关性的多个因子,依据因子的重要程度对因子进行赋权合成新的因子,根据新的因子进行从小到大的排序,选取前X只股票等权重持仓,每n日调仓一次。

3.2特征工程

  1. 无脑放入你想要放入的所有因子

    数据平台的因子(展示部分):

    自己构建的因子(展示部分):

  2. 确定拟合对象:本策略以5日收益率作为拟合对象,将其作为特征工程中的y值。

3.训练模型:设定随机森林的模型参数,将因子与5日收益率放入模型中进行拟合。(使用2021年1月至2024年6月的数据进行训练)

4.选取特征值最高的20个因子打印并保留

3.3 IC值与相关性分析

对上述20个因子对未来五日收益率进行IC值分析(按IC均值绝对值大小排序):

相关性分析:

尽量选择高IC值得因子,并且确保选取的因子和其他因子相关性较低。最终选择的因子:

3.3 构建新因子

根据特征工程中的重要性对因子进行赋权(注意因子的方向)

4.历史数据回测

5. 参数优化

5日调仓改为6日调仓,原来5日调仓的结果:

6. 交易成本和滑点

7.AI策略广场代码链接

https://bigquant.com/square/ai/7308d7dd-8163-1d9e-9fbc-c024e2949e7e

标签

随机森林机器学习
评论
  • 沙发
{link}