DeepAlpha短周期因子研究系列之：DNN在量化选股中的应用

由small_q创建，最终由small_q更新于2026-02-26 03:38 被浏览 465 用户

更新

本文内容对应旧版平台与旧版资源，其内容不再适合最新版平台，请查看新版平台的使用说明

新版量化开发IDE（AIStudio）：

https://bigquant.com/wiki/doc/aistudio-aiide-NzAjgKapzW

新版模版策略：

https://bigquant.com/wiki/doc/demos-ecdRvuM1TU

新版数据平台：

https://bigquant.com/data/home

https://bigquant.com/wiki/doc/dai-PLSbc1SbZX

新版表达式算子：

https://bigquant.com/wiki/doc/dai-sql-Rceb2JQBdS

新版因子平台：

https://bigquant.com/wiki/doc/bigalpha-EOVmVtJMS5

作者：

邵守田 东北大学金融工程硕士BigQuant首席策略官

傅浩晅 伊利诺伊大学香槟分校统计与经济双学位BigQuant算法团队成员

本报告模型构建工具：https://bigquant.com/

联络咨询：bigq100【微信号】

核心观点

据中信证券推算，截至2021年2季度，中国国内市场私募量化总资管规模达到1万亿，相比2017年的1000亿，短短的3年半时间增长10倍，公募量化基金同样增长迅猛，达到2600亿。

==与此同时，市场逐渐进入AI算法的时代==，国内一系列百亿级、千亿级私募机构同样开启了机器学习、深度学习量化。

Deep Alpha是借鉴深度学习模型应用于金融量化投资领域的系列AI模型，包括全连接深度网络(DNN)、卷积神经网络(CNN)、长短期记忆网络(LSTM)、对抗生成网络(GAN)、ResNet、TabNet等。

其中Deep Alpha-DNN是采用基础量价数据，模仿动物神经元的激发模式和连结模式，基于单个神经元以全连接的方式构建层数大于3的深度模型。

本模型构建了11个对照组，并以训练集3年测试集1年的方式进行8组滚动回测，均在有效性及稳定性方面表现卓越。

有效性体现在：DeepAlpha-DNN模型成功获得超越市场基准指数的收益表现，基准模型年化收益率27.37%，同期沪深300基准收益率为18.32%，超越市场9.05个百分点，模型最大回撤约为30.3%，夏普率为0.94，波动率为26.38%。

稳定性表现在：模型调整学习率、优化器、损失函数、Batchsize等形成11个对照组之后，仍然能获得较为稳定的收益，对照组指标方差都远远小于1。

同时，本报告采用了3训1测的滚动训练方式来更新迭代模型，以模拟真实的市场交易和模型训练，具体方法为使用前3年的数据进行训练，后1年的数据进行测试，滚动训练回测显示：在2014年1月2日到2021年7月30日整个回测周期内，DeepAlpha-DNN策略的整体收益率高达3859.52%，年化收益率为65.19%，α为0.7081，β为0.4677，收益波动率为32.81%，最大回撤为49.60%，整体夏普率达1.589，做到了8年近40倍。

本报告结论认为：

相较于一般的机器学习策略，以DeepAlpha-DNN为代表的深度学习模型相较于常规的机器学习模型有着显著的优势。能够从最基础的价量因子当中探究到市场最深度的信息。无需繁琐的因子构建，即可自主从市场当中剥离有效的信息，深挖复杂的市场含义。此外，深度学习模型还可以依靠滚动训练来让其自行探究市场风格的变化，进而做出模型调整。相较于人工识别，它更准确、更高效，更能洞悉市场的起伏变动。

1.引言

1.1三年10倍增长国内量化异军突起

据中信证券推算，截至2021年2季度，中国国内市场私募量化总资管规模达到1万亿，相比2017年的1000亿在短短的3年半时间增长10倍，公募量化基金同样增长迅猛，达到2600亿。

与此同时，高流动性、强趋势、全球市场低相关的中国资本市场也在吸引越来越多的海外基金入场，桥水基金、D.E.Shaw、ManGroup、WintonGroup和GAMSystematic等海外量化巨头纷纷布局中国，中国投资机构面临与全球机构同台竞争。（Bloomberg：QuantsAreGettingReadytoPounceonChina’sCommodityBoom2021.4.8）

表 1 2004-2021年海外前十对冲基金风格

2004			2018			2021
公司	AUM	策略分类	公司	AUM	策略分类	公司	AUM	策略分类	更新日期
CaxtonAssociates	115	主观	BridgewaterAssociates	1328	量化	BridgewaterAssociates	1542	量化	2021/5/31
GLGPartners	110	主观	AQR	837	量化	ManGroup	908	量化	2021/3/31
CitiAlternativeInvestments	99	主观	ManGroup	591	量化+主观	TwoSigmaInvestments	600	量化	2020/9/30
FarallonCapitalManagement	99	主观	RenaissanceTechnologies	570	量化	RenaissanceTechnologies	562	量化	2021/5/31
CitadelAdvisors	95	主观为主	TwoSigma	388	量化	MarshallWace	551	量化	2021/4/1
Angelo，Gordon&Co	90	主观	MilleniumMgmt	353	量化	MillenniumManagement	500	量化	2021/4/30
VegaAssetMgmt	85	主观	ElliottManagement	350	主观	TheChildren'sInvestmentFundManagement	485	主观	2020/12/31
AndorCapitalMgmt	83	主观	MarshallWace	348	量化	BlackRockAlternativeInvestors	480	量化	2020/12/31
AorosFundMgmt	83	主观	DavidsonKempnerCapitalMgmt	314	主观	VikingGlobalInvestors	440	主观	2020/12/31
BridgewaterAssociates	81	量化	BaupostGroup	310	主观	ElliottManagement	418	主观	2020/12/31

数据来源：网络综合

1.2市场逐渐过渡至AI算法时代TOP20私募7家布局AI量化

从2018年开始，市场逐渐进入AI算法的时代，不管从因子挖掘、组合管理，还是风险优化等方面，进一步提升了整个量化投资的收益。从2017年Citadel聘请微软人工智能首席经济学家，到2021年阿布扎比投资局建立数据分析及人工智能团队，加拿大养老金计划投资委员会、新加坡GIC、挪威财富基金等主权财富基金都在建立数据分析及人工智能团队（Bloomberg，World’sThird-BiggestWealthFundGrowsQuantTeamWithNewHire2021.6.6）人工智能已经从对冲基金跨越至公募基金、主权财富基金等各类投资主体。

而在国内，幻方量化、天演投资、佳期投资、乾象投资等一系列百亿级千亿级私募机构同样开启了向深度学习的远航（详见表2国内百亿+量化私募及人工智能布局），纷纷招募Facebook、Google等硅谷科技公司工程师组建量化投资团队.

从2016年，BigQuant平台从互联网搜索引擎领域借鉴了PageRank算法进入金融市场，提出StockRanker算法，5年时间，StockRanker算法充分证明了其在金融量化选股领域的有效性。接下来，BigQuant算法组将逐步推出DeepAlpha系列深度模型，从基础量价数据中构建深度学习量化模型，分享AI量化领域实践研究，赋能宽客(QUANT)在AI量化领域基础设施建设及前沿研究，共同迎接AI量化极速发展的资管大时代。

表 2国内百亿+量化私募及人工智能布局

序号	公司简称	成立时间	今年以来收益率(%)	是否涉及人工智能量化（数据来自其官网）	策略
1	鸣石投资	2010/12/9	39.88	是	CTA策略、指数增强、中性策略
2	天演资本	2014/8/5	37.88	是	——
3	世纪前沿资产	2015/8/24	36.08		对冲指数增强
4	金戈量锐	2014/11/12	33.42		对冲指数增强
5	佳期投资	2014/11/28	31.25	是	人工智能量化
6	因诺资产	2014/9/24	30.53		套利、择时、多因子、CTA
7	启林投资	2015/5/28	24.13		对冲、指数增强
8	宁波幻方量化	2016/2/15	20.74	是	——
9	灵均投资	2014/6/30	18.96		中性、多策略、指增
10	九坤投资	2012/4/12	18.22	是	指增、对冲、CTA、多空
11	幻方量化	2015/6/11	18.19	是	——
12	衍复投资	2019/7/25	17.4		中性策略
13	盛泉恒元	2014/7/8	14.82		量化套利、价值投资
14	诚奇资产	2013/9/24	13.48	是	阿尔法
15	进化论资产	2014/6/4	13.06		主观、指增、对冲、多空、FOF
16	明波投资	2014/4/17	12.44		——
17	金锝资产	2011/11/25	11.11		对冲
18	黑翼资产	2014/5/5	9.38		股票对冲（指数增强、中性）
19	千象资产	2014/7/4	5.33		CTA、指数增强、复合、量化选股
20	呈瑞投资	2010/5/31	4.85		宏观对冲、CTA、主动量化、新三板

数据来源：私募排排网2021.9.3策略整理：BigQuant

1.3DeepAlpha深度学习模型解析免除反复冗杂和维灾问题

2021年7月DeepMind公司宣布旗下人工智能系统AlphaFold已经实现对98.5%已知人类蛋白质以及20种模式生物蛋白质的结构预测。深度学习在计算机视觉、自然语言处理、博弈等技术领域业已证明了其有效性，如：而ImageNet在图像识别、Transformer在翻译人类语言，StyleGAN在图片制造方面都表现出了卓越的性能。

庞大的神经网络结构拥有着数以万计的参数，此等参数规模使得常规的调参思路变得难以实施。在现代GPU，梯度下降和反向传播等技术的支持下，让大规模调参成为可能，因此，深度神经网络可以获得深层次的特征，免除人工选取特征的反复冗杂和高维数据的维度灾难问题。

1.4本报告目标：验证DeepAlpha-DNN模型有效性、稳定性

本系列报告旨在从基础量价数据中，借鉴深度学习模型，应用于量化投资（见下图1深度学习量化策略机制示意），模型如全连接深度网络(DNN)、卷积神经网络(CNN)、长短期记忆网络(LSTM)、对抗生成网络(GAN)、ResNet、TabNet，（见下表3机器学习、人工智能分类；表4、器学习深度学习异同及流程）同时报告将引入自然语义识别NLP领域近年热门算法如BERT、Transformer、GPT、XLNet等，尝试构建各类DeepAlpha模型。

第一篇本报告以深度神经网络（DNN）开篇，构建DeepAlpha-DNN模型，并尝试验证其有效性及稳定性。

==其中有效性在于：==深度学习量化模型是否能够获得超越市场宽基指数的收益表现？本性能主要体现在基准模型年化收益率、超越基准收益率、收益波动率、最大回撤及夏普率。

==其中稳定性在于：==模型调整学习率、优化器、损失函数、Batchsize之后是否仍然能获得稳定的收益表现？本性能主要体现在11个对照组收益结果均值、中位数以及方差。

图 1深度学习量化策略机制示意

制图：BigQuant算法组 BigQuant整理编辑更新{w:100}{w:100}{w:100}{w:100}{w:100}

2.基本原理及可行性

2.1DeepAlpha-DNN原理：全连接构建3层以上深度模型

深度神经网络（DNN，DeepNeuralNetwork)模仿了动物神经元的激发模式和链接模式，它基于单个神经元(Perceptron)，以全连接的方式构建层数大于3的深度模型。

神经元构造简单且精巧，神经元构造如图7所示：

图7：动物神经元基础构造{w:100}{w:100}{w:100} DNN构建激活运作方式模拟生物神经元：层与层之间的每个神经元之间都设置一定的权重和偏置并且相连，并且在达到一定条件时将信号传递给下一层的神经元，这一过程被称为正向传播。这样的链接结构能使得信息能最大程度地在层与层之间保留并传递。每个神经元所包含数值的计算公式如下所示：

其中f为激活函数（人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端，详见8.名词字典激活函数），常见激活函数见3：

{w:100}{w:100}{w:100}{w:100}{w:100}

表 5常见激活函数{w:100}{w:100}{w:100}

依靠层与层之间的全链接结构，将多层包含多个神经元的层叠加进而可以构建全连接深度神经网络，即DNN:

图 2全连接深度神经网络示意{w:100}{w:100}{w:100} 2.2DeepAlpha-DNN特点：高灵活、主动识别特征

理论上，如同其他深度神经网络一般，DeepAlpha-DNN拥有极多的参数，并有赖于灵活的激活函数，DeepAlpha-DNN几乎可以拟合任何函数。架构特性使得DeepAlpha-DNN：

==拥有较强的灵活性，能较强地模拟市场变化。==

==能够节省部分因子挖掘的时间。==

==主动识别市场中的特征，并且在隐藏层中进行整合。==

但与此同时，市场中存在大量DeepAlpha-DNN无法识别的信息，这是因为股市本身不仅是价量因子的组合，更是一个基于自身的时序函数（AutoregressiveModel)。因此，本报告同时输入时序信息作为因子，以获得整个市场的趋势变化，提高预测准确度，减轻DeepAlpha-DNN对市场没有记忆的问题，以提高模型识别趋势和预测市场的能力。

3.因子生成

3.1数据：开盘价、最高价等7个基础数据

因子生成方面，本报告参考了《华泰人工智能系列三十二——AlphaNet：因子挖掘神经网络》（下图3：AlphaNet结构）中的因子选择和构建的方式，并在此基础上，提出了一套新的因子生成表达式。

AlphaNet依照基本的价量因子构建特征“图片”，并在其上构建类似CNN的结构来识别并组合价量因子，例如使用相关系数、标准差、时序最大、时序最小、时序求和、加权平均等统计聚合方法。

和《华泰人工智能系列三十二——AlphaNet：因子挖掘神经网络》基本一致，为了保证研究的客观性，本报告没有给出富有Alpha信息的因子，而是直接从量价行情基础数据中去构建。因此，本报告使用了开盘价、最高价、最低价、收盘价、换手率、当日收益率、成交量这7个基础数据，以希望验证深度学习算法的预测能力。

图 3AlphaNet结构{w:100}{w:100} 制图：华泰证券研究所《华泰人工智能系列三十二——AlphaNet：因子挖掘神经网络》

3.2表达式：时序求平均、时序求最大等6个表达式

在DeepAlpha-DNN模型中，本报告使用了时序求平均(mean)、时序求最大(ts_max)、时序求最小(ts_min)、时序标准差(std)、时序排序(ts_rank)、时序加权平均(decay_linear)、时序相关性(correlation)6个表达式。

和上述研报相比，本报告并没有使用计算和，原因在于与基本一致，本质属于时序归一化，与比较相关，这两个表达式无法产生更多具备预测信息含量的衍生因子，因此本报告将其舍弃。

表 6因子表达式、含义及说明

表达式	含义	说明
mean	时序平均	共生成7个衍生因子，例如mean(close_0，5)
ts_max	时序求最大	共生成7个衍生因子，例如ts_max(close_0，5)
ts_min	时序求最小	共生成7个衍生因子，例如ts_min(close_0，5)
std	时序标准差	共生成7个衍生因子，例如std(close_0，5)
ts_rank	时序排序	共生成7个衍生因子，例如ts_rank(close_0，5)
decay_linear	时序加权平均	共生成7个衍生因子，例如decay_linear(close_0，5)
correlation	时序相关性	生成21个个衍生因子，例如correlation(close_0，volume_0，5)
	向前偏移	7*5=35个，例如close_4
衍生因子数		共计98个（7*6+21+35）

在生成好98个因子后，本报告还要对因子进行标准化处理，以加快DeepAlpha-DNN的收敛速度，减轻因为因子值的范围大小不同导致的梯度下降缓慢的问题。

4.基准模型构建

4.1结构：3层神经元梯形3,408,765个总参数

DeepAlpha-DNN模型相邻两层之间所有神经元都有权重链接，由输入层，隐藏层和dropout层构成。本报告选择将神经网络的深度设置为3，包含一个输入层和三个隐藏层。其中输入层的输入大小设置为98，也就是本报告因子的数量。隐藏层1的神经元数量本报告设置为256。隐藏层2的神经元数量本报告设置为128。隐藏层3（输出层）的神经元数量设置为1，以匹配本报告希望预测的标注：收益率。需要特别注意的是： 1、本报告在设置神经元数量时尽量设置为2^n，以加快运算速度。 2、本报告将整个神经网络架构为一个上大下小的梯形，是因为更深的隐藏层需要去过滤出市场更深度的特征信息。但这并非DeepAlpha-DNN的强制要求或规范，有时候每层形状相同的DeepAlpha-DNN甚至会产出更低的损失。 3、本报告选择设置神经网络的隐藏层层数为3，主要基于参数总量原因，3层参数个数如下：（1）权重98256+256128+128*1=57,984个（2）偏离256+128+1=385个，总计58,369个参数；（3）训练集取自2010年1月1日到2017年12月31日的A股日频数据，合计训练样本即每个epoch总计3,408,765个参数。过多的神经网络层数会导致训练速度缓慢，容易产生梯度爆炸或者梯度消失的问题，而过少的层数会导致市场特征无法被有效识别，信息容量不足等问题。本报告将样本参数比大致设置在50：1能保证市场的特征信息至少能被有效过滤组合两次，进而识别市场趋势，也能稳定训练过程，不至于出现过拟合或训练缓慢。

4.2超参与优化器：优化器Adam，激活函数ReLU

关于学习率，优化器和激发函数问题。神经网络迭代优化的原理是按批进行反向传导进而得到梯度的估计值，而后在学习率的控制下指导模型参数的迭代，以期达到最低的损失函数（学习率可以理解为每批朝梯度方向迭代的步长）。在设置优化器时，本报告比之收敛最优解，更关心迭代运算时模型的收敛速度，最终设置为Adam，同时采用其衍生优化器RMSProp、Adam、Adamax，Nadam，主要原因在学习率自适应（见表6：主流优化器特点及自适应情况）：学习率过低会使得收敛速度低下，需增加epoch数量，并且难以跳出局部最优；而学习率过大会使得模型无法收敛，或者持续性地跳出最优解。以上优化器拥有自适应调整学习率的能力，因此本报告无需在学习率上做太多调整。而自适应优化器会随着学习的进展，让学习率将慢慢衰减，使得模型能缓和地得落在最优点上。本报告同时次采用ReLU作为激活函数，主要原因在于降低因子之间的线性相关程度，使得DeepAlpha-DNN能拟合任何一种函数。

表 7主流优化器特点及自适应情况

序号	优化器名称	特点	是否学习率自适应	本模型适用情况
1	AdaGrad	最开始能朝着梯度最陡峭的方向非常快的下滑，而后缓慢，稳定地滑落到损失函数的谷底。但是因为AdaGrad对学习率的消减速度较快，时常出现提前终止无法到底整体最优的情况。	是
2	Momentum	为了应对输入值范围不一致的问题，momentum优化器选择让梯度在持续偏移方向上的下降速度越来越快，因此难以稳定在最优点。
3	RMSProp	通过只累计最近几次迭代的梯度的方法解决了AdaGrad提前终止的问题，引入了一个新的超参β用以指导梯度迭代的记忆。β越高，对之前的梯度的记忆越深，迭代梯度变化越小。	是	√
4	Adam	结合了Momentum和RMSProp的特点，不仅记录衰减平均的历史梯度，也记录衰减平均的历史梯度的平方，这使得Adam能非常迅速地朝最优点趋近，并且他能像Momentum优化器一样在梯度下降中加速下滑，以克服深度学习中在无标准化下输入值的范围大小不一的问题。	是	Adam及其衍生优化器Adamax，Nadam

4.3基准模型：训7测4，优化器Adam超参0.001

本基准模型采用表6进行基准模型设置，并在BigQuant根据本设置采用低代码、拖拉模块的方式完成了基础模型及对照组、滚动训练模型。

表 8基准模型设置

类目	设置概况
训练集时间	2010年1月1日到2017年12月31日
测试集时间	2018年1月1日到2021年8月20日
预测目标	未来5日收益率
数据预处理	特征标准化-标注标准化-去极值3倍
模型	输入层（98）→全链接层（256，relu）→Dropout层(0.1)→全链接层（128，relu）→Dropout(0.1)→全链接层（1，linear)
优化器	Adam(lr=0.001)
batchsize	1024
最大epoch	30
损失函数	MSE
提前终止	5
回测	选股数量 20
权重分配	靠前的股票分配多一点的资金

图 4BigQuant站内根据本模型做出的表达式引擎

https://bigquant.com/experimentshare/f85085f287a44a62a99011669d8fb557

5.模型业绩

5.1对照组：学习率、优化器、损失函数等11个对照组收益结果

1、基于基准模型，本报告在学习率、优化器、损失函数、Batchsize及数据处理方面，设置了5组、11组对照，收益率、回车、波动率及夏普比率结果如表7：

分类	对照组	总收益	年化收益率	最大回撤	夏普比率	收益波动率
基准模型	Baseline模型	133.85%	27.37%	30.3%	0.94	26.38%
学习率对照组	学习率：0.002	88.19%	19.73%	25.18%	0.67	28.55%
学习率：0.003	165.81%	32.1%	26.97%	0.98	30.01%
优化器对照组	RMSprop	126.39%	26.19%	31.47%	0.88	27.55%
	Adamax	143.19%	28.79%	26.18%	0.92	28.67%
	Nadam	91.83%	20.38%	24.54%	0.7	27.91%
损失函数对照组	MAE	59.5%	14.22%	32.84%	0.53	25.4%
	Huber	136.13%	27.72%	21.57%	0.94	26.73%
Batchsize对照组	256	89.23%	19.91%	28.35%	0.7	27.24%
	512	146.89%	29.35%	23.33%	0.98	27.15%
数据处理对照组	无裁剪	80.46%	18.31%	29.21%	0.64	27.99%

数据来源：BigQuant显示收益结果5.2结论：模型收益突出、具有较强有效性、稳定性

总体上看：==模型具有充分的有效性：成功获得超越市场宽基指数的收益表现，基准模型年化收益率27.37%，同期沪深300基准收益率为18.32%，本模型超越市场基准9.05个百分点，模型最大回撤约为30.3%，夏普率为0.94，波动率为26.38%。==

图 5基准模型，基准收益率及相对收益率

{w:100}{w:100}{w:100}{w:100}{w:100}{w:100} 图 6模型对照组收益概况

{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100} ==模型稳定性较强：模型调整学习率、优化器、损失函数、Batchsize之后仍然能获得较为稳定的收益，11个对照组中，各项指标方差都远远小于1。==

表 10模型对照组稳定性概况：

类目	年化收益率	最大回撤	夏普比率	收益波动率
最大值	32.1%【学习率：0.003】	32.84%【MAE】	0.98【MAE、学习率0.003】	30.01%【MAE、学习率0.003】
最小值	14.22%【MAE】	21.57%【Huber】	0.53【MAE】	25.4%【MAE】
中位数	26.19%【RMSprop】	26.97%学习率：0.003	0.88	27.55%
均值	24.01%	27.27%	0.81	27.60%

综上所述，本DeepAlpha-DNN模型及对照组是收益表现十分稳健，具有较强的有效性及稳定性。在充分训练的情况下（epoch=30，patience=5），每一个模型的表现都超过了基准收益。这说明DeepAlpha-DNN模型不仅是一个在某一设定下有着优越效果的策略，模型本身的参数设置也同样有着鲁棒性。

表 11对照组收益统计均值及方差

	年化收益率	最大回撤	夏普比率	收益波动率
最大值	32.1%【学习率：0.003】	32.84%【MAE】	0.98【MAE、学习率0.003】	30.01%【MAE、学习率0.003】
最小值	14.22%【MAE】	21.57%【Huber】	0.53【MAE】	25.4%【MAE】
中位数	26.19%	26.97%	0.88	27.55%
均值	24.01%	27.27%	0.81	27.60%
方差	0.0032325745	0.0012388842	0.0259618182	0.0001552356

5.3特别发现：损失函数MAE对极值敏感性较弱表现垫底

在11个对照组中，报告发现如图表7所示，当模型把损失函数设置为时，收益率较基准模型有着显著下降。相比损失函数，对极值更加不敏感相比较于，MAE更倾向于忽略这样的一些信号，因此更难把握市场中的异动信号。

Huber（详见8.名词词典损失函数）则是混合了MAE和MSE两个损失函数，当残差的绝对值大于δ时，本模型使用L1损失，当残差的绝对值小于δ时，本报告选用L2损失。MSE，Huber(1)的函数表现图9所示：

图 7MSE，Huber函数表现

在本文的**损失测试组中，本报告设定了δ=**1。这样的设置可以让Huber函数对中高程度的异动敏感，但在面对黑天鹅事件时能表现得更缓和，防止模型过度拟合黑天鹅事件。测试的结果也正是如此，Huber函数带来了更低的最大回撤（21.57%）。拥有更稳健的收益表现。

另外还需要注意的是，无裁剪组表现较弱，将特征的裁剪值范围扩大到了5，这样的选择让模型大量拟合了无效的市场异常值表现，从而丧失了一部分对市场正常信息的剖析能力，因此较基准模型有着更低的收益率（年化18.31%）。

图 8: Baseline模型回测收益概况

{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}

图 9: Baseline模型学习率：0.002回测收益概况

{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100} 图 10: Baseline模型学习率：0.003回测收益概况

{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100} 图 11: 优化器对照组RMSprop回测收益概况

{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100} 图 12: 优化器对照组Adamax回测收益概况

{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100} 图 13: 优化器对照组Nadam回测收益概况

{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100} 图 14: 损失函数对照组MAE回测收益概况

{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100} 图 15: 损失函数对照组Huber回测收益概况

{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100} 图 16: Batchsize对照组256回测收益概况

{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100} 图 17: Batchsize对照组512回测收益概况

{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100} 图 18: 数据处理无裁剪对照组

{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}{w:100}

6.滚动训练

6.1模型设计：训3策测1，提高市场适应能力

市场风格不断变换，每个时间阶段具有不同的风格特征，从2017年漂亮50，到2018年白马股回调，到2020年的大盘成长，对于量化投资来说，难以找到任何时间都能战胜市场的模型，因此本模型需要不断地更新，以适应不断变化的市场。

在本DeepAlpha-DNN模型当中，采用了滚动训练的方式来更新迭代，以模拟真实的市场交易，具体采取方式为使用前3年的数据进行训练，后1年的数据进行测试，以滚动训练的方式测试DeepAlpha-DNN模型。

图 19本DeepAlpha-DNN模型滚动训练机制

在2014年1月2日到2021年7月30日整个回测周期内，DeepAlpha-DNN策略的整体收益率高达3859.52%，年化收益率为65.19%，α为0.7081，β为0.4677，收益波动率为32.81%，最大回撤为49.60%，整体夏普率达1.589。整体资金收益曲线如下，做到了8年40倍，年化收益为65.19%

图 20-8年整体资金收益曲线

回测时间	总收益率	最大回撤	基准收益率	年化收益率	夏普率	收益波动率
2014年1月2日-2014年12月31日	124.86%	12.39%	51.66%	130.13%	3.41	24.50%
2015年1月5日-2015年12月31日	318.12%	49.60%	5.58%	338.20%	2.92	54.82%
2016年1月4日-2016年12月30日	90.06%	15.42%	-11.28%	94.10%	2.15	31.78%
2017年1月3日-2017年12月29日	16.82%	23.44%	21.78%	17.41%	0.56	33.32%
2018年1月2日-2018年12月28日	-21.78%	29.74%	-25.31%	-22.49%	-1.07	23.93%
2019年1月2日-2019年12月31日	32.17%	17.26%	36.07%	33.38%	1.13	25.84%
2020年1月2日-2020年12月31日	17.89%	15.64%	27.21%	18.61%	0.63	28.94%
2021年1月4日-2021年7月30日	55.64%	8.38%	-7.68%	121.72%	3.51	22.61%

6.3训练结论：深度学习优于机器学习挖掘朴素量价的深层含义

相较于一般的机器学习策略，DeepAlpha-DNN为代表的深度学习模型相较于常规的机器学习模型有着显著的优势。一般的机器学习模型，如随机森林，支持向量机等，需要投资人随着市场变化主动修改、更新因子。在缺少有效的市场因子时，一般的机器学习模型难以发掘出市场中埋藏的Alpha。这样的特质无疑增加了投资者的负担：投资者需要频繁地进行因子挖掘和测试，并且需要实时探究市场风格变化。

而深度学习神经网络DeepAlpha-DNN模型，能从最基础的价量因子当中探究到市场最深度的信息。无需繁琐的因子构建，深度学习模型将自主从市场当中剥离有效的信息，用最朴素的市场价量信息，深挖最复杂的市场含义。

此外，深度学习模型还可以依靠滚动训练来让其自行探究市场风格的变化，进而做出模型调整。相较于人工识别，它更准确、更高效，更能洞悉市场的起伏变动。自动化的因子识别，更好地适应市场，深度学习必然将成为量化金融世界的新风尚。

7.研究展望

7.1远期时序信息处理

DeepAlpha-DNN模型在设计时并没有考虑对时序上的信息处理和记忆。尽管本报告在输入数据时通过滚动序列输入了近五天的市场信息，但是模型并没有办法获取更远期的时序信息，因此DeepAlpha-DNN模型对市场仅仅只有非常短期的“记忆”。相比之下，循环神经网络（RNN）设计的初衷便是识别并分析时序信息，本系列报告将在RNN的构建中使用LSTM层或者GRU，以保持对市场保持长期记忆的能力。

7.2衍生因子处理

信号输入因子决定了模型的表现上限，在本报告中使用的因子仅局限于基础的价量因子，未使用衍生因子，因此部分市场信息和特征难以被洞察到。可以看到DeepAlpha-DNN模型在进行参数微调时有着甚至更佳的收益率表现，这充分说明了该模型对信息处理的上限还未达到。后期通过输入更有效的因子或者市场信息达到更佳的策略表现或将可期。

7.3后续研究：特征、模型、类型、优化4大方向

接下来，本项目将：

1、探索更多特征，例如技术指标因子、财务因子、舆情因子、高频日内因子等

2、开发更多深度学习模型，包括（CNN卷积神经网络）、TabNet（表格数据的深度学习网络结构）、RNN、LSTM、Transformer、BERT、GAN、GNN等

3、研究更多策略类型，包括指数增强、SmartBeta策略

4、加入个股过滤、组合优化等逻辑

8.名词字典

1、激活函数（Activation Function），就是在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端。激活函数（Activation functions）对于人工神经网络模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。它将非线性特性引入到网络中。引入激活函数是为了增加神经网络模型的非线性。没有激活函数的每层都相当于矩阵相乘。如果不用激活函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合。如果使用的话，激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

9.关于我们

宽邦科技（BigQuant.com)是一家人工智能平台科技公司，成立于2016年，是AI赋能投资场景的领先企业，核心团队主要来自微软亚洲研究院等一线AI企业和金融机构。基于领先的AI技术和深入的领域实践，宽邦科技在AI平台、投资算法、量化引擎、新型投资大数据等技术上持续前沿探索，研发了企业级全栈AI平台BigAI和低门槛、端到端的AI投资平台BigQuant等金融科技基础平台，为投资者和投机构提供投资管理的从数据分析、因子挖掘、策略研究、AI建模、组合构建、回测模拟到实盘交易的全周期AI赋能。宽邦科技已在服务数十万量化投资者和银行、证券、保险、基金等多家头部金融机构。目前，BigQuant是全国最大的AI量化开发平台和社区，入选工信部AIIA中国人工智能TOP100案例。

联系我们：bigq100【微信号】

10.免责声明

市场有风险，投资需谨慎。本报告所载内容和意见仅做人工智能及量化投资交流使用，不构成对任何人的投资建议，亦不构成任何承诺，买卖任何证券、金融工具的要约或要约邀请。本报告不构成对具体证券所在具体价位、具体时点、具体市场表现的判断或投资建议。并不对使用本报告所包含的材料产生的任何直接或间接损失或与此有关的其他损失承担任何责任。本报告提及的任何证券或金融工具均可能含有重大的风险，可能不易变卖以及不适合所有投资者。

本报告所提及的证券或金融工具的价格、价值及收益可能会受汇率影响而波动。过往的业绩并不能代表未来的表现。本报告所载的资料、观点及预测均反映了BigQuant在最初发布该报告日期算法组的判断，可以在不发出通知的情况下做出更改。