研报&论文

华泰人工智能系列之三十一: 生成对抗网络GAN初探-华泰证券-20200508

由qxiao创建,最终由qxiao 被浏览 108 用户

摘要

GAN的核心思想是通过学习真实训练数据,生成“以假乱真”的数据

本文关注生成对抗网络GAN及其在量化投资领域的应用。GAN的核心思想是通过学习真实训练数据,生成“以假乱真”的数据。GAN包含判别器D和生成器G两组神经网络,引入博弈的思想,通过交替训练的方式达到纳什均衡。我们训练GAN生成不同市场、不同时间频率的股指收益率和价格序列,并与Bootstrap和GARCH等其它生成虚假数据方法相比较,以波动率聚集、盈亏不对称性等指标评估生成模型优劣。结果表明,GAN生成的数据质量优于其它两种方法。最后我们以双均线择时策略参数选择为案例,展示GAN在检验过拟合上的应用。

GAN交替训练判别器D和生成器G,直到达到纳什均衡状态

GAN最具特色之处在于其训练方式,“以子之矛,攻子之盾”。GAN包含判别器D和生成器G两组神经网络,G的目标是生成尽可能逼真的赝品,D的目标是尽可能将真品和G生成的赝品区分开。GAN引入博弈的思想,采取交替训练方式,两个网络能力同时提升,直到达到纳什均衡状态,此时D“明察秋毫”,而G生成赝品的技艺“巧夺天工”。从数学原理看,GAN的目标是最小化生成数据分布和真实数据分布的JS散度。GAN的优点是生成数据质量更好,学习过程更简单,并且能够与深度学习结合。GAN的缺点是黑箱问题,训练不收敛,G和D训练不同步,以及模式崩溃问题。

测试结果表明GAN相比于其它金融时间序列生成方法具有显著优势

我们采用GAN对上证综指日频序列、沪深300日频序列、标普500日频序列和标普500月频序列进行学习并生成1000条虚假序列,随后采用自相关性、厚尾分布、波动率聚集、杠杆效应、粗细波动率相关、盈亏不对称性共6项评价指标检验生成序列质量,并与对照组Bootstrap和GARCH模型生成的序列进行对比。结果表明,GAN生成序列能够复现出上述6项真实序列具备的特性,而Bootstrap和GARCH仅能复现出部分性质。GAN相比于其它金融时间序列生成方法具有显著优势。

GAN的潜在应用价值包括提供训练样本,检验过拟合和预测未来

GAN在量化投资领域的潜在应用价值包括:提供训练样本,检验量化策略过拟合程度,预测未来。机器学习应用于量化投资始终面临小样本困境,GAN能够生成更丰富的训练样本,一定程度上缓解小样本问题,在量化学术研究领域不乏应用先例。量化策略开发的“痛点”之一是回测过拟合,我们可以将基于真实数据得到的量化策略,放在GAN模拟出的“平行世界”中测试,以检验过拟合程度。GAN的变式如cGAN有可能帮助我们预测未来,但目前研究相对较少。我们以双均线择时策略参数选择为案例,展示GAN在检验过拟合上的应用。

正文

/wiki/static/upload/7e/7ef29095-a344-4ea7-a842-3dbd0326d48e.pdf

\

标签

量化投资
{link}