研报&论文

华泰人工智能系列之三十五:WGAN应用于金融时间序列生成-华泰证券-20200828

由qxiao创建,最终由qxiao 被浏览 78 用户

摘要

WGAN模型可应用于金融资产时间序列生成,效果优于原始GAN模型

本文探讨GAN模型的一类重要变体——WGAN,并将其运用于金融资产时间序列的生成,发现WGAN在生成数据的真实性和多样性上均优于原始GAN。原始GAN模型具有训练不同步、训练损失函数不收敛和模式崩溃的缺点。WGAN模型使用Wasserstein距离衡量真实分布与生成分布之间的距离,克服了原始GAN模型中JS距离的缺陷。使用GAN和WGAN生成上证综指日频和标普500月频收益率序列,结果表明GAN无法复现出真实序列的长时程相关等特性,WGAN则有显著改善,并且WGAN在多样性上相比于GAN也有一定提升。

W距离克服了JS散度的缺陷,在生成对抗网络中是更合适的距离指标

原始GAN模型的主要缺点是判别器D和生成器G训练不同步、训练损失函数不收敛和模式崩溃。其中训练不同步问题与JS散度的梯度消失现象有关;模式崩溃由KL散度的不对称性导致;损失函数不收敛由GAN本身D和G的博弈导致。W距离避免了JS散度带来的梯度消失现象,故而不用再小心平衡D和G的训练过程。WGAN用判别器近似估计真假分布间的W距离,随着训练的进行,W距离越来越小,即判别器的损失函数收敛,可以辅助指示训练进程。因此相比于JS散度和KL散度,W距离是应用于生成对抗网络里更合适的衡量分布间“距离”的指标。

WGAN生成序列在“真实性”上相比于GAN模型有进一步的提升

数据实证部分围绕WGAN与GAN模型的对比展开,我们选取上证综指日频和标普500月频的对数收益率序列进行生成训练并展示结果。除自相关性、厚尾分布、波动率聚集、杠杆效应、粗细波动率相关、盈亏不对称性这六项指标以外,本文还引入方差比率检验、长时程相关的Hurst指数两项指标验证生成序列的真实性。在上证综指日频序列上,GAN生成序列在Hurst指标上与真实序列仍有差距,WGAN则有显著改善;在标普500月频数据上,GAN生成序列在波动率聚集、粗细波动率相关和盈亏不对称性指标上表现不佳,WGAN也改善明显,更接近真实序列。

WGAN生成序列在不失真的基础上相比于GAN生成序列更加多样

另外我们引入衡量序列相似性的DTW指标,评价生成序列的多样性。在上证综指日频序列上,WGAN生成序列多样性相较于GAN有小幅提升;在标普500月频数据上,WGAN生成序列多样性相较于GAN有明显提升。我们看到的不再是重复的生成序列,而是观察到了更多的市场可能性。

正文

/wiki/static/upload/39/39a9148e-120f-49ca-b3dc-9038666e822b.pdf

\

{link}