华泰人工智能系列之三十五：WGAN应用于金融时间序列生成-华泰证券-20200828

由qxiao创建，最终由qxiao更新于2021-11-26 07:32 被浏览 81 用户

摘要

WGAN模型可应用于金融资产时间序列生成，效果优于原始GAN模型

本文探讨GAN模型的一类重要变体——WGAN，并将其运用于金融资产时间序列的生成，发现WGAN在生成数据的真实性和多样性上均优于原始GAN。原始GAN模型具有训练不同步、训练损失函数不收敛和模式崩溃的缺点。WGAN模型使用Wasserstein距离衡量真实分布与生成分布之间的距离，克服了原始GAN模型中JS距离的缺陷。使用GAN和WGAN生成上证综指日频和标普500月频收益率序列，结果表明GAN无法复现出真实序列的长时程相关等特性，WGAN则有显著改善，并且WGAN在多样性上相比于GAN也有一定提升。

W距离克服了JS散度的缺陷，在生成对抗网络中是更合适的距离指标

原始GAN模型的主要缺点是判别器D和生成器G训练不同步、训练损失函数不收敛和模式崩溃。其中训练不同步问题与JS散度的梯度消失现象有关；模式崩溃由KL散度的不对称性导致；损失函数不收敛由GAN本身D和G的博弈导致。W距离避免了JS散度带来的梯度消失现象，故而不用再小心平衡D和G的训练过程。WGAN用判别器近似估计真假分布间的W距离，随着训练的进行，W距离越来越小，即判别器的损失函数收敛，可以辅助指示训练进程。因此相比于JS散度和KL散度，W距离是应用于生成对抗网络里更合适的衡量分布间“距离”的指标。

WGAN生成序列在“真实性”上相比于GAN模型有进一步的提升

数据实证部分围绕WGAN与GAN模型的对比展开，我们选取上证综指日频和标普500月频的对数收益率序列进行生成训练并展示结果。除自相关性、厚尾分布、波动率聚集、杠杆效应、粗细波动率相关、盈亏不对称性这六项指标以外，本文还引入方差比率检验、长时程相关的Hurst指数两项指标验证生成序列的真实性。在上证综指日频序列上，GAN生成序列在Hurst指标上与真实序列仍有差距，WGAN则有显著改善；在标普500月频数据上，GAN生成序列在波动率聚集、粗细波动率相关和盈亏不对称性指标上表现不佳，WGAN也改善明显，更接近真实序列。

WGAN生成序列在不失真的基础上相比于GAN生成序列更加多样

另外我们引入衡量序列相似性的DTW指标，评价生成序列的多样性。在上证综指日频序列上，WGAN生成序列多样性相较于GAN有小幅提升；在标普500月频数据上，WGAN生成序列多样性相较于GAN有明显提升。我们看到的不再是重复的生成序列，而是观察到了更多的市场可能性。

正文

/wiki/static/upload/39/39a9148e-120f-49ca-b3dc-9038666e822b.pdf