华泰人工智能系列三十三:数据模式探索-无监督学习案例-华泰证券-20200702
由qxiao创建,最终由qxiao 被浏览 101 用户
摘要
无监督学习对于研究资产的内在模式以及改进现有的模型具有积极意义
机器学习模型中,无监督学习是指在无标记数据中学习内在规律的模型训练方式。不同于监督学习,无监督学习难以对金融资产未来表现做出预测,但对于研究资产的内在模式以及改进现有的模型具有积极意义。按照sklearn的分类,无监督学习可以分为以下三个领域:1.流形学习,2.聚类,3.矩阵分解。对于流形学习和聚类,本文以实例的方式介绍了它们在投资中的应用。对于矩阵分解,本文则从一篇前沿的学术论文出发,探讨了其在因子投资中的应用。
流形学习应用:基金收益率降维和可视化,观察基金产品分布情况
流形学习通过非线性降维的手段将复杂的高维数据映射到低维,高维空间中特征相似的样本,在低维空间中会呈现聚集效果,这对于可视化数据内部结构很有帮助。本文首先测试了各种流形学习算法对于sklearn手写数字数据集的降维效果,发现t-SNE算法表现最好。进一步地,我们使用t-SNE算法进行基金收益率降维和可视化,在t-SNE所得到的二维平面中,收益率相近的基金出现了聚集现象,可以帮助我们更直观地观察基金市场的产品分布情况。
聚类应用:对具有相似概念的股票进行聚类
聚类通过给定样本的特征或相似度来挖掘样本之间的内在联系。本文首先对比了常用的聚类算法和聚类的评价指标,再使用K-Means、层次聚类和谱聚类将股票按照所属产业概念进行聚类。结果显示,K-Means和层次聚类的表现接近,都优于谱聚类,我们展示了层次聚类的详细结果,聚类簇中的概念具有高度相似性,说明层次聚类将具有相似概念的股票聚到了一起。
矩阵分解应用:借助PCA准确估计因子溢价
矩阵分解将矩阵拆解为数个矩阵的乘积从而提取矩阵内部隐含的信息,代表算法有PCA、NMF等。本文从一篇前沿的学术论文“Asset Pricing with Omitted Factors”出发,介绍了借助PCA准确估计因子溢价的案例。对于不可交易的宏观因子,其因子溢价的估计结果会受到遗漏控制变量的影响,论文提出了“三步法”来准确估计因子溢价:1.使用PCA提取资产收益率矩阵的主成分;2.使用截面回归估计PCA主成分的因子溢价;3.使用时序回归得到待估计因子的因子溢价。相比传统因子溢价估计方法,“三步法”能更准确地估计因子溢价。
正文
/wiki/static/upload/31/31eca5ad-4b1d-48dc-be78-7b44f9a8f14d.pdf
\