无监督学习的方法介绍及金融领域应用实例-长江证券-20171127
由qxiao创建,最终由qxiao 被浏览 205 用户
摘要
无监督学习方法简介
本篇报告将进行无监督学习方法的介绍。无监督学习方法包括分布估计、因子分析、主成分分析、聚类分析、关联规则和Google PageRank算法等,本文主要就常用方法分成两类:聚类和降维进行介绍
降维方法的应用
实践中,将降维思想运用得炉火纯青的是Barra风险模型。个股和个券都有几十、上百个指标可以辅助分析其收益风险特征,通过降维的方式,Barra提取出若干具有代表性的风险因子,找出了资产背后共同驱动因素,使用这些风险因子即可方便的进行绩效归因、组合风险控制等。降维的具体方法包括因子分析和主成分分析等。本文通过因子分析和主成分分析两种方法,结合常见的股票基本面、财务数据、技术指标等,构建选股策略。与基准相比,策略都能获取一定的超额收益,说明了通过降维提取主要特征能够起到一定的提纯和增强作用。
聚类方法的应用
聚类分析方法基于相似性概念将数据集再划分,形成较小的组,追求组别间差异尽量大而组内的差异尽量小。根据样本数据特征和预期达到的效果,聚类可选择的方式非常多。本文详细介绍了K-Means聚类分析的原理,并且对于几种常见的聚类分析算法:沃德层次聚类、综合层次聚类算法、聚集聚类算法、基于密度的聚类算法、AP聚类算法、谱聚类算法、小批量法等也一一进行简介。在具体应用上,聚类分析可以用做选股前的预处理,通过重要特征将个股分类之后在每个类别中分别进行选股,效果会优于在全样本内选股。此外,聚类分析的可视化也是重要的应用方式之一,通过热图或最小生成树的方式可以直观的描述资产间的相关性,帮助实现投资组合的风险分
无监督学习方法的总结
无监督学习相较于上篇的监督学习算法更偏向于数据分析和特征提取,在机器学习中属于算法比较简单基础的类型,因此很多时候容易被忽略,但是不得不强调监督学习及我们系列的下篇将会介绍的深度学习算法如若想要达到较好的效果都离不开对于原始数据分析和处理工作,提升算法的复杂度对于效果的边际提升效应会受到使用的数据本身的局
正文
/wiki/static/upload/ae/ae1dd0a9-537d-4321-a2b3-5a0344ca9724.pdf
\