机器学习和知识图谱在行业轮动中的应用-海通证券-20200525
由qxiao创建,最终由qxiao 被浏览 71 用户
摘要
我们在行业轮动系列报告中挖掘了几大类的行业因子,这些因子通常都是行业本身的特征或者基于共同外生变量变动的行业预测收益。
今天我们从另一个角度研究行业收益的可预测性:相关行业的滞后收益率
实际上,如果市场完全理性、无摩擦,滞后行业的收益率是不应该有预测效果的。但真实的市场环境下并非如此。
Lasso回归,全称Least absolute shrinkage and selection operator。该方法是一种压缩估计,也被称作线性回归的L1 正则化。相比于普通最小二乘估计,它通过构造一个惩罚函数,在变量众多的时候快速有效地提取出重要变量,简化模型。其目标函数的表达式如下
Post-Lasso方法是指先训练一个Lasso回归,其目的是进行特征选择,保留系数不为零的特征。用这些特征再重新训练一个最小二乘回归。相比于直接才有Lasso估计参数,Post-Lasso估计避免了过度收缩的问题,可以更准确地获得滞后行业收益中的预测信号。
值得注意的是,通常Lasso会与k折交叉验证(k-fold CV)结合,以估计目标函数中的参数lamda。但由于CV K-fold对K折的数量以及选取样本的方式(随机、时间序列等)较为敏感,我们采用相对稳定的AIC法选取参数。
根据Post-Lasso方法,我们选择1-t-1时刻的数据(至少60个月)进行滚动回测,2010/1-2020/3各行业lasso平均选择相关行业数量如下。
Lasso平均选择行业为2.48个,其中电力设备及新能源相关行业数量较多,平均达9.24个
正文
/wiki/static/upload/c4/c443ff0b-2f8e-473d-8f72-9809d7365be3.pdf
\