华泰人工智能系列之四十一:_基于BERT的分析师研报情感因子
由kyrie_fu创建,最终由kyrie_fu 被浏览 100 用户
摘要
本文基于BERT模型构建分析师研报情感因子,因子在最近两年表现优秀
分析师研报对上市公司进行了多层面的研究分析,除了一些已经结构化的分析师因子,研报文字中对于上市公司发表的各种观点和判断也具有很大的挖掘价值。BERT是目前最先进的自然语言处理(NLP)模型,本文梳理了基于BERT的分析师研报因子的构建流程,并构建了研报情感因子senti及其调整因子senti_adj。在因子测试中,senti表现较好,而senti_adj更能体现研报情感因子的增量信息。最后,我们构建了研报情感因子TOP80组合,组合的绝对收益表现优秀,在2019年和2020年分别获得了51.61%和69.69%的绝对收益
本文梳理了基于BERT的分析师研报情感因子的构建流程
基于BERT的分析师研报情感因子的构建流程为:(1) 下载预训练好的中文BERT模型。(2) 使用Wind有情感标注的金融舆情文本微调模型。(3) 将微调后的模型在无标注的分析师研报摘要上预测情感。(4) 通过摘要文本的情感分析结果构建选股因子。本文使用NLP模型可解释性工具LIT对研报情感分析的结果进行解读,可知BERT模型对于给定研报摘要的情感分析都是比较合理的,做出了与人类相似的判断
本文构建了研报情感因子senti及其调整因子senti_adj
得到研报摘要中每个句子的情感预测概率后,我们在90个自然日的滚动窗口内,使用线性衰减加权的方式构建研报情感因子senti。考虑到分析师对上市公司的正面评价居多,我们给予负面情感文本更大权重,构建了调整因子senti_adj。为了对比研报情感因子和传统分析师因子,我们用类似的方法构建了研报评分因子report_score和研报数量因子report_num。senti和report_score及report_num的相关性都较高,而senti_adj和其他因子的相关性都较低。在2020年12月底,食品饮料、电子、通信行业的研报情感因子取值较高,说明这些行业的研报正面情感较突出
因子测试:senti表现较好,senti_adj更能体现研报情感因子的增量信息
本文测试了senti和senti_adj因子及它们对report_score和report_num中性化后残差因子sent_res和senti_adj_res的表现。总体来看,senti在各个股票池内表现最好,但其残差因子senti_res表现最差,说明其大部分信息可被report_score和report_num因子所解释。而senti_adj及其残差因子senti_adj_res的表现相差不大,说明senti_adj因子更能体现出研报情感因子相比report_score和report_num因子的增量信息。senti_adj因子在沪深300、中证500、全A股的多头年化超额收益率分别为5.40%,6.26%,4.39%(回测区间:20100504~20201231),在最近两年表现优秀
绝对收益组合:基于研报情感因子的TOP80选股组合表现优秀
本文基于senti因子,构建TOP80组合并回测,构建方法如下:(1)样本空间:中证800成分股。(2)回测区间:2011年1月31日至2020年12月31日。(3)月频调仓,每个月最后一个交易日选择senti因子取值最高的前100只股票,按照流通市值加权的方法,在下一交易日按收盘价调仓,交易成本为双边千分之四。研报情感因子TOP80组合年化收益率为14.90%,组合在2019年和2020年表现优秀,分别获得了51.61%和69.69%的绝对收益。风险提示:分析师研报情感因子的测试结果是历史表现的总结,存在失效的可能。本文假设金融新闻与分析师研报具有相似的语义结构,该假设是否完全成立本文尚未讨论。模型可解释性工具LIT可能存在过度简化的风险
正文
/wiki/static/upload/e5/e5691eed-29fc-4ff7-91d5-fb8fe25f6c6a.pdf
\