新闻舆情数据选股能力初探-开源证券-20210709
由small_q创建,最终由small_q 被浏览 90 用户
摘要
因子拥挤导致Alpha衰减,另类数据前景广阔
伴随着量化投资规模的蓬勃壮大,传统策略的同质化日趋严重,因子拥挤(FactorsCrowding)的困境逐渐浮现,最终导致Alpha空间日渐缩窄。另类数据因其孕育的独特Alpha信息,为量化策略的收益提供了新的广袤空间。
通联数据(Datayes)作为国内领先的数据智能金融科技公司,旗下的另类数据库种类丰富,其中新闻舆情数据作为其中另类数据的模块之一,蕴含丰富的股票情感信息。通联的新闻舆情数据,主要是对上市公司的新闻进行情感分数打分(SentimentScore),分数值越高通常意味着新闻对该个股有正面情绪。
通联新闻舆情数据的基本特征:样本总体略正偏,在财报季时新闻频次较多
我们对经初筛后共487万条新闻舆情数据进行描述性统计,总体来看,日均出现新闻舆情数据的个股在1600只左右。因新闻舆情数据来源广泛,媒介较多,较能满足总体上的客观公正,我们对所有样本的新闻舆情分数(SentimentScore)进行频数统计,总体来看新闻舆情分数略偏正向;此外在每年的财报季时,新闻频次较多,尤其是4月叠加上市公司年报和一季报时,新闻频次达到了一年最高。
新闻舆情均值的变化量在中证500选股域上的绩效表现优异
我们根据通联新闻舆情数据,计算过去N天舆情分数平均值的变化量,记为因子(简记为∆𝑀𝑆):∆𝑀𝑆因子的多空收益比在全样本区间内表现良好,尤其在中证500选股域上表现优异:在回看天数=20下,多空收益波动比为2.2,多头相对中证500的年化收益率为4.6%。对∆𝑀𝑆𝑁=𝟐𝟎因子进行三种不同换仓频率下的绩效测试:整体表现:双周频>月频>周频。在双周频上该因子的多空对冲年化收益率为12.00%,因子的年化ICIR为-2.3;月频下,该因子的多空对冲年化收益率11.92%,因子年化ICIR为-2.00。∆𝑀𝑆𝑁=20因子与过去20日涨跌幅的相关性有一定正相关性,相关性接近0.1,与其余常见因子的相关性较弱,对该因子剔除常见10个因子后,剥离得到后的因子在中证500选股域上的表现依然优异:多空收益波动比达2.64,年化ICIR-2.27,多头相对中证500年化收益率4.86%。
正文
/wiki/static/upload/9f/9f5dcfd5-0a1a-4e53-92b6-a8f839de11e0.pdf
\