时间:2020 年 07 月 30 日
分析师:冯佳睿 袁林青 姚石 罗蕾 余浩淼
高频行情数据蕴含丰富的信息,但市场上少有对此类数据的特征及如何应用的详细介绍。本文从高频行情数据的组成和结构出发,系统整理了十几个既有经济学逻辑, 又表现良好的因子,并通过多因子指数增强模型展现其实践价值。
Level2 行情数据概况
Level2 行情数据是目前国内证券市场上对于交易信息包含最为完整,颗粒度最为精细的行情数据产品。主要有 4 种形式:分钟 K 线、盘 口快照、委托队列、成交明细。Level2 行情数据已覆盖在沪深两市上市的股票、 可交易型基金、沪深交易所指数等大量品
更新时间:2023-06-01 14:28
量价组合构建高频因子往往可以带来信息增量
量价组合构建因子构建过程相对复杂,和传统量价风格因子和高阶矩因子均有一定相关性,但相关性不高,往往可以带来新的信息增量。本文给出两种量价组合构建因子的案例,其中以价格轨迹变动改进的非流动性因子在剥离了规模因子的线性影响后,全A股范围内超额收益9.70%,信息比1.55,多空收益38.19%,多空夏普比2.90。以主动买卖单构建的博弈因子,在全A股范围内超额收益4.47%,信息比0.77,多空收益26.67%,多空夏普比2.10。
高频因子刻画交易行为,获得经验收益
高频因子的局限可以从三个维度给出刻画:从因子信息上看
更新时间:2023-06-01 14:28
本文基于盘口挂单数据构建流动性溢价因子以盘口的买单数据为撮合交易的基础,以插值的方式增加虚拟订单,每日得到一定交易金额下模拟交易的市值和按照均价交易的市值,取过去21天市值的总和,两者之间的相对差距即为流动性溢价因子。
流动性溢价因子可以更快地反映市场变化流动性溢价因子和传统的流动性因子呈负相关,不同参数下的因子截面相关性均值在50%到70%之间,其半衰期为72天,在前30天信息衰减速度最快,累积IC在60天基本达到最大值。不同参数下的因子IC均值在7%左右,IC_IR在0.5附近。
流动性溢价因子是一个相对有效的因子流动性溢价因子可以较为稳定地获得选股超额收益,在剥离市值因
更新时间:2023-06-01 14:28
随着定价模型的深入研究,因子的覆盖范围也不断拓宽。技术引领金融数据不断创新,市场的有效性逐渐增强,承载着更多信息的高频数据因子应运而生。在金融市场中,由于交易的连续性,信息对股票价格的影响是连续的,数据采集的频率越高,更能全面真实地刻画市场微观结构。本文从市场微观结构出发,构造了有别于低频因子的有效选股因子——集合竞价成交量占比
集合竞价阶段是反映投资者行为信息的重要时点。我国股票的日内交易分为集合竞价阶段和连续竞价阶段,累计交易时长4小时。开盘和收盘是一天中股市交易的最重要的阶段,开盘集合竞价阶段是隔夜信息释放的第一时点,而收盘集合竞价阶段则是日内交易信息反映的最后时点。集合
更新时间:2023-06-01 14:28
更新时间:2023-06-01 14:28
本文利用高频的逻辑挖掘出盘口数据中有价值的信息,并将其处理得到两大类共14个高频因子,最后降为月频的低频因子,在单因子回测中取得优秀的选股效果。其中MPC5_neut因子IC均值-7.62%,年化IR为-3.09,年化多空收益达到30.63%,夏普比率高达2.88,总体选股效果是所有因子里最好的
/wiki/static/upload/e3/e3da5e00-55b2-42ab-96b3-f4b72c3bbfa6.pdf
\
更新时间:2023-06-01 14:28
本文基于盘口挂单数据构建流动性溢价因子以盘口的买单数据为撮合交易的基础,以插值的方式增加虚拟订单,每日得到一定交易金额下模拟交易的市值和按照均价交易的市值,取过去21天市值的总和,两者之间的相对差距即为流动性溢价因子。
流动性溢价因子可以更快地反映市场变化流动性溢价因子和传统的流动性因子呈负相关,不同参数下的因子截面相关性均值在50%到70%之间,其半衰期为72天,在前30天信息衰减速度最快,累积IC在60天基本达到最大值。不同参数下的因子IC均值在7%左右,IC_IR在0.5附近。
流动性溢价因子是一个相对有效的因子流动性溢价因子可以较为稳定地获得选股超额收益,在剥离市值因
更新时间:2023-06-01 14:28
高频因子
高频选股因子与低频因子具有较大的差异。以月、季为持仓周期的低频选股因子主要来自于财务指标,其从盈利、成长、估值等维度综合评估上市公司;而以日为持仓周期的高频因子主要从股票量价信息中衍生而得。高频因子挖掘与低频因子相比更显复杂和神秘。相比于低频基本面因子的挖掘由主动管理的投资逻辑所驱动,高频因子的挖掘更倾向于由数据所驱动。而股票交易产生的量价数据频率远高于财务信息,通过遍历量价衍生指标以筛选因子并非易事。
遗传编程
遗传编程通过模拟“物竞天择,适者生存”的进化思想,基于个体对于环境适应度,通过“自然选择”和“基因变异”方式从父代中迭代生成新的子代种群
更新时间:2023-06-01 14:28
本文主要对可以利用高频因子空头效应的方法进行梳理总结。
对于沪深300增强策略而言,有一些空头效应强、多头效应弱的高频因子,若直接以新因子的形式引入收益率预测模型,会对模型多头部分的排序造成负向扰动,从而对指数增强策略产生不利影响。同时由于空头效应强,直接摒弃因子较为可惜,在这种情况下,我们可以尝试仅引入高频因子的空头信息,以减小对模型多头造成的不利影响。
本文从构建增强策略的各个环节出发,梳理了4种可以引入高频因子空头效应的方法:事前剔除、构建示性变量因子、约束空头组合偏离、事后剔除。这4种方法都是以因子空头组合为基础;即在
更新时间:2023-06-01 14:28
在系列前期报告中(《选股因子系列研究(十九)——高频因子之股票收益分布特征》),我们基于股票高频收益分布特征对于相关因子的选股效果进行了回测。研究发现,股票高频偏度具有较好的选股效果,但是高频方差以及高频峰度并无显著的选股能力。
考虑到股票日收益的波动率同样选股效果不佳,但将其拆分为系统波动以及特质波动后,两个因子皆具有较好的选股效果。本报告尝试对于股票高频波动率进行拆分,并期望从高频波动中提取出有效的选股因子。
在1分钟的数据频率下,高频特质波动率因子表现较差,并无明显的选股能力。
更新时间:2023-06-01 14:28
随着传统因子研究的深入,通过使用日级别数据已经很难发现能够在传统技术选股因子之外提供额外选股能力的因子了。考虑到传统因子多使用日级别数据刻画股票日间的形态特征,通过引入日内高频数据刻画股票日内的特征也许能够为模型带来新的信息以及Alpha。这一观点也在本系列前一篇研究(《选股因子系列研究十八——价格形态因子》)中有所印证
本报告主要使用了股票1分钟价格数据构建了相关因子,对于股票高频收益分布特征(方差、偏度以及峰度)进行了刻画。报告主要分为三部分,第一部分讨论了因子的构建以及计算方式。第二部分从单因子的角度对于因子的选股能力进行了分析。第三部分对比分析了加入高频因子的改进模型以
更新时间:2023-06-01 14:28
高频行情数据蕴含丰富的信息,但市场上少有对此类数据的特征及如何应用的详细介绍。本文从高频行情数据的组成和结构出发,系统整理了十几个既有经济学逻辑,又表现良好的因子,并通过多因子指数增强模型展现其实践价值。
Level2行情数据概况。Level2行情数据是目前国内证券市场上对于交易信息包含最为完整,颗粒度最为精细的行情数据产品。主要有4种形式:分钟K线、盘口快照、委托队列、成交明细。Level2行情数据已覆盖在沪深两市上市的股票、可交易型基金、沪深交易所指数等大量品种,还在积极扩展纳入ETF期权等沪深交易所上市的衍生品,基本可以满足对A股市场的研究、投资和交易需求。
基于分钟成
更新时间:2023-06-01 14:28
高频因子易出现多头失效现象。与常用9因子(市值、估值、非线性市值、换手率、特质波动率、非流动性、反转、ROE、ROE同比变化)正交后的高频因子,一般都有较高的IC与较大的因子多空收益。然而,当它们被加入选股模型后,却往往无法提升组合的收益表现。这种现象来自于高频因子多头端的失效,即,多头端的因子值和未来收益率的相关性和整体不同。
在计算IC时对不同组别赋予差异化权重,可以更好地评价和筛选因子。例如,赋予多头端更高的权重,重构IC。这样一来,多头端更加有效的因子,IC会升高,方便投资者重新审视因子的有效性。
加入高频因子的高次多项式能较好地刻画因子暴露和预期收益率非线性相关的特
更新时间:2023-06-01 14:28
分钟单笔成交金额的分布包含更加细化的选股信息,从单笔成交金额的分组统计结果来看,其信息分布并不是均匀的,我们基于这一现象捕捉Alpha,构造了一系列统计指标因子,如分位数、标准差、偏度和峰度。以分位数因子为例:
更新时间:2023-06-01 14:28
在系列前期报告中,我们从不同角度探寻了分钟成交数据、TICK盘口委托数据以及逐笔数据中所包含的选股能力。研究结果表明,高频数据中包含着较为显著的选股能力。即使在剔除了常规低频因子的影响后,高频因子依旧具有显著的选股能力。考虑到系列前期报告在研究构建高频因子时,大多仅使用某一类高频数据进行因子构建,并未将相关数据搭配使用。本文从逻辑以及机器学习两个角度出发,尝试将不同类别的高频数据混合使用并构建低频选股因子。
买入意愿与主动买入的结合。总结前期研究成果可知,委托挂单数据中包含了投资者还未释放的交易意愿,而逐笔成交数据中包含了投资者已进行的交易行为。两者的结合能够更加全面地刻画投资
更新时间:2023-06-01 14:28
更新时间:2023-06-01 14:28
更新时间:2023-05-31 07:19
如下指标:
mf_net_amount_ 第前 * 个交易日净主动买入额,= 买入金额 - 卖出金额 (包括超大单、大单、中单或小单)
建议:
既然能计算全部的净主动买入额,建议提供 超大单,大单的净主动买入额指标
更新时间:2022-12-20 14:20
高频数据大规模计算场景是未来量化多因子选股的发展趋势。日频因子竞争日益激烈,领先的公募和私募基金已经将重心转移至tick\逐笔数据的研究上,因此本文帮助研究人员灵活使用BigQuant平台做自定义高频因子构建,更好地基于数十T规模tick数据做因子研究和策略开发。
本文介绍如何从日内高频数据中加工因子,并进行因子分析和策略构建。示意图如下:
在《选股因子系列研究(四十六)———日内分时成交中的玄机》研报中,
更新时间:2022-11-03 08:34
更新时间:2022-11-03 08:34
在系列专题报告《选股因子系列研究(五十六)——买卖单数据中的Alpha》、《选股因子系列研究(五十七)——基于主动买入行为的选股因子》、《选股因子系列研究(五十八)——知情交易与主买主卖》中,我们从不同的角度对于逐笔成交数据中的信息进行了挖掘,并得到了一些具有显著选股能力的因子。本文旨在对于筛选得到的有效因子进行梳理。逐笔因子在正交后具有显著的全市场月度选股能力。因子月均IC在0.03~0.04之间。正交后的各逐笔因子皆呈现出了较强的稳定性。除了买单集中度之外,其余因子年化ICIR皆超过2.0。
指数范围会对因子选股能力产生影响。在中证800指数内,大买成交金额占比、盘中主
更新时间:2022-09-01 13:34
更新时间:2022-03-24 12:56
本文主要对剔除高频因子空头组合后的中证500指数增强策略进行回测分析。
剔除高频因子空头组合主要有两种思路,事前剔除与事后剔除。若有多个空头效应强的高频因子,则可以以因子复合或组合复合的方式,构建高频多因子空头组合,以同时利用这些因子的空头信息。
事后剔除的模型稳健性优于事前剔除。无论是采用因子复合还是组合复合方法构建高频多因子空头组合,事后剔除得到的中证500指数增强策略,有效的空头阈值范围都更大。也就是,以参数敏感性反映的模型稳健性来看,事后剔除优于事前剔除。
组合复合剔除对中证500指数增强策略超额收益的提升幅度优于因子复合剔除。无论是事前剔除还是事后剔除,在5%的空
更新时间:2021-11-26 09:02
在系列前期报告中(《选股因子系列研究(十九)——高频因子之股票收益分布特征》),我们基于股票高频收益分布特征对于相关因子的选股效果进行了回测。
研究发现,股票高频偏度具有较好的选股效果,但是高频方差以及高频峰度并无显著的选股能力。考虑到股票日收益的波动率同样选股效果不佳,但将其拆分为系统波动以及特质波动后,两个因子皆具有较好的选股效果。本报告尝试对于股票高频波动率进行拆分,并期望从高频波动中提取出有效的选股因子。
“系统波动+特质波动”的拆分方式在高频维度上无法得到具有优秀选股效果的因子。在1分钟的数据频率下,高频特质波动率因子表现较差,并无明显的选股能力。随着数据间隔的增大,该因子的Ra
更新时间:2021-11-22 08:33
随着传统因子研究的深入,通过使用日级别数据已经很难发现能够在传统技术选股因子之外提供额外选股能力的因子了。考虑到传统因子多使用日级别数据刻画股票日间的形态特征,通过引入日内高频数据刻画股票日内的特征也许能够为模型带来新的信息以及Alpha。
这一观点也在本系列前一篇研究(《选股因子系列研究十八——价格形态因子》)中有所印证。本报告主要使用了股票1分钟价格数据构建了相关因子,对于股票高频收益分布特征(方差、偏度以及峰度)进行了刻画。
报告主要分为三部分,第一部分讨论了因子的构建以及计算方式。第二部分从单因子的角度对于因子的选股能力进行了分析。第三部分对比分析了加入高频因子的改进模型以及未加入
更新时间:2021-11-22 08:33