配对交易在数字货币期货上的研究和实现
由jliang创建,最终由jliang 被浏览 189 用户
概览
- 时间序列和平稳性研究
- 配对交易研究
- 数据货币期货配对交易研究
(持续更新中)
时间序列数据
时间序列数据是单一变量按时间的先后次序产生的数据,是投资研究中最常见的一类数据。
如下为数字货币合约ETHUSDT的分钟行情数据,这是一个典型的时间序列数据
import dai
df = dai.query("""
SELECT close FROM cc_binance_future_um_bar1m
WHERE date BETWEEN '2023-01-01' AND '2023-01-31' AND instrument = 'ETHUSDT'
""").df()
平稳时间序列
平稳性是用来描述时间序列数据统计性态的特有术语。在以时间为序列的数据中,平稳性的特征是其数据特性不会因为观测时间的改变而改变。
假设我们有一组时间序列数据,标记为{Xt},其中t代表了第t个时期,例如(t=1, 2, ...)。我们认为每一个数据Xt都是通过一个可能涉及到随机因素的过程生成的,这样的过程被称为随机过程。如果通过这样的随机过程生成的时间序列数据满足以下条件:
- 其均值E(Xt)等于m,且这个值是一个固定的常数,不会因为时间t的改变而改变;
- 其方差Var(Xt)等于s^2,同样这也是一个固定的常数;
- 它的协方差Cov(Xt, Xt+k)等于gk,与时间t无关,但与时期间隔k有关。
如果某一时间序列满足以上三个条件,那么我们就可以称该时间序列为弱平稳。由此生成这样的时间序列的随机过程则被称为平稳随机过程。
以白噪声过程为例,它是一个典型的平稳过程。因为在白噪声中,数据的均值是固定的常数零,方差同样是一个常数s^2,而所有时间间隔的协方差都是零。
另一方面,随机游走过程则是一个非平稳过程。例如在随机游走中,时间序列可以表达为Xt=Xt-1+ut,其中ut~IIN(0, s^2),尽管其均值是固定的常数,但是其方差Var(Xt)=ts^2不是一个常数。
然而,通过对随机游走过程进行一阶差分(即求得DXt = Xt - Xt-1,其中ut~IIN(0, s^2)),我们可以将其变为平稳过程。
在实际应用中,经济系统中的时间序列通常都是非平稳的。但是,我们可以通过上述的差分变换方法来将非平稳序列转化为平稳序列,以方便我们进一步的统计分析。
平稳性检验
ADF检验是用于时间序列数据平稳性常用的严格的统计检验方法,也叫做单位根检验。ADF检验全称是 Augmented Dickey-Fuller test,是 Dickey-Fuller检验的增广形式。DF检验只能应用于一阶情况,当序列存在高阶的滞后相关时,可以使用ADF检验。
ADF检验就是判断序列是否存在单位根:如果序列平稳,就不存在单位根;否则,就会存在单位根。ADF检验的 H0 假设就是存在单位根(非平稳),如果得到的显著性检验统计量小于三个置信度(10%,5%,1%),则对应有(90%,95,99%)的把握来拒绝原假设。
如下使用python和statsmodels的adfuller来检验ETHUSDT分钟行情是否平稳:
import pandas as pd
from statsmodels.tsa.stattools import adfuller
# 读取数据
import dai
df = dai.query("""
SELECT close FROM cc_binance_future_um_bar1m
WHERE date BETWEEN '2023-01-01' AND '2023-01-05' AND instrument = 'ETHUSDT'
""").df()
# 使用ADF检验
result = adfuller(df['close'].tolist())
print(result)
# 输出ADF检验的结果
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])
print('Critical Values:')
for key, value in result[4].items():
print('\t%s: %.3f' % (key, value))
结果解读:
- ADF结果 -0.14336515686583282,大于 1%、5%、10%三个level的统计值,说明在三个level上都是不平稳的
- p-value为0.9449442082906334,明显不接近0,说明不平稳
差分时间序列
一般情况下我们可以通过差分变换方法来将非平稳序列转化为平稳序列,如下我们在QuantChat辅助下生成代码,实现差分变换和平稳性检验
import pandas as pd
from statsmodels.tsa.stattools import adfuller
# 读取数据
import dai
df = dai.query("""
SELECT close FROM cc_binance_future_um_bar1m
WHERE date BETWEEN '2023-01-01' AND '2023-01-05' AND instrument = 'ETHUSDT'
""").df()
# 使用ADF检验,diff 一阶差分
result = adfuller(df['close'].diff().dropna().tolist())
print(result)
# 输出ADF检验的结果
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])
print('Critical Values:')
for key, value in result[4].items():
print('\t%s: %.3f' % (key, value))
这个ADF检验的结果表示:
- ADF Statistic(ADF检验统计量): -46.79928011517576,该值小于所有的Critical Values(临界值),因此我们可以拒绝原假设,即我们认为该时间序列在差分后是平稳的。
- p-value(p值): 0.0,通常来说,如果p值小于0.05,我们就拒绝原假设,即我们认为该时间序列在差分后是平稳的。这里的p值为0,所以拒绝原假设。
- 临界值(Critical Values): 对于不同的置信水平,有不同的临界值。在这个结果中,1%、5%、10%的临界值分别为-3.431486393634081, -2.862042177637761, -2.5670373072655446。
所以,根据这个ADF检验的结果,我们可以认为这个时间序列在进行一阶差分后是平稳的。