华泰人工智能系列之三十:从关联到逻辑,因果推断初探-华泰证券-20200424
由qxiao创建,最终由qxiao 被浏览 90 用户
摘要
本文介绍了因果推断的框架,并研究了股票所属概念和收益的因果关系
人工智能领域中,机器学习的优势在于强大的关联挖掘能力,然而由于缺乏逻辑推理能力,机器学习无法区分数据中的因果关联和虚假关联。因果推断是用于解释分析的建模工具,可帮助恢复数据中的因果关联,有望实现可解释的稳定预测。本文介绍了基于倾向性评分法的因果推断框架,归纳了三个关键步骤,并分别在Lalonde数据集和A股概念数据中进行因果效应估计。结果显示,2016年以来在中证800成分股中,基金重仓(季调)概念与股票未来一个月收益有正向因果关系,股票质押概念与股票未来一个月收益有反向因果关系,预增和护城河概念与股票收益的因果效应存疑。
机器学习本质是曲线拟合,可借助因果推断构建稳健、有推理能力的AI
现有的大部分机器学习模型是关联驱动的,本质上是曲线拟合。关联主要有三个来源:因果关联,选择性偏差和混杂偏倚。其中选择性偏差和混杂偏倚产生的关联是不稳定的。因果推断可以帮助恢复数据中的因果关联,用于指导机器学习,实现可解释的稳定预测。对于金融市场来说,一方面市场环境持续变化的特性导致多种可观测因素的有效性都随之而变;另一方面,资产管理人对策略内部的因果逻辑和可解释性都有较高要求。这些现状都说明在将机器学习方法运用于金融市场的策略构建时,融入因果推断的方法是一个值得尝试的方向。
本文介绍了基于倾向性评分法的因果推断框架
因果推断的基本思想是在处理组和对照组间进行对照实验以估计因果效应。在观测数据中,将处理组与对照组之间分布不一样且会对结果造成影响的特征称为混淆变量,因果效应评估的关键是如何保证混淆变量在处理组与对照组的分布一致。倾向性评分法将多个混淆变量的影响用一个综合的倾向性评分来表示,降低了混淆变量的维度,使得控制混淆变量成为可能。本文归纳了倾向性评分法的三个步骤:(1)计算倾向性评分并估计因果效应;(2)评估各倾向性评分方法的均衡性;(3)通过反驳评估所估计的因果效应是否可靠
基于倾向性评分法,本文研究股票所属概念和收益的因果关系
本文首先在经典的Lalonde数据集上进行因果效应估计。然后基于倾向性评分法,研究了中证800成分股中股票所属的四个概念和股票未来一个月收益的因果关系,我们选取的混淆变量为股票的基本面和量价因子暴露,考察区间为2016年1月到2020年3月。通过倾向性评分法的分析,我们认为基金重仓(季调)概念与股票收益有正向因果关系,股票质押概念与股票收益有反向因果关系,预增和护城河概念与股票收益的因果效应存疑。另外,倾向性评分加权法(PSW)在均衡性测试和反驳测试中表现都最好,可以认为其估计的因果效应较为可靠。
正文
/wiki/static/upload/7b/7bf2ffdb-0c9f-4616-977d-ecfff59b1b23.pdf
\