【华泰金工】人工智能59:强化学习初探与DQN择时
由kaemp创建,最终由kaemp 被浏览 103 用户
摘 要
人工智能系列之59:强化学习初探与DQN择时
本文介绍强化学习基础概念和经典算法,并构建股指日频择时策略。有别于传统监督学习对真实标签的拟合,强化学习不存在标准答案,而是针对长期目标的试错学习。其核心思想是个体通过与环境交互,从反馈的奖励信号中进行学习,数学上使用马尔可夫决策过程刻画。本文围绕基于价值的方法和基于策略的方法两个方向,依次介绍蒙特卡洛、时序差分、Sarsa、Q学习、DQN、策略梯度、REINFORCE、演员-评委算法。使用DQN构建上证指数择时策略,原始超参数样本外2017年至2022年6月年化超额收益率18.2%,夏普比率1.31,年均调仓42.0次,优化后策略表现进一步提升。
强化学习的核心思想是智能体通过与环境的交互,从反馈信号中进行学习
强化学习的核心思想是智能体通过与环境的交互,从反馈信号中进行学习。智能体首先观察环境的状态,采取某种动作,该动作对环境造成影响。随后,环境下一刻的状态和该动作产生的奖励将反馈给智能体。智能体的目标是尽可能多地从环境中获取总奖励。总奖励不是下一时刻的即时奖励,而是未来每个时刻奖励的“折现”之和。强化学习的结果是某种动作选择规则,称为策略,主要采用迭代方式训练。
马尔可夫决策过程是强化学习的数学基础
马尔可夫决策过程是强化学习的数学基础。马尔可夫决策过程从马尔可夫过程、马尔可夫奖励过程出发,在状态空间、状态转移矩阵基础上,相继引入奖励函数、折扣因子、动作空间而来。状态价值函数v(s)代表状态s未来总回报的期望,动作价值函数q(s,a)代表状态s下采取动作a未来总回报的期望,可以借助贝尔曼方程求解。贝尔曼期望方程是线性方程,可以通过解析方法求解任意策略的v(s)和q(s,a)。贝尔曼最优方程是非线性方程,需要通过迭代方法求解最优策略的v*(s)和q*(s,a)。
强化学习分为基于价值的方法和基于策略的方法
强化学习分为基于价值的方法和基于策略的方法。基于价值的方法先估计动作价值函数,称为策略评估,再采用贪心策略选择动作价值最高的动作,称为策略改进。根据策略评估方法不同,分为蒙特卡洛方法和时序差分方法。时序差分方法分为同轨策略Sarsa和离轨策略Q学习。Q学习引入神经网络、经验回放、目标网络等改进得到DQN。基于策略的方法直接拟合策略函数,基础是策略梯度算法,根据动作价值函数计算方法不同,分为REINFORCE和演员-评委算法。
采用DQN构建股指日频多头择时策略
采用DQN构建股指日频多头择时策略。状态定义为回看区间内的行情数据,动作分为做多、平多、持有三种,奖励定义为预测区间内多头或空头收益。基于训练集数据训练DQN模型,多组随机数种子合成信号,基于测试集进行日频调仓回测。以上证指数为择时标的,2007至2016年为训练集,2017至2022年6月为测试集,交易费率单边0.5‰,原始超参数测试集年化超额收益率18.2%,夏普比率1.31,年均调仓42.0次。考察折扣因子、回放内存、回看区间、预测区间等超参数影响,优化后择时策略表现进一步提升。
正 文
/wiki/static/upload/92/92f456f1-a4a3-4d67-9033-c13913a5ec26.pdf
\