AI量化知识树

【无模型控制】Deep Mind× UCL 2021年强化学习课程第6讲

由qxiao创建，最终由qxiao更新于2024-05-20 02:09 被浏览 123 用户

第6讲:无模型控制研究科学家Hado van Hasselt研究了政策改进的预测算法，从而产生了可以从抽样经验中学习良好行为政策的算法。

https://www.youtube.com/watch?v=t9uf9cuogBo

/wiki/static/upload/f9/f996a8c6-3f82-4255-9d63-1a977a162b05.pdf

\

{link}