NeurIPS 2020 | 清华联合密歇根大学: 兼顾想象与现实的基于模型强化学习算法( 三 )


3.仅最大化熵的对比方法
上一部分提到了策略的熵 , 说到熵 , 我们很容易联想到在无模型的算法领域 , 研究者们通过优化熵 , 提高策略鲁棒性 , 例如SAC算法(SoftActorCritic) 。 因此 , 我们产生一个很自然的想法 , 在基于模型的算法领域 , 是不是简单的像SAC那样提高策略的熵 , 提高策略鲁棒性就足够提高解析梯度算法的表现了呢?
对此 , 本文从SAC算法的思路出发 , 在基于模型的强化学习领域 , 在解析梯度算法中融合SoftBellmanEquation来优化熵 , 提出了Soft-BRID 。 基于softBellmanEquation的目标函数如下:

NeurIPS 2020 | 清华联合密歇根大学: 兼顾想象与现实的基于模型强化学习算法
文章图片

NeurIPS 2020 | 清华联合密歇根大学: 兼顾想象与现实的基于模型强化学习算法
文章图片
本文将该方法与本文提出的BIRD方法对比 , 来检验一下是否仅仅优化熵就已经足够提高算法表现 。
三、实验结果

NeurIPS 2020 | 清华联合密歇根大学: 兼顾想象与现实的基于模型强化学习算法
文章图片
本文在机器人视觉控制数据集DeepmindControlSuite(输入为从第三视角对Mujoco机器人的2D拍摄图像)上进行了测试 , 并与最前沿的基于模型的方法Dreamer、PlaNet , 无模型的方法D4PG、A3C , 熵优化方法Soft-BIRD进行了对比 , BIRD取得了领先的表现 。
实验结果表明 , 基于模型的方法样本利用效率普遍超过了无模型的方法 。 BIRD与Dreamer的对比 , 显示了本文对互信息的优化提高了策略在真实环境中的表现 。 Soft-BIRD在大部分任务表现都不够好 , 说明了不考虑真实环境与虚拟环境的互信息 , 仅提高策略鲁棒性是不够的 , 也说明了互信息的收益不仅靠多出的熵增项 , 也得益于基于置信度的策略优化项 。
另外 , 本文通过案例分析发现了BIRD在关键动作的预测上会明显超过Dreamer , 在Hopper的起跳瞬间、平衡瞬间 , Walker的将倾瞬间 , Cartpole的平衡瞬间BIRD的预测更接近真实 。

NeurIPS 2020 | 清华联合密歇根大学: 兼顾想象与现实的基于模型强化学习算法
文章图片
作者介绍
朱广翔 , 清华大学交叉信息研究院计算机方向博士生 。 他的研究目标是利用高效表征、世界模型、情景记忆等方法提高深度强化学习中的样本效率 , 研究兴趣也包括深度学习在自动驾驶 , 电商 , 计算生物 , 金融危机、天气预测等场景中的应用 。
更多信息请访问个人主页:
https://guangxiangzhu.github.io/
本周上新!扫码观看!

微信:thejiangmen