NeurIPS 2020 | 清华联合密歇根大学: 兼顾想象与现实的基于模型强化学习算法( 三 ) ：NeurIPS2020|清华联合密歇根

3.仅最大化熵的对比方法
上一部分提到了策略的熵，说到熵，我们很容易联想到在无模型的算法领域，研究者们通过优化熵，提高策略鲁棒性，例如SAC算法(SoftActorCritic) 。因此，我们产生一个很自然的想法，在基于模型的算法领域，是不是简单的像SAC那样提高策略的熵，提高策略鲁棒性就足够提高解析梯度算法的表现了呢？
对此，本文从SAC算法的思路出发，在基于模型的强化学习领域，在解析梯度算法中融合SoftBellmanEquation来优化熵，提出了Soft-BRID 。基于softBellmanEquation的目标函数如下：

文章图片

文章图片
本文将该方法与本文提出的BIRD方法对比，来检验一下是否仅仅优化熵就已经足够提高算法表现。
三、实验结果

文章图片
本文在机器人视觉控制数据集DeepmindControlSuite（输入为从第三视角对Mujoco机器人的2D拍摄图像）上进行了测试，并与最前沿的基于模型的方法Dreamer、PlaNet ，无模型的方法D4PG、A3C ，熵优化方法Soft-BIRD进行了对比， BIRD取得了领先的表现。
实验结果表明，基于模型的方法样本利用效率普遍超过了无模型的方法。 BIRD与Dreamer的对比，显示了本文对互信息的优化提高了策略在真实环境中的表现。 Soft-BIRD在大部分任务表现都不够好，说明了不考虑真实环境与虚拟环境的互信息，仅提高策略鲁棒性是不够的，也说明了互信息的收益不仅靠多出的熵增项，也得益于基于置信度的策略优化项。
另外，本文通过案例分析发现了BIRD在关键动作的预测上会明显超过Dreamer ，在Hopper的起跳瞬间、平衡瞬间， Walker的将倾瞬间， Cartpole的平衡瞬间BIRD的预测更接近真实。

文章图片
作者介绍
朱广翔，清华大学交叉信息研究院计算机方向博士生。他的研究目标是利用高效表征、世界模型、情景记忆等方法提高深度强化学习中的样本效率，研究兴趣也包括深度学习在自动驾驶，电商，计算生物，金融危机、天气预测等场景中的应用。
更多信息请访问个人主页：
https://guangxiangzhu.github.io/
本周上新！扫码观看！
▼
微信：thejiangmen