NeurIPS 2020 | 清华联合密歇根大学: 兼顾想象与现实的基于模型强化学习算法( 三 )
3.仅最大化熵的对比方法
上一部分提到了策略的熵 , 说到熵 , 我们很容易联想到在无模型的算法领域 , 研究者们通过优化熵 , 提高策略鲁棒性 , 例如SAC算法(SoftActorCritic) 。 因此 , 我们产生一个很自然的想法 , 在基于模型的算法领域 , 是不是简单的像SAC那样提高策略的熵 , 提高策略鲁棒性就足够提高解析梯度算法的表现了呢?
对此 , 本文从SAC算法的思路出发 , 在基于模型的强化学习领域 , 在解析梯度算法中融合SoftBellmanEquation来优化熵 , 提出了Soft-BRID 。 基于softBellmanEquation的目标函数如下:
文章图片
文章图片
本文将该方法与本文提出的BIRD方法对比 , 来检验一下是否仅仅优化熵就已经足够提高算法表现 。
三、实验结果
文章图片
本文在机器人视觉控制数据集DeepmindControlSuite(输入为从第三视角对Mujoco机器人的2D拍摄图像)上进行了测试 , 并与最前沿的基于模型的方法Dreamer、PlaNet , 无模型的方法D4PG、A3C , 熵优化方法Soft-BIRD进行了对比 , BIRD取得了领先的表现 。
实验结果表明 , 基于模型的方法样本利用效率普遍超过了无模型的方法 。 BIRD与Dreamer的对比 , 显示了本文对互信息的优化提高了策略在真实环境中的表现 。 Soft-BIRD在大部分任务表现都不够好 , 说明了不考虑真实环境与虚拟环境的互信息 , 仅提高策略鲁棒性是不够的 , 也说明了互信息的收益不仅靠多出的熵增项 , 也得益于基于置信度的策略优化项 。
另外 , 本文通过案例分析发现了BIRD在关键动作的预测上会明显超过Dreamer , 在Hopper的起跳瞬间、平衡瞬间 , Walker的将倾瞬间 , Cartpole的平衡瞬间BIRD的预测更接近真实 。 
文章图片
作者介绍
朱广翔 , 清华大学交叉信息研究院计算机方向博士生 。 他的研究目标是利用高效表征、世界模型、情景记忆等方法提高深度强化学习中的样本效率 , 研究兴趣也包括深度学习在自动驾驶 , 电商 , 计算生物 , 金融危机、天气预测等场景中的应用 。
更多信息请访问个人主页:
https://guangxiangzhu.github.io/
本周上新!扫码观看!
▼
微信:thejiangmen
- 呷哺呷哺|呷哺呷哺业务遭市场暴击 2020年业绩料降94%
- 创兴银行发布2020年度业绩报告,资产总额同比上升9.46%
- 北京大学|他2次被清华北大劝退,第4次又考上清华,老教授:这孩子我教不了!
- 4万级别纯电动微型车横评
- 2020年第四季DRAM总产值仅增1.1%
- 浙江大学|2021年最新大学排名,浙大上榜学科总数超过清华,你怎么看?
- 2020款传祺GS4 COUPE优惠明显,外观年轻,这样的内饰你喜欢吗?
- 汤臣倍健2020年业绩扭亏为盈至15.24亿 业务扩盘新三年规划开局
- 2020年畅销机型TOP10,看看你用的手机是否在其中
- 突破100万亿元!来之不易!
