文本游戏中战略探索的多阶段偶发控制 _游戏世界

文本游戏中战略探索的多阶段偶发控制
【文本游戏中战略探索的多阶段偶发控制】文字冒险游戏由于其组合性的大行动空间和稀疏的奖励，对强化学习方法提出了独特的挑战。这两个因素的相互作用要求特别高，因为大行动空间需要广泛的探索，而稀疏的奖励提供有限的反馈。这项工作提出了一个多阶段的方法来解决探索与开发的两难问题，该方法在每个情节中明确地将这两种策略分开。我们的算法，即eXploit-then-eXplore（XTX），在每一集开始使用模仿过去一组有希望的轨迹的剥削策略，然后切换到旨在发现导致未见过的状态空间的新行动的探索策略。这种政策分解使我们能够将关于返回哪部分游戏空间的全局决定与基于好奇心的空间局部探索结合起来，其动机是人类如何接近这些游戏。在Jericho基准（Hausknecht等人，2020年）的12个游戏中，我们的方法在确定性和随机性的设置中分别比先前的方法明显地优于27%和11%的平均正常化分数。特别是在Zork1游戏中，XTX获得了103分，比以前的方法提高了2倍多，并且突破了困扰以前最先进方法的几个已知的游戏瓶颈。
《Multi-Stage Episodic Control for Strategic Exploration in Text Games》
论文地址:网页链接

文章插图