OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?(14)



具体地,我们采用了Deepmind在其Nature paper中描述的网络结构:原始灰度图像->3层卷积->1层稠密层->动作映射,并且结合在Atari2600上的一些训练trick(帧随机跳动、帧堆叠、奖赏缩放等),并在策略的输入输出上做了些微小的改进:



● 状态空间:灰度图像->RGB图像。因为Atari游戏相对简单,所以灰度图像提供的信息就足够了,但索尼克游戏所有的元素要丰富和复杂许多,所以我们直观上觉得,灰度图像提供的信息应该是不够的。



● 动作空间:直接学习原始12个按键的组合显然是不靠谱的(

OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?