OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?(12)

此外,关卡之间是共享部分元素的,即使一个新的关卡你完全没有看过,但其中的元素A在某些训练关卡上见过,某些元素B在另外一些关卡上见过等等,因此,是存在泛化的可能的。



OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?



跟以往的监督学习算法类的比赛不同(通常只需要提交在测试样本上的预测结果),此次比赛需要提交算法。具体地,将算法依赖的代码和数据打包成docker镜像,然后上传至OpenAI的网站。在收到评测请求之后,OpenAI会针对每一个评测关卡(public leaderboard上有5个评测关卡,而final private test上则有11个),在配置有K80显卡的aws instance上以独占GPU的方式运行我们的算法(感慨一下OpenAI的壕气,毕竟有上百个团队在比赛期间不停提交评测请求),学习时间被100万个游戏帧和12小时物理时长同时限制,任意条件满足则程度退出。