OpenAI强化学习游戏库大更新:游戏上千款,还能自己加

傻大方提示您本文标题是:《OpenAI强化学习游戏库大更新:游戏上千款,还能自己加》。来源是。

OpenAI强化学习游戏库大更新:游戏上千款,还能自己加。ai|学习---


本文来自量子位,创业家系授权发布,略经编辑修改,版权归作者所有,内容仅代表作者独立观点。[ 下载创业家APP,读懂中国最赚钱的7000种生意

李林 编译整理 量子位 出品 | 公众号 QbitAI

ai|学习---傻大方小编总结的关键词

OpenAI强化学习游戏库大更新:游戏上千款,还能自己加

想把一个强化学习Agent训练成游戏高手?OpenAI今天推出的完整版Gym Retro必须了解一下。

这是一个用游戏来研究强化学习的平台,现在上面的游戏数量已经有1000多款,横跨各种后端模拟器,再也不是之前那个只能玩70款雅达利+30款世嘉的小平台了。

除了这1000多款可供AI玩耍的游戏之外,OpenAI还推出了一个集成工具,让用户可以在平台上添加新游戏。

跨游戏泛化

Gym Retro上的游戏覆盖了世嘉的创世纪和Master System,任天堂红白机(NES)、SNES和Game Boy主机。对于世嘉掌机GG(Game Gear)、任天堂Game Boy Color、Game Boy Advance、NEC TurboGrafx上的游戏,也有初步支持。

这么多游戏集中在同一个平台上,非常适合启动“跨游戏泛化”的研究。也就是说,AI把一个游戏玩输了之后,能不能把这些能力用到理念相似、表现形式不同的其他游戏上去?

在研究跨游戏泛化之前,要先从简单的起步:同一个游戏中的跨关卡泛化。上个月,OpenAI就举办了一场Retro Contest,让大家用刺猬索尼克的部分关卡来训练AI,再尝试泛化到另外一些关卡。现在仍在继续,离结束还有几周时间。

ai|学习---傻大方小编总结的关键词

OpenAI强化学习游戏库大更新:游戏上千款,还能自己加

当时,他们还发布了一篇技术报告来描述任务的基准。

Gotta Learn Fast: A New Benchmark for Generalization in RL Alex Nichol, Vicki Pfau, Christopher Hesse, Oleg Klimov, John Schulman https://arxiv.org/abs/1804.03720

现在,Gym Retro有了更多游戏,在庞大的数据集支撑下,这类泛化的研究可以从“跨关卡”变成“跨游戏”了。OpenAI自己也在进行这方面的研究,成果预计明年公布。

关于平台上的1000多款游戏,OpenAI温馨地提醒你:部分游戏可能有bug。

新游戏整合工具

如果你对跨游戏泛化没什么兴趣,偏偏只想让AI玩一款平台上没有的船新游戏呢?

OpenAI还随着Gym Retro正式版,推出了一个新游戏整合工具。只要你有游戏ROM,就可以运用这个工具创建保存状态、寻找内存位置、设计让强化学习Agent来解决的场景。

这个整合工具还支持录制和播放回放文件,把打游戏时所有的按键操作都保存下来。回放文件不保存每一帧图像,而是只包含初始状态和每次按键得出的结果,因此体积很小。这种回放文件可以用来观察Agent的动作,也可以用来保存人类输入制作训练数据。

AI擅长什么游戏?

PPO等强化学习算法最擅长的游戏有个共同特征:奖励密集,以反应速度取胜。比如说宇宙巡航舰(Gradius):

ai|学习---傻大方小编总结的关键词

OpenAI强化学习游戏库大更新:游戏上千款,还能自己加

在宇宙巡航舰这个游戏里,消灭每一个敌人都能得分,也就是说很容易获得奖励;躲避开所有敌人就能活下来,也就是说拼的就是个反应速度。对于按帧来打游戏的强化学习算法来说,这并不算难。

而对于奖励稀疏,需要为几秒之后发生的事做规划的游戏,现在的强化学习算法就不太擅长了。

Gym Retro里就有很多游戏属于后者,等着广大小伙伴努力攻克。

防止AI钻空子

攻克这些游戏的过程中,请注意:你的AI可能会钻空子。

强化学习Agent打游戏,其实是在积累奖励,如果奖励函数只是得分、不考虑完成整个游戏的话,就可能会发生意想不到的操作。比如说下面的Cheese Cat-Astrophe和复仇之刃,就都被AI玩坏了:

ai|学习---傻大方小编总结的关键词

OpenAI强化学习游戏库大更新:游戏上千款,还能自己加

OpenAI强化学习游戏库大更新:游戏上千款,还能自己加。ai|学习---

Cheese Cat-Astrophe

ai|学习---傻大方小编总结的关键词

OpenAI强化学习游戏库大更新:游戏上千款,还能自己加

OpenAI强化学习游戏库大更新:游戏上千款,还能自己加。ai|学习---

复仇之刃

在这两个游戏中,AI都为了快速积累奖励,困在一个关卡之内无限循环。

所以,OpenAI温馨提示:奖励函数设置得太简单,可能导致AI的行为出偏差。

让AI好好打游戏,慎重设置你的奖励函数~