OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?(14)
具体地,我们采用了Deepmind在其Nature paper中描述的网络结构:原始灰度图像->3层卷积->1层稠密层->动作映射,并且结合在Atari2600上的一些训练trick(帧随机跳动、帧堆叠、奖赏缩放等),并在策略的输入输出上做了些微小的改进:
● 状态空间:灰度图像->RGB图像。因为Atari游戏相对简单,所以灰度图像提供的信息就足够了,但索尼克游戏所有的元素要丰富和复杂许多,所以我们直观上觉得,灰度图像提供的信息应该是不够的。
● 动作空间:直接学习原始12个按键的组合显然是不靠谱的(
- 新技术带来新挑战 网络信息安全创新永远在路上
- 遂宁首届抖音挑战赛决赛现场,小伙的"特异功能"惊艳全
- 世界人工智能大赛·智能机器人创新挑战赛决出前三强
- 江津四面山生态五项国际挑战赛下月开赛 总奖金50万等你来拿
- 挑战贝克汉姆老婆的健身餐,澳洲妹子直接吃到崩溃了!
- 刘鹤十年前提出的“经济挑战”都出现了!
- 离石白马仙洞举办山地自行车挑战赛精彩现场(视频/图)
- 刘鹤十年前提出的“经济挑战”都出现了
- 哈弗H9、传祺GS8、比亚迪唐出战,挑战日系最强硬汉,战况惨烈!
- 美国海军正式重启第二舰队 叫嚣为应对中俄挑战