OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?( 七 )
这个现象其实并不难解释,我们在评估强化学习算法时,常规的做法仍然是在同一个环境训练和测试,这种模式在单个环境学习到最优策略仍然很困难的历史时期是有意义的,其至少可以比较模型类似监督学习中的“拟合逼近”能力,但可能并不适用于现在或者未来的强化学习研究中。
此外,很容易发现,类似的问题在人类学习中并不存在:一个极品飞车玩的很好的选手,一般也可以非常轻松的上手QQ飞车并很快也玩的非常好。基于以上所有的观察和思考,我们不禁得出这样的结论:一个更智能的学习算法,不仅可以在一个陌生环境中自主学习到最优策略,而且可以将知识总结泛化,使其在类似的环境中仍然可以表现良好且迅速适应。
因此,OpenAI此次参照监督学习中常规的模式“训练样本->验证样本->测试样本”,设立了“训练环境->验证环境->测试环境”这一前所未有的方式。当然,类似监督学习中所有的样本都要满足i.i.d.假设,这里训练环境、验证环境和测试环境也是满足于一个环境分布的,具体地,也就是索尼克游戏。
- 新技术带来新挑战 网络信息安全创新永远在路上
- 遂宁首届抖音挑战赛决赛现场,小伙的"特异功能"惊艳全
- 世界人工智能大赛·智能机器人创新挑战赛决出前三强
- 江津四面山生态五项国际挑战赛下月开赛 总奖金50万等你来拿
- 挑战贝克汉姆老婆的健身餐,澳洲妹子直接吃到崩溃了!
- 刘鹤十年前提出的“经济挑战”都出现了!
- 离石白马仙洞举办山地自行车挑战赛精彩现场(视频/图)
- 刘鹤十年前提出的“经济挑战”都出现了
- 哈弗H9、传祺GS8、比亚迪唐出战,挑战日系最强硬汉,战况惨烈!
- 美国海军正式重启第二舰队 叫嚣为应对中俄挑战