OpenAI 挑战《索尼克》,阿里南大队如何一举夺魁?( 五 )
幸运的是,领域内的学者很快就关注到了这个问题,共建了类似RL-Glue、RLPy、Arcade LearningEnvironment公共的环境库。在这些库中,研究者只需要实现智能体学习部分的代码便可以完成评测。其中的集大成者,是后来居上的OpenAI的gym。除了公共环境之外,甚至允许研究者将其在gym框架下的评测结果上传到gym的网站,从而自然地形成了每个任务上的算法排行榜,从而使强化学习评测更加趋于成熟和公平。
即便于此,对于近年来的强化学习的进展仍然存在不少质疑。其核心观点大概有2个:深度强化学习并不work,真正work的可能仅仅是深度神经网络;强化学习在简单游戏上动辄上千万的训练帧数,其本质上可能更接近在memorizing搜索到的解,而不是学到了真正的知识。
对于第一点其实没有讨论的必要,举个例子,深度神经网络只是一个建模工具,强化学习是一大类学习问题,而NLP则是一个更上层的应用问题,当你使用底层是神经网络表示的强化学习算法,很好地解决了一个NLP中的一个具体问题时,你能区分是神经网络、强化学习算法和NLP建模方法谁最重要么?
- 新技术带来新挑战 网络信息安全创新永远在路上
- 遂宁首届抖音挑战赛决赛现场,小伙的"特异功能"惊艳全
- 世界人工智能大赛·智能机器人创新挑战赛决出前三强
- 江津四面山生态五项国际挑战赛下月开赛 总奖金50万等你来拿
- 挑战贝克汉姆老婆的健身餐,澳洲妹子直接吃到崩溃了!
- 刘鹤十年前提出的“经济挑战”都出现了!
- 离石白马仙洞举办山地自行车挑战赛精彩现场(视频/图)
- 刘鹤十年前提出的“经济挑战”都出现了
- 哈弗H9、传祺GS8、比亚迪唐出战,挑战日系最强硬汉,战况惨烈!
- 美国海军正式重启第二舰队 叫嚣为应对中俄挑战