【DOTA之后新里程碑】DeepMind强化学习重大突破:AI在多人射击游( 五 )
研究人员对AI的唯一限定是,在5分钟时间里尽可能取得多的旗帜。对战的游戏地图是随机生成的,每场都会变,室内与室外的地形也不相同。组队的时候,AI可能与人组队,也可能与其他AI组队。对战的模式分为慢速和高速两种。
在训练过程中,AI发展出了自己的奖励机制,学会了基地防守、尾随队友,或者守在敌人营地外偷袭等策略。
DeepMind在他们今天发表的博客文章中写道,从多智能体的角度说,玩《雷神之锤III》这种多人视频游戏,
需要与队友合作,与敌方竞争,还要对遭遇到的任何对战风格/策略保持鲁棒性
。
分析发现,游戏中,AI在“tagging”(碰触对方,将其送回地图上的初始地点)上比人类更加高效,80%的情况下能够成功(人类为48%)。
- 快餐—香酥翅根,学会之后就可以在家做啦,不再担心外面的不卫生
- 强化三头,这2个动作就有很好的效果,并且用了之后都说好
- 大浪淘沙之后 知识付费还走得下去吗
- 健身停止一段时间之后又恢复训练 肌肉会变成什么样?
- 校园贷之后美容贷盯上年轻人 消费者取证难维权难
- 早上起床之后有一个“黄金10分钟”,把握好这10分钟,做好一件事
- 继稻城亚丁、四姑娘山之后 西岭雪山也要出台有偿救援规定
- 心理测试:选择一款美食,测测你10年之后的体重是多少!
- 立秋之后依旧炎热,你需要它才能好好睡觉
- 当诗词文化成为“爆款”之后