【DOTA之后新里程碑】DeepMind强化学习重大突破:AI在多人射击游( 五 )



研究人员对AI的唯一限定是,在5分钟时间里尽可能取得多的旗帜。对战的游戏地图是随机生成的,每场都会变,室内与室外的地形也不相同。组队的时候,AI可能与人组队,也可能与其他AI组队。对战的模式分为慢速和高速两种。



在训练过程中,AI发展出了自己的奖励机制,学会了基地防守、尾随队友,或者守在敌人营地外偷袭等策略。



DeepMind在他们今天发表的博客文章中写道,从多智能体的角度说,玩《雷神之锤III》这种多人视频游戏,

需要与队友合作,与敌方竞争,还要对遭遇到的任何对战风格/策略保持鲁棒性

分析发现,游戏中,AI在“tagging”(碰触对方,将其送回地图上的初始地点)上比人类更加高效,80%的情况下能够成功(人类为48%)。