【DOTA之后新里程碑】DeepMind强化学习重大突破:AI在多人射击游(13)

  • 智能体

    在两个时间尺度上运行

    ,快速和慢速,这提高了它们使用内存和产生一致动作序列的能力。



  • 【DOTA之后新里程碑】DeepMind强化学习重大突破:AI在多人射击游

    图: For The Win (FTW)智能体架构的示意图。该智能体将快速和慢速两个时间尺度的循环神经网络(RNN)相结合,包括一个共享记忆模块,并学习从游戏点到内部奖励的转换。



    由此产生的智能体,我们称之为

    For The Win(FTW)智能体