【DOTA之后新里程碑】DeepMind强化学习重大突破:AI在多人射击游(12)


CTF是在程序生成的环境中执行的,因此,智能体必须要适应不可见的地图。

智能体必须从头开始学习如何在不可见(unseen)的环境中观察、行动、合作和竞争,所有这些都来自每场比赛的一个

强化信号

:他们的团队是否获胜。这是一个具有挑战性的学习问题,它的解决方法基于强化学习的三个一般思路:



  • 我们不是训练一个智能体,而是

    训练一群智能体

    ,它们通过组队玩游戏来学习,提供了多样化的队友和敌手。

  • 群体中的每个智能体都

    学习自己的内部奖励信号

    ,这些信号使得智能体能够产生自己的内部目标,例如夺取一面旗子。双重优化过程可以直接为了获胜优化智能体的内部奖励,并使用内部奖励的强化学习来学习智能体的策略。