【DOTA之后新里程碑】DeepMind强化学习重大突破：AI在多人射击游(12)

2018-07-08

CTF是在程序生成的环境中执行的，因此，智能体必须要适应不可见的地图。

智能体必须从头开始学习如何在不可见（unseen）的环境中观察、行动、合作和竞争，所有这些都来自每场比赛的一个

强化信号

：他们的团队是否获胜。这是一个具有挑战性的学习问题，它的解决方法基于强化学习的三个一般思路:

我们不是训练一个智能体，而是

训练一群智能体

，它们通过组队玩游戏来学习，提供了多样化的队友和敌手。

群体中的每个智能体都

学习自己的内部奖励信号

，这些信号使得智能体能够产生自己的内部目标，例如夺取一面旗子。双重优化过程可以直接为了获胜优化智能体的内部奖励，并使用内部奖励的强化学习来学习智能体的策略。

上一篇：徐勇：快递业绿色包装的“痛点”与投资机遇

下一篇：李彦宏宣布AI大事件：中国首款云端全功能AI芯片昆仑面世，阿波龙