GitHub|快手开源斗地主AI,入选ICML,能否干得过「冠军」柯洁?( 三 )


神经网络
如下图所示 , 斗零采用一个价值神经网络 , 其输入是状态和动作 , 输出是价值 。 首先 , 过去的出牌用 LSTM 神经网络进行编码 。 然后 LSTM 的输出以及其他的表征被送入了 6 层全连接网络 , 最后输出价值 。
GitHub|快手开源斗地主AI,入选ICML,能否干得过「冠军」柯洁?
文章图片

并行训练
系统训练的主要瓶颈在于模拟数据的生成 , 因为每一步出牌都要对神经网络做一次前向传播 。 斗零采用多演员(actor)的架构 , 在单个 GPU 服务器上 , 用了 45 个演员同时产生数据 , 最终数据被汇集到一个中央训练器进行训练 。 比较有趣的是 , 斗零并不需要太多的计算资源 , 仅仅需要一个普通的四卡 GPU 服务器就能达到不错的效果 。 这可以让大多数实验室轻松基于作者的代码做更多的尝试 。
实验
为验证斗零系统的有效性 , 作者做了大量的实验 。 这里我们选取部分实验结果 。 作者将斗零和多个已有的斗地主 AI 系统进行了对比 , 具体包括:

  • DeltaDou [5] 是首个达到人类玩家水平的 AI 。 算法主要基于贝叶斯推理和蒙特卡罗树搜索 , 但缺点是需要依赖很多人类经验 , 并且训练时间非常长 。 即使在用规则初始化的情况下 , 也需要训练长达两个月 。
  • CQN [3] 是一个基于牌型分解和 DQN 的一种方法 。 虽然牌型分解被证明有一定效果 , 但是该方法依然不能打败简单规则 。
  • SL (supervised learning , 监督学习)是基于内部搜集的顶级玩家的对战数据 , 用同样的神经网络结构训练出来的模型 。
  • 除此之外 , 作者尽可能搜集了所有已知的规则模型 , 包括 RHCP、RHCP-v2、RLCard 中的规则模型[2] , 以及一个随机出牌策略 。
斗地主中玩家分为地主和农民两个阵营 。 作者使用了两个评估指标来比较算法之间的性能:
  • WP (Winning Percentage) 代表了地主或农民阵营的胜率 。 算法 A 对算法 B 的 WP 指标大于 0.5 代表算法 A 强于算法 B 。
  • ADP(Average Difference in Points)表示地主或农民的得分情况 。 每有一个炸弹 ADP 都会翻倍 。 算法 A 对算法 B 的 ADP 指标大于 0 代表算法 A 强于算法 B 。
实验 1:与已知斗地主 AI 系统的对比
作者比较胜率(WP)和分值(ADP) 。 如下表所示 , 斗零(DouZero)在两项指标上都明显好于已知方法 。 值得一提的是 , 因为斗地主本身有很大的「运气」成分 , 高几个百分点的胜率就代表很大的提高了 。
GitHub|快手开源斗地主AI,入选ICML,能否干得过「冠军」柯洁?
文章图片

实验 2:在 Botzone 平台上的对比
Botzone(https://www.botzone.org.cn/)是由北京大学 AI 实验室开发的在线对战平台 , 支持多种游戏的在线评测 , 并举办过多场棋牌类 AI 比赛 。 作者将斗零上传到了斗地主对战的系统 。 Botzone 计分结果表明 , 斗零在 344 个对战机器人中脱颖而出 , 在 2020 年 10 月 30 日排名第一 。
GitHub|快手开源斗地主AI,入选ICML,能否干得过「冠军」柯洁?
文章图片

实验 3:斗零的训练效率
作者用 DeltaDou 和 SL 作为对手 , 测量斗零的训练效率 。 所有的实验都在一个服务器上进行 , 该服务器包括 4 个 1080Ti GPU 和 48 核处理器 。 如下图所示 , 斗零在两天内超过了 SL , 在 10 天内超过了 DeltaDou 。
GitHub|快手开源斗地主AI,入选ICML,能否干得过「冠军」柯洁?
文章图片

实验 4:与人类数据的比较
斗零究竟学出了什么样的策略呢?作者将人类数据作为测试数据 , 计算不同阶段的模型在人类数据上的准确率 , 如下图所示 。 我们可以发现两个有趣的现象 。 首先 , 斗零在前五天的训练中准确率不断提高 。 这表明斗零通过自我博弈的方式学到了类似于人类的出牌方式 。 其次 , 在五天以后 , 准确率反而下降 , 这说明斗零可能学到了一些超出人类知识的出牌方式 。
GitHub|快手开源斗地主AI,入选ICML,能否干得过「冠军」柯洁?
文章图片

实验 5:案例分析
上文提到 , 斗地主游戏中两个农民需要配合才能战胜地主 。 作者为此做了一个案例分析 , 如下图所示 。 图中下方农民出一个小牌就能帮助右方农民获胜 。 图中显示了预测出的最优的三个牌型和预测的价值 。 我们可以看到预测结果基本符合预期 。 下方农民「认为」出 3 有非常高的获胜概率 , 而出 4 或 5 的预期价值会明显变低 , 因为右方农民的手牌很有可能是 4 。 结果表明斗零确实学到了一定的合作策略 。