李世|会玩王者荣耀的AI，真的有用么？比赛|游戏|研究人员|AlphaGo|Le

估计经常玩王者荣耀的人，都应该对一个词不陌生—— “ 王者绝悟 ”。
它是王者荣耀和腾讯 AI Lab 团队共同打造的一个策略协作型 AI。

文章图片

在 2019 年《王者荣耀》世界冠军杯的特设环节，它打败了职业选手赛区联队，一鸣惊人。
当天它还在 ChinaJoy 进行了 504 场 1V1 比赛，面对一众实力强劲的玩家，最终只输了一场，输给了当时的国服第一后羿，总体胜率高达 99.8%。
后来王者绝悟进一步面向普通玩家限时开放，去年 11 月限时开放的 20 个挑战关卡更是让每个玩家都体会到了王者绝悟的厉害。

文章图片

这么说吧，像王者绝悟这样的 AI，它通过强化学习机制经历无数对战，一天的训练强度高达人类 440 年，对自己的能力特别有 B 数，啥大风大浪都见过。
能打过就会上，打不过绝不刚，抱团支援贼溜，越塔强杀也会。
对技能的方位和时间的把控异常精准，彼此间合作天衣无缝，坐拥顶级拉扯战术。
2019 年的绝悟就已经会轮流抗塔分摊伤害了 ▼

文章图片

普通人正常打肯定打不过，只好到快手等平台去搜些特殊战术，才能勉强拿个 “ 智极·绝悟 ” 的标签。
大家纷纷感叹 AI 现在居然已经这么强大了。
可能很多人都有相同的感知，现在游戏 AI 的发展或多或少都受了当年 AlphaGo 的影响。
2016 年 AlphaGo Lee 与李世乭的大战堪称人机大战的转折点，在这之前人们不相信机器能够胜任围棋这种高智商的游戏，但事实证明了AI 的潜力。
后来 AlphaGo Master 在棋坛横扫一众棋手，把 Lee 那一版的缺陷补足，便再无对手，柯洁与之对弈也只能投子认输。
到了AlphaGo Zero 这一代，AI 已经摒弃了学习人类棋谱这一步，通过大量自我对战，只需要短短的时间，从能瞎走的小白，就能蜕变成段位极高的大师，甚至发展出人类不曾想到的招数。

文章图片

只用了3 天，AlphaGo Zero 就把赢过李世乭的 AlphaGo Lee 踩到了脚下，21 天就打败 AlphaGo Master。
也就是说， AlphaGo Zero 证明了，只要人们给输入规则和目标，程序就可以经过自我博弈不断进步，也能成为身经百战的顶流大师。
这种 “ 无师自通，自学成才 ” 的本事，立刻在学术界和民间掀起滔天巨浪。
这套自我博弈的方法就是机器学习理论中的 —— “ 强化学习 ” 。

文章图片

强化学习能解决哪些问题？这套方法解决问题的极限在哪里？
研究人员把目光从围棋这种棋牌游戏，打量到星际争霸、Dota2 这些复杂策略的游戏身上。
这类游戏的复杂度可比围棋高多了，因为它们可能包含丰富的画面信息，还涉及多人对战，战争迷雾、即时战略、第一人称射击等元素。
所以在开发这类AI 时，会遇到多智能体协同策略，不完全信息等等技术难题，更有挑战性。
AlphaStar 就是 DeepMind 团队
打造的星际争霸 AI ▼

文章图片

这几年，针对星际争霸、Dota 2等不同游戏的 AI 不断出现，当然，王者绝悟也是其中之一。
说起来大家可能会觉得惊讶，但王者荣耀这样的游戏中，玩家的动作状态空间能高达 10 的 20000 次方，远远超过宇宙原子总数的 10 的 80 次方。
在如此浩瀚的运算空间里，要做出王者绝悟那样高效准确的决策，可想而知这挑战有多大。
基于王者绝悟的研究方法和经验，王者荣耀和腾讯 AI Lab 还搞了一个 AI 开放研究平台 —— 开悟。

文章图片

最近，腾讯举办了一个名为 “ 开悟多智能体强化学习大赛 ” 的活动，并邀请国内包括北大、清华、中科大等二十余所国内外顶尖院校的学霸们参加比赛。

文章图片

简单来说，这个比赛就是要求高校师生训练出一个属于自己的 mini 版 “ 绝悟 ”，然后导入王者荣耀一决高下。