星际官|2:0战胜星际2顶级职业选手,启元AI“星际指挥官”一战成名!( 三 )


这也是启元世界、DeepMind、OpenAI等科技企业选择在此发力的重要原因 , 只不过在AI训练的最佳场所上 , 他们共同选择了即时战略类的游戏 。
为何押注《星际争霸》?在AlphaGo以3:0战胜围棋顶级职业选手李世石后 , DeepMind研究人员便开始向以非完全信息博弈为代表的即时战略类游戏发起进攻 。
与围棋/德州扑克 , 选手能够相互观察到对方的战略进攻相比 , 非完全信息博弈意味着选手只能”侦查“或”猜测“敌方情况 。 这为决策带来非常大的不确定性 。
星际官|2:0战胜星际2顶级职业选手,启元AI“星际指挥官”一战成名!
本文插图
星际争霸具有典型的非完全信息的特征 , 同时 , 它作为即时战略类的经典的游戏 , 其复杂程度更是成倍数级增长 。
首先从博弈的角度来讲 , 星际争霸不存在最佳策略 , 它需要根据实际战况随时调整策略 , 拓展资源 , 在宏观经济和微观操作中寻找最佳平衡 。 所以在此次比赛中 , 我们也看到了AI星际打出了此前人类从未见过的战术 。
另外 , 星际争霸具有更大的决策空间 , 每分钟可达3000-4000次 。 尤其是与同为即时战略类的Dota相比 , 星际可操控的单元巨多 , 开矿造兵 , 侦查敌军 , 发起进攻 , 不同单元在时间和数量的上的不同组合 , 会对整个局势产生决定性影响 。
更重要的是 , 它的即时性要求选手必须做出毫秒级的反应 , 这是与传统棋类最大的不同 。
研究人员认为 , 《星际争霸》非常考验AI的综合能力 。 它的不完全信息决策、长期部署、实时对抗等特性与现实世界的环境和需求极为相似 , 同时 , 这就要求AI不仅能实时感知、认知环境 , 还需要适应环境 , 做出数千步连续决策 , 因此 , 它可以作为AI训练的最佳虚拟场景 。
AI星际指挥官的缔造者
不过 , 《星际争霸》确实是一块难啃的硬骨头 , 直到近些年AI星际才有些出色的成绩 。
在本次AI星际挑战赛之前 , 该领域中成绩最为亮眼的要属DeepMind推出的AlphaStar , 历时15年的技术研发 , AlphaStar在2018年先后以5:0的成绩打败了Team Liquid 的职业星际 2 选手 TLO和最强神族选手MaNa。 不过在后来的表演赛中 , MaNa成功扳回一局 , 虐杀AlphaStar 。
此次 , AI星际官以2:0的战绩完败世界顶级职业选手Time , 达到了与DeepMind同等水平 。 但不同的是 , 启元世界仅用了3年的时间便发出了如此强大的AI星际官 , 同时其算力仅占DeepMind的1% 。
据研究人员透露 , 工程和算法是AI星际官的核心优势 。 他们通过独创的“数据生成—传输—消费”的一体化计算框架 , 使智能体训练的数据吞吐率提升了10倍以上 。 另外 , 在算法方面 , 启元自主研发的Commander神经网络结构 , 结合高效率的群体演化训练方法 , 可在有限的算力条件下 , 既能增强智能体的鲁棒性 , 又能实现智能体的快速进化 。