文章图片
▲ 天刀手游中 , 每个门派都有数个主动和被动技能 , 而端游则更加复杂.
对玩家来说尚要如此 , 对绝智 AI 来说更是一种挑战 。
为了让绝智 AI 可以快速的成为《天涯明月刀》中的武林高手 , 一个可以让它随时切磋对战的对手(强化学习训框架)就必不可少了 。
联合团队依托自主研发的大规模强化学习平台 , 通过成千上万场的对战 , 在保证 AI 在训练过程中循序渐进的提升行为策略前提下 , 为各种各样的战局状况寻找最优的对应方式 。
就像上文说到的 , 丰富的职业、技能、装备让论剑对局有无限可能 , 每一步操作都拥有非常庞大的探索空间 。 为了让绝智 AI 走好论剑对战的第一步 , 在训练初期阶段 , 通过引入一些课程学习策略 , 如随机设置 AI 在地图中的出生位置、初始化不同的状态值等 , 起到加速探索的目的 。
同时 , 在整个对战期间 , 为了减少 AI 进行原地打转、空放技能等无意义操作 , 还利用 Action Mask 对技能使用的条件进行了限制 , 保证 AI 不会在无法命中目标或者还未冷却时释放技能 , 从而降低它的探索空间 , 以便更高效的投入战斗 。
文章图片
▲ 如果没有妥当的引导 , AI 在学会高效战斗前会浪费大量的时间摸索技能释放.
那么 , 要如何让 AI 知道什么时候该做什么事情呢?AI LAB 的项目负责人介绍 , 很重要的一点是 reward 设计 。 简单来说 , 就是对各种目标设定一个奖励分 , 举个例子 , 如果 AI 用技能打到了对手 , 就给正分数 , 如果 AI 空放了技能 , 就给负分数 , AI 的最终目标就是顺利赢下这场对决 , 分数越高越好 。
好的 reward 设计可以快速引导 AI 学习 , 但设计和验证 reward 都有很高的成本 , 一方面 , AI 可能找到捷径 , 用特殊的方式拿到高分 , 另一方面 , 奖励的设置 , 在一定程度上也会限制 AI 的发挥 。
根据《天涯明月刀》的游戏特点 , AI LAB 与天刀联合团队针对角色生命值状况设置了「血量零和」reward , 来强调己方生命值损耗比对方更少;而影响战斗的「压制」和「浮空时间」reward , 则能引导 AI 学习如何通过技能组合长时间压制对手和浮空连招 , 来提升战斗效率——不仅要赢 , 还要赢得高效漂亮 。
文章图片
▲ 经过引导与强化学习 , AI 对浮空连击技巧的应用已经炉火纯青.
对于玩家来说 , 「战无不胜」是他的终极目标 , 但对于 AI 来说 , 这只是它的第一阶段:绝智 AI 还有一个更重要的任务:满足不同玩家的游戏需求——失败是另一种成功 。
上面提到 , 除了复杂的技能树与多种职业带来的庞大探索空间 , 《天涯明月刀》还有一个非常重要的差异点:那就是玩家差异 。
在天刀的游戏世界里 , 装备、经脉、心法等成长要素都会影响玩家的功力——功力是一个对玩家战斗力水平的评价数值 , 由游戏中各维度属性影响——在不断成长的过程中 , 每个玩家的进度都是不一样的 。 即使功力相似 , 玩家的操作水平也有高低之分 。
正是角色本身的功力差异以及每个玩家的操作水平 , 才构成了玩家的段位 。 那么 , 绝智 AI 是如何覆盖所有玩家的呢?其实这是两个问题:「如何覆盖所有功力」和「如何覆盖所有操作水平」 。
文章图片
▲ 与多数竞技游戏类似 , 在天刀中玩家也能通过胜利不断提升段位 , 证明自己的同时获得奖励.
针对不同的功力 , 绝智采用了一个大规模的功力模版泛化去覆盖所有功力的玩家 。 「战无不胜」的绝智对《天涯明月刀》论剑的策略已经非常清楚了 , 进行大规模泛化后 , 基本可以覆盖到所有功力的玩家;而针对不同操作水平的玩家 , 则采用了能力分级技术 , 把绝智 AI 的能力降下来 。
通过这两个方法 , 不同段位的玩家就能匹配到不同实力的绝智 AI , 从而满足不同功力、不同操作能力的玩家需求——不是绝智变弱了 , 而是它可以根据你的能力点到为止 。
文章图片
▲ 从最低到最高跨越了 24 个段位 , 而玩家也呈现正态分布.
- 患者|网约护士上门服务——专业的护理团队走进家门"卫"您健康
- 护士|秦皇岛市第一医院护理团队创新项目再次获奖
- 医联体|博导带领专家团队 与基层建起眼科医联体
- 陈亚男大手笔给员工发福利,大金链子金手镯,曝光团队带货内幕
- 吕俊兰|灵魂谈判促天价药降价!儿童医院有支“软宝宝”诊疗团队
- 玩家|《FF:起源》制作团队采访:全部职业多达27种
- 王孝升|携手院士团队 打造区域学科制高点
- 滕皋军|中大医院滕皋军院士团队来盐座谈指导
- 体检|济源承留卫生院家医团队贴心服务群众
- 血液学|同济医院周剑峰教授团队一项骨髓瘤研究,荣获中国血液学十大研究进展
