文章图片
除了做桌子 , 模型还能游泳 , 打猎 , 吃东西 。
甚至还有「跑跳搭」的骚操作 , 也就是起跳的时候脚下放个砖块或者木块 , 跳着跳着就能搭个柱子 。 这属于是骨灰级玩家的必修课了 。
文章图片
制作桌子(0shot)
文章图片
打猎(0shot)
文章图片
「跑跳搭」简陋版(0shot)
而为了让模型能完成一些更精细的任务 , 一般还会把数据集微调成更小的规模 , 区分细小的方向 。
OpenAI做了一项研究 , 展示了用VPT训练过的模型 , 再经过了微调之后 , 有多适应下游的数据集 。
研究人员邀请人玩儿了10分钟的「我的世界」 , 用基础材料搭了个房子 。 他们希望通过这种方式可以加强模型执行一些游戏初期的任务的能力 , 比如说搭一个工作台 。
当对该数据集进行完微调以后 , 研究人员不仅发现模型在执行初期任务时更加得心应手 , 还发现模型自个儿研究明白了怎么分别做出一张木制的工作台 , 和一张石制的工具台 。
有时候 , 研究人员还能看到模型自己搭建简陋的避难所 , 搜查村子 , 还有抢箱子 。
文章图片
制作一把石镐的全过程(下方标注的时间是一名熟练玩家执行同样的任务的耗时)
文章图片
制作石镐
然后我们来看看 , OpenAI的专家们是怎么进行的微调 。
他们使用的办法是 , 强化学习(RL) 。
大多数RL方法通过随机探索先验来解决这些挑战 , 例如模型通常被激励通过熵奖励随机行动 。 VPT模型应该是RL更好的先验模型 , 因为模拟人类行为可能比采取随机行动更有帮助 。
研究人员将模型设置为收集钻石镐这类艰巨任务 , 这是「我的世界」中前所未有的功能 , 因为执行整个任务时使用本机人机界面时会变得更加困难 。
制作钻石镐需要一系列漫长而复杂的子任务 。 为了使这项任务易于处理 , 研究人员为序列中的每个项目奖励智能体 。
文章图片
他们发现 , 从随机初始化(标准RL方法)训练的RL策略几乎没有获得任何奖励 , 从不学习收集日志 , 而且很少收集木棍 。
与之形成鲜明对比的是 , VPT模型的微调不仅可以学习如何制作钻石镐 , 而且在收集所有物品方面的成功率 , 甚至达到人类水平 。
而这是第一次有人展示能够在「我的世界」中制作钻石工具的计算机模型 。
参考资料:
【【游戏迷】训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头】https://openai.com/blog/vpt/
- 【游戏世界】“太偏向RNG了,给V5铁粉道歉”,管泽元祸从口出,发声霸气回怼
- 【游戏迷】KPL第一轮:A组还没大结局?DYG和TES陷入绝境,都有可能掉入B组
- 【游戏迷】原神:女士挑衅风神和岩神没事,却倒在了雷神手中?证明雷神强?
- 【游戏迷】推荐3本已完结的无限流小说,剧情设定精彩不套路,值得收藏观看
- 【游戏迷】崩坏3:迈向高手之路——掌握保级升降的思路
- 【星座控】7-9月,喜鹊欢叫,好运天降,惊喜好运纷至沓来,富贵翻身的生肖
- 【就爱时尚】长得再美,不如会穿!小白都能学得会的4套搭配方法,好学还洋气
- 【游戏世界】终于来到Steam《小缇娜的奇幻之地》的”融化明镜“DLC也已登陆
- 【游戏迷】部落冲突:夏季更新“第二弹”关于“部落都城”玩法的优化!
- 【游戏世界】AG超玩会刚回S组就收“大礼”,享受XYG跟TTG才有的待遇,90%要掉回A组