【游戏迷】训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头

编辑:好困拉燕袁榭
【新智元导读】2022年6月 , OpenAI发表论文称用「视频预训练模型」 , 让AI学会了在「我的世界」里从头开始造石镐 。
最近 , 似乎早已把GPT抛在脑后的OpenAI又整了个新活 。
在经过海量无标注视频以及一点点标注过的数据训练之后 , AI终于学会了在「我的世界」(Minecraft)里制作钻石镐 。
而整套流程需要一个骨灰级玩家至少20分钟的时间才能完成 , 总计要操作24000次 。
【游戏迷】训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头
文章图片
这个东西吧 , 看似简单 , 但对AI来说却非常困难 。
7岁小孩看10分钟就能学会
对于最简单的木镐 , 让人类玩家从头开始学过程并不太难 。
一个死宅不到3分钟用单个视频就能教会下一个 。
【游戏迷】训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头
文章图片
演示视频全长2分52秒
然而 , 钻石镐的制作就复杂多了 。
不过即便如此 , 一个7岁小孩也只需看上十分钟的演示视频 , 就能学会了 。
【游戏迷】训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头
文章图片
这个任务的难点 , 主要在如何挖到钻石矿 。
过程大概可以概括为12个步骤:先徒手刨下像素块「木头」 , 再由原木合成木块 , 木块制作木棍 , 木棍制作工坊装具台 , 工台造木镐 , 木镐敲石块 , 石块加木棍做石镐 , 石镐打造炼炉 , 炼炉加工铁矿 , 铁矿熔铸铁锭 , 铁锭制作铁镐 , 铁镐去挖钻石 。
【游戏迷】训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头
文章图片
现在 , 压力来到了AI这边 。
正巧 , CMU、OpenAI、DeepMind、MicrosoftResearch等机构自2019年起 , 就搞了一个相关的比赛——MineRL 。
参赛选手需要自研出一个「自主从零开始打造工具、自动寻找并挖掘钻石矿」的人工智能体 , 而获胜条件也很简单—最快者胜出 。
结果如何?
在首届MineRL比赛结束之后 , 「7岁小孩看10分钟视频就学会 , AI用了8百万步还搞不定」 , 可是上了Nature杂志的 。
数据虽多 , 但我用不上啊
「我的世界」作为沙盒建筑游戏 , 其玩家策略、游戏内虚拟环境的高开放性 , 特别适合作为各种AI模型学习、决策能力的测试场和试金石 。
而且作为一款「国民级」的游戏 , 想在网上找到和「我的世界」相关的视频简直易如反掌 。
然而 , 不管是搭建教程 , 还是炫耀自己的作品 , 从某种程度上来说都只是在画面上呈现出的结果 。
【游戏迷】训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头
文章图片
换句话说 , 看视频的人只能知道up主干了个啥 , 干的怎么样 , 但没法知道是怎么干的 。
更具体点 , 电脑屏幕上呈现出来的只是结果 , 而操作步骤是up主在键盘上的不停点击 , 以及鼠标的不停移动 , 这部分是看不到的 。
甚至 , 连这个过程都是经过剪辑的 , 人看了估计都学不会 , 更别说AI了 。
雪上加霜的是 , 不少玩家抱怨在游戏里刨木头的枯燥度 , 太像做作业完成任务 。 结果一波更新之后 , 有不少工具可以直接白捡……这下 , 连数据都不好找了 。
而OpenAI想要让AI学会玩儿「我的世界」 , 就必须找到一个办法 , 能够让这些海量的未标注的视频数据派上用场 。
视频预训练模型——VPT
于是 , VPT应运而出 。
【游戏迷】训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头
文章图片
论文地址:https://cdn.openai.com/vpt/Paper.pdf
这东西说新也新 , 但是却并不复杂 , 是一种半监督式的模仿学习方法 。
首先 , 收集一波数据标注外包们玩游戏的数据 , 其中包含视频和键鼠操作的记录 。
【游戏迷】训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头
文章图片
VPT方法概述
然后 , 研究人员用这些数据搞了个逆动力学模型(inversedynamicsmodel , IDM) , 可以推测出视频中每一步进行的时候 , 键鼠都是怎么动的 。
这样一来 , 整个任务就变得简单多了 , 只需要比原来少很多的数据就可以实现目的 。
用一小撮外包数据搞完IDM之后 , 就可以用IDM接下来标注更大规模的无标记数据集了 。
【游戏迷】训练7万小时后,OpenAI的模型竟然学会在「我的世界」里刨木头
文章图片
基础模型训练数据对微调的影响
在训练了70000个小时以后 , OpenAI的行为克隆模型就能实现各种别的模型做不到的工作了 。
模型学会了怎么砍树收集木头 , 怎么用木头做木条 , 怎么用木条做桌子 。 而这一套事儿需要一个比较熟练的玩家操作小50秒的时间 。