扎克伯格“元宇宙”真的未来可期吗?为何AR、VR都不见起色( 二 )


如果要让VR的虚拟场景更真实,VR的解析度就要越来越高,但解析度越高,就需要越好的电脑配置才跑得动,我们不可能玩VR每个人还要配一张RTX3090的显卡(订价1499美金),VR要普及很重要的关键是不能太贵(VR头盔2万配一电脑8万谁要玩啊!),所以回到一开始的问题,AI能够创造出一个极真实的虚拟场景吗?
这哪里介绍两个方法,非常经典,一个是大名鼎鼎的神经辐射法(Neural Radiance Field(NeRF))[1]和利用对抗网络(Generative Adversarial Networks(GANs))优化的神经渲染法[2],当然这两个方法细节牵扯到许多深度学习的算法,有兴趣的可以直接去看原文 。
NeRF这个方法想做的事情是,假如我现在左视角的图片,我要如何生成出右视角的图片?具体来说,我有一张平面的照片,我能不能透过AI的方法,生成其他视角的图片并合成3D图片,如此一来就可以大量减少建模时所需要的运算的资源 。
下面的图片就是他们的研究成果,只需要输入少量的2D角度的图片,就可以造出连续不同视角的图片,效果可以说是非常害怕人,尤其是生成出来的图片拥有金属光泽感、阴影甚至是叶片的细节都表现得栩栩如生,大家有兴趣可以去看官网上完整版的展示 。

扎克伯格“元宇宙”真的未来可期吗?为何AR、VR都不见起色

文章插图
这些都是NeRF方法生成的 。那他们是如何做得如此逼真的效果?这哪里引用文献中的图片简单为大家解释,首先他们搜集了非常多不同角度拍摄到的2D图片当作训练集(包含已知的相机参数),如下图(a)所示,我们拍摄的照片中会含有(x、y、z)三种不同的参数座冲,而(theta、phi)则代表了视角的方向 。
拥有(x、y、z、theta、phi)的5D资讯之后,我们就可以丢到神经网络中进行训练,那他们这哪里使用了多层感知器MLP(multilayer perceptron),MLP的知识我就不在这哪里详细展开,有兴趣的朋友google一下,满多人提到的,这哪里大家就想像成一个神经网络里的方法,但输出是什么?
扎克伯格“元宇宙”真的未来可期吗?为何AR、VR都不见起色

文章插图
NeRF输入输出座冲转换 。我们希望藉由不同角度资讯的照片,能够将这类型的2D空间资讯转换成(R、G、B、sigma)如上图(b)所示,这里的RGB指的就是三原色红绿蓝,我们知道三原色其实可以合成世界上各种五彩斑斓的色彩,而在渲染图片的时候,不管是图像的纹理或是细节其实都是由颜色组成,而这些颜色的差异也都是因为光所造成的,即便是阴影我们也能用不同的RGB把阴影调色出来 。
所以,我们希望神经网络能够直接给我们这些图案在不同视角情况下,物体应该(推测)是什么颜色,那最后这个文献中叫体密度,个人的理解有点像是透明度的概念,也就是光子打到一个物体之后会在哪一层所停下来,光子假设能直接穿过这个物体,就表示这个物体是透明的,而光子完全穿不过就表示这个物体是光滑像镜子一样(几乎反射了),如此精妙的设计加上AI的训练,就可以达到前面所展示的效果了!
上述所提到的这个方法,在训练的时候需要大量拍摄许多不同角度的图片,所以2021年Nvidia和几所知名高校一起发表了另一篇文献,使用对抗网络GAN搭配神经渲染的方法,效果更加害怕,顺带一提,GAN这个技术就是之前生成一堆看似真人的图片,但其实那些图片都是GAN生成出来的假人 。
扎克伯格“元宇宙”真的未来可期吗?为何AR、VR都不见起色

文章插图
利用GAN加上神经渲染法的流程图 。上图是文献提出算法的一个流程图,这里的styleGAN就是帮忙生成各种不同汽车的不同角度之图片,有了这些生成的资料之后,再丢到神经网络的训练之中,而此方法还将图片分成三个部分进行优化-Mesh(网格)、Light(光线)和Texture(纹理),这样的好处就是什么这?
下图我们可以看到他们的研究成果,Input有一个红色的五门车和一个银色的轿车,红框的部分我们可以生成不同角度的车子图片,绿色框则是可以改变我们生成车子的形状,甚至蓝框还可以改变车子的纹理(颜色),最扯的是连背景都能替换掉(黑框)!
扎克伯格“元宇宙”真的未来可期吗?为何AR、VR都不见起色

文章插图
不仅能预测生成角度还能改形状颜色和背景!当然,这两种算法与传统电影的CG特效或是在游戏中即时运算的效果,还有一段落差,但随穿深度学习算法的进化,目前差距已经慢慢缩小,短期来说,这些AI算法会先用在游戏场景或是元宇宙的场景之中,这样可以大幅缩小运算时间,并且对硬件的要求也不会那么严苛,远期来说,深度学习的算法可能有机会接近电影CG特效,大家就跟问答男拭目以待吧!