科技女王范儿|港中文周博磊团队最新研究：无监督条件下GAN潜在语义识别指南( 二 ) 无监督条件下

实验结果表明，这一方法能够通过非常快速和高效的实现（1秒内），识别通用的潜在语义，在无监督条件下即可从不同类型的GAN模型中识别多种语义。具体方法可见论文。
下图展示了一些操作实例。即使我们不知道图像中对象的底层3D模型或姿态标签，也仍然进行旋转，并且该方法支持在PGGAN、StyleGAN、BigGAN、StyleGAN2等多个GAN模型中发现人类可理解的语义。

文章图片
SeFa的实验效果
研究者在多个SOTAGAN模型上进行大量实验，以评估所提出方法的效果，这些模型包括PGGAN、StyleGAN、BigGAN和StyleGAN2 。这些模型在多个数据集上进行了训练，包括人脸（CelebA-HQ和FF-HQ）、动漫人脸、场景和物体（LSUN）、街景和ImageNet等。为了对人脸进行定量分析，研究者在之前研究[23]的基础上，使用ResNet-50在CelebA数据集上训练了一个属性预测器。
无监督基准的对比
下图3展示了与基于采样的无监督方法之间的定性对比。
可以看出， SeFa的生成结果（b行）更接近于监督方法InterFaceGAN（c行）所生成的结果。例如在StyleGAN上使用PCA编辑姿势时，身份和发型会发生变化（a行）。

文章图片
图3：语义定性对比。（a）基于采样的无监督方法[10]；（b）该研究提出的闭式方法SeFa；（c）监督方法InterFaceGAN 。
接下来是与基于学习的无监督方法的对比。
【科技女王范儿|港中文周博磊团队最新研究：无监督条件下GAN潜在语义识别指南】以下图4为例，当使用Info-PGGAN进行编辑时，头发的颜色会发生变化。

文章图片
图4：Info-PGGAN(a)和SeFa(b)发现语义的定性对比。
监督方法对比和语义属性分析
接下来，研究者对比了SeFa与监督学习SOTA方法InterFaceGAN在潜在语义发现方面的性能，具体而言从以下两个角度进行分析：（a）在分离语义方面的区别，（b）识别语义的多样性。

文章图片
表2展示了通过评估语义得分随潜码调整而发生的变化，对不同方法进行重新评分分析。每一行展示了将潜码朝某个方向移动的结果。
在下图5中，研究者将本文方法与监督方法InterFaceGAN进行对比。如图5(a)所示， SeFa成功地识别了与发色、发型和肤色这些要素对应的方向。同时该方法还可以识别更复杂的属性，如图5(b)中的不同发型。

文章图片
图5：a）多样化的语义， InterFaceGAN因缺乏语义预测期而无法识别；b）无法用二元属性描述的不同发型。
随后，研究者将GAN逆映射方法引入到这项工作中，以实现真实图像的处理。具体而言，给定一个待编辑的目标图像，我们首先将它投影到潜码，然后使用发现的潜在语义来调整逆代码。
如下图6所示，该研究提出的闭式方法所发现的语义是足够精确的，可以操纵真实的图像。例如，研究人员设法在输入图像中添加或删除眼镜（图6的第四列）。

文章图片
图6：对真实图像进行不同面部属性的处理。所有语义都是用SeFa找到的， GAN逆映射用于将作为目标的真实图像投影回StyleGAN的潜在空间。
在其他GAN模型上的泛化表现
这部分验证了SeFa算法的泛化能力，即应用到在不同数据集上训练的各类SOTAGAN模型的效果。