科技女王范儿|港中文周博磊团队最新研究:无监督条件下GAN潜在语义识别指南( 二 )


实验结果表明 , 这一方法能够通过非常快速和高效的实现(1秒内) , 识别通用的潜在语义 , 在无监督条件下即可从不同类型的GAN模型中识别多种语义 。 具体方法可见论文 。
下图展示了一些操作实例 。 即使我们不知道图像中对象的底层3D模型或姿态标签 , 也仍然进行旋转 , 并且该方法支持在PGGAN、StyleGAN、BigGAN、StyleGAN2等多个GAN模型中发现人类可理解的语义 。
科技女王范儿|港中文周博磊团队最新研究:无监督条件下GAN潜在语义识别指南
文章图片
SeFa的实验效果
研究者在多个SOTAGAN模型上进行大量实验 , 以评估所提出方法的效果 , 这些模型包括PGGAN、StyleGAN、BigGAN和StyleGAN2 。 这些模型在多个数据集上进行了训练 , 包括人脸(CelebA-HQ和FF-HQ)、动漫人脸、场景和物体(LSUN)、街景和ImageNet等 。 为了对人脸进行定量分析 , 研究者在之前研究[23]的基础上 , 使用ResNet-50在CelebA数据集上训练了一个属性预测器 。
无监督基准的对比
下图3展示了与基于采样的无监督方法之间的定性对比 。
可以看出 , SeFa的生成结果(b行)更接近于监督方法InterFaceGAN(c行)所生成的结果 。 例如在StyleGAN上使用PCA编辑姿势时 , 身份和发型会发生变化(a行) 。
科技女王范儿|港中文周博磊团队最新研究:无监督条件下GAN潜在语义识别指南
文章图片
图3:语义定性对比 。 (a)基于采样的无监督方法[10];(b)该研究提出的闭式方法SeFa;(c)监督方法InterFaceGAN 。
接下来是与基于学习的无监督方法的对比 。
【科技女王范儿|港中文周博磊团队最新研究:无监督条件下GAN潜在语义识别指南】以下图4为例 , 当使用Info-PGGAN进行编辑时 , 头发的颜色会发生变化 。
科技女王范儿|港中文周博磊团队最新研究:无监督条件下GAN潜在语义识别指南
文章图片
图4:Info-PGGAN(a)和SeFa(b)发现语义的定性对比 。
监督方法对比和语义属性分析
接下来 , 研究者对比了SeFa与监督学习SOTA方法InterFaceGAN在潜在语义发现方面的性能 , 具体而言从以下两个角度进行分析:(a)在分离语义方面的区别 , (b)识别语义的多样性 。
科技女王范儿|港中文周博磊团队最新研究:无监督条件下GAN潜在语义识别指南
文章图片
表2展示了通过评估语义得分随潜码调整而发生的变化 , 对不同方法进行重新评分分析 。 每一行展示了将潜码朝某个方向移动的结果 。
在下图5中 , 研究者将本文方法与监督方法InterFaceGAN进行对比 。 如图5(a)所示 , SeFa成功地识别了与发色、发型和肤色这些要素对应的方向 。 同时该方法还可以识别更复杂的属性 , 如图5(b)中的不同发型 。
科技女王范儿|港中文周博磊团队最新研究:无监督条件下GAN潜在语义识别指南
文章图片
图5:a)多样化的语义 , InterFaceGAN因缺乏语义预测期而无法识别;b)无法用二元属性描述的不同发型 。
随后 , 研究者将GAN逆映射方法引入到这项工作中 , 以实现真实图像的处理 。 具体而言 , 给定一个待编辑的目标图像 , 我们首先将它投影到潜码 , 然后使用发现的潜在语义来调整逆代码 。
如下图6所示 , 该研究提出的闭式方法所发现的语义是足够精确的 , 可以操纵真实的图像 。 例如 , 研究人员设法在输入图像中添加或删除眼镜(图6的第四列) 。
科技女王范儿|港中文周博磊团队最新研究:无监督条件下GAN潜在语义识别指南
文章图片
图6:对真实图像进行不同面部属性的处理 。 所有语义都是用SeFa找到的 , GAN逆映射用于将作为目标的真实图像投影回StyleGAN的潜在空间 。
在其他GAN模型上的泛化表现
这部分验证了SeFa算法的泛化能力 , 即应用到在不同数据集上训练的各类SOTAGAN模型的效果 。