「机器之心」人脸合成效果媲美StyleGAN,而它是个自编码器
机器之心报道
参与:魔王
自编码器(AE)与生成对抗网络(GAN)是复杂分布上无监督学习最具前景的两类方法 , 它们也经常被拿来比较 。 人们通常认为自编码器在图像生成上的应用范围比 GAN 窄 , 那么自编码器到底能不能具备与 GAN 同等的生成能力呢?这篇研究提出的新型自编码器 ALAE 可以给你答案 。 目前 , 该论文已被 CVPR 2020 会议接收 。
论文地址:https://arxiv.org/pdf/2004.04467.pdf
GitHub 地址:https://github.com/podgorskiy/ALAE
自编码器是一种无监督方法 , 它通过同时学习编码器-生成器图将「生成性」和「表征性」结合起来 。 关于自编码器有两个疑问尚未得到解决:
自编码器是否具备和 GAN 同等的生成能力?
自编码器能否学习解耦表征(disentangled representation)?
最近 , 来自美国西弗吉尼亚大学的研究者提出一种新型自编码器 Adversarial Latent Autoencoder (ALAE) , 试图解决以上问题 。 ALAE 是一个通用架构 , 它能够利用近期 GAN 在训练方面的改进 。 研究者表示 ALAE 具备与 GAN 相当的生成能力 , 且能够学习解耦表征 。
利用 ALAE 通用架构 , 该研究设计了两个自编码器:一种基于 MLP 编码器 , 另一种基于 StyleGAN 生成器 , 即 StyleALAE 。
研究者对这两个架构的解耦能力进行了验证 , 发现 StyleALAE 不仅能够生成与 StyleGAN 生成质量相当的 1024x1024 人脸图像 , 在同样分辨率条件下 , 它还可以基于真实图像生成人脸重建和操纵结果 。
研究者认为 , ALAE 是首个性能匹配甚至超过生成器架构的自编码器 。
ALAE 到底效果如何呢?我们来看展示图:
本文插图
本文插图
本文插图
StyleALAE 的风格混合效果 。
感兴趣的读者可以自己运行 demo , 不过你需要 CUDA capable GPU、v1.3.1 及以上版本的 PyTorch 和 cuda/cuDNN 驱动 , 详情参见 GitHub 地址 。
新型通用自编码器 ALAE
研究者观察到每个 AE 方法都使用同样的假设:潜在空间的概率分布应与先验相关 , 自编码器应该与之匹配 。 而 StyleGAN 相关论文证明 , 中间潜在空间应当具备更好的解耦能力 。
于是研究者通过修改原始 GAN 范式设计了一种新型 AE 架构:
允许基于数据学得的潜在分布解决耦合问题 (A) , 并使用对抗策略学习输出数据分布 (B) , 以保留 GAN 的生成能力;为了实现 (A) 和 (B) , 该研究提出将 AE reciprocity 置于潜在空间中 (C) , 以避免使用在数据空间中运行的基于简单 l_2 范数的重建损失(对于图像空间来说它们通常是次优选择) 。
如下图 1 所示 , 研究者将生成器 G 和判别器 D 分别分解成两个网络:F、G 和 E、D 。
本文插图
图 1:ALAE 架构 。
此外 , 研究者还展示了 ALAE 与其他自编码器的关联 , 详见下表:
本文插图
StyleALAE
研究者使用 ALAE 构建了一个自编码器 , 该自编码器使用的是基于 StyleGAN 的生成器 。 具体架构如下图 2 所示:
本文插图
图 2:StyleALAE 架构 。 StyleALAE 编码器中的实例归一化(IN)层用来提取多尺度风格信息 , 并通过可学习的多重线性映射(multilinear map)将它们组合成为一个潜在代码 w 。分页标题
实现
ALAE 的算法训练过程参见下图:
本文插图
ALAE 效果如何?
该研究在多个数据集上评估了 ALAE 的性能 , 实验代码和数据参见 GitHub 地址 。
在 MNIST 上的性能
【「机器之心」人脸合成效果媲美StyleGAN,而它是个自编码器】研究者使用 MNIST 数据集训练 ALAE , 并使用特征表示来执行分类、重建和分析解耦能力的任务 。
本文插图
表 2:不同方法在 MNIST 分类任务上的性能 。
本文插图
图 3:MNIST 重建效果 。
StyleALAE 学习风格表征的能力
研究者在 FFHQ、LSUN 和 CelebA-HQ 数据集上评估 StyleALAE 的性能 。
本文插图
表 3:不同方法在 FFHQ 和 LSUN 数据集上的 FID 分数 。
本文插图
表 4:不同方法的感知路径长度(PPL) , 表示表征解耦程度 。
本文插图
图 5:FFHQ 重建结果 。 StyleALAE 对未见过的图像的 1024×1024 重建结果 。
本文插图
图 6:StyleALAE 的 FFHQ 生成结果(1024 × 1024 分辨率) 。
本文插图
图 9:StyleALAE 的风格混合效果 。 「coarse styles」从 Source 图像中复制了高级特征 , 如姿势、大致发型和脸型 , 从 Destination 图像中复制了所有颜色(眸色、发色和光照);「middle styles」从 Source 图像中复制了较小型的面部特征例如发式、眼睛睁/闭 , 从 Destination 图像中复制了脸型;「fine styles」从 Source 图像中复制了颜色和微结构 。
本文插图
图 8:不同方法在 CelebA-HQ 数据集上的重建结果 。 第一行是真实图像;第二行:StyleALAE;第三行:Balanced PIONEER;第四行:PIONEER 。
从图中可以看出 , StyleALAE 的生成结果更加清晰 , 失真度也最低 。
- 机器人|深圳机器人产业产值1257亿元
- 英雄达茂|漠南风雅:一颗寄托于明月中的长随之心
- |《5G技术助力国产机器人完成全球首场骨科实时远程手术》公示材料
- “害人之心不可有”,害人的标准如何判定。
- 玻璃之心|看到它就走不动路了,奶奶太可爱了,英国女王和老伴逛超市
- 美军事进行时|五角大楼研制挖隧道的蚯蚓机器人为地面部队提供安全补给
- cnBetaTB|看机器人如何制作出既有颜值又美味的蛋饼
- 山东伟豪思|袋料全自动拆垛机器人的使用给企业带来了哪些益处
- 无人机这两项机器人发明,就是东京大学进军外卖界的野心!?
- 湖北日报救助站不放弃寻找 人脸识别技术助力流浪12年的西藏女子找到家