科技|抖音“变身漫画”滤镜，背后用了什么黑科技！( 二 ) 中薪|高薪|滤镜|黑科技|变身

文章插图
对抗网络图像识别与鉴定流程图 | https://www.kdnuggets.com判别网络的任务很简单，就是区分真假。何为真？自然拍摄的图片就是真，而人工合成的图片称为“假”。生成网络G会产生一批假数据，对判别网络进行训练，刚开始的假数据很粗糙，肯定通不过，所以判别网络只需要很初步的识别能力就可以鉴定，这是一个“菜鸡互啄”的阶段。D有了进步，G也要迎头赶上，再对生成网络进行训练，目标是生成更加拟真的数据，骗过当前的判别网络。这些新的数据又用来训练判别网络，自己生产，自己消化，如此循环，左右互搏。在这个不断博弈的过程中，两个网络的能力都得到了提升。如同武侠小说里的“梯云纵”，左脚踩右脚，右脚踩左脚，武功高强的大侠就能飞檐走壁。训练完成之后，判别网络作为“工具人”就可以暂时领便当休息了，留下生成网络（G），用以产生图像。现在，AI这个画画的小朋友能够不用指导，自己根据图像进行临摹了，然后还自学了填色（风格迁移）。不过这个时候，严格的美术老师判别网络D又要登场了。这次不仅要鉴别图像是否为真，还要看在填色（风格迁移）的过程中，有没有出现其他偏差。

文章插图
如图所示，大部分现实物体中，能够形成对应关系的并不多，所以需要两个生成网络各司其职，相互检验制约 |https://mc.ai当然，现实生活中能够形成严格对应关系的物体并不多。为了确保精度，AI工程师会同时引入两套生成网络。比如我们要把一匹马的照片变成斑马，但很明显，现实中你可以找到两只除了颜色外，一模一样的鞋子，但不可能存在两匹体型和五官特征完全相似的马与斑马，所以就需要两个生成网络各司其职。生成网络A完成从马到斑马的转换，另一个生成网络B负责从斑马转换到马。这样在优化过程中，双方能够互相检验与制约，这就是近年来应用场景不断增多的深度学习算法CycleGAN。

文章插图
有了CycleGAN算法，我们就像有了仙女棒，随意变老变小变漂亮 | https://mc.ai这套算法，就是隐藏在现在市场上大多数美图软件滤镜后的幕后功臣，什么“LOMO风格”，“甜美日系”，“黑白简笔”，“美白磨皮”，都可以让用户轻松一键搞定，完成瞬间“变身”。

文章插图
美图秀秀的各种滤镜，相信大家已经用得驾轻就熟 | www.show.meitu.com

文章插图
Landmark Assisted CycleGAN生成的卡通形象，最左为真人形象，最右为最终输出结果 | www.medium.com不过，要把自己的视觉形象在抖音里转化为相似的二次元纸片人，还有最后一个门槛，因为次元壁并不是那么好打破的，真实人脸和卡通人脸之间的结构差别太大，很难捕捉面部基本特征。所以，专家们设计出了一个优秀的助手Landmark Assisted CycleGAN，来帮助AI，让这个笨笨的小朋友能根据真实用户人脸“画”出相应的卡通形象。简单来说，它的训练机制就是，每当CycleGAN提供一张人脸图像，它就先对脸部关键点进行标记，然后再根据这些标记点生成最初的卡通形象，并把这些标记输入判别网络。然后，启动两个CycleGAN中两个图像生成网络，让卡通形象和人脸形象之间不断地相互进行识别，反映到屏幕上，就是你看到了一个和自己酷似，惟妙惟肖的二次元纸片人。更重要的是，这些二次元形象，还必须跟随着视频中的真人形象“动起来”，这就涉及到巨量的运算。成千上万的用户同时使用滤镜，就会形成海量的运算数据，如果单纯依靠云端计算，分析这些视频数据，再想办法为每个用户量身定制，画出二次元形象，那么很可能造成卡顿，进而会影响用户的体验感。为了避免卡顿，这些经过训练之后的面部识别模型，会随着软件更新，“下发”到每个用户的手机上，把每个抖音用户手机里的CPU和GPU运算力也“动员”起来，进行实时的推理（inference）计算。根据抖音技术团队透露，“变身漫画”滤镜启用了字节跳动自研的推理引擎ByteNN，高效利用了移动端的计算能力，使AI算法快速落地到每一台用户的移动设备。这就好比一个工厂自身生产能力不足，把一部分加工程序，连同加工设备，外包给千千万万个工厂外的家庭小作坊一样。