科技|抖音“变身漫画”滤镜,背后用了什么黑科技!( 二 )


科技|抖音“变身漫画”滤镜,背后用了什么黑科技!
文章插图
对抗网络图像识别与鉴定流程图 | https://www.kdnuggets.com判别网络的任务很简单,就是区分真假。何为真?自然拍摄的图片就是真,而人工合成的图片称为“假”。生成网络G会产生一批假数据,对判别网络进行训练,刚开始的假数据很粗糙,肯定通不过,所以判别网络只需要很初步的识别能力就可以鉴定,这是一个“菜鸡互啄”的阶段。D有了进步,G也要迎头赶上,再对生成网络进行训练,目标是生成更加拟真的数据,骗过当前的判别网络。这些新的数据又用来训练判别网络,自己生产,自己消化,如此循环,左右互搏。在这个不断博弈的过程中,两个网络的能力都得到了提升。如同武侠小说里的“梯云纵”,左脚踩右脚,右脚踩左脚,武功高强的大侠就能飞檐走壁。训练完成之后,判别网络作为“工具人”就可以暂时领便当休息了,留下生成网络(G),用以产生图像。现在,AI这个画画的小朋友能够不用指导,自己根据图像进行临摹了,然后还自学了填色(风格迁移)。不过这个时候,严格的美术老师判别网络D又要登场了。这次不仅要鉴别图像是否为真,还要看在填色(风格迁移)的过程中,有没有出现其他偏差。
科技|抖音“变身漫画”滤镜,背后用了什么黑科技!
文章插图
如图所示,大部分现实物体中,能够形成对应关系的并不多,所以需要两个生成网络各司其职,相互检验制约 |https://mc.ai当然,现实生活中能够形成严格对应关系的物体并不多。为了确保精度,AI工程师会同时引入两套生成网络。比如我们要把一匹马的照片变成斑马,但很明显,现实中你可以找到两只除了颜色外,一模一样的鞋子,但不可能存在两匹体型和五官特征完全相似的马与斑马,所以就需要两个生成网络各司其职。生成网络A完成从马到斑马的转换,另一个生成网络B负责从斑马转换到马。这样在优化过程中,双方能够互相检验与制约,这就是近年来应用场景不断增多的深度学习算法CycleGAN。
科技|抖音“变身漫画”滤镜,背后用了什么黑科技!
文章插图
有了CycleGAN算法,我们就像有了仙女棒,随意变老变小变漂亮 | https://mc.ai这套算法,就是隐藏在现在市场上大多数美图软件滤镜后的幕后功臣,什么“LOMO风格”,“甜美日系”,“黑白简笔”,“美白磨皮”,都可以让用户轻松一键搞定,完成瞬间“变身”。
科技|抖音“变身漫画”滤镜,背后用了什么黑科技!
文章插图
美图秀秀的各种滤镜,相信大家已经用得驾轻就熟 | www.show.meitu.com
科技|抖音“变身漫画”滤镜,背后用了什么黑科技!
文章插图
Landmark Assisted CycleGAN生成的卡通形象,最左为真人形象,最右为最终输出结果 | www.medium.com不过,要把自己的视觉形象在抖音里转化为相似的二次元纸片人,还有最后一个门槛,因为次元壁并不是那么好打破的,真实人脸和卡通人脸之间的结构差别太大,很难捕捉面部基本特征。所以,专家们设计出了一个优秀的助手Landmark Assisted CycleGAN,来帮助AI,让这个笨笨的小朋友能根据真实用户人脸“画”出相应的卡通形象。简单来说,它的训练机制就是,每当CycleGAN提供一张人脸图像,它就先对脸部关键点进行标记,然后再根据这些标记点生成最初的卡通形象,并把这些标记输入判别网络。然后,启动两个CycleGAN中两个图像生成网络,让卡通形象和人脸形象之间不断地相互进行识别,反映到屏幕上,就是你看到了一个和自己酷似,惟妙惟肖的二次元纸片人。更重要的是,这些二次元形象,还必须跟随着视频中的真人形象“动起来”,这就涉及到巨量的运算。成千上万的用户同时使用滤镜,就会形成海量的运算数据,如果单纯依靠云端计算,分析这些视频数据,再想办法为每个用户量身定制,画出二次元形象,那么很可能造成卡顿,进而会影响用户的体验感。为了避免卡顿,这些经过训练之后的面部识别模型,会随着软件更新,“下发”到每个用户的手机上,把每个抖音用户手机里的CPU和GPU运算力也“动员”起来,进行实时的推理(inference)计算。根据抖音技术团队透露,“变身漫画”滤镜启用了字节跳动自研的推理引擎ByteNN,高效利用了移动端的计算能力,使AI算法快速落地到每一台用户的移动设备。这就好比一个工厂自身生产能力不足,把一部分加工程序,连同加工设备,外包给千千万万个工厂外的家庭小作坊一样。