魔幻黑科技!华人学者推出视频修复AI,可换天造物,秒变科幻大片( 二 )


图像融合:在预测天空蒙版时 , 输出像素值越高 , 表示像素属于天空背景的概率越高 。 在常规方法中 , 通常利用图像遮罩方程 , 将新合成的视频帧与背景进行线性组合 , 以作为它们的像素级组合权重 。
但由于前景色和背景色可能具有不同的色调和强度 , 因此直接进行上述方法可能会导致不切实际的结果 。因此 , 研究人员应用重新着色和重新照明技术将颜色和强度从背景转移到前景 。
实验结果研究人员采用了天空电视台上的一个数据集 。该数据集基于AED20K数据集构建而成 , 包括多个子集 , 其中每个子集对应于使用不同方法创建真实的填空遮罩 。
本次试验使用“ADE20K+DE+GF”子集进行了培训和评估 , 该训练集中有9187张图像 , 验证集中有885张图像 。 以下为基于该方法的视频天空增强效果:
魔幻黑科技!华人学者推出视频修复AI,可换天造物,秒变科幻大片文章插图
最左边是输入视频的起始帧 , 右边的图像序列是不同时间段下的输出效果
天气转换的效果 , 分别为晴到多云 , 晴到小雨 , 多云到晴天以及多云到多雨 。
魔幻黑科技!华人学者推出视频修复AI,可换天造物,秒变科幻大片文章插图
需要强调的是 , 在合成雨天图像时 , 研究人员通过屏幕混合在结果的顶部添加动态雨层(视频源)和雾层 。结果显示 , 只需对skybox模板和重新照明因子稍作修改 , 就可以实现视觉逼真的天气转换 。
与CycleGAN的比较结果 。 CycleGAN是一种基于条件生成对抗网络的非成对图像到图像转换方法 。 在定性方面 , 该方法表现出更高的保真度 。
魔幻黑科技!华人学者推出视频修复AI,可换天造物,秒变科幻大片文章插图
第一行为两个原始的输入帧;第三行为CycleGAN结果
在定性比较上 , PI和NIQE的得分值越低越好 。
魔幻黑科技!华人学者推出视频修复AI,可换天造物,秒变科幻大片文章插图
可以看出 , 该方法在定量指标和视觉质量方面都优于CycleGAN 。
更多论文详细内容 , 可参见:
相关作者Zhengxia Zou , 是该项研究的第一作者 , 目前是密歇根大学安娜堡分校的博士后研究员。
他于2013年和2018年获得北京航空航天大学的学士学位和博士学位 , 后加入密歇根大学 , 其研究兴趣包括计算机视觉在遥感、自动驾驶以及视频游戏中的相关应用 。
近几年 , 其发表的多篇相关论文被ACM、CVPR以及AAAI顶会收录 。
对于该项研究 , Zhengxia Zou认为 , 除了视频领域的应用外 , 还有一个潜在应用空间—数据扩充 。他说 ,
数据集的规模和质量是计算机视觉技术的基础 , 在现实场景中 , 即使ImageNet、MS-COCO等大规模数据集 , 在应用中也存在采样偏差带来的局限 , 而该方法对于提高深度学习模型在检测、分割、跟踪等各种视觉任务中的泛化能力具有很大的潜力 。
不过 , 目前研究也存在一定的局限性 , 主要体现在两个方面 ,

  • 一是天空遮罩网络无法检测到夜间视频中的天空区域 。
  • 二是当视频中某段时间内没有天空像素 , 或者没有纹理时 , 天空背景的运动就无法精确建模 。
其原因是用于运动估计的特征点被假定为位于同一位置 , 并且使用距离第二远的特征点来估计运动会不可避免地引入误差 。
因此 , 在未来的工作中 , 研究会着重于三个方向进行优化:第一是自适应天空光照;第二是鲁棒背景运动估计;第三是探索基于天空渲染的数据增强对目标检测和分割的有效性 。
引用链接:
雷锋网雷锋网雷锋网