魔幻黑科技!华人学者推出视频修复AI,可换天造物,秒变科幻大片

AI修图到底有多强?
前几日 , Adobe Max 大会刚刚结束 , Photoshop 2021版便登上了国外各大媒体版面 。
其原因是 , 新版Ps工具中内置了AI驱动工具 , 诸如“天空置换”等高难度修图问题 , 现在点点鼠标就可以轻松实现 , 而且效果远超手动操作 。
无论是拍人拍景或是其他 , “天空”都可以说是摄像中的关键元素 。 比如 , 一张平平无奇的景色图加上落日余晖的天空色调 , 是不是有内味了?
魔幻黑科技!华人学者推出视频修复AI,可换天造物,秒变科幻大片文章插图
对于短视频爱好者来说 , 如果也能达到如此处理效果岂不是更佳?
没错 , 今天小编就是要给大家介绍一款基于原生视频的AI处理方法 , 不仅可以一键切置换天空背景 , 还可以打造任意“天空之城” 。
AI视频修复新玩法这项AI处理方法来自密歇根大学的一位华人博士后的最新研究 。 该方法基于视觉技术可一键调整视频中的天空背景和天气转换 。
比如 , 《星际迷航》等科幻电影中经常出现的浩瀚星空、宇宙飞船 , 也可以利用这项技术融入随手拍的视频中 。
公路片秒变科幻片 , 画面毫无违和感 。
视频中的蓝色的天空背景也随飞船变成了灰蒙蒙的色调 , 一种世界末日的即视感有木有?
【魔幻黑科技!华人学者推出视频修复AI,可换天造物,秒变科幻大片】当然它的玩法还不止如此 。
动漫迷也可以创建自己的移动城堡 。 喜欢《天空之城》《哈尔的移动城堡》的朋友应该对这一幕应该非常熟悉 。
魔幻黑科技!华人学者推出视频修复AI,可换天造物,秒变科幻大片文章插图
又或者在视频中挂一个超级月亮 , 又是另一番景象 。
好像只要脑洞够大 , 利用这项AI技术 , 视频创作就有无限种玩法 。
另外 , 它还具备天气转换的功能 , 比如晴空万里、阴雨绵绵、雷雨交加等各种天气都可以在视频中随意切换 。
喜欢玩Vlog的朋友听着是不是非常心动了?研究人员表示 , 现在已经在考虑将其制作成插件/脚本的形式 , 方便相关从业者或行业使用 。
在此之前 , 这项技术的AI代码已经在Github开源 , 懂技术的朋友可以优先安装体验了~
魔幻黑科技!华人学者推出视频修复AI,可换天造物,秒变科幻大片文章插图
Github地址:
技术原理不同于传统研究 , 研究人员提出了一种完全基于视觉的解决方案 。 它的好处就是可以处理非静态图像 , 同时不受拍摄设备的限制 , 也不需要用户交互 , 可以处理在线或离线视频 。
上述实验视频 , 均是通过手持智能手机和行车记录仪在野外拍摄的 。 经过该方法处理后 , 其在视频质量、运动动态、照明转换方面都达到了较高的保真度 。 比如在浮动城堡 , 超级月亮样例中 , 使用单个NVIDIA Titan XP GPU卡 , 该方法可以在输出分辨率为640 x 320时达到24 fps的实时处理速度 , 在854 x 480时达到接近15 fps的实时处理速度 。
具体来说 , 该方法分为三个核心模块:

  • 天空遮罩框架(Sky Matting Network):用于检测视频帧中天空区域的视频框架 。 该框架是采用了基于深度学习的预测管道 , 能够产生更精确的检测结果和更具视觉效果的天空蒙版 。
  • 运动估计(Motion Estimation):用于恢复天空运动的运动估计器 。 天空视频需要在真实摄像机的运动下进行渲染和同步 。
  • 图像融合(Image Blending):用于将用户指定的天空模板混合到视频帧中的Skybox 。 除此之外 , 还用于重置和着色 , 使混合结果在其颜色和动态范围内更具视觉逼真感 。
完整框架如下图:
魔幻黑科技!华人学者推出视频修复AI,可换天造物,秒变科幻大片文章插图
天空遮罩框架:利用深卷积神经网络(CNN)的优势 , 在一个像素级回归框架下对天空冰雹进行预测 , 该框架可以产生粗尺度和细尺度的天空蒙版 。 天空遮罩框架由一个分段编码器( Segmentation Encoder )、一个掩模预测解码器(Mask Prediction Decoder)和一个软细化模块(Soft Refinement Module)组成 。 其中 , 编码器的目的是学习下采样输入图像的中间特征表示 。 解码器被用来训练和预测粗糙的天空 。 优化模块同时接收粗糙的天空蒙版和高分辨率输入 , 并生成一个高精度的天空蒙版 。
运动估计:研究人员直接估计了目标在无穷远处的运动 , 并创建了一个用于图像混合的天空盒(Skybox) , 通过将360°天空盒模板图像混合到透视窗口来渲染虚拟天空背景 。
假设天空模式的运动是由一个矩阵M2R33来模拟的 。由于天空中的物体(如云、太阳或月亮)应该位于同一个位置 , 假设它们的透视变换参数是固定值 , 并且已经包含在天空盒背景图像中 , 然后使用迭代Lucas-Kanade和金字塔方法计算光学流 , 从而可以逐帧跟踪一组稀疏特征点 。 对于每对相邻帧 , 给定两组2D特征点 , 使用基于RANSAC的鲁棒模糊估计来计算具有四个自由度(仅限于平移、旋转和均匀缩放)的最佳2D变换 。