可变形卷积在视频学习中的应用:利用带有稀疏标记数据的视频帧( 二 )


作者还通过在现有的Mask-RCNN模型中附加一个掩码传播头来提出用于实例分割的掩码传播 , 其中可以将时间t的预测实例分割传播到其相邻帧t +δ 。
可变形卷积在视频学习中的应用:利用带有稀疏标记数据的视频帧文章插图
【可变形卷积在视频学习中的应用:利用带有稀疏标记数据的视频帧】该网络结构类似于上面讨论的姿势估计网络 , 但有点复杂 。它包括三个部分:1)帧t的实例分割预测; 2)帧t与t +δ之间的偏移优化和分割变形; 3)特征图聚合 , 用于最终预测帧t +δ处的实例分割 。在这里 , 作者还使用乘法层来滤除噪声 , 仅关注对象实例存在的特征 。通过相邻帧的特征聚合 , 可以缓解遮挡 , 模糊的问题 。
结论将可变形卷积引入到具有给定偏移量的视频学习任务中 , 通过实现标签传播和特征聚合来提高模型性能 。 与传统的一帧一标记学习方法相比 , 提出了利用相邻帧的特征映射来增强表示学习的多帧一标记学习方法 。 这样 , 模型就可以通过训练看到被相邻帧的其他眼睛遮挡或模糊的部分 。
引用Deformable Convolutional Networks, 2017 (arxiv.org/1703.06211)
Learning Temporal Pose Estimation from Sparsely-Labeled Videos, (2019 arxiv.org/1906.04016)
Classifying, Segmenting, and Tracking Object Instances in Video with Mask Propagation, 2020 (arxiv.org/1912.04573)
作者:Shuchen Du
deephub翻译组