汇总|实时性语义分割算法( 二 )


1.为了减少内核调用和内存操作 , 没有在任何投影中使用bias , 因为cuDNN会使用单独的内核进行卷积和bias相加 。 这种方式对准确性没有任何影响 。
2.在每个卷积层和随后的非线性层之间 , 使用BN
3.在解码器中 , 用max unpooling代替max pooling , 用无bias的spatial convolution代替padding
4.在最后一个上采样模块中没有使用池化索引 , 因为initial初始块是在输入图的3个通道上进行的操作 , 而最终的输出具有C个特征图(分割对象类别的数量) 。
【5】ICNet用于高分辨率图像的实时语义分割
《ICNet for Real-Time Semantic Segmentation on High-Resolution Images》
链接:
ICNet使用了级联的图像输入(即低、中、高分辨率图像) , 采用了级联的特征融合单元 , 训练时使用了级联的标签监督 。
汇总|实时性语义分割算法文章插图
ICNet包括三个分支:
1.低分辨率分支来获取语义信息 , 将原图1/4大小的图像输入到PSPNet中 , 降采样率为8 , 产生了原图1/32的特征图 。
2.中分辨率和高分辨率的分支进行粗糙预测的恢复和细化 , 图2中部和底部分支 , 获得高质量的分割 。
3.高分辨率分支采用轻加权的CNNs(绿色虚线框 , 底部分支和中部分支);不同分支输出的特征图采用级联特征融合单元进行融合 , 训练时接受梯级标签监督 。
级联特征融合:
汇总|实时性语义分割算法文章插图
【6】加速自动驾驶的语义分割
《Speeding up Semantic Segmentation for Autonomous Driving》
链接:
该架构包括ELU激活功能、一个类似挤压式的编码器、随后的并行扩展卷积以及一个具有类似于sharpmask的细分模块的解码器
汇总|实时性语义分割算法文章插图
译文:该编码器是一个改进的SqueezeNet 架构 , 它被设计为一个低延迟的网络 , 用于图像识别 , 同时保持AlexNet的准确性 。
汇总|实时性语义分割算法文章插图
实验结果:
汇总|实时性语义分割算法文章插图
【7】高效卷积网络用于实时语义分割
实时语义分割的《Efficient ConvNet for Real-time Semantic Segmentation》
链接:
Efficient ConvNet模型整体结构遵循编码-解码结构 ,
汇总|实时性语义分割算法文章插图
汇总|实时性语义分割算法文章插图
【汇总|实时性语义分割算法】详细构造如下表:
汇总|实时性语义分割算法文章插图
整个模型包含23层 , 其中1-16层为Encoder , 17-23层为Decoder 。
编码部分包含1、2、8层的下采样过程 , 以及余下层的Non-bt-1D提取特征 。 其中Non-bt-1D、Downsample构造如下:
汇总|实时性语义分割算法文章插图
实验结果:
汇总|实时性语义分割算法文章插图
汇总|实时性语义分割算法文章插图
【8】ERFNet:用于实时语义分割的高效残差分解卷积网络
《ERFNet: Efficient Residual Factorized ConvNet for Real-time Semantic Segmentation》
链接:
REFNet沿用了编码-解码结构 , 其详细结构如表所示 。
汇总|实时性语义分割算法文章插图
汇总|实时性语义分割算法文章插图
整个网络包含23层 , 其中1-16层为Encoder, 17-23层为Decoder 。
Downsampler block受另一个实时语义分割网络Enet的设计 , 其实本文不少灵感也来自于Enet:
例如在初始图像输入1024X512X3 , 左边经过3X3卷积 , 步长strides = 2 , 得到16 channels ,
右边经过MaxPooling 得到3 channels , 经过concat操作后得到16channels , 最终图像变为 512X256X16 , 然后使用Relu函数激活传入下一层 。
优点在于从输入图像一开始就进行了减少输入图像尺寸的操作 , 本身视觉信息就存在大量冗余 , 这样节省了大量的计算 。
【9】EDANet:用于实时语义分割的高效的非对称卷积密集模块
《Efficient Dense Modules of Asymmetric Convolution for Real-Time Semantic Segmentation》
链接:
模型框架如下:
汇总|实时性语义分割算法文章插图