汇总｜实时性语义分割算法( 二 ) 作者：明泽Danny来源：公众号

1.为了减少内核调用和内存操作，没有在任何投影中使用bias ，因为cuDNN会使用单独的内核进行卷积和bias相加。这种方式对准确性没有任何影响。
2.在每个卷积层和随后的非线性层之间，使用BN
3.在解码器中，用max unpooling代替max pooling ，用无bias的spatial convolution代替padding
4.在最后一个上采样模块中没有使用池化索引，因为initial初始块是在输入图的3个通道上进行的操作，而最终的输出具有C个特征图(分割对象类别的数量) 。
【5】ICNet用于高分辨率图像的实时语义分割
《ICNet for Real-Time Semantic Segmentation on High-Resolution Images》
链接:
ICNet使用了级联的图像输入(即低、中、高分辨率图像) ，采用了级联的特征融合单元，训练时使用了级联的标签监督。
文章插图
ICNet包括三个分支：
1.低分辨率分支来获取语义信息，将原图1/4大小的图像输入到PSPNet中，降采样率为8 ，产生了原图1/32的特征图。
2.中分辨率和高分辨率的分支进行粗糙预测的恢复和细化，图2中部和底部分支，获得高质量的分割。
3.高分辨率分支采用轻加权的CNNs(绿色虚线框，底部分支和中部分支)；不同分支输出的特征图采用级联特征融合单元进行融合，训练时接受梯级标签监督。
级联特征融合：
文章插图
【6】加速自动驾驶的语义分割
《Speeding up Semantic Segmentation for Autonomous Driving》
链接：
该架构包括ELU激活功能、一个类似挤压式的编码器、随后的并行扩展卷积以及一个具有类似于sharpmask的细分模块的解码器
文章插图
译文：该编码器是一个改进的SqueezeNet 架构，它被设计为一个低延迟的网络，用于图像识别，同时保持AlexNet的准确性。
文章插图
实验结果：
文章插图
【7】高效卷积网络用于实时语义分割
实时语义分割的《Efficient ConvNet for Real-time Semantic Segmentation》
链接：
Efficient ConvNet模型整体结构遵循编码-解码结构，
文章插图
文章插图
【汇总｜实时性语义分割算法】详细构造如下表：
文章插图
整个模型包含23层，其中1-16层为Encoder ， 17-23层为Decoder 。
编码部分包含1、2、8层的下采样过程，以及余下层的Non-bt-1D提取特征。其中Non-bt-1D、Downsample构造如下：
文章插图
实验结果：
文章插图
文章插图
【8】ERFNet:用于实时语义分割的高效残差分解卷积网络
《ERFNet: Efficient Residual Factorized ConvNet for Real-time Semantic Segmentation》
链接：
REFNet沿用了编码-解码结构，其详细结构如表所示。
文章插图
文章插图
整个网络包含23层，其中1-16层为Encoder, 17-23层为Decoder 。
Downsampler block受另一个实时语义分割网络Enet的设计，其实本文不少灵感也来自于Enet：
例如在初始图像输入1024X512X3 ，左边经过3X3卷积，步长strides = 2 ，得到16 channels ，
右边经过MaxPooling 得到3 channels ，经过concat操作后得到16channels ，最终图像变为 512X256X16 ，然后使用Relu函数激活传入下一层。
优点在于从输入图像一开始就进行了减少输入图像尺寸的操作，本身视觉信息就存在大量冗余，这样节省了大量的计算。
【9】EDANet：用于实时语义分割的高效的非对称卷积密集模块
《Efficient Dense Modules of Asymmetric Convolution for Real-Time Semantic Segmentation》
链接：
模型框架如下：
文章插图