解析DeepLabv3+的网络结构及代码【Pytorch版】

发布日期：2021-05-20 00:40:43 浏览次数：26 分类：精选文章

本文共 1060 字，大约阅读时间需要 3 分钟。

DeepLabV3+网络结构与代码解析

1.网络结构

DeepLabV3+网络采用典型的Encoder-Decoder结构，其中Encoder部分基于改进版的DeepLabV3，Decoder部分则是V3版本中的新增设计。

1.1 Encoder

Encoder主要包含backbone和ASPP两个模块：

backbone

Backbone分为两种类型：ResNet系列和Xception网络。ResNet版本中，后两层卷积改为空洞卷积；Xception版本则对中间流和出口流进行了改动。

ASPP模块

ASPP模块接收backbone输出的16步下采样的特征图，通过不同膨胀率的卷积块和全局平均池化提取多尺度特征，最终通过1x1卷积拼接成单一输出。

1.2 Decoder

Decoder接收来自backbone中间层的低级特征和ASPP输出的高级特征。其处理流程包括：

特征降维

对低级特征进行通道降维，从256通道降至48通道，以便更好地结合ASPP输出的特征。

特征上采样

将ASPP输出的特征图进行线性插值上采样，使其尺寸与低级特征一致，然后与降维后的特征拼接。

融合与预测

使用3x3卷积对融合后的特征图进行处理，并通过线性插值上采样恢复到原图分辨率，生成最终预测图。

2.代码解析

2.1 class DeepLab

DeepLab类作为核心网络模块，其forward函数主要包含backbone、ASPP和Decoder三个部分：

def forward(self, x):...

2.2 backbone部分

ResNet作为backbone

ResNet版本的backbone对layer3和layer4进行了空洞卷积改进，以控制步长并提升网络性能。

Xception作为backbone

Xception版本对中间流和出口流进行了改进，保留了Entry Flow不变，同时调整了中间和出口流的膨胀率和步长。

2.3 class ASPP

ASPP模块包含四个分支卷积和一个全局平均池化块，通过不同膨胀率的卷积提取多尺度特征，再通过1x1卷积拼接成单一输出。

2.4 class Decoder

Decoder类主要负责特征融合与预测。其初始化部分定义了通道降维卷积和最终输出卷积，以及中间的多层.Wrap(48, 256, num_classes)。

3.总结

通过结合网络结构图和开源代码，可以全面理解DeepLabV3+的实现细节。这篇文章的结构设计参考了论文地址，内容基于参考代码进行解读。

上一篇：SegNet：编解码器结构的语义分割深度卷积网络

下一篇：DeepLabV3+: 在DeepLabV3基础上引入了Decoder

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！