从VGG到ResNet：手把手教你用PyTorch复现DeepLabV2的ASPP模块（附代码）

张

张建站

2026/5/11 17:14:44

10分钟阅读

从VGG到ResNet手把手教你用PyTorch复现DeepLabV2的ASPP模块附代码在计算机视觉领域语义分割一直是极具挑战性的任务之一。不同于简单的图像分类语义分割需要在像素级别上对图像进行理解和标注这要求模型不仅能够识别物体还要精确地定位其边界。DeepLab系列作为语义分割领域的里程碑式工作其核心创新之一就是提出了ASPPAtrous Spatial Pyramid Pooling模块通过多尺度特征提取显著提升了模型性能。对于想要在实际项目中应用这一技术的开发者来说原论文虽然提供了理论框架但具体的实现细节往往需要从代码层面才能真正掌握。本文将聚焦于ASPP模块的PyTorch实现分别以VGG16和ResNet101作为backbone详细讲解从零搭建的过程并分享在自定义数据集上微调的经验技巧。无论你是刚入门语义分割的学生还是希望优化现有模型的工程师都能从中获得可直接落地的实用知识。1. ASPP模块的核心思想与设计原理ASPP模块的灵感来源于SPPNetSpatial Pyramid Pooling但其创新之处在于将空洞卷积Atrous Convolution与多尺度特征提取相结合。理解这一设计需要先掌握几个关键概念空洞卷积通过在卷积核元素间插入空洞dilation来扩大感受野无需增加参数量或计算复杂度。例如3x3卷积在dilation2时实际覆盖5x5区域。多尺度处理同一物体在不同图像中可能以不同尺寸出现单一尺度的卷积难以捕捉全部信息。并行结构不同dilation rate的卷积分支能够同时捕获局部细节和全局上下文。ASPP的具体实现通常包含4-5个并行分支1x1普通卷积捕获原始特征dilation6的3x3空洞卷积dilation12的3x3空洞卷积dilation18的3x3空洞卷积全局平均池化图像级特征# ASPP基础结构示意图 class ASPP(nn.Module): def __init__(self, in_channels, out_channels256): super().__init__() self.conv1 ConvBlock(in_channels, out_channels, 1, dilation1) self.conv2 ConvBlock(in_channels, out_channels, 3, dilation6) self.conv3 ConvBlock(in_channels, out_channels, 3, dilation12) self.conv4 ConvBlock(in_channels, out_channels, 3, dilation18) self.gap nn.Sequential( nn.AdaptiveAvgPool2d(1), ConvBlock(in_channels, out_channels, 1) )注意实际实现时需要考虑output_stride参数输入分辨率与最终特征图的比例这会影响dilation rate的选择2. 基于VGG16的ASPP实现详解VGG16作为经典的CNN架构其规整的结构使其成为理解ASPP实现的理想起点。我们需要特别注意VGG的以下特点由连续的3x3卷积和最大池化组成全连接层可转化为卷积层fc6、fc7原始网络输出stride32需调整为8以适应密集预测2.1 VGG16骨干网络改造首先需要对原始VGG进行改造主要涉及两方面去除最后两个池化层的下采样将stride从2改为1将全连接层卷积化使用带空洞卷积的替代方案def make_vgg16_backbone(pretrainedTrue): model models.vgg16(pretrainedpretrained).features # 修改最后两个maxpool的stride model[30].stride 1 # pool5 stride model[23].stride 1 # pool4 stride # 添加空洞卷积 model [nn.Conv2d(512, 1024, 3, padding6, dilation6), # fc6 nn.ReLU(), nn.Conv2d(1024, 1024, 1), # fc7 nn.ReLU()] return nn.Sequential(*model)2.2 VGG16-ASPP完整实现将改造后的VGG与ASPP模块结合时需要注意特征通道数的匹配。VGG最终输出1024维特征而ASPP通常使用256维输出class VGG16_ASPP(nn.Module): def __init__(self, num_classes): super().__init__() self.backbone make_vgg16_backbone() self.aspp ASPP(in_channels1024) self.decoder nn.Sequential( nn.Conv2d(256*5, 256, 3, padding1), nn.ReLU(), nn.Conv2d(256, num_classes, 1) ) def forward(self, x): h, w x.shape[2:] features self.backbone(x) aspp_out self.aspp(features) out F.interpolate(self.decoder(aspp_out), size(h,w), modebilinear) return out提示VGG版本由于通道数较少训练时学习率可以设得稍大些如0.001并配合权重衰减防止过拟合3. 基于ResNet101的ASPP实现进阶ResNet作为更现代的架构其残差连接和瓶颈设计使得网络可以更深且更高效。但与VGG相比其实现ASPP时需要考虑更多细节3.1 ResNet骨干网络改造ResNet101需要调整的主要是最后两个block修改layer4的stride从2到1使用带空洞卷积的Bottleneck移除原始的平均池化和全连接层def make_resnet101_backbone(pretrainedTrue): model models.resnet101(pretrainedpretrained) # 修改layer4的stride model.layer4[0].conv2.stride (1,1) model.layer4[0].downsample[0].stride (1,1) # 将Bottleneck中的常规卷积替换为空洞卷积 for block in model.layer4[1:]: block.conv2.dilation (2,2) block.conv2.padding (2,2) return nn.Sequential( model.conv1, model.bn1, model.relu, model.maxpool, model.layer1, model.layer2, model.layer3, model.layer4 )3.2 ResNet-ASPP完整架构ResNet的输出通道为2048维比VGG更宽因此ASPP的实现也需要相应调整class ResNet101_ASPP(nn.Module): def __init__(self, num_classes, output_stride8): super().__init__() self.backbone make_resnet101_backbone() if output_stride 16: dilations [1, 6, 12, 18] else: # output_stride8 dilations [1, 12, 24, 36] self.aspp ASPP(in_channels2048, dilationsdilations) self.decoder nn.Sequential( nn.Conv2d(256*5, 256, 3, padding1), nn.BatchNorm2d(256), nn.ReLU(), nn.Conv2d(256, num_classes, 1) ) def forward(self, x): h, w x.shape[2:] features self.backbone(x) aspp_out self.aspp(features) out F.interpolate(self.decoder(aspp_out), size(h,w), modebilinear) return out两种backbone的关键对比如下特性VGG16-ASPPResNet101-ASPP输出通道数10242048参数量约138M约42M适合的输出stride8或168或16训练显存占用较高中等典型mIOU(PASCAL VOC)约68%约78%4. 自定义数据集上的实战技巧在实际项目中我们往往需要在特定领域的数据集上微调模型。以下是经过验证的有效策略4.1 数据准备与增强类别平衡对于类别不均衡的数据可采用加权交叉熵损失class_weights torch.tensor([1.0, 2.0, 3.0]) # 根据类别频率设置 criterion nn.CrossEntropyLoss(weightclass_weights)增强策略组合随机缩放0.5-2.0倍颜色抖动亮度、对比度、饱和度随机水平翻转随机裁剪固定尺寸如512x5124.2 训练优化技巧学习率策略初始学习率VGG用0.001ResNet用0.01采用poly学习率衰减$lr base_lr \times (1 - \frac{iter}{max_iter})^{power}$批次大小调整显存不足时可减小batch size但增加iter次数使用同步BN解决小batch问题辅助损失在中间层添加辅助分类器def forward(self, x): low_level_feat self.backbone.layer1(x) # 主分支 out self.decoder(self.aspp(features)) # 辅助分支 aux_out self.aux_conv(low_level_feat) return out, aux_out4.3 模型推理优化滑动窗口预测对大尺寸图像可分块预测再拼接多尺度测试组合多个缩放比例的结果量化加速使用torch.quantization减小模型体积# 量化示例 model ResNet101_ASPP(num_classes21).eval() quantized_model torch.quantization.quantize_dynamic( model, {nn.Conv2d}, dtypetorch.qint8 )在Cityscapes数据集上的实际测试表明经过合理调优的ResNet101-ASPP模型可以达到75%以上的mIOU而推理速度在1080Ti上能达到15FPS满足多数实时应用需求。

排查华为USG防火墙上不了网？先检查这5个配置点（附真实配置案例）

华为USG防火墙上网故障排查实战指南当内网用户突然无法访问互联网时，作为运维人员往往会面临巨大的压力。华为USG防火墙作为企业网络的核心安全设备，其配置的每一个细节都可能成为网络连通性的关键。本文将从一个真实的故障排查案例出发，带您…...

2026/5/11 17:09:50 阅读更多 →

HunterPie技术架构深度解析：基于内存读取的实时游戏数据监控系统

HunterPie技术架构深度解析：基于内存读取的实时游戏数据监控系统【免费下载链接】HunterPie-legacy A complete, modern and clean overlay with Discord Rich Presence integration for Monster Hunter: World. 项目地址: https://gitcode.com/gh_mirrors/hu/Hu…...

2026/5/11 17:08:57 阅读更多 →

【单片机】Arduino UNO R3：从零到一，构建你的第一个智能硬件原型

1. Arduino UNO R3开箱与初体验第一次拿到Arduino UNO R3开发板时，我注意到它比想象中要小巧精致。这块蓝色PCB板尺寸仅68.6mm53.4mm，重量不到25克，却集成了ATmega328P微控制器、USB转串口芯片等核心部件。板子边缘整齐排列着两排黑色排针&a…...

2026/5/11 17:08:05 阅读更多 →

BriSe AI：构建类脑自我层次模型，从模式匹配迈向自主理解

1. 项目概述：从“模仿”到“涌现”的范式跃迁最近和几位做认知科学和神经科学的朋友聊得比较多，大家都有一个共同的感受：当前主流的人工智能，无论是大语言模型还是多模态模型，本质上还是在做“模式匹配”和“概率预测…...

2026/5/10 0:03:41 阅读更多 →

6G边缘计算与生成式AI融合：基于LDM与DRL的协同优化架构实践

1. 项目概述：当6G边缘计算遇上生成式AI最近和几个做通信和AI的朋友聊天，大家不约而同地提到了一个词：6G边缘生成式AI。这听起来像是把几个最前沿的技术名词硬凑在一起，但当你真正拆开来看，会发现它背后指向的是一个非常…...

2026/5/10 0:03:49 阅读更多 →

DriverStore Explorer完全指南：轻松管理Windows驱动，释放宝贵磁盘空间

DriverStore Explorer完全指南：轻松管理Windows驱动，释放宝贵磁盘空间【免费下载链接】DriverStoreExplorer Driver Store Explorer 项目地址: https://gitcode.com/gh_mirrors/dr/DriverStoreExplorer 你是否曾因为Windows系统变得越来越臃肿而…...

2026/5/10 0:10:01 阅读更多 →