Cityscapes数据集标签映射的实战解析与自定义策略

张

张建站

2026/6/30 15:18:31

10分钟阅读

1. Cityscapes数据集标签体系深度解析第一次接触Cityscapes数据集时我被它复杂的标签体系弄得晕头转向。这个数据集包含了30多个类别从道路、人行道到车辆、行人几乎涵盖了城市街景中的所有元素。但实际做项目时我们往往只需要关注其中的几个关键类别。打开labels.py文件你会发现每个标签都有7个属性。以道路为例Label(road, 7, 0, flat, 1, False, False, (128, 64,128))这里最关键的三个参数是id原始标注ID固定不变trainId训练时使用的ID可以自定义修改ignoreInEval评估时是否忽略该类别我刚开始做二分类任务时把所有非目标类别都设为0目标类别设为1。结果模型表现很差后来才发现问题出在标签映射策略上。比如把天空、建筑物都映射为同一个ID模型就难以区分这些差异很大的类别。2. 实战二分类任务标签重映射假设我们要做一个简单的道路检测器只需要区分道路和非道路。下面是我验证过的两种映射方案2.1 方案一简单二分法labels [ Label(road, 7, 1, flat, 1, False, False, (128, 64,128)), Label(sidewalk, 8, 0, flat, 1, False, False, (244, 35,232)), # 其他所有类别trainId都设为0 ]这种方案看似直接但存在明显问题模型会把建筑物、车辆和天空都视为同一类导致特征混淆。2.2 方案二分层映射labels [ Label(road, 7, 1, flat, 1, False, False, (128, 64,128)), Label(sidewalk, 8, 2, flat, 1, False, True, (244, 35,232)), Label(building, 11, 3, construction, 2, False, True, (70, 70, 70)), # 其他重要背景类别单独编号 Label(unlabeled, 0, 0, void, 0, False, True, (0, 0, 0)) ]虽然仍是二分类但给不同背景类别分配不同ID评估时忽略非目标类别。实测这种方案能使mIoU提升5-8个百分点。3. ignoreInEval的隐藏陷阱很多教程建议把不关注的类别设为ignoreInEvalTrue但这样做有个潜在问题当这些类别在评估时被忽略模型可能会在这些区域产生任意预测。我在一个项目中就遇到过模型把ignore类预测成了道路。更稳妥的做法是Label(sky, 23, 0, sky, 5, False, False, (70,130,180))即使不关注天空也强制模型将其预测为背景类。这能避免评估指标的水分特别是在实际部署时模型对所有区域都会有明确判断。4. 标签映射的高级技巧4.1 语义相近类别合并# 将各种车辆合并 vehicles [car, truck, bus, train, motorcycle, bicycle] for label in labels: if label.name in vehicles: label.trainId 2这对自动驾驶场景特别有用有时我们不需要区分具体车型。4.2 动态标签权重在损失函数中为不同类别设置权重class_weights torch.FloatTensor([ 0.1, # 背景 1.0, # 道路 0.5 # 其他 ]).cuda() criterion nn.CrossEntropyLoss(weightclass_weights)这样可以解决类别不平衡问题比如道路像素通常远多于其他类别。5. 完整处理流程实操克隆官方脚本库git clone https://github.com/mcordts/cityscapesScripts修改labels.py后生成新标签python createTrainIdLabelImgs.py --cityscapes-dir /path/to/dataset在PyTorch数据加载器中验证def __getitem__(self, index): image Image.open(img_path).convert(RGB) label Image.open(label_path) # 确保标签是处理后的trainId assert np.array(label).max() 18 # 最大trainId return image, label记得在处理前后对比查看标签图像我用过的一个检查方法是import matplotlib.pyplot as plt plt.imshow(label) plt.show()6. 常见问题排查问题1训练时出现255值报错原因有些教程建议用255表示忽略类别但CrossEntropyLoss不支持解决要么修改损失函数要么确保最大trainId不超过类别数问题2评估指标异常高检查确认ignoreInEval设置正确没有把应该评估的类别忽略了问题3标签图像全黑解决检查createTrainIdLabelImgs.py的输出路径确认有写入权限我在多个实际项目中最深的体会是标签映射不是简单的ID替换而是要根据任务目标设计合理的语义层次。比如做自动驾驶感知时可以把所有静态物体合并而动态物体保持细分。这比盲目照搬官方配置效果要好得多。