YOLOv5模型训练翻车实录：从交通信号灯数据集划分到超参调优的避坑指南

张

张建站

2026/6/2 5:50:02

10分钟阅读

YOLOv5交通信号灯检测实战从数据标注到模型调优的深度避坑指南在计算机视觉领域目标检测一直是工业界和学术界的热点研究方向。YOLOv5作为当前最流行的实时目标检测框架之一以其优异的性能和易用性赢得了广大开发者的青睐。然而在实际项目落地过程中特别是在交通信号灯检测这类特定场景下从数据准备到模型训练的全流程中隐藏着无数可能让开发者翻车的陷阱。本文将从一个真实项目出发分享我们在使用YOLOv5实现交通信号灯检测过程中遇到的典型问题及其解决方案。1. 数据准备阶段的常见陷阱数据是机器学习的基石但在实际项目中数据准备往往是最容易被轻视却最容易出问题的环节。我们在交通信号灯检测项目中仅数据准备阶段就踩过三个大坑。1.1 数据标注的质量控制使用LabelMe进行多边形标注时我们发现几个关键问题标注一致性不同标注人员对同一信号灯的标注可能存在差异标签命名规范初期使用红、绿等中文标签导致后续处理出错标注精度简单的矩形框标注无法准确捕捉信号灯形状推荐做法# 标注质量检查脚本示例 import json import os def check_annotation_quality(json_dir): issues [] for json_file in os.listdir(json_dir): with open(os.path.join(json_dir, json_file)) as f: data json.load(f) if len(data[shapes]) 0: issues.append(f{json_file}: 未标注任何对象) for shape in data[shapes]: if shape[label] not in [red, green, yellow]: issues.append(f{json_file}: 非法标签 {shape[label]}) if len(shape[points]) 3: issues.append(f{json_file}: 多边形点数不足) return issues1.2 数据集划分的合理比例传统的70-20-10划分比例在特定场景下可能并不适用数据量推荐比例适用场景100080-15-5小样本学习1000-500070-20-10常规场景500060-25-15复杂场景我们在实际项目中发现对于交通信号灯这种相对简单的目标适当增加验证集比例有助于更准确地评估模型性能。1.3 数据格式转换的隐藏问题将LabelMe的JSON格式转换为YOLO格式时常见的坑包括坐标归一化计算错误标签索引不匹配多边形点序混乱关键转换代码def normalize_points(points, img_width, img_height): # 将多边形点坐标归一化为0-1 normalized [] for x, y in points: nx max(0, min(1, x / img_width)) ny max(0, min(1, y / img_height)) normalized.append([nx, ny]) return normalized2. 模型配置中的关键参数YOLOv5的配置文件看似简单实则每个参数都可能对最终性能产生重大影响。我们在交通信号灯检测项目中仅模型配置就迭代了十余个版本。2.1 模型架构选择YOLOv5提供了从n到x不同大小的模型模型参数量推理速度适用场景YOLOv5n1.9M极快嵌入式设备YOLOv5s7.2M快移动端YOLOv5m21.2M中等通用场景YOLOv5l46.5M较慢高精度需求YOLOv5x86.7M慢研究用途对于交通信号灯检测我们发现YOLOv5s在精度和速度之间取得了良好平衡。2.2 输入尺寸的权衡YOLOv5支持多种输入分辨率但并非越高越好640x640平衡精度与速度320x320速度优先适合实时系统1280x1280精度优先计算成本高我们在测试中发现对于交通信号灯这类小目标适当提高输入分辨率如832x832可以显著改善检测效果。2.3 类别定义陷阱在定义信号灯类别时我们最初的设计存在严重问题错误做法# data/TLD.yaml names: [red, green, yellow, off, wait_on]正确做法# data/TLD.yaml names: [traffic_light_red, traffic_light_green, traffic_light_yellow]后者明确了对象的完整语义避免了与其他场景中红色/绿色物体的混淆。3. 训练过程中的典型问题即使数据准备充分模型配置合理训练过程中仍可能出现各种意外情况。以下是我们在交通信号灯检测项目中遇到的三个典型问题。3.1 Loss不下降的诊断方法当训练损失停滞时我们采用的诊断流程检查数据加载是否正确验证学习率是否合适分析梯度更新情况评估模型容量是否足够关键诊断命令# 检查数据加载 python train.py --data TLD.yaml --weights --cfg TLD.yaml --batch-size 16 --epochs 13.2 过拟合与欠拟合的识别通过训练曲线可以清晰识别这两种情况过拟合训练损失持续下降验证损失先降后升欠拟合训练和验证损失都下降缓慢对于交通信号灯检测我们采用的应对策略问题类型解决方案实施效果过拟合增加数据增强15% mAP欠拟合增大模型容量22% mAP两者兼有调整学习率计划18% mAP3.3 学习率调优实战学习率是训练中最关键的参数之一。我们通过实验得出的最佳实践使用LR Finder确定初始学习率范围采用余弦退火学习率调度配合适当的warmup阶段推荐学习率配置# hyp.yaml lr0: 0.01 # 初始学习率 lrf: 0.2 # 最终学习率 lr0 * lrf warmup_epochs: 3 warmup_momentum: 0.84. 模型部署与性能优化训练出高精度模型只是成功的一半如何在实际环境中高效部署同样充满挑战。4.1 模型量化实践我们测试了三种量化方法的效果量化方法精度损失推理速度提升硬件支持FP32基准1x通用FP161%1.5xNVIDIAINT8~3%3x特定硬件对于交通信号灯检测FP16量化在精度和速度之间取得了最佳平衡。4.2 推理优化技巧通过以下优化我们将推理速度提升了2.7倍使用TensorRT加速启用半精度推理优化预处理流水线批处理推理请求优化后的推理命令python detect.py --weights best.pt --source 0 --half --device 0 --imgsz 8324.3 实际场景中的性能评估实验室指标与实际表现可能存在差距。我们建立了更贴近真实场景的评估体系不同天气条件下的检测稳定性不同距离下的检测成功率不同角度的识别准确率实时性能指标FPS在项目后期我们发现模型对远处小型信号灯的检测效果不佳通过增加针对性训练数据最终将远距离检测准确率从58%提升到了89%。5. 进阶技巧与经验分享经过三个月的迭代优化我们总结出以下宝贵经验这些在官方文档中往往难以找到。5.1 数据增强的特殊配置针对交通信号灯的特点我们定制了特殊的数据增强策略# hyp.yaml hsv_h: 0.015 # 色相增强 hsv_s: 0.7 # 饱和度增强 hsv_v: 0.4 # 明度增强 degrees: 5.0 # 旋转角度 translate: 0.1 # 平移 scale: 0.9 # 缩放 shear: 0.0 # 剪切这种配置特别考虑了信号灯颜色稳定性的需求。5.2 多阶段训练策略我们发现分阶段训练可以显著提升最终性能基础训练使用预训练权重冻结部分层微调训练解冻所有层较小学习率强化训练针对困难样本重点训练每个阶段使用不同的超参数配置最终mAP提升了11.3%。5.3 模型集成技巧虽然YOLOv5本身性能强大但我们发现特定形式的模型集成仍能带来提升不同输入尺度的模型集成不同数据增强策略的模型集成不同训练阶段的模型集成通过简单的加权投票法我们将误检率降低了23%。在项目交付前的最后一周我们意外发现模型在特定光照条件下会出现误检。通过分析发现是训练数据中缺少这类场景紧急采集了200张补充图片进行增量训练最终解决了问题。这个教训让我们深刻认识到在实际项目中数据分布的全面性比模型本身的复杂度更为重要。

FortiGate新老版本分流方案对比：手动建IP组 vs 一键调用地理数据库，哪个更适合你？

FortiGate分流方案深度解析：手动IP组与地理数据库的实战抉择当企业网络同时承载国内与国际业务时，如何实现流量的智能分流成为网络架构设计的核心挑战。某中型跨境电商企业曾面临这样的困境：国内电商平台的实时订单处理需要低延迟的本地网络&…...

2026/6/2 5:45:59 阅读更多 →

别再死磕UNet了！用PyTorch复现TransUNet，我踩过的坑和调优经验都在这了

从UNet到TransUNet：PyTorch实战中的调优策略与避坑指南医疗影像分割领域正在经历一场由Transformer架构带来的变革。作为最早将Transformer引入图像分割的模型之一，TransUNet以其独特的CNN-Transformer混合设计，在多项医学图像分割任务中展现…...

2026/6/2 5:42:59 阅读更多 →