你正在打开手机相册,系统自动把所有照片按“人物”“风景”“宠物”整理好;你开车经过十字路口,路边的摄像头精准识别出车牌和车型;工厂流水线上,机械臂的“眼睛”实时锁定每一个瑕疵品——这些场景背后,几乎都站着一个名字:YOLO。YOLO(You Only Look Once)自2015年诞生以来,已经成为实时目标检测领域最具影响力的算法家族。从YOLOv1到YOLO26,它用一套“简单粗暴”的核心理念征服了整个计算机视觉领域:把目标检测当成一个回归问题来解决,让算法只看一次就能搞定所有物体。一、为什么YOLO敢说“只看一次”?要理解YOLO有多厉害,得先看看它之前的目标检测是怎么做的。在YOLO出现之前,R-CNN系列是主流。R-CNN的流程是这样的:先在一张图片里生成约2000个候选框(Region Proposals),然后把每个候选框送入卷积神经网络提取特征,最后用分类器判断每个框里有什么。一张图的检测时间超过40秒。后来的Fast R-CNN和Faster R-CNN虽然有所改进,但“先生成候选框、再分类识别”的两阶段模式始终没有变。YOLO的思路截然不同。它直接把一张图输入神经网络,一次性输出所有物体的边界框位置和类别概率。换句话说,从输入到输出,只有一次前向传播,没有候选框生成环节,没有独立的分类器,全流程统一在同一个网络里完成。这就是“You Only Look Once”名字的由来——只看一次就够了。二、YOLOv1:从零搭