上周五凌晨两点,我盯着Jetson Orin的串口日志发呆。客户的智能质检系统要求:先由YOLOv8检测出PCB板上的元器件,再把每个检测框内的图像送给ResNet做缺陷分类。单模型推理已经优化到5ms,但把两个模型串起来跑,端到端延迟直接飙到28ms——客户的要求是10ms以内。我试过最简单的做法:检测完把结果拷贝到CPU,再传给分类模型。结果光数据搬运就占了12ms。那一刻我意识到,多模型部署不是“1+1=2”,而是“1+11.5”的艺术。今天,我就带你拆解这个坑,并给出真正的流水线方案。痛点拆解:你以为是“串行”,其实是“阻塞”很多人的第一反应是这么写:# 反例:串行阻塞式多模型推理defnaive_pipeline(image):# 步骤1:YOLOv8检测det_result=yolo_model