YOLOE-26:实时开放词汇实例分割新标杆,YOLOv26 与 YOLOE 强强联合
点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID计算机视觉研究院学习群扫码在主页获取加入方式https://arxiv.org/abs/2602.00168计算机视觉研究院专栏Column of Computer Vision Institute本文提出的YOLOE-26将部署优化的 YOLOv26 架构与 YOLOE 的开放词汇学习范式深度融合打造出兼顾实时推理、无 NMS 端到端、多模态提示、开放词汇分割的统一框架彻底打破效率与泛化的壁垒。PART/1背景核心背景YOLO 的进化与行业痛点YOLO 系列历经多代迭代从单阶段检测到无 NMS 端到端设计YOLOv26成为部署优先的巅峰之作原生端到端预测、移除 DFL 损失、搭载 MuSGD 优化器在低功耗 CPU 与边缘设备上实现超低延迟覆盖检测、分割、姿态估计等多任务。但所有传统 YOLO 都有致命短板封闭词汇设定—— 训练时固定类别推理时无法识别新物体在机器人、智慧农业、工业检测等动态场景中完全不适用。与此同时GLIP、Grounding DINO 等开放词汇模型虽能零样本识别新类别却依赖重型 Transformer 与大语言模型推理慢、耗显存、边缘部署难无法满足实时场景需求。YOLOE 的出现填补了这一空白将嵌入分类引入 YOLO 框架支持文本、视觉、无提示三种模式。而 YOLOE-26 则进一步融合 YOLOv26 的高效架构与 YOLOE 的开放能力实现真正落地级的实时开放词汇实例分割。PART/2架构核心三大创新效率与泛化双在线YOLOE-26 以 YOLOv26 为基础骨架保留无 NMS 端到端优势同时重构分类头加入三大关键模块构建统一语义嵌入空间。1. 基础架构继承 YOLOv26 极致效率骨干网络卷积架构多尺度特征提取简化模块、优化梯度流降低计算开销颈部结构PAN/FPN 多尺度特征融合兼顾小目标定位与全局语义端到端头回归头预测框坐标分割头输出掩码原型与系数全程无 NMS单前向传播出结果确定性拉满2. 核心创新对象嵌入头替代固定分类头抛弃传统固定类别 logits为每个锚点输出D 维语义嵌入向量将分类转化为对象嵌入与提示嵌入的相似度匹配实现推理时自由添加新类别无需重训练。3. 三大提示机制覆盖全场景文本提示RepRTA自然语言描述目标训练时辅助网络对齐视觉 - 文本特征训练后重参数化融入主干推理零额外开销视觉提示SAVPE用框 / 掩码示例指定目标轻量编码器提取视觉提示嵌入无需 Transformer计算量极低无提示推理LRPC内置 4585 类词汇先筛选目标区域再匹配词汇大幅降低计算量实现全自动感知YOLOE-26 简化架构鸟瞰图YOLOE-26 完整架构图统一对象嵌入空间示意图PART/3实验性能实测精度 - 效率 trade-off 全面领先团队在 640px 分辨率下基于 minival 基准测试从文本 / 视觉提示、无提示两大场景验证性能模型覆盖 n/s/m/l/x 全尺度。文本 / 视觉提示场景核心结论大模型精度登顶小模型极致轻量化n/s 版本可部署低功耗设备l 版本适配边缘 GPU兼顾长尾类别分割。无提示场景核心结论无提示下仍保持稳定性能全自动目标发现能力突出适合大规模视频解析、自主探索等无人工干预场景。文本 / 视觉提示开放词汇分割性能无提示开放词汇分割性能YOLO26 精度 - 延迟对比图YOLOE 与 YOLO-Worldv2 训练 / 推理效率对比PART/4训练与部署兼容 Ultralytics开箱即用1. 训练策略数据集Objects365v1、GQA、Flickr30k 多源数据伪掩码生成补充分割标注损失函数多任务联合优化分类嵌入损失 框回归损失 掩码损失分阶段训练文本提示预训练→视觉提示微调→无提示 specialization低成本快速适配2. 部署优势完全兼容 Ultralytics 生态支持训练、验证、导出全流程可导出 ONNX/TensorRT/CoreML适配手机、嵌入式 GPU、边缘芯片文本提示可提前固化到模型推理无需外部文本编码器极简部署3. 代码示例极简调用PART/5总结与展望未来展望迈向自主开放词汇感知YOLOE-26 已实现效率与泛化的平衡但团队仍规划三大升级方向边缘效率优化INT8/FP8 量化训练、模型蒸馏、提示缓存极致压缩资源占用提示鲁棒性提升应对同义词、领域偏移、长尾类别降低标注噪声影响智能体感知无提示发现→自动提示优化→多视角验证闭环实现全自动自适应总结YOLOE-26 作为YOLOv26 与 YOLOE 的集大成者首次在单一模型中实现✅ 无 NMS 端到端实时推理✅ 文本 / 视觉 / 无提示三模开放词汇分割✅ 边缘设备友好兼容 YOLO 全套部署流程✅ 精度 - 效率 trade-off 全面领先同类方案无论是机器人自主感知、智慧农业病虫害检测、工业缺陷分割还是安防实时监控YOLOE-26 都能成为开放世界实时视觉任务的首选框架重新定义轻量化开放词汇分割的行业标准。有相关需求的你可以联系我们END转载请联系本公众号获得授权计算机视觉研究院学习群等你加入ABOUT计算机视觉研究院计算机视觉研究院主要涉及深度学习领域主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架提供论文一键下载并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程让大家真正体会摆脱理论的真实场景培养爱动手编程爱动脑思考的习惯往期推荐YOLO-TLA一种基于 YOLOv5 的高效轻量级小目标检测模型ViT-YOLO基于Transformer的用于目标检测的YOLO算法SSMA-YOLO一种轻量级的 YOLO 模型具备增强的特征提取与融合能力适用于无人机航拍的船舶图像检测LUD-YOLO一种用于无人机的新型轻量级目标检测网络Gold-YOLO基于聚合与分配机制的高效目标检测器Drone-YOLO一种有效的无人机图像目标检测「无人机AI」“空中城管”无人机AI光伏巡检自动化解决方案无人机视角下多类别船舶检测及数量统计机场项目解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题2PCNet昼夜无监督域自适应目标检测附原代码YOLO-S小目标检测的轻量级、精确的类YOLO网络大改Yolo框架 | 能源消耗极低的目标检测新框架附论文下载改进的检测算法用于高分辨率光学遥感图像目标检测