YOLOv11最新创新改进系列：多模态融合R融合多头上下文聚合ContextAggregation通用构建块，利用Container的长期交互作用、局部卷积操作的诱导偏差，产生更快的速度、更高的精度！

张

张建站

2026/5/7 14:52:03

10分钟阅读

YOLOv11最新创新改进系列多模态融合R融合多头上下文聚合ContextAggregation通用构建块利用Container的长期交互作用、局部卷积操作的诱导偏差产生更快的速度、更高的精度购买相关资料后畅享一对一答疑畅享超多免费持续更新且可大幅度提升文章档次的纯干货工具截止到发稿时B站YOLOv11最新改进系列的源码包已更新了40种的单模态改进20种多模态改进自己排列组合2-4种后考虑位置不同后可排列组合上千万种专注AI学术关注博主Ai学术叫叫兽数据集准备我给大家配置了默认的M3FD.yaml,大家可以直接在代码中使用然后按照自己的数据进行简单的替换就行非常简单# Ultralytics YOLO , AGPL-3.0 license# M3FD dataset# Example usage: yolo train dataM3FD.yaml# Train/val/test sets as dir: path/to/imgspath:# dataset root dirtrain:images/train# train visible images (relative to path)train2:imagesTR/train# train infrared images (relative to path)val:images/val# val visible images (relative to path)val2:imagesIR/val# val infrared images (relative to path)test:# test images (optional)#image_weights: Truenc:6# Classesnames:0:People1:Car2:Bus3:Motorcycle4:Lamp5:Truck其中ImagesIR 为红外线图像Image为可见光RGB图像YOLOv11最新创新改进系列多模态融合R融合多头上下文聚合ContextAggregation通用构建块利用Container的长期交互作用、局部卷积操作的诱导偏差产生更快的速度、更高的精度提出原文戳这一摘要卷积神经网络(CNNs)在计算机视觉中无处不在具有无数有效和高效的变化。最近Container——最初是在自然语言处理中引入的——已经越来越多地应用于计算机视觉。早期的用户继续使用CNN的骨干最新的网络是端到端无CNN的Transformer解决方案。最近一个令人惊讶的发现表明一个简单的基于MLP的解决方案没有任何传统的卷积或Transformer组件可以产生有效的视觉表示。虽然CNN、Transformer和MLP-Mixers可以被视为完全不同的架构但我们提供了一个统一的视图表明它们实际上是在神经网络堆栈中聚合空间上下文的更通用方法的特殊情况。我们提出了Container(上下文聚合网络)一个用于多头上下文聚合的通用构建块它可以利用Container的长期交互作用同时仍然利用局部卷积操作的诱导偏差导致更快的收敛速度这经常在CNN中看到。我们的Container架构在ImageNet上使用22M参数实现了82.7%的Top-1精度比DeiT-Small提高了2.8并且可以在短短200个时代收敛到79.9%的Top-1精度。比起相比的基于Transformer的方法不能很好地扩展到下游任务依赖较大的输入图像的分辨率,我们高效的网络,名叫CONTAINER-LIGHT,可以使用在目标检测和分割网络如DETR实例,RetinaNet和Mask-RCNN获得令人印象深刻的检测图38.9,43.8,45.1和掩码mAP为41.3与具有可比较的计算和参数大小的ResNet-50骨干相比分别提供了6.6、7.3、6.9和6.6 pts的较大改进。与DINO框架下的DeiT相比我们的方法在自监督学习方面也取得了很好的效果。仅需22M参数量所提CONTAINER在ImageNet数据集取得了82.7%的的top1精度以2.8%优于DeiT-Small此外仅需200epoch即可达到79.9%的top1精度。不用于难以扩展到下游任务的Transformer方案(因为需要更高分辨率)该方案CONTAINER-LIGHT可以嵌入到DETR、RetinaNet以及Mask-RCNN等架构中用于目标检测、实例分割任务并分别取得了6.67.66.9指标提升。提供了一个统一视角表明它们均是更广义方案下通过神经网络集成空间上下文信息的特例。我们提出了CONTAINER(CONText AggregatIon NEtwoRK)一种用于多头上下文集成Context Aggregation的广义构建模块。本文有以下几点贡献提出了关于主流视觉架构的一个统一视角提出了一种新颖的模块CONTAINER它通过可学习参数和响应的架构混合使用了静态与动态关联矩阵(Affinity Matrix)在图像分类任务中表现出了很强的结果提出了一种高效有效的扩展CONTAINER-LIGHT在检测与分割方面取得了显著的性能提升。二修改步骤2.1 修改YAML文件2.2 新建.py2.3 修改tasks.py三验证是否成功即可执行命令python train.py改完收工关注B站Ai学术叫叫兽er从此走上科研快速路遥遥领先同行写在最后学术因方向、个人实验和写作能力以及具体创新内容的不同而无法做到一通百通关注UPAi学术叫叫兽在所有B站资料中留下联系方式以便在科研之余为家人们答疑解惑本up主获得过国奖发表多篇SCI擅长目标检测领域拥有多项竞赛经历拥有软件著作权核心期刊等经历。因为经历过所以更懂小白的痛苦因为经历过所以更具有指向性的指导祝所有科研工作者都能够在自己的领域上更上一层楼以下为给大家庭小伙伴们免费更新过的绘图代码均配有详细教程超小白也可一键操作! 后续更多提升文章档次的资料的更新请大家庭的小伙伴关注UPAi学术叫叫兽

3分钟掌握「阅读」APP书源导入：免费获取全网小说资源的终极指南

3分钟掌握「阅读」APP书源导入：免费获取全网小说资源的终极指南【免费下载链接】Yuedu 📚「阅读」自用书源分享项目地址: https://gitcode.com/gh_mirrors/yu/Yuedu 你是否正在寻找一个强大的小说阅读应用，却苦于找不到合适的书源&a…...

2026/5/7 14:51:00 阅读更多 →

使用Nodejs快速构建接入Taotoken的AI应用后端

使用Nodejs快速构建接入Taotoken的AI应用后端对于Node.js开发者而言，将大模型能力集成到后端服务中，通常意味着需要处理不同厂商的API密钥、端点地址和调用方式。Taotoken提供了一个统一的OpenAI兼容接口，让这个过程变得标准化。本文将指导…...

2026/5/7 14:35:43 阅读更多 →

从Vulkan兼容性困境到AI图像超分自由：Upscayl技术深度解析与实践指南

从Vulkan兼容性困境到AI图像超分自由：Upscayl技术深度解析与实践指南【免费下载链接】upscayl 🆙 Upscayl - #1 Free and Open Source AI Image Upscaler for Linux, MacOS and Windows. 项目地址: https://gitcode.com/GitHub_Trending/up/upscayl …...

2026/5/7 14:34:29 阅读更多 →

Autovisor：终极自动化学习助手 - 5分钟快速上手智慧树刷课教程

Autovisor：终极自动化学习助手 - 5分钟快速上手智慧树刷课教程【免费下载链接】Autovisor 2025智慧树刷课脚本基于Python Playwright的自动化程序 [有免安装版] 项目地址: https://gitcode.com/gh_mirrors/au/Autovisor 你是否厌倦了每天手动点击播放、等待…...

2026/5/5 12:09:26 阅读更多 →

ModelScope Auto Proxy：智能路由网关，零成本统一调用免费大模型API

1. 项目概述与核心价值如果你和我一样，是个重度依赖 AI 编程工具（比如 Cursor、Cline）的开发者，那你肯定对 OpenAI 的 API 调用成本又爱又恨。爱的是它强大的能力，恨的是账单上的数字。最近，国内的开源社…...

2026/5/7 9:02:42 阅读更多 →

从零到一：手把手教你用BetaFlight CLI命令配置AOCODARC H7DUAL飞控板（保姆级教程）

从零到一：手把手教你用BetaFlight CLI命令配置AOCODARC H7DUAL飞控板（保姆级教程） 当你第一次拿到AOCODARC H7DUAL这块飞控板时，可能会被密密麻麻的引脚和复杂的配置选项吓到。别担心，这篇教程将带你从零开始&#xff…...

2026/5/6 16:59:09 阅读更多 →

League Akari：你的英雄联盟游戏体验进化指南

League Akari：你的英雄联盟游戏体验进化指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 想象一下这样的场景：你正在…...

2026/5/5 9:51:58 阅读更多 →