Enhanced Motion Forecasting with Plug-and-Play Multimodal Large Language Models
一、文章主要内容总结本文针对自动驾驶系统中运动预测模型在复杂真实场景下泛化能力不足的问题,提出了一种名为Plug-and-Forecast(PnF)的即插即用方法。该方法通过融合多模态大型语言模型(MLLMs)的零样本推理能力,增强现有运动预测模型的场景理解与行为预测性能,核心内容如下:问题背景:传统模块化自动驾驶系统依赖特定训练数据,在长尾罕见场景(如紧急车辆出现、极端天气)中泛化能力有限,且持续收集数据与模型迭代成本高昂。核心思路:利用自然语言对复杂场景的高效描述能力,通过提示工程从MLLMs中提取结构化的场景理解信息(包括智能体级语义与场景级特征),将其转化为可学习的嵌入向量,作为补充输入融入现有运动预测模型。核心组件:视觉语义分析器(VSA):针对车辆、行人等不同类别智能体,提取其类型、信号状态、行为意图等细粒度语义。驾驶场景分类器(SC):获取天气、时段、道路类型、是否接近路口等全局场景信息。Transformer架构增强:通过学习嵌入层与信息增益机制,将MLLM提取的结构化信息选择性融入预测模型,兼顾有效性与抗噪性。实验验证:在Waymo Open Motion Dataset(WOMD)和nuScenes数据集上,基于Wayfo