论文总结1、有开源代码https://github.com/Jian-Lang/RAGPT2、现有方法的不足1联合学习使用像素或者空字符作为占位符去填充缺失模态引入噪声2跨模态生成存在模态鸿沟重建质量差3静态提示Prompt与实例无关无法适应不同缺失情况。3、作者提出了RAGPT一种增强检索的动态提示调优框架包含多通道检索器、缺失模态生成器和上下文感知提示器三个模块多通道检索器构建记忆库存储完整的模态样本按照模态内相似度(使用的是余弦相似度检索与目标最相似的K个实例作者在超参数寻优部分K在部分数据集上取值为3达到最优部分数据集为5时达到最优。避免跨模态检索的语义鸿沟。在缺失模态生成器中对于缺失模态用检索到的同模态内容进行平均后经过可学习滤波块FFTIFFT去噪近似恢复缺失表征。上下文感知提示器从检索实例的文本、图像和标签中提取动态提示跨注意力自适应池化将这些提示与目标实例特征拼接输入预训练MMT多模态转换Transformer的特定层实现动态、实例自适应的提示增强。摘要多模态学习在不完全模态条件下既实用又具有挑战性。近年来研究人员专注于通过应用可学习提示增强预训练多模态变换器MMT在缺失模态条件下的鲁棒性。然而这些基于提示的方法面临若干局限1不完全模态为任务特定推理提供了有限的模态线索2缺失内容的虚拟插补会导致信息丢失并引入噪声3静态提示具有实例无关性对各种缺失条件的实例提供有限的知识。为解决这些问题我们提出了RAGPT一种新型的检索-增强动态提示调优框架。RAGPT由三个模块组成I多通道检索器通过内模态检索策略识别相似实例;II缺失模态生成器利用检索的上下文恢复缺失信息;III上下文感知提示器捕捉相关实例的上下文知识并生成动态提示大幅增强MMT的稳健性。对三个真实世界数据集进行的广泛实验表明RAGPT在处理不完整模态问题方面始终优于所有竞争基线。引言多模态学习已成为科研和工业界的关键范式展示了在医疗援助Ghosh 等2024和恶意内容检测Kiela 等2020等领域的广泛应用潜力。然而大多数成功的方法通常假设所有模态的完整性在训练和推理阶段都是必不可少的。实际上传感器故障和隐私问题等因素往往使收集完整模态变得不可行马 等2021。因此不完整模态的挑战显著影响了多模态模型在实际应用中的可靠性、准确性和安全性Woo 等2023;Cheng 等2024a。为应对这一挑战研究人员开发了多种稳健的多模态方法大致分为三类1联合学习方法Wang 等20212023; Yao等2024年2跨模态生成方法马等2021;Woo等2023年以及3基于提示的方法Lee等2023;Jang、Wang 和 Kim 2024。对于联合学习方法它们高度依赖相似度量的选择并要求用掩码值填充缺失模态输入导致关键信息丢失并引入模型中的噪声Wang等2024。跨模态生成方法不可避免地面临模态异质性问题且重建质量有限。近年来由于强大的预训练多模态变换器MMT的兴起基于提示的方法获得了显著关注。这些方法利用提示调优技术有效将预训练于完整多模态数据集的MMT能力转移到涉及缺失模态的任务中实现了显著性能使其成为不完全多模态学习的主导趋势。然而对于不完全模态基于提示的方法通常将现有模态作为通过提示学习实现任务特定目标的唯一线索见图1。尽管取得了进展这些方法在严重缺失模态场景中常常表现不佳因为其设计中存在若干未解决的问题1剩余模态通常提供有限的模态信息当缺失模态包含关键模态线索时无法有效解决特定任务。2模态不完整的输入常被虚值填充例如文本/图像的空字符串/像素这可能引入噪声导致性能下降马等2022。3提示token在所有输入间共享因此不依赖实例。因此这种静态提示调优不适合真实的多模态实例因为缺少不同模态类型的实例属于不同的分布。此外静态提示通常对缺失和全模态实例的知识有限。因此这些观察促使我们设计通用提示调优策略以增强预训练MMT对不完全模态的鲁棒性。为解决这些问题我们从人类通过观察学习的能力中汲取灵感即通过观察相关主题来掌握技能而非试图死记硬背所有主题Hodges 等2007。如图1所示我们利用这一认知原则解决缺失模态的挑战。我们的核心思想是检索相关多模态内容并将其作为提示增强预训练MMT在缺失模态和完整模态情境下的鲁棒性。直观地对于缺失模态的实例从类似实例附加多模态内容可以提供与缺失模态相关的上下文知识并提升任务具体预测。为此我们提出了RAGPT一种新的检索增强动态提示调优框架以自适应增强预训练MMT在缺失和全模态情境下的鲁棒性。从根本上说我们以原则性的方式重新表述不完全模态学习并保持模型无关设计便于与各种基于提示的模型无缝集成。RAGPT包含三个模块多通道检索器、缺失模态生成器和上下文感知提词器。在检索过程中我们提出了一种通用多通道检索策略将多模态表示解开为单模态组件便于基于模态内相似性检索相似样本适用于缺失和全模态情景。接下来缺失模态生成器包含一个可学习的滤波器用于近似缺失信息。在传统重建技术中存在跨模态生成时存在模态缺口外该生成器通过利用与缺失模态相同的检索样本中的信息实现模态内重建恢复缺失内容。此外该设计丰富了缺失模态表示确保在预训练阶段与预训练MMT的完全模态输入格式保持一致。最后上下文感知提问器识别目标与检索实例之间的语义相关性生成针对不同输入的动态多模态提示。这些提示促进了缺失和全模态场景中模态特征的自适应细化从而增强预训练模型的鲁棒性。我们将这些模块插入预训练MMT以实现缺失和全模态数据的更准确表示。以下是我们的主要贡献• 据我们所知这是首个针对不完全模态的检索增强范式。我们揭示以往基于提示的方法存在虚假填充和静态提示的问题在严重缺失模态情况下性能会大幅下降。• 为解决这些问题我们提出了RAGPT开创性地采用检索增强动态提示调优框架桥接目标与相关实例恢复缺失模态并生成动态提示以增强MMT在多种缺失模态情境下的稳健性。• 我们在三个真实世界数据集上进行了广泛实验将RAGPT与9个竞争基线进行比较结果证实了RAGPT在解决缺失模态问题上的有效性。我们的工作代码和基于提示的基线可在 https://github.com/Jian-Lang/RAGPT 获取。图1先前基于提示的方法与我们RAGPT在解决不完全多模态学习问题中的比较。相关工作不完全多模态学习研究人员开发了多种不完全多模态学习方法可分为三类1联合学习方法Zhao Li and Jin 2021;Wang 等2023;Yao 等2024专注于从完整模态中提炼复杂相关性以处理缺失模态数据。然而这些方法需要用掩蔽值填充模态不完全输入可能导致意外行为并引入额外噪声。2 跨模态生成方法Lee 等2019;Yuan 等2021主要通过剩余模态重建缺失内容。研究人员马等2021;Woo 等2023直接利用 VAE 仅基于现有模态生成缺失模态。因此这些方法不可避免地面临模态异质性问题。3基于提示的方法Lee 等2023;Jang、Wang 和 Kim 2024引入可学习提示帮助预训练的 MMT 解决不完整的模态。然而基于提示的方法受制于虚拟补值和静态提示策略导致性能瓶颈。相比之下我们的 RAGPT 从检索实例中捕获上下文知识恢复缺失内容生成动态提示增强 MMT 对缺失模态的鲁棒性。提示学习提示学习Liu等2023利用少量可学习提示参数加入预训练变换器的输入便于对预训练模型进行调整以与下游任务对齐。它已成功应用于多个领域如视觉身份Khattak 等2023;Lee 等2023和社交网络分析Zhou 等2021;Xu 等2021;Zhong 等2024;Cheng 等2024b2023。继提示学习在自然语言处理任务中的成功Li 和 Liang 2021之后近期研究尝试探索其在多模态学习中的应用Zhou 等2022a。例如MaPLeKhattak 等2023在 MMT 的隐藏表示后引入了软提示显著提升了少数帧图像识别。对于不完全多模态学习MAPsLee 等人2023和MSPJang、Wang和Kim 2024设计了各种提示以微调预训练的MMT使其能够有效适应缺失模态场景。然而这些提示是实例无关的对缺失和全模态数据提供的信息有限。相比之下RAGPT中的上下文感知提示器捕捉了相关实例的丰富上下文知识缓解了实例无关提示的缺点。图2RAGPT的整体框架。1多通道检索器通过模态内检索策略识别类似实例;2上下文感知提示器从相关实例捕获上下文知识并生成动态提示;3知识增强提示调优过程首先使用缺失模态生成器恢复缺失内容然后对预训练的MMT进行动态提示调优以实现最终预测。方法论问题定义本文考虑包含两种模态的多模态数据集。形式上我们定义 D {Df Dm} 表示多模态数据集。这里Df {x1 i x2 i yi}Nf i1 表示模态完全子集其中 yi 是第 i 个实例的类标签。x1 i 和 x2 i 表示两种模态例如文本和图像。N f 是子集 Df 中实例的总数。反过来Dm {x1 i yi ∨ x2 i yi}Nm i1 是一个模态不完全子集其中“”表示缺失的模态N m 是 Dm 中缺失模态数据的数量。该任务的目标是在训练和测试阶段缺乏模态的情况下增强模型的鲁棒性。图2展示了RAGPT中的关键组件及其关系。以下章节将深入探讨每个组件的具体内容及其相应的实现。多通道增强本节设计了一个统一的多通道检索器通过利用模态内相似性识别相关模态内容。内存构建为存储高质量语义信息作为先验知识我们定义了内存B该内存通过一组图像、文本、标签三元组编码多模态实例。多通道检索为适应多样化的缺失和全模态场景我们开发了多通道检索器MCR通过统一检索架构有效检索相关实例。具体来说对于缺失文本通道MCR将图像表示作为查询用于识别顶K相似图像并结合相关文本创建多模态实例。对于完整的模态MCR分别利用图像和文本搜索相关文本和图像从而创建多模态实例。具体来说在文本级分支中MCR首先将目标实例Ti中的x1 i分成n个词词然后将其投影为词嵌入Wi ∈ Rn×dt其中dt为词嵌入维数。接着嵌入Wi输入预训练文本编码器例如CLIP文本编码器Radford等2021Ψt·以获得文本表示表示为Et i ΨtWi ∈ Rdt 。随后MCR利用文本查询Et i计算内存B中文本表示Etr的相似度评分从而识别前K文本相似实例CR i对于视觉内容MCR首先将图像x2i划分为m个互不重叠的图像块然后将其投影为一个图像块令牌序列Vi∈Rm × dv。然后将这些令牌Vi输入到预训练的视觉编码器( e.g . , CLIP视觉编码器(雷德福et al 2021) ) Ψv ( · )中以获得视觉查询Ev i∈Rdv。最后搜索top - K视觉内容的检索过程与等式中定义的相同。1 .经过检索可以很容易地得到top - K个实例CR i { cr1i· · ·crK i }。每个检索到的实例crk i都包含(图像、文字、标签)三元组。检索到的top - K实例提供了辅助上下文指导目标实例中缺失内容的恢复提高任务特定的预测。语境感知的提示语为了显式地捕获表达性的上下文信息并增强预训练MMTs对缺失模态问题的鲁棒性。我们设计了一个上下文感知的Prompter( Context-Aware PrompterCAP )它从检索到的实例CR i中构造文本级、视觉级和标签级的动态提示。对于文本级提示CAP融合CR i中的参考文本特征并通过一个简单的网络对齐Ti中的文本嵌入。具体来说CAP首先将文本x1i和{ x1rk i } K k 1进行符号化并投影为词嵌入Wi∈Rn × dt和WR i { W rk i } K k 1∈RK × n × dt。随后以词嵌入Wi为查询通过交叉注意力块与检索到的文本特征{ Wrk i } K k 1进行交互以方便上下文理解从而生成文本级综合表示P t i∈Rn × dt其中fQt ( . )ftK ( . )ftV ( . )分别表示查询密钥和值投影函数.对于视觉级别的提示CAP使用相同的过程将视觉补丁令牌Vi∈Rm × dv与检索到的补丁令牌VR i∈RK × m × dv进行交互得到视觉级别的表示P v i∈Rm × dv。然后CAP采用自适应池化策略来获得最终的上下文感知提示Pt i∈Rl × dt和Pv i∈Rl × dv其中l是提示长度。对于标签级别的提示CAP产生一个标签嵌入矩阵P l i∈RC × d来编码C类标签其中d是一个可调的维度。给定检索到的标签CAP对嵌入矩阵P l i进行查找操作得到每个标签的嵌入。 接下来CAP平均K个标签嵌入并生成标签级别的提示Pli∈Rd。知识增强的提示微调在这个过程中我们首先利用检索到的模态信息通过一个缺失模态生成器来近似缺失的内容。接下来我们对预训练的MMT ( ( e.g . , ViLT ( Kim , Son , and Kim 2021) )进行动态的提示调整以增强特定任务的推理。缺失模态生成器现有的重构方法( Ma et al 2021)通过可用的模态恢复缺失的内容来解决缺失模态问题。然而这些方法往往忽略了模态异质性问题并且依赖于复杂的生成结构。基于这些观察我们提出了一种缺失模态生成器( Missing Modality GeneratorMMG )通过模态内重构来恢复缺失的模态。 MMG利用与缺失模态相同的检索内容并结合可学习的过滤层以更简单但有效的方式有效地近似缺失模态。具体地给定文本缺失实例TiMMG采用非参数策略从检索实例CR i中平均所有文本嵌入WR i { Wrk i } K k 1从而获得文本表示Wi∈Rn × dt来近似缺失模态。考虑到综合文本表示Wi中潜在的噪声MMG引入了一个简单的可学习滤波器块(即,基于MLP的滤波器( Zhou et al 2022b ) )通过去除噪声来有效地细化文本特征Wi。 具体来说MMG沿文本维度使用快速傅里叶变换( FFT )。该操作将文本上下文表示W ~ i变换到频域式中F ( · )为一维FFTZi为W ~ i的频谱。然后MMG通过与可学习滤波器W∈Cn × dt的逐元素乘法来调制频谱。最后将恢复的表示W ( i )作为缺失模态的嵌入并将其输入到预训练的MMT中。此外将上述过程应用于包含缺失图像的场景以获得相应的视觉块嵌入V ( i .动态提示调节给定一个预训练的具有N个连续多磁头自注意力( Self-AttentionMSA )层的MMT f θ我们将第b个MSA层的输入表示记为hb∈RL × db 12..N输入长度L和嵌入维数d。对于全模态数据我们利用预训练模型f θ ( · )的嵌入层得到相应的文本嵌入Et和图像嵌入Ev。 在缺失模态的情况下我们使用生成的词嵌入W (和视觉块嵌入V (来填充相应的缺失模态。h1是文本嵌入Et和图像嵌入Ev的级联。然后上下文感知提示Pt、Pv和Pl沿着序列长度维度附加到嵌入特征上形成扩展特征hbp [ Pt、Pv、Pl、hb]。这些扩展特征hbp从第b层开始进入MMT并继续在剩余层中传播。最后的输出hpN表示第N层之后的综合模态表示。而不是在每个MSA层添加提示这会导致相当大的开销我们选择性地将提示插入到特定的第b层。 标签增强预测为了进一步利用标签级别提示中的上下文信息我们通过计算MMT的输出表示与标签矩阵P l之间的相似度设计了一个标签增强分类器。具体来说对于最终的预测我们将输出表示hpN输入到池化层得到表示Z∈Rd × 1。接下来我们计算概率。C类Y (∈RC × 1 )y ( softmax( P l⋅Z)。在训练过程中我们冻结MMT中的所有参数并使用交叉熵损失对模型进行优化。实验实验配置该部分对实验设置进行了总结包括数据集、基线、评估指标、缺失模式设置和实现细节。数据集在前期工作( Lee et al.2023 ; Jang , Wang , and Kim 2024)的基础上我们在三个下游任务上评估了我们的RAGPT。( 1 ) MM-IMDb ( Arevalo等2017)主要用于图像和文本两种模态的电影类型分类。( 2 ) Food101 ( Wang et al . 2015)它专注于融合图像和文本的图像分类。( 3 ) HateMemes ( Kiela et al 2020)旨在利用图像和文本模态识别模因中的仇恨言论。数据集的详细统计数据见表2。数据集的拆分与原始论文一致。 基线我们将我们的RAGPT与9个竞争性基线进行比较这些竞争性基线分为三类( 1 )跨模态生成方法SMIL ( Ma et al 2021)TFRNet ( Yuan et al . 2021)和AcMAE ( Woo et al.2023)。( 2 )联合学习方法IF-MMIN ( Zuo et al 2023)ShaSpec ( Wang et al.2023)DrFuse ( Yao et al.2024)CorrKD ( Li et al.2024)。( 3 ) Prompt-Based方法映射( Lee et al.2023)和Msps ( Jang , Wang , and Kim 2024)。评价在( Lee et al.2023 ; Jang , Wang , and Kim 2024)的工作基础上我们采用了合适的数据集评估指标MM - IMDb数据集的F1 - Micro ( F1-M )和F1Sample ( F1-S )HateMemes数据集的AUROC和Food101数据集的分类准确率( ACC )。 缺失模式的设置我们将缺失率η %定义为模态不完整数据相对于整个数据集的比例。对于每个数据集存在3种可能的模态缺失情况文本缺失、图像缺失和两种模态均缺失。缺失率为η %的文本/图像缺失表明存在η %的由文本/图像组成的实例和( 1-η ) %的同时包含两种模态的实例。两种模态同时缺失缺失率为η %表明有η 2 %的实例仅由图像组成η 2 %的实例仅由文本组成( 1-η ) %的实例是完整的包含两种模态。实现细节遵循先前的工作( Lee et al 2023JangWang和Kim 2024 )我们使用预训练的ViLT ( Kim , Son , and Kim 2021)作为MMT的骨干。每个数据集的内存B由对应的训练集构建。上下文感知提示长度l设为2检索实例数K选自{ 13579 }提示插入层b设为2。采用学习率为1 × 10 - 3的Adam W优化器(洛什奇洛夫和哈特2017)共20个历元进行参数优化。所有实验均在NVIDIA RTX 3090 GPU上进行。模型总体性能为了验证RAGPT的优越性在η % 70 %的缺失率下将其与9条竞争基线在3个数据集上进行比较。从这些结果中我们有以下观察首先我们的RAGPT在不同的模态条件和度量下在三个数据集上一致地优于所有的强基线。此外我们将RAGPT和最好的基线重新训练5次以计算p值。值得注意的是RAGPT实现了12 . 21 %、12 .在文本缺失的MM - IMDb数据集上F1 - M和F1 - S指标分别提高了68 %。这些结果验证了我们对表达性知识的挖掘设计。检索实例以增强缺失和完整的模态数据。同时缺失模态生成器和上下文感知提示器分别从检索实例中提取表达性的上下文信息来近似缺失内容和生成动态提示从而提高模型对不完整模态的鲁棒性。其次跨模态生成和联合学习方法表现出较差的性能主要是由于随机占位引入的不确定性和重建中模态异质性的挑战这造成了显著的性能瓶颈。 此外基于提示的方法在缺失模态场景中也表现出有限的有效性因为它们依赖于虚拟填充和静态提示策略进一步限制了它们的潜力并导致性能停滞。消融实验我们进行了各种消融实验以评估70 %文本缺失情况下RAGPT中每个组件的影响并将结果总结在表3中。多通道检索器的影响为了分析RAGPT中检索器的影响我们设计了两个变体( 1 ) CM检索器将多通道检索器替换为跨模态检索器( 2 ) w / o检索器将检索器全部移除。这些结果证实了跨模态检索中模态间隙问题的存在使得检索到的实例与目标图像不相关。此外这一发现加强了我们的多通道检索设计通过计算模态内相似度来检索相关实例从而增强缺失和完整的模态数据。 缺失模态生成器的影响为了评估缺失模态生成器的影响我们设计了不同的模型( 1 ) Padding使用随机值填充缺失模态( 2 ) w / o Filter完全去除滤波器块。我们观察到假人填充会导致性能下降。这一发现支持了我们的论断即在基于提示的方法中虚拟填充会导致性能瓶颈。此外过滤层的去除会导致性能的显著下降突出了过滤层在RAGPT中对有效抑制噪声的重要性。上下文感知提示的作用为了分析上下文感知提示我们设计了变体( 1 )静态提示用静态提示替换上下文感知提示( 2 ) w / o标记去除标记增强( 3 ) w / oPrompter完全消除文本提示、视觉提示、标签提示。这三种变体导致了较差的表现验证了静态提示为解决不完整的多模态学习提供了有限的相关线索。超参数分析图3 ( a )和图3 ( b )给出了RAGPT超参数K在MM - IMDb和HateMemes数据集上的敏感性分析。实验结果表明通过检索相关实例RAGPT的性能得到了提高。然而由于噪声(即,不相关的实例)的引入合并更多的实例可能会导致性能的下降。因此我们在MMIMDb数据集上的图像缺失情况下采用K 3其他情况下采用K 5。检索质量呈现为了进一步分析我们提出的多通道检索器的有效性我们从Food101数据集中随机选择了两个模态不完整的实例。图4对Top - 2相似检索实例进行了可视化展示展示了检索实例与目标实例在图像和文本模态上都具有较强的语义相关性。检索相关度的高质量表明我们的多通道检索器能够有效地识别相关模态信息。模型泛化能力为了考察模型的泛化能力我们在训练集中设计了两个不同缺失率的实验。并在缺失率为90 %的测试集上评估它们的性能。与四个强基线( ShaSpec、DrFuse、MAPs和MSPs)相比图5 ( a )展示了文本缺失情况下的结果而图5 ( b )展示了两种模态都缺失情况下的结果。我们观察到在所有缺失率下我们的RAGPT优于所有基线显示出对缺失模态的卓越性能。这些结果凸显了RAGPT的泛化能力这可以归因于从相关情境中探索关键线索的能力。对不同缺失率的稳健性我们通过实验分析了模型对不同缺失率的稳健性。图6展示了RAGPT在HateMemes数据集上与4个强基线( ShaSpec、DrFuse、MAPs和MSPs)的比较结果。我们观察到随着缺失率的增加所有基线的表现都显著恶化。相比之下随着缺失率的增加RAGPT仅表现出轻微的性能下降。这一结果凸显了RAGPT中有效缓解缺失数据影响的有价值成分。具体来说RAGPT利用检索实例的表达性知识通过缺失模态生成器来近似缺失模态。此外RAGPT生成上下文感知提示增强了预训练MMT的性能。模型的可扩展性为了进一步验证RAGPT的可扩展性我们集成了关键模块(多通道检索器、缺失模态生成器和上下文感知提示符)组成两个基于提示符的基线( MAPs和MSPs)。在图7中我们观察到随着缺失率的增加两个基线的性能下降速度明显变慢。这一发现表明我们的模块显著增强了这些基线对不完整模态的鲁棒性。这也验证了我们的设计在从相关实例中提取信息丰富的多模态线索和提示预先训练的MMTs方面的有效性模型预测可视化图8展示了在90 %的文本缺失率下MMIMDb测试集中三种体裁(即《体育》、《黑色电影》、《西)的嵌入分布的t - SNE ( Van der Maaten和Hinton 2008)可视化。我们观察到基线MSP在学习可区分特征的同时学习到的特征仍然交织在一起。相比之下我们的RAGPT学习到的三种语类的表示更具有区分性在具有不同标签的实例之间表现出更大的分离区域。总结在这项工作中我们提出了RAGPT一种新颖的检索增强的动态提示-校正框架来解决缺失模态问题。该模型不可知框架包括3个关键部分( 1 )多通道检索器( 2 )缺失模态生成器( 3 )上下文感知提示器以有效地将有价值的上下文知识注入到预训练的MMT中从而增强其在缺失模态场景下的鲁棒性。在三个真实数据集上进行的大量实验证明了RAGPT在处理不完整模态学习方面的优越性。