FlowGuard:基于流匹配的、身份无关的数据无模型窃取攻击检测,用于能源系统入侵检测系统
大家读完觉得有帮助记得关注和点赞摘要部署在能源基础设施中的基于人工智能AI的入侵检测系统IDS易受模型窃取攻击这使得攻击者能够离线生成可规避的流量。当前针对模型提取的防御措施要么依赖于身份绑定的查询监控在面对分布式攻击者女巫攻击时无效要么依赖于通过软标签扰动进行预测投毒不适用于硬标签IDS部署。因此我们提出 FlowGuard —— 一种基于流匹配的身份无关防御机制它能在IDS处理传入查询之前将其分类为分布外OOD查询。该方法利用了这样一个事实为无数据模型窃取攻击生成的查询其所占据的流形维度低于真实网络流量。在使用基于合法数据训练的连续归一化流CNF时这会导致其对数似然值显著降低。我们在单客户端和分布式100客户端女巫环境下使用MAZE和DisGUIDE攻击对FlowGuard进行了评估并与PRADA和FDINet进行了对比。当攻击分布发生变化时PRADA的检测率降至0%而我们的防御在两种设置下均保持了稳定的检测率且无需依赖身份信息。我们讨论了该方法的范围和局限性并概述了其在数据依赖型攻击中的潜在应用。图1。流量匹配值班人员检测。A 输入空间中合法攻击和合成攻击查询的t-SNE。b 潜在表示z0经过逆向常微分方程积分;攻击查询不属于2σ接受区域。C 对数似然分布式1其判定阈值为τ.每个查询都单独评估独立于客户端身份。关键词模型提取攻击入侵检测系统流匹配分布外检测女巫攻击关键基础设施安全1. 引言基于人工智能AI的入侵检测系统IDS正日益部署于保护关键能源基础设施包括智能电网和监控与数据采集SCADA网络Khalaf等人2025。这些系统使用深度神经网络DNN实时分类网络流量。当此类模型通过查询接口暴露时例如在安全运营中心内或通过软件定义防御SDD架构的内部应用程序编程接口API它们就成为模型提取攻击MEA的目标Tramèr等人2016Orekondy等人2019。在MEA中对手系统地查询目标模型以训练一个功能等效的替代模型。该替代模型随后可作为离线测试平台用于制作对抗性规避流量即被原始IDS误分类为良性的网络数据包Papernot等人2017。在能源系统中提取后接规避的复合威胁尤为严重。与传统IT环境泄露主要导致数据丢失不同智能电网或SCADA网络中的未检测入侵可能导致直接的物理后果包括设备损坏、级联故障和大面积停电。现有的MEA防御措施分为两类查询检测和预测投毒但在本场景下均存在局限性。查询检测方法如PRADAJuuti等人2019和FDINetYao等人2025分析传入的查询模式以识别异常行为。然而这些方法基于每个身份进行操作收集单个客户端的查询统计信息。通过轮询调度将查询分布在多个身份上女巫攻击会使PRADA的检测率降至0%。即使是全局聚合变体也可通过流量混合被击败。预测投毒方法如自适应误导Kariyappa和Qureshi2020和MODELGUARDTang等人2024扰动模型的输出概率以降低替代模型的效果。这些防御需要访问完整的概率向量软标签。实际上许多IDS部署仅返回二进制硬标签攻击/良性使得预测投毒不适用。此外即使适用模型提取在扰动下仍可能实现Chandrasekaran等人2020。虽然生成模型和隐空间表示已成功应用于检测能源系统中的异常和建模复杂动态Turowski等人2022Heidrich等人2024但我们现在将这一原则用于保护这些IDS部署免受MEA攻击。具体来说我们建议使用一个在合法网络流量分布上通过流匹配Lipman等人2023, 2024训练的连续归一化流CNF在查询到达IDS之前将其分类为分布内或分布外OOD。FlowGuard基于查询内容而非查询元数据或身份信息进行操作因此天生具有抵御女巫攻击的弹性。关键的实证观察是无数据模型窃取攻击如MAZEKariyappa等人2021、DisGUIDERosenthal等人2023生成的合成查询虽可用于提取决策边界信息但并不一定匹配完整的训练分布。在基于真实流量训练的密度模型下这些合成查询的对数似然值显著低于合法查询。因此FlowGuard将低似然值视为OOD信号。应用流匹配的动机源于近期关于FlowPureCollaert等人2025的工作该工作证明使用条件流匹配训练的CNF可以通过测量学习到的速度场的大小有效地区分对抗性样本和干净输入。我们将这一原则适配于分布式无数据模型窃取检测问题。本文的主要贡献如下我们提出 FlowGuard一种基于流匹配OOD检测、针对无数据模型窃取攻击的身份无关防御。我们在CIFAR-10Krizhevsky2009模型窃取攻击的标准基准数据集上评估了该防御对抗MAZE和DisGUIDE攻击的效果并与PRADA和FDINet进行了比较。我们讨论了该方法的范围、当前对无数据攻击的限制并概述了未来的扩展方向。本文组织结构如下第2节提供模型窃取攻击、现有防御和归一化流机制的技术背景。第3节详述提出的FlowGuard方法解释如何使用流匹配计算单个查询的对数似然以检测合成攻击数据。第3.1节定义了一个涉及黑盒攻击者利用无数据提取方法的威胁模型。第4节讨论实验评估在单客户端和分布式女巫攻击设置下对FlowGuard与PRADA和FDINet进行基准测试。最后第5节总结发现并提出未来工作建议。2. 背景与相关工作2.1 模型窃取攻击MEAMEA的目标是受害者模型 fV:X→Y该模型通过查询接口可访问。对手通过向 fV提交输入 x∈X并观察响应 y^∈Y来训练替代模型 fS。目标通常是保真度提取即 fS复制 fV的决策边界Tramèr等人2016。无数据攻击以合成方式生成这些查询MAZEKariyappa等人2021将生成器与替代模型共同训练DisGUIDERosenthal等人2023通过基于集成的不一致性和多样性损失扩展了这一点。两者都在没有访问原始训练数据的情况下从噪声中生成查询。2.2 针对模型窃取的防御查询检测。PRADAJuuti等人2019对单个客户端的查询之间的成对距离分布应用Shapiro-Wilk检验标记偏离正态性的情况。FDINetYao等人2025是当前检测分布式攻击的最新技术它从内部模型激活中计算特征失真指数以检测勾结的客户端。两种方法都需要在检测前积累来自各个身份的足够数量的查询。预测投毒。诸如Reverse SigmoidLee等人2019、Prediction Poisoning/MADOrekondy等人2020和MODELGUARDTang等人2024等方法修改返回的概率向量以误导替代模型的训练。这些方法需要软标签访问并且在硬标签设置下无法阻止提取Chandrasekaran等人2020。2.3 归一化流与OOD检测归一化流Lipman等人2024的核心是双射变换它将复杂、未知的数据分布如网络流量连续映射到简单、易处理的基分布通常是标准高斯分布。这种可逆性允许对新样本进行精确的似然计算。基于此流匹配Lipman等人2023通过回归神经网络到条件速度场来训练CNF该速度场在源分布和目标分布之间传输样本。与传统归一化流不同流匹配在训练期间不需要昂贵的雅可比行列式计算同时仍能在推理时通过瞬时变量变化公式实现精确密度评估logp1(x)logp0(z0)−∫01tr(∂z∂fθ(zt,t))dt(1)其中 p1表示数据分布x∼p1被解释为 z1并通过从 t1到 t0反向积分学习到的ODE dz/dtfθ(z,t)映射到隐表示 z0。基分布 p0通常被选为标准高斯分布。计算精确对数似然的能力使流匹配成为OOD检测的候选方案但似然方向必须针对具体数据和模型进行校准。在某些情况下例如SVHN vs. CIFAR-10深度生成模型可能为OOD数据分配比训练数据更高的似然值Nalisnick等人2019。在我们的设置中校准信号是似然分布的下尾合法验证查询定义了可接受的范围当合成提取查询的似然值低于该范围时即被标记。3. FlowGuard用于OOD检测的流匹配我们的防御在查询接口和IDS之间插入了一个基于密度的过滤器。过滤器操作如下训练使用与训练IDS相同的数据分布通过流匹配训练一个连续归一化流 fθ。训练遵循条件流匹配目标LCFM(θ)Et,x0,x1[∥fθ(xt,t)−ut(xt∣x0,x1)∥22]其中 x0∼p0基高斯分布x1∼pdata且 ut是从 x0到 x1的直线路径上的目标条件向量场。推理当查询 xq到达IDS接口时我们将其视为 t1时的数据空间样本并反向积分学习到的ODE dz/dtfθ(z,t)到 t0以获得其隐表示 z0。然后模型通过公式(1)计算 logp1(xq)即基对数密度 logp0(z0)其中 p0被选为标准高斯减去沿轨迹累积的散度项。决策如果 logp1(xq)τ则该查询被分类为OOD并被阻断。阈值 τ是在预留的合法查询验证集上校准的下尾阈值。3.1 威胁模型我们考虑一个针对部署用于保护能源基础设施的基于AI的IDS的对手。攻击者能力。攻击者拥有IDS的黑盒查询权限且仅接收硬标签攻击/良性。鉴于有足够的资源通过多个身份协调查询女巫攻击攻击者使用无数据模型窃取方法这些方法从噪声或共同训练的生成器中生成查询而无需访问原始训练数据分布。攻击者目标。提取一个具有高保真度的替代模型从而能够制作绕过原始IDS决策的对抗性规避流量。防御者能力。防御者有权访问合法训练数据分布或代表性样本以训练密度模型。防御者可以在查询到达IDS之前检查每个传入的查询。防御者不依赖任何身份或会话信息。3.2 为何这对无数据攻击有效无数据模型窃取方法生成查询的过程无法访问真实数据分布的完整复杂性。MAZEKariyappa等人2021使用与替代模型共同训练的生成器产生的样本近似决策边界的有用区域而非完整数据流形。DisGUIDERosenthal等人2023通过集成不一致性增加了多样性但仍是从噪声中生成。这些目标可以产生对受害者分类器有用的查询同时在基于合法数据训练的密度模型下仍然不太可能出现。与分类器置信度不同CNF分数衡量的是与合法数据分布的兼容性。无数据攻击优化查询是为了提取目标模型的行为但它们并没有显式地在防御者的密度模型下优化似然。因此它们的合成样本可能对提取有用同时仍位于训练分布的低密度区域中。3.3 身份独立性该防御基于查询内容独立评估每个查询。不需要身份信息、会话跟踪或查询历史。这使得防御天生具有抵御女巫攻击的弹性即使攻击者将查询分布在数千个身份中每个单独的查询仍会根据密度模型进行评估。4. 评估我们评估基于内容的密度过滤在分布式、隐藏身份的模型提取下是否仍然有效而基于身份的检测器在此情况下会失败。4.1 实验设计我们的评估遵循第3节的威胁模型一个执行无数据提取的硬标签黑盒对手。我们在相同的查询预算下对三种查询防御进行基准测试PRADAJuuti等人2019基于身份的查询分布分析对成对距离进行Shapiro-Wilk检验。FDINetYao等人2025从内部模型激活计算的特征失真指数。FlowGuard我们的方法对训练的CNF进行对数似然阈值判断。我们针对两种无数据攻击进行测试MAZEKariyappa等人2021基于生成器的无数据攻击采用共同训练。DisGUIDERosenthal等人2023基于集成的生成器带有不一致性/多样性损失。我们评估两种攻击者机制(1) 单客户端所有攻击查询在一个身份下发出(2) 分布式女巫设置相同的总预算分布在100个客户端身份中。这种划分测试了防御是否依赖于身份级别的时间统计PRADA、FDINet或每个查询的内容FlowGuard。4.2 协议我们使用带有VGG16-BN受害者模型测试准确率85.03%的CIFAR-10作为初始基准遵循模型窃取研究中的标准评估协议Juuti等人2019Tang等人2024。对于每个防御-攻击对我们运行一个恶意和一个良性情景(1) 由MAZE或DisGUIDE生成的200个攻击查询和(2) 从合法数据中采样的200个干净参考查询。指标是在合并集上以查询级别计算的。流模型。我们使用Meta的flow_matching库在CIFAR-10上训练CNF共1000个epoch。速度场由U-Net主干参数化并使用条件流匹配目标预测速度与目标速度的MSE进行优化采用从高斯噪声到数据的最优传输条件概率路径。阈值 τ是根据验证数据上对数似然分数分布的下尾截断经验选择的。我们报告检测率等同于真阳性率TPR、假阳性率FPR、精确率、F1、宏F1和受试者工作特征-曲线下面积ROC-AUC。这包括阈值相关指标TPR、FPR、F1和阈值无关的排名质量ROC-AUC。4.3 结果表1总结了完整的聚合检测实验而图2说明了在具有代表性的10个查询MAZE深度剖析中校正后的下尾分数分离。表1在CIFAR-10VGG16-BN目标上针对模型提取攻击的查询防御检测性能。值为查询级指标。越高越好假阳性率FPR除外越低越好。设置攻击防御检测率TPRFPR↓精确率F1宏F1ROC-AUC单客户端MAZEFDINet0.5450.5450.5300.5070.5250.5070.488MAZEPRADA0.8400.8400.0001.0000.9130.9190.920MAZEFlowGuard0.9650.9650.1700.8500.9040.8970.921DisGUIDEFDINet1.0001.0000.5300.6440.7840.7120.988DisGUIDEPRADA0.8330.8330.0001.0000.9090.9180.917DisGUIDEFlowGuard1.0001.0000.1700.8500.9190.9131.000分布式(100客户端)MAZEFDINet0.5000.5000.5300.4850.4930.4850.473MAZEPRADA0.0000.0000.0000.0000.0000.3330.500MAZEFlowGuard0.9650.9650.1700.8500.9040.8970.922DisGUIDEFDINet1.0001.0000.5300.6440.7840.7120.989DisGUIDEPRADA0.0000.0000.0000.0000.0000.3330.500DisGUIDEFlowGuard1.0001.0000.1700.8500.9190.9131.000注粗体值突出显示了每个攻击区块内关键决策指标的最佳表现条目。图2。代表性的MAZE深度分析涵盖十条查询五条良性CIFAR-10查询和五条MAZE攻击查询。左侧面板显示了学习流动态的PCA投影中的逆流轨迹右侧面板显示了对数似然对应的OOD决策。良性查询保持在校准的下尾阈值之上而MAZE查询低于该阈值则被阻塞校正后的似然方向。MAZE深度剖析证实了FlowGuard会阻断低似然查询。在图2所示的10个查询示例中良性CIFAR-10查询的分数介于8478.75和16885.64之间而MAZE查询的分数介于-1504.09和-1349.31之间。当 τ5000时所有良性查询都保持在阈值之上所有MAZE查询都落在阈值之下。这个校正后的方向是表1中聚合指标的基础。单客户端设置。PRADA和FlowGuard都能检测无数据攻击但有不同的权衡。对于MAZEPRADA达到TPR 0.840、FPR 0.000和F1 0.913而FlowGuard在中等FPR0.170下实现了更高的召回率TPR 0.965F1为0.904。对于DisGUIDEFlowGuard达到TPR 1.000和ROC-AUC 1.000F1为0.919而PRADA达到TPR 0.833和F1 0.909。FDINet对DisGUIDE显示出相当的探测性能F1 0.784但未能检测到MAZE查询ROC-AUC 0.488。分布式设置100客户端。对于两种攻击PRADA的检测完全崩溃TPR 0.000F1 0.000ROC-AUC 0.500。这是预料之中的将查询分布在多个身份上阻碍了统计检验所需的每个客户端的足够积累。FlowGuard在两种设置下保持稳定。对于MAZE它保持TPR 0.965和F1 0.904ROC-AUC 0.922对于DisGUIDE它保持TPR 1.000和F1 0.919ROC-AUC 1.000。每个查询的密度评估不受查询如何分布在身份之间的影响。FDINet显示出混合结果。它能以高灵敏度TPR 1.000检测DisGUIDE查询但代价是高假阳性率FPR 0.530降低了精确率。对于分布式查询下的MAZE其TPR降至0.500F1为0.493表明在此设置下鲁棒性低于FlowGuard。4.4 解释结果证实身份无关、基于内容的检测对于保护模型免受分布式提取至关重要。依赖于每个客户端统计假设的PRADA在女巫协调下失效。FDINet虽然旨在通过内部特征失真分析处理分布式攻击但面临不同的局限性。尽管其性能在女巫协调下没有下降但它难以应对过高的假阳性率FPR 0.530并且未能可靠地检测MAZE生成的查询ROC-AUC降至0.473。这表明其在不同无数据生成器之间缺乏鲁棒性。FlowGuard证明基于密度的过滤克服了这两个挑战。因为它独立评估每个查询的对数似然并阻断下尾异常值所以它天生对女巫分区免疫不像PRADA。此外通过将决策边界锚定在合法数据分布上而不是依赖内部模型激活它在不同的攻击生成器下保持了高检测率。值得注意的是ROC-AUC和固定阈值指标之间的差异。高ROC-AUC表明在所有阈值下良性与恶意查询的排名都很好而FPR和F1取决于所选的操作点 τ。一个具有近乎完美ROC-AUC的防御在特定的部署阈值下仍可能表现出非零的假阳性。4.5 局限性评估仅限于一个数据集CIFAR-10、一个受害者架构以及每个条件下的一次运行无置信区间。攻击集仅涵盖无数据提取MAZE、DisGUIDE。这些结果应被解释为针对分布式无数据模型窃取的有效性的证据而不是对所有提取家族或数据模式的普遍保证。特别是一个明确针对防御者密度模型进行优化的自适应攻击者可能会缩小观察到的似然差距。扩展到IDS特定数据集如ERENO IEC 61850、重复种子和自适应攻击者是必要的未来工作。5. 结论与未来工作我们提出了FlowGuard一种基于流匹配OOD检测、防御无数据模型窃取攻击的防御机制。该方法通过计算传入查询在基于合法数据分布训练的CNF下的对数似然来对其进行分类。在我们的实验中来自无数据攻击的合成查询获得的对数比合法查询一致更低并且可以通过校准的下尾阈值可靠地检测到。我们在CIFAR-10上的评估表明当PRADA的检测率在分布式查询100个客户端下降至0%时FlowGuard无论查询如何分布都保持了稳定的检测率TPR 0.965–1.000。FDINet在某些配置下表现出混合行为和高假阳性率。密度过滤的每查询性质使其天生具有抵御女巫攻击的弹性。当前范围仅限于无数据攻击。对于未来的工作我们计划将评估扩展到现实的IDS数据集ERENO IEC 61850, CIC-IDS和其他防御措施D-ADDMei等人2025、MeCoWang等人2023。研究FlowGuard与对抗性净化中使用的技术相结合。FlowPureCollaert等人2025证明CNF还可以通过 t0时的速度场大小检测对抗性样本。将提取查询的基于密度的检测与规避流量的基于速度的检测相结合可以为完整的“模型窃取-然后-规避”攻击链提供统一的防御。研究更复杂的生成器例如基于扩散的是否能够产生克服密度过滤的查询并开发相应的对策。