生产级机器学习系统：从模型部署到持续治理的四大支柱

张

张建站

2026/6/10 22:00:01

10分钟阅读

1. 项目概述当模型走出笔记本真正开始“呼吸”现实世界你有没有经历过这样的时刻模型在 Jupyter Notebook 里跑得飞起AUC 0.92F1 0.88交叉验证稳如老狗业务方点头如捣蒜上线评审会顺利通过庆祝邮件都发出去了。结果上线第三天监控告警开始滴滴响——不是模型预测错了而是整个服务响应时间从 80ms 暴涨到 2.3s第五天下游系统报错“空特征向量”因为上游数据管道凌晨三点例行维护时漏传了一个关键字段第七天风控团队紧急叫停说“模型最近三天对高风险客户的拦截率下降了17%但没查出原因”。你翻遍日志、重跑离线评估、比对训练/线上样本分布……最后发现是营销部门悄悄上线了一个新优惠活动导致用户短期行为模式剧变而你的模型还在用三个月前的数据做决策。这就是 Part 4 的核心ML 项目真正的分水岭不在训练完成那一刻而在第一个真实请求打进来那一秒。Raj Kumar 这篇文章不是讲怎么调参、怎么选模型而是直面一个被无数教程刻意回避的真相——90% 的 ML 失败根源不在算法而在系统、治理与责任的真空地带。它面向的不是刚学完 Scikit-learn 的新手而是那些已经把模型跑通、正准备推到生产环境、却突然发现“原来事情远比 notebook 复杂得多”的一线工程师、MLOps 实践者、以及技术决策者。关键词 “Towards AI - Medium” 提示我们这是一篇来自实战前线的深度复盘不是理论综述更不是平台广告。它不教你“如何用某云平台一键部署”而是逼你回答“当你的模型第一次在凌晨两点被真实用户触发而你正在睡觉时系统会自己做出什么选择谁为这个选择负责”我带过三个银行级风控模型落地最深的体会是模型上线那一刻它就不再是数据科学家的“孩子”而成了整个技术栈的“公民”。它的健康状态、行为边界、失效预案、解释能力必须像数据库连接池、API 网关、日志收集器一样被当作基础设施来设计、测试和运维。这篇文章的价值正在于它把这套“公民权利与义务”的清单一条条摊开给你看。它不提供银弹但能让你在下次上线前少踩至少七个我当年踩过的坑。2. 核心思路拆解为什么“部署”不是终点而是系统性挑战的起点2.1 从“模型正确性”到“系统韧性”的范式转移很多团队把部署理解为“把 pickle 文件扔进 Flask API”这是最危险的认知偏差。Raj Kumar 在文中一针见血地指出“Deployment is rarely about the model itself.” —— 部署的核心从来不是模型而是模型与现有系统生态的耦合关系。这个生态包括上游数据源Kafka 主题、数据库 CDC 流、文件系统、下游消费方支付网关、客户触达系统、报表引擎、中间件API 网关、限流熔断组件、消息队列、以及最关键的——人运营人员、风控专家、合规审计员。举个真实案例我们曾为一家信用卡中心部署一个实时欺诈评分模型。离线评估 AUC 0.95线上 AB 测试初期拦截率提升 22%。但两周后投诉率飙升。排查发现模型依赖的“近30分钟交易频次”特征在高峰期因 Kafka 消费延迟实际取到的是 6 分钟前的数据。模型本身逻辑完全正确但输入数据的时间戳已失效。问题根源不在模型而在特征服务层缺乏端到端的时效性 SLA 保障。我们后来强制要求所有实时特征必须携带event_time和processing_time并在服务层计算latency processing_time - event_time超过 200ms 自动降级为缓存值。这个改动让投诉率回归基线但代价是额外增加了 15% 的特征服务复杂度。提示模型的“数学正确性”只保证了它在给定输入下的输出逻辑无误而“系统正确性”要求它在任意可能的输入组合、任意网络分区、任意组件故障下仍能给出可接受、可追溯、可干预的结果。前者是数据科学问题后者是分布式系统工程问题。2.2 为什么“集成失败”远多于“建模失败”Raj Kumar 列举的几个典型集成陷阱——“批处理模型被迫服务实时流量”、“同步特征异步到达”、“重试逻辑导致重复事件”、“降级路径绕过监控”——每一条背后都是血泪教训。根本原因在于数据科学家构建的训练环境是一个高度受控、静态、理想化的沙盒而生产环境是一个动态、异构、充满噪声的混沌系统。我们做过一个统计过去两年上线的 12 个 ML 服务中有 9 个75%的首次 P1 级故障直接源于集成问题而非模型退化。其中最典型的三类协议失配模型训练用 Pandas DataFrame生产 API 要求 JSON Schema。当某个字符串特征包含特殊字符如,,时未做 HTML 编码的 JSON 序列化直接导致下游解析失败。解决方案不是改模型而是在 API 入口层强制增加 schema validation 和 sanitization middleware。语义漂移训练时“用户等级”字段来自 CRM 系统取值为[VIP, Gold, Silver]上线后 CRM 升级新增Platinum值但模型未重新训练也未配置未知值处理策略直接抛出KeyError。这暴露了特征字典feature dictionary与模型版本必须强绑定并纳入 CI/CD 流水线管理。资源争抢一个推荐模型与核心交易服务共享同一台 GPU 服务器。大促期间交易服务 CPU 使用率飙升至 95%导致模型推理延迟从 50ms 涨到 800ms触发下游超时熔断。根本解法不是优化模型而是将 ML 服务与核心交易服务物理隔离并为其配置独立的、带 QoS 保障的资源池。这些都不是模型能解决的问题它们需要架构师、SRE、数据工程师共同参与设计。这也是为什么成熟的 MLOps 团队其组织结构里必然包含专职的“ML Platform Engineer”而非只有 Data Scientist。2.3 “治理”不是官僚主义而是规模化信任的基石很多人把“Governance”等同于“填表、签字、应付审计”这是巨大误解。Raj Kumar 强调“Governance is what allows systems to operate at scale.” —— 治理的本质是在复杂系统中建立可预测、可追溯、可追责的信任机制。没有治理每个模型上线都是一次赌博有了治理每次变更都是一次受控实验。以我们银行项目为例一个模型上线前必须通过“四道门”数据门由数据治理委员会确认所有训练数据已通过《数据血缘图谱》验证来源、加工逻辑、敏感等级全部可追溯模型门由模型验证团队执行压力测试模拟 3 倍峰值流量、对抗测试注入噪声/异常值、公平性测试按地域、年龄分组分析偏差集成门由平台工程团队验证API 响应时间 P99 100ms错误率 0.1%降级策略覆盖所有已知故障场景业务门由风控总监签署《业务影响评估书》明确该模型上线后对客户体验、收入、合规风险的具体影响阈值及应对预案。这看似繁琐但带来的收益是当模型在上线后第 5 天出现性能抖动时我们能在 15 分钟内定位到是“特征服务节点内存泄漏”而非花两天时间争论“是不是模型本身有问题”。治理不是拖慢速度而是把“救火”的时间转化成“防火”的投资。3. 核心细节解析与实操要点构建生产级 ML 系统的四大支柱3.1 部署与集成让模型成为可靠的服务公民3.1.1 接口契约Contract必须先于代码存在在任何模型开发启动前我们强制要求产出一份《服务接口契约文档》Service Contract Spec它不是技术文档而是一份法律意义上的服务承诺。内容必须包含输入契约精确到字段级别的 JSON Schema包括类型、是否必填、取值范围、业务含义、示例值。例如{ user_id: {type: string, minLength: 8, maxLength: 32, description: 加密后的用户唯一标识非明文手机号}, transaction_amount: {type: number, minimum: 0.01, maximum: 99999999.99, description: 交易金额单位人民币元} }输出契约同样精确的 Schema明确score0-1000、risk_level枚举值[LOW, MEDIUM, HIGH]、explanation结构化 JSON含 top3 影响因子及权重。SLA 承诺P95 响应时间 ≤ 80ms可用性 ≥ 99.95%错误率 ≤ 0.05%。降级策略当特征服务不可用时返回{score: 500, risk_level: MEDIUM, explanation: {reason: FEATURE_UNAVAILABLE}}并记录fallback_reason字段。这份契约由数据科学家、平台工程师、业务方三方共同签署。后续所有开发、测试、监控都以此为唯一依据。它杜绝了“我以为你知道”式的沟通灾难。3.1.2 特征服务Feature Serving是集成成败的关键枢纽Raj Kumar 提到的“特征假设被打破”根源往往在特征服务层。我们采用分层特征服务架构层级名称技术选型SLA典型场景L1实时特征Redis Flink CEPP99 10ms用户当前会话行为、实时地理位置L2近线特征Kafka Spark StreamingP99 100ms过去1小时交易频次、设备指纹变化率L3批特征Hive AirflowT1 完成用户月度消费总额、历史逾期次数关键实操心得所有特征必须携带event_time事件发生时间和serving_time服务提供时间用于计算特征新鲜度freshness。我们设定规则L1 特征 freshness 5s 即告警L2 30s 告警L3 24h 告警。特征服务必须提供“影子模式”Shadow Mode新特征上线时先并行计算新旧两套特征对比差异率。差异率 5% 时自动暂停上线触发人工审核。永远不要在模型代码里写 SQL 或 HTTP 请求。所有数据获取必须通过统一的 Feature Store SDK由 SDK 负责缓存、重试、降级、监控。3.1.3 降级与熔断优雅失败的设计哲学一个无法优雅失败的模型终将公开失败。我们的降级策略遵循“三层防御”原则模型层降级当输入特征缺失或无效时模型内部不抛异常而是返回预设的“安全默认值”Safe Default。例如信用评分模型中若income字段为空则使用该用户所在城市的平均收入作为替代值并在explanation中标记income: IMPUTED_BY_CITY_AVG。服务层熔断使用 Resilience4j 配置熔断器。当模型服务连续 10 次调用失败率 50%或平均响应时间 200ms自动熔断 60 秒。熔断期间所有请求直接返回 L1 特征服务的缓存结果即“特征缓存降级”。业务层兜底当整个 ML 服务不可用时API 网关自动路由到“规则引擎”Rule Engine。规则引擎是纯 Java 编写的、经过充分测试的硬编码逻辑例如“若用户近7天有3次以上跨境交易且单笔金额 $5000则risk_level HIGH”。规则引擎的输出格式与模型完全一致下游系统无感知。注意所有降级路径必须被完整监控和告警。我们曾因忘记监控“规则引擎”的调用量导致一次 ML 服务故障持续了 4 小时才被发现——因为规则引擎“默默扛下了所有流量”而监控只盯着模型服务。3.2 性能、延迟与可扩展性在约束中寻找确定性3.2.1 延迟预算Latency Budget驱动架构决策Raj Kumar 强调“Decisions must arrive on time”这要求我们将延迟视为第一优先级的架构约束而非事后优化项。我们为每个 ML 服务定义严格的“延迟预算分配表”组件预算占比典型耗时监控指标优化手段网关认证10%≤ 8msgateway_latency_p95JWT 预校验、本地缓存特征获取40%≤ 32msfeature_fetch_latency_p95多级缓存Redis Local Caffeine、批量 Fetch模型推理30%≤ 24msinference_latency_p95ONNX Runtime 加速、量化INT8、GPU 批处理结果组装返回20%≤ 16msresponse_assembly_latency_p95零拷贝序列化Protobuf、异步日志这个表格在服务设计阶段就必须敲定并作为所有技术选型的“铁律”。例如当发现特征获取耗时超标我们不会去优化模型而是立刻检查 Redis 连接池配置或考虑引入本地缓存。延迟预算不是目标而是倒逼架构合理性的手术刀。3.2.2 可扩展性可预测性而非单纯吞吐量Raj Kumar 的洞见“Scalability is about predictability”极为精准。我们见过太多“峰值吞吐量百万 QPS”的宣传但一到真实大促系统就雪崩。根本原因在于它们只测试了“平均负载”没测试“负载突变”。我们的压力测试方案Load Testing Plan强制包含三类场景阶梯式增长从 1000 QPS 开始每 5 分钟增加 1000 QPS直至 10000 QPS观察各组件指标CPU、内存、GC、延迟是否线性增长。若某组件在 5000 QPS 时延迟陡增说明存在瓶颈。脉冲式冲击在稳定 5000 QPS 下瞬间注入 20000 QPS 的脉冲流量持续 30 秒。观察系统能否在 1 分钟内恢复到正常延迟水平。这模拟了“秒杀”或“突发欺诈攻击”。混合故障注入在 8000 QPS 下随机 kill 一个特征服务节点同时将 Kafka 消费延迟人为设置为 500ms。观察系统是否能自动切换到降级路径且整体错误率不超 SLA。实操心得我们发现90% 的“不可扩展”问题根源在于无状态服务的有状态依赖。例如一个无状态的模型 API如果其特征服务依赖一个单点 Redis 实例那么这个 Redis 就是整个系统的“阿喀琉斯之踵”。因此我们要求所有外部依赖DB、Cache、MQ必须提供高可用方案Redis Cluster、Kafka Multi-DC并在服务代码中实现“依赖健康度探针”定期探测并自动剔除故障节点。3.3 监控与漂移检测让系统拥有自己的“体检报告”3.3.1 超越 Accuracy构建多维度监控矩阵Raj Kumar 正确指出“Accuracy is often delayed or unavailable.” 在实时风控场景等你拿到“昨日准确率”时损失早已发生。因此我们的监控体系分为三层层级监控对象数据来源更新频率核心指标告警阈值基础设施层服务健康Prometheus15shttp_requests_total,jvm_memory_used_bytes错误率 0.1%, 内存使用率 90%数据层输入质量自研 Data Quality Pipeline1minnull_rate,outlier_rate,distribution_drift_scorenull_rate 5%,drift_score 0.3业务层决策效果实时数仓Flink Doris5mindecision_volume,override_rate,false_positive_rate_rolling_1hoverride_rate1h 内上升 30%,fp_rate 15%关键创新点我们开发了“决策链路追踪”Decision Tracing功能。每个请求生成唯一decision_id贯穿特征获取、模型推理、结果返回、下游调用全过程。当业务方反馈“这个用户被误拦”我们只需输入decision_id就能在 3 秒内回溯整个决策链条看到每个特征的原始值、模型的中间层激活值、最终输出及解释因子。这极大缩短了根因分析时间。3.3.2 漂移检测Drift Detection不是技术炫技而是业务预警漂移检测常被做成“AI 黑箱”但我们坚持“可解释、可行动”。我们不只计算一个抽象的KS Statistic而是为每个关键特征生成“漂移诊断报告”漂移程度KS Score0-1数值越大表示分布偏移越严重。漂移方向Mean Shift新均值 - 旧均值Std Shift新标准差 - 旧标准差直观显示是“整体上移”还是“波动加剧”。业务影响关联该特征在模型中的 SHAP 值重要性。若transaction_amount的 KS Score0.4且其 SHAP 重要性排名 Top3则立即触发“高风险漂移”告警。根因建议自动匹配历史事件库。例如device_type分布突变系统提示“匹配到历史事件iOS 17.4 系统更新发布2024-03-20可能导致 UA 解析逻辑变更”。实操心得我们曾用此方法提前 36 小时发现“营销活动导致用户行为漂移”。模型监控显示coupon_usage_rate特征 KS Score 在 2 小时内从 0.05 暴涨至 0.62且SHAP重要性跃升至第1位。我们立刻联系营销团队确认其刚上线“满100减50”活动。团队据此提前调整了模型阈值并通知风控专家重点关注该活动下的用户行为成功避免了误拦率飙升。3.4 模型验证与压力测试用“找茬”代替“背书”3.4.1 验证Validation的核心是“证伪”而非“证明”Raj Kumar 说“Validation is about asking uncomfortable questions.” 我们将模型验证拆解为四个“证伪”环节极端场景证伪构造“黑天鹅”数据。例如对反洗钱模型输入transaction_amount11分钱、transaction_count100001万笔、time_span1s1秒内看模型是否还能给出合理分数而非崩溃或返回NaN。噪声鲁棒性证伪对输入特征添加高斯噪声σ0.1、随机丢弃 20% 特征、交换两个相似特征如age和income的值观察score变化是否在可接受范围内Δscore 50。对抗样本证伪使用 FGSMFast Gradient Sign Method生成微小扰动使模型对高风险样本误判为低风险。若成功率 5%则模型存在严重脆弱性必须加固。时间稳定性证伪用滚动窗口Rolling Window评估模型在不同时间段的表现。例如用 T-30d 到 T-15d 数据训练评估 T-14d 到 T-0d 表现再用 T-29d 到 T-14d 训练评估 T-13d 到 T-1d 表现……绘制“性能衰减曲线”。若曲线斜率陡峭说明模型老化速度快需缩短重训周期。3.4.2 压力测试Stress Testing必须覆盖“人”的因素最危险的故障往往发生在“人”介入时。因此我们的压力测试包含“人为干预”模块灰度开关测试模拟运维人员在控制台手动关闭某个特征开关验证系统是否能无缝降级且监控告警是否准确触发。模型热替换测试在 5000 QPS 流量下将正在服务的 v1.0 模型无缝热替换为 v1.1 模型观察是否有请求失败、延迟抖动或结果不一致。审计日志回放测试抽取一周的真实请求日志脱敏后在测试环境全量回放验证所有决策、解释、审计日志是否完整、一致、可追溯。实操心得我们曾在一个信贷审批模型上线前进行“全链路审计日志回放”。结果发现模型服务在处理某些特殊字符如中文括号时会丢失部分explanation字段。这个 Bug 在单元测试和功能测试中从未暴露因为它只在特定字符组合高并发下才会触发。这次测试让我们在上线前修复了它避免了后续的合规风险。4. 实操过程与核心环节实现从零搭建一个生产级风控服务4.1 环境准备与工具链选型我们基于 Kubernetes 构建了统一的 ML 平台核心工具链如下角色工具选型理由替代方案为何不用模型训练PyTorch MLflowPyTorch 生态成熟MLflow 提供完整的实验跟踪、模型注册、部署能力TensorFlow学习成本高社区活跃度下降Keras过于封装不利于底层调试特征工程Feast SparkFeast 是开源 Feature Store 事实标准Spark 提供强大的批处理能力AWS SageMaker Feature Store厂商锁定成本高自研投入产出比低模型服务Triton Inference Server支持多框架PyTorch/TensorFlow/ONNX、GPU 批处理、动态批处理、模型热更新TorchServe仅支持 PyTorchKServe配置复杂社区支持弱监控告警Prometheus Grafana Alertmanager开源、轻量、可定制性强与 Kubernetes 原生集成Datadog商业授权贵ELK Stack日志分析强指标监控弱CI/CDGitLab CI Argo CDGitLab CI 与代码仓库深度集成Argo CD 提供声明式 GitOps 部署Jenkins配置复杂维护成本高GitHub Actions企业级功能弱注意工具选型不是追求最新潮而是追求“团队熟悉度”与“问题匹配度”的平衡。我们曾尝试过 Kubeflow Pipelines但因团队对 Kubernetes Operator 理解不足导致流水线维护成本过高最终退回 GitLab CI。4.2 从 Notebook 到生产服务的完整流水线4.2.1 代码结构标准化The Golden Structure我们强制所有 ML 项目遵循同一代码结构确保新人 1 小时内上手my_ml_project/ ├── notebooks/ # 仅用于探索性分析禁止包含生产逻辑 ├── src/ │ ├── data/ # 数据获取、清洗、划分 │ │ ├── __init__.py │ │ ├── load_data.py # 统一入口支持 dev/staging/prod 环境 │ │ └── split_data.py │ ├── features/ # 特征工程核心 │ │ ├── __init__.py │ │ ├── base_features.py # 基础特征如 age, income │ │ └── temporal_features.py # 时序特征如 rolling_mean_7d │ ├── models/ # 模型定义、训练、评估 │ │ ├── __init__.py │ │ ├── model.py # 模型类实现 fit/predict │ │ └── train.py # 训练脚本支持参数化 │ ├── serving/ # 服务化相关 │ │ ├── __init__.py │ │ ├── api.py # FastAPI 接口严格遵循契约 │ │ └── health_check.py # 健康检查端点 │ └── utils/ # 工具函数 ├── configs/ # 配置文件YAML │ ├── data_config.yaml │ ├── feature_config.yaml │ └── model_config.yaml ├── tests/ # 全面测试 │ ├── test_data.py # 数据质量测试 │ ├── test_features.py # 特征逻辑测试 │ └── test_serving.py # API 接口测试 ├── requirements.txt └── Dockerfile # 多阶段构建镜像大小 500MB4.2.2 CI/CD 流水线详解GitLab CI我们的.gitlab-ci.yml包含五个关键阶段stages: - lint - test - build - validate - deploy # 阶段1代码规范检查 lint: stage: lint image: python:3.9 script: - pip install flake8 black - flake8 src/ --max-line-length120 - black --check src/ # 阶段2自动化测试 test: stage: test image: python:3.9 script: - pip install pytest pytest-cov - pytest tests/ --covsrc/ --cov-reporthtml # 阶段3构建 Docker 镜像 build: stage: build image: docker:20.10.16 services: - docker:20.10.16-dind script: - docker build -t $CI_REGISTRY_IMAGE:$CI_COMMIT_TAG . - docker push $CI_REGISTRY_IMAGE:$CI_COMMIT_TAG # 阶段4模型验证关键 validate: stage: validate image: python:3.9 script: - pip install mlflow feast tritonclient - python scripts/run_validation.py --model_uri models:/fraud_model/Production --env staging # 阶段5金丝雀部署Canary Deployment deploy: stage: deploy image: alpine:latest script: - apk add curl - curl -X POST https://argo-cd.example.com/api/v1/applications/fraud-model/deploy \ -H Authorization: Bearer $ARGOCD_TOKEN \ -d {name:fraud-model,namespace:ml,source:{repoURL:https://gitlab.com/ml/fraud-model.git,targetRevision:$CI_COMMIT_TAG,path:manifests/staging}}关键点validate阶段是流水线的“守门员”。它会拉取注册中心MLflow Model Registry中Production环境的模型用 staging 环境的实时数据进行端到端验证包括特征获取、推理、结果校验。只有验证通过才会触发deploy阶段。这确保了“能跑通的代码”和“能用好的模型”之间有一道坚实的防线。4.3 核心配置与参数详解4.3.1 Triton Inference Server 配置config.pbtxt这是模型服务的“心脏”配置直接影响性能与稳定性name: fraud_model platform: pytorch_libtorch max_batch_size: 128 # 关键根据 GPU 显存和延迟预算调整 input [ { name: INPUT__0 data_type: TYPE_FP32 dims: [100] # 特征维度 } ] output [ { name: OUTPUT__0 data_type: TYPE_FP32 dims: [1] } ] # 性能优化关键配置 dynamic_batching [ { max_queue_delay_microseconds: 1000 # 最大排队延迟 1ms平衡吞吐与延迟 } ] instance_group [ { count: 4 # 启动 4 个模型实例充分利用 GPU kind: KIND_GPU } ] # 健康检查 health [ { interval_ms: 5000 # 每5秒检查一次 } ]参数选择逻辑max_batch_size128基于实测当 batch size 128 时GPU 利用率饱和但 P99 延迟从 45ms 涨至 78ms不符合 SLA。max_queue_delay_microseconds1000设置为 1ms确保绝大多数请求无需等待牺牲少量吞吐换取确定性低延迟。count4单张 A10 GPU 显存 24GB每个实例约占用 5GB4 个实例可充分利用显存且避免单点故障。4.3.2 Prometheus 监控指标定义我们在服务代码中埋点暴露关键业务指标from prometheus_client import Counter, Histogram, Gauge # 请求计数器按状态码 REQUEST_COUNT Counter( fraud_service_requests_total, Total number of requests to fraud service, [endpoint, status_code] ) # 延迟直方图P95/P99 REQUEST_LATENCY Histogram( fraud_service_request_latency_seconds, Request latency in seconds, [endpoint], buckets[0.01, 0.025, 0.05, 0.1, 0.25, 0.5, 1.0, 2.5, 5.0, 10.0] ) # 特征新鲜度Gauge实时值 FEATURE_FRESHNESS Gauge( fraud_service_feature_freshness_seconds, Freshness of features in seconds, [feature_name] )Grafana 仪表盘会实时展示REQUEST_LATENCY{endpointpredict}的 P95 曲线、FEATURE_FRESHNESS{feature_nametransaction_amount_1h}的实时值、REQUEST_COUNT{status_code500}的突增告警。监控不是为了好看而是为了在问题发生前就看到它的影子。5. 常见问题与排查技巧实录那些年我们踩过的坑5.1 典型问题速查表问题现象可能原因排查步骤解决方案预防措施P99 延迟突然升高 300%特征服务 Redis 连接池耗尽1.kubectl top pods查看服务 Pod CPU/Mem2.redis-cli -h redis-svc info clients查看连接数3.kubectl logs -f pod | grep connection refused增加 Redis 连接池最大连接数为特征服务添加连接池健康检查探针在 CI/CD 中加入“连接池压力测试”模拟 10x 并发连接模型服务返回 NaN输入特征包含inf或nan1. 在api.py中添加np.isnan(input).any()断言2. 查看上游数据质量报告null_rate在特征服务层增加inf/nan过滤和替换逻辑如np.nan_to_num在data/load_data.py中强制添加assert not np.isnan(df.values).any()AB 测试结果不显著特征漂移导致对照组/实验组分布不一致1. 计算两组transaction_amount的 KS Score2. 检查feature_config.yaml中是否启用了enable_drift_detection暂停 AB 测试重新进行特征漂移分析确认数据一致性AB 测试启动前强制运行scripts/check_ab_consistency.py模型重训后性能下降新数据中存在未清洗的脏数据如income-11. 对比新旧训练集