01文献学习今天分享的文献是由复旦大学附属肿瘤医院邵志敏教授、肖毅等团队于2025年2月在《Cell Reports Medicine》中科院1区topIF10.6上发表的研究”Multimodal integration using a machine learning approach facilitates risk stratification in HR/HER2- breast cancer“即基于机器学习的多模态整合促进HR/HER2−乳腺癌的风险分层该研究构建了一个名为CIMPTGV的多模态机器学习模型整合了临床、免疫组化、代谢组、病理组、转录组、基因组和拷贝数变异7种数据类型用于预测HR/HER2−乳腺癌患者的复发风险。模型在训练集和测试集中均表现出较高的预测效能C-index ≈ 0.87并进一步开发了一个简化版模型平衡了预测性能与临床实用性。创新点①首次系统整合七种模态数据构建CIMPTGV模型实现HR/HER2-乳腺癌复发风险的精准预测C指数达0.87。②揭示多模态间存在正交互补信息整合后风险人群覆盖所有单模态识别结果提升模型解释力与稳健性。③提出简化模型S-CIMPTGV在保持较高预测效能平均AUC 0.84的同时降低数据收集成本促进临床转化。临床价值①模型能准确区分高、低复发风险患者指导个体化治疗决策避免过度治疗或治疗不足。②提供多维度生物学见解如HRD评分与风险正相关有助于揭示复发机制与潜在治疗靶点。③简化模型设计降低了临床应用门槛有望通过试剂盒等形式推广提升乳腺癌风险分层普适性。图 1队列开发与机器学习框架构建1AUpset图模态组合样本量交集图1B机器学习流程图数据划分按4:1比例进行分层抽样以“复发状态”为分层因子分为训练集和测试集保证两组结局分布一致。特征提取对7种模态分别提取原始特征如临床模态6项、IHC模态3项等。维度reduction①去除同一模态内相关性0.9的冗余特征②临床/IHC保留全部特征其他模态筛选单变量Cox风险评分前15的特征③特征标准化Z-score。模型训练将筛选后的特征矩阵输入5种生存分析模型Cox比例风险模型、生存支持向量机、随机生存森林、DeepSurv非线性模型、梯度提升生存模型。超参数优化与独立验证通过1000步5折交叉验证最大化平均C-index选择最优模型作为CIMPTGV在测试集进行独立验证1000次Bootstrap计算95%置信区间。02研究背景及目的研究背景HR阳性/HER2阴性HR/HER2-乳腺癌是最常见的乳腺癌亚型约占所有病例的65%-70%。尽管内分泌治疗是标准疗法但肿瘤的持续复发仍是严峻的临床挑战部分患者因内分泌耐药机制甚至在治疗5-10年后仍面临高达20%的远期复发风险。因此精准预测复发风险以指导个体化治疗至关重要。目前临床上已有基于基因表达的预测工具如Oncotype DX和MammaPrint但它们主要依赖单一的转录组或临床病理数据在预测淋巴结阳性患者复发等方面效能有限C-index仅为0.56-0.63难以全面捕捉肿瘤的高度异质性。近年来随着测序成本降低和人工智能技术的发展整合多组学数据包括基因组、转录组、代谢组、病理图像等的“多模态”研究方法成为提升预测性能的新方向。然而由于高质量多模态队列的稀缺、数据整合方法复杂以及临床应用成本高昂该领域仍处于探索阶段在乳腺癌中的应用尚未充分开发。本研究正是在此背景下旨在利用大规模多组学队列和机器学习技术克服现有模型的局限性。研究目的本研究的核心目的是开发并验证一个基于机器学习、整合多维数据的预测模型以显著提升对HR/HER2-乳腺癌患者复发风险的预测和分层能力。具体而言研究团队旨在利用其建立的包含579名患者的中国人群多组学队列构建一个名为CIMPTGV的多模态模型该模型将临床信息、免疫组化、转录组学、代谢组学、基因组学、拷贝数变异和病理图像学病理组学这七种模态的数据进行系统性整合。研究希望通过先进的机器学习框架验证多模态数据融合能否产生协同与互补效应从而在训练集和测试集上获得比现有单模态或传统组合模型如临床转录组更高的预测效能以C-index衡量。此外为了促进临床转化本研究还设定了一个关键目标在保持较高预测性能的前提下开发一个简化版本的模型S-CIMPTGV。该简化模型通过精选高重要性特征旨在降低数据收集的复杂性和经济成本提升其在真实世界临床场景中的可行性与实用性最终为识别高危患者、制定个性化治疗策略提供有效的决策支持工具。03数据和方法研究数据队列规模579例HR/HER2-单侧浸润性乳腺癌患者2009-2016年诊断排除远处转移和预处理患者。随访数据547例患者具有完整临床和随访信息中位随访时间79.1个月四分位距72.1-93.1个月结局指标包括无复发生存期RFS、总生存期OS、无远处转移生存期DMFS其中75例病死、150例复发、135例远处转移。多模态数据覆盖临床信息N547年龄、BMI、绝经状态、肿瘤分期等6项特征IHC数据N510雌激素受体ER、孕激素受体PR表达率、Ki-67增殖指数等3项特征转录组学N565基因集富集分数、免疫细胞比例等190项特征代谢组学N380极性代谢物、脂质等1981项特征基因组学N467高频突变基因状态、肿瘤突变负荷TMB、同源重组缺陷HRD评分等43项特征CNVN429Gistic峰值等76项特征病理组学N418细胞核形态、拓扑结构等59项特征。完整多模态数据200例患者拥有全部7种模态数据用于模型核心训练。技术方法1数据处理与划分分层抽样按4:1比例划分训练集和测试集以复发状态为分层因子保证两组结局分布一致。特征筛选①去除同一模态内相关性0.9的冗余特征②对临床/IHC保留全部特征其他模态筛选单变量Cox风险评分前15的特征③特征标准化Z-score。2模型构建与优化模型框架输入5种生存分析模型Cox比例风险模型、生存支持向量机、随机生存森林、DeepSurv非线性模型、梯度提升生存模型。超参数优化通过1000步5折交叉验证最大化平均交叉验证C-index选择最优模型作为CIMPTGV。3模型验证内部验证100次随机划分训练集/测试集评估模型稳定性Bootstrap 1000次计算C-index的95%置信区间。对比验证与传统组合模型CIT、CT、CI及商业检测Oncotype DX、MammaPrint对比预测效能。亚组分析在不同肿瘤分期、临床特征如绝经状态、IHC表型亚组中验证模型分层能力。4简化模型构建特征选择纳入易获取的临床、IHC、病理组学全特征及其他模态高重要性特征如代谢组学的2-0-乙酰基岩藻糖、转录组学的VEGF信号通路特征。效能验证评估简化模型S-CIMPTGV的时间依赖AUC和生存分层能力。04实验结果1模型预测效能优异CIMPTGV模型训练集C-index0.871测试集C-index0.869显著高于单一模态模型C-index 0.6-0.75和传统组合模型如 CIT模型C-index 0.72。优于商业检测在重叠队列中CIMPTGV的C-index0.812 vs MammaPrint 的 0.6880.866 vs Oncotype DX的 0.568。分层能力强高/低危组的RFS、OS、DMFS 差异显著log-rank test p0.001能识别74.2%的复发患者低危组复发率仅14.2%。2模型稳定性良好100次随机划分后训练集和测试集C-index均波动在0.8-0.9差异0.05无随机误差影响。超参数优化后最优估计量数量10模型无过拟合增加估计量未提升测试集效能。3多模态存在协同互补效应单一模态模型预测分数的Pearson相关系数绝对值≤0.3提示模态间存在正交信息。CIMPTGV的高风险人群涵盖所有单一模态模型识别的高风险人群且复发比例更高。4高风险组特征明确临床特征肿瘤分期高pT3/pN3、Ki-67增殖指数高分子特征核酸代谢物假尿苷、N4-乙酰胞苷富集、MYC靶通路高表达、脂肪酸代谢通路低表达病理特征肿瘤细胞聚集度高、形态异质性MITH高基因组特征HRD 评分高11q13.3区域扩增含 FGF3、FGF4、CTTN 等癌基因。5简化模型实用高效S-CIMPTGV平均AUC0.840虽略低于完整版0.886但显著优于临床常用模态组合能有效分层高/低危患者log-rank test p0.001数据收集成本降低60%以上。图 2多模态整合提升预测效能与风险分层图 3多模态中的正交数据提升预测效能图 4CIMPTGV模型的模态特征表现图 5模态相关性支持互补信息存在图 6简化模型S-CIMPTGV构建05研究结论本研究通过整合临床、免疫组化、代谢组、病理组、转录组、基因组和拷贝数变异共七种模态数据构建了机器学习模型CIMPTGV用于预测HR/HER2-乳腺癌患者的复发风险。该模型在训练集和测试集中分别达到C-index为0.871和0.869显著优于单模态模型及临床常用组合模型并能够有效区分高风险与低风险患者群体。研究进一步揭示了不同模态数据间存在协同与互补效应整合多源信息可全面捕捉肿瘤生物学特征提升预测性能。此外同源重组缺陷评分与模型风险评分呈显著正相关从基因组不稳定角度提供了生物学解释。为推动临床转化研究团队还开发了简化版模型在保持较高预测效能平均AUC0.840的同时降低了数据收集成本提升了实用性与可推广性。该研究证明了多模态机器学习在乳腺癌风险分层中的重要作用为个体化治疗决策提供了有力工具。参考文献Zhang H, Yang F, Xu Y, Zhao S, Jiang YZ, Shao ZM, Xiao Y. Multimodal integration using a machine learning approach facilitates risk stratification in HR/HER2- breast cancer. Cell Rep Med. 2025 Feb 18;6(2):101924. doi: 10.1016/j.xcrm.2024.101924.