摘要虚拟细胞建模目前受限于「数据-效用悖论」生物信息分散于语境丰富的临床RNA-seq数据与扰动密集的实验分析中导致其在人体场景下的预测泛化能力不佳。本文提出款生成式基础模型AetherCell可将这些异质性领域整合为统一的、平台对齐的转录组流形。通过实现特异性驱动学习框架AetherCell成功捕获了常被系统性噪声掩盖的低频率、机制特异性信号。经广泛基准测试AetherCell展现出稳健的泛化能力能准确预测未见过的化合物和遗传扰动的响应。研究表明该模型可有效将信号从简单细胞系转化至复杂3D类器官实现高保真全转录组预测。基于这一基础流形本文展示了跨生物尺度的精准药物响应预测——包括患者来源类器官和临床队列。同时本文实现了种表型-知识混合专家策略用于精准药物重定位。该方法通过体内实验验证特立氟胺可用于治疗干眼症达比加群可用于治疗溃疡性结肠炎。综上AetherCell建立了个可扩展、人源化的虚拟细胞框架为转化生物学和加速药物发现提供支撑。xiezhigmail.com#虚拟细胞建模 #转录组流形 #扰动预测 #药物重定位 #体内验证结果跨域、多尺度虚拟细胞建模的统一生成式基础图1跨平台扰动建模与零样本泛化的统一生成式框架a. 统一转录组流形的构建。变分自编码器VAE从人类RNA-seq数据n519,609中学习广义潜空间。关键在于通过对齐匹配的对照样本将L1000数据n2,811,324锚定至该流形以减轻平台特异性批次效应。b. 多模态基础模型的整合。小分子通过带低秩适配LoRA的MolFormer和基因扰动通过ESM-C嵌入与STRING拓扑结构融合经编码后通过交叉注意力预测扰动特异性潜变量偏移Δz。c. 下游应用。该统一表征支持多种任务包括细胞系、类器官和组织中的药物敏感性IC50与协同预测、伴随诊断以及基于表型的药物重定位。d、e. 平台对齐评估。d对齐前后的UMAP投影圆形RNA-seq三角形L1000。e通过ANOSIM R和轮廓系数Silhouette scores对匹配样本对n125进行对齐量化。柱状图显示处理前红色和处理后绿色的指标值。f. 重建保真度。箱线图显示RNA-seqn81,861、未扰动L1000n28,304以及受扰动L1000样本包括化合物CPn270,885、敲低KDn67,976、敲除KOn62,222和过表达OEn19,750的重建图谱与真实图谱之间的皮尔逊相关系数PCC。箱线图表示中位数、4分位数和1.5倍4分位距。AetherCell从系统性噪声中解析机制特异性特征图2AetherCell展现稳健的泛化能力和机制特异性预测跨化学与遗传扰动a、b. 未见过场景中的扰动预测基准测试。箱线图显示AetherCell与基线模型在严格独立的a未见过细胞系n326,497和b未见过化合物n239,250场景中预测值与真实值log2倍变化针对差异表达基因方差前 10%的PCC。c. 扰动误识别率n6,485值越低表明预测结果相对于随机中心的特异性越高。d、e. 未见过细胞系n326,497和e未见过化合物n239,250场景中AetherCell与基线模型的Systema特异性得分比较。f、g. 遗传扰动OE、KD、KO的泛化能力。在f未见过细胞系OEn17,081KDn55,136KOn58,756和g未见过基因OEn11,979KDn49,036KOn36,264场景中评估性能差异表达基因 log2 倍变化的 PCC。箱线图表示中位数、4分位数和 1.5 倍4分位距。统计显著性双侧威尔科克森检验****P0.0001。全转录组泛化与复杂组织架构泛化图3跨平台转移性与复杂生物系统的零样本泛化a、d. 独立a细胞系n658和d类器官n86RNA-seq数据集的基准测试。箱线图通过差异表达基因log2倍变化和绝对表达量所有基因EXP的PCC评估AetherCell与基线模型。b、e. 全局转录组重建。密度散点图显示b吉西他滨处理的PANC-1细胞和e干扰素处理的脑类器官的预测表达量与真实表达量。c、f. 基因水平保真度。箱线图比较cPANC-1n16和f脑类器官n12场景中顶级变异基因的真实值米色和预测值青绿色log2倍变化。红色虚线表示无变化。g、h. GSEA通路比较。g吉西他滨处理的PANC-1细胞和h干扰素处理的类器官的标准化富集得分NES点图。箱线图表示中位数、4分位数和1.5倍4分位距。统计显著性双侧威尔科克森检验****P0.0001。高保真药物响应预测、患者分层与临床转化图4机制驱动的药物响应预测与临床表型的转化泛化a. 基于动态扰动的敏感性预测。柱状图显示AetherCell-RP与基因组基线模型的预测IC50与实际IC50n24,133的PCC。数据以平均值±标准差表示。显著性双侧威尔科克森检验****P0.0001 vs expBox。b. 药物敏感性分类。GDSCn37,662和PRISMn52,717数据集的ROC曲线。c、d. 协同预测。c与基线模型的ROC曲线比较。d小提琴图比较AetherCell-RP与细胞洗牌对照的AUROC双侧威尔科克森检验****P0.0001。e、f、g. 虚拟伴随诊断CDx。e流程示意图。fPARP抑制剂和rRNA抑制剂的合成致死性评估。柱状图显示野生型WT、随机敲低Random KD和BRCA1敲低BRCA1 KD的预测IC50。显著性随机置换检验n1,503*P0.05**P0.01。g已识别临床生物标志物的饼图n45已识别n29未识别。h、i、j. 患者来源类器官PDO的零样本泛化。h胰腺癌n20、i卵巢癌n35和j胃癌n12类器官中预测IC50 与真实IC50SCC的密度散点图。k. 临床响应预测。TCGA患者队列n2,966的ROC曲线。T箱线图表示中位数、4分位数和1.5倍4分位距。误差线表示平均值。通过自适应表型-知识整合发现新型治疗干预措施图5基于表型-知识混合专家PK-MoE的自适应药物重定位a. AetherCell-DR框架架构。双专家系统通过语境感知门控网络融合宏观关联知识专家和微观表达变化转录组专家。b. 宏观临床适应症的性能评估。箱线图显示AetherCell-DR与单个专家的AUROC得分n196。显著性双侧配对威尔科克森符号秩检验****P0.0001。c-f. 不同疾病队列的比较n20。柱状图显示c眼科疾病、d消化系统疾病、e肺部疾病和f癌症的性能。误差线表示平均值。g-j. 多模态可解释性。g、h转录组 GSEA 显示g特立氟胺和h达比加群的表型逆转。i、j知识推理路径i特立氟胺通过 ABCG2-TGFB1 与干眼症关联j达比加群通过 MMP9 与溃疡性结肠炎关联。箱线图表示中位数、4分位数和1.5倍4分位距。新型治疗干预措施的体内验证图6AI优先的首创性治疗候选药物在不同病理模型中的体内验证a-g. 干眼症DED模型的验证n5。a使用 BAC 诱导模型比较特立氟胺与洛替泼诺的实验设计。b裂隙灯和c过碘酸-雪夫PAS染色图像。d杯状细胞密度、e荧光素评分、f上皮厚度μm和g泪液分泌mm的定量评估。h-n. 溃疡性结肠炎UC模型的验证n8。h使用DSS诱导模型比较达比加群与5-氨基水杨酸5-ASA的实验设计。i、j通过i脾脏指数和j肝脏指数评估全身炎症。k苏木精-伊红HE染色。l结肠长度。m、nm体重和n疾病活动指数DAI的纵向监测。误差线表示平均值。显著性单因素或双因素方差分析ANOVA结合图基检验****P0.0001***0.0001P≤0.001**0.001P≤0.01*0.01P≤0.05。数据与代码L1000基因表达谱可通过CMap LINCS资源公开获取https://clue.io/公开RNA-seq数据集来源于基因表达综合数据库GEOhttps://www.ncbi.nlm.nih.gov/geo/药物敏感性数据来源于癌症药物敏感性基因组学数据库GDSChttps://www.cancerrxgene.org/和PRISM重定位数据集DepMaphttps://depmap.org/portal/prism/药物协同数据来源于DrugComb数据库http://drugcombdb.denglab.org/main临床药物响应数据来源于癌症基因组图谱TCGAhttps://portal.gdc.cancer.gov/伴随诊断CDx数据来源于癌症变异临床解读数据库CIViChttps://civicdb.org/GitHubhttps://github.com/Wenyuan-AI4science/AetherCellZenodohttps://zenodo.org/records/18295255详细总结思维导图技术架构统一流形特异性驱动双功能模块跨平台与跨场景泛化能力体内验证2种新适应症药物的临床潜力参考AetherCell: A generative engine for virtual cell perturbation and in vivo drug discoverydoi: https://doi.org/10.64898/2026.03.13.710968260316AetherCell.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。