摘要细胞系统的因果模型有望推动广泛的生物学发现包括系统性识别新型药物靶点。预测基因和通路扰动如何在多样细胞语境中重塑基因表达是构建可泛化细胞基础模型的前提。然而现有方法通常难以超出其训练分布进行外推因为它们主要依赖观察性表达图谱而非干预性扰动数据。本文提出X-Atlas/Pisces这是目前规模最大的全基因组CRISPRi Perturb-seq数据集包含2,560万个受扰动的单细胞转录组覆盖16种生物学上多样的语境包括常用细胞系、诱导多能干细胞iPSC、静息态和CD3/CD28激活态Jurkat T淋巴瘤细胞以及多谱系分化的iPSC。借助这一资源开发了扩散语言模型X-Cell通过跨注意力机制整合来自自然语言、蛋白质语言模型、相互作用网络、遗传依赖图谱和形态学特征的多模态生物先验迭代优化从对照态到扰动态的转换从而预测扰动响应。在Pearson Δ预测与观察到的扰动诱导对数倍变化之间的相关性等关键指标上X-Cell的性能优于现有最先进模型高达5倍并能样本预测受刺激Jurkat细胞中T细胞失活扰动。将X-Cell扩展至49亿参数X-Cell-Ultra这是目前规模最大的因果扰动模型。首次证实扰动预测遵循幂律缩放其指数与大型语言模型一致。X-Cell-Ultra展现出对新型生物学语境的零样本泛化能力包括未见过的iPSC衍生黑素细胞祖细胞和来自多名供体的原代人CD4 T细胞且在自监督测试时自适应后性能优于所有基线模型。这些结果表明因果扰动数据和模型容量的协同规模化能产生可跨细胞语境进行泛化扰动预测的基础模型有望为改进计算靶点识别、验证和语境特异性治疗优先级排序提供支持。ci.chuxaira.combo.wangxaira.com#因果扰动预测 #扩散语言模型 #跨细胞语境 #单细胞转录组 #CRISPRi #Perturbseq结果X-Atlas/Pisces数据集与X-Cell模型的构建图1X-Atlas/Pisces与X-Cell概述(A) X-Atlas/Pisces示意图包含HCT116、HEK293T、HepG2、iPSC、静息态Jurkat、激活态Jurkat和iPSC多谱系分化iPSC Multi-Diff的7个全基因组CRISPRi Perturb-seq筛选左。X-Atlas/Orion800万个细胞与X-Atlas/Pisces2,560万个细胞的规模对比中。X-Atlas/Pisces中细胞的UMAP可视化按筛选来源着色。为可视化效果数据集下采样至100万个细胞同时保留各原始筛选的相对比例。在该子集内5%的细胞为非靶向对照其余为受扰动细胞。(B) X-Cell结合扩散语言模型训练和对先验知识的跨注意力机制从对照细胞集中预测受扰动细胞状态。6种先验知识来源包括来自大型语言模型、ESM-2、STRING、DepMap、JUMP细胞染色和scGPT的预训练嵌入。主要架构由堆叠的自注意力块组成用于编码对照细胞集同时穿插对先验知识嵌入的跨注意力机制。X-Cell通过随机将25%、50%或75%的对照基因表达值替换为真实扰动能值并提供2进制扩散掩码Diff Mask指示已揭示位置实现扩散式训练。(C) 推理过程中X-Cell通过迭代扩散逐步重掩膜其输出作为后续生成步骤的输入优化预测结果。(D) X-Cell的参数规模从5,500万X-Cell扩展至49亿X-Cell-Ultra超过现有单细胞基础模型的规模。表1 X-Atlas/Pisces中各筛选的汇总单细胞实验和凝胶珠GEM数量与单细胞文库制备相关。对齐细胞总数、平均每个细胞读数、中位数每个细胞UMI数和中位数每个细胞基因数与数据灵敏度相关。平均每个细胞CRISPR读数、中位数每个细胞CRISPR UMI数、含2个向导RNA预期配对的细胞数、含2个向导RNA预期配对的细胞百分比和每个扰动的中位数细胞数与向导RNA捕获效率相关。每个扰动的中位数靶向敲低百分比是CRISPRi效率的主要读数。具有显著表型的扰动百分比与扰动的次级效应量化相关。X-Atlas捕获保守和语境依赖的调控网络图2X-Atlas/Pisces助力识别语境依赖和语境独立的扰动(A) 各筛选中每个凝胶珠GEM的中位数每个细胞UMI数上、中位数每个细胞基因数中和中位数靶向敲低百分比下的分布。黑线表示中位数。(B) 计算1-7个筛选的所有可能子集对CORUM左和STRING右中注释基因对的召回率。误差线表示子集间的标准差。(C) 用于区分受扰动细胞与非靶向对照NTC的2进制分类器示意图左。输入是特定扰动的受扰动细胞与非靶向对照的平衡混合物。模型采用带L1惩罚LASSO的逻辑回归。输出是通过单侧2项检验衡量的扰动显著性以及用于预测的特征基因。通过LASSO二进制分类器衡量的具有显著表型FDR0.05的受扰动细胞百分比右。(D) 基于各筛选中F1分数聚类的X-Atlas/Pisces扰动热图。行代表通过以下筛选标准的扰动n6,412(1) 存在于≥3个筛选中(2) 在其存在的每个筛选中≥10个细胞(3) 在至少1个筛选中具有显著表型FDR0.05(4) 在至少1个筛选中F1分数≥0.75。灰色表示该筛选中不存在该扰动。列代表按F1分数相似性分层聚类的筛选色条。(E) 各筛选中扰动的平均F1分数与平均杰卡德指数Jaccard Index的关系。点按F1分数变异系数CV着色色条。(F) 具有至少1个非自身特征的显著扰动n35,016的UMAP可视化按筛选来源着色。聚类标注CORUM复合物富集结果若任一单个筛选的扰动占比≤50%则标注为黑色否则标注为占比最高的筛选颜色。插图中代表性蛋白质复合物的结构按指示聚类中是否存在受遗传扰动靶向的蛋白质进行颜色编码绿色系表示存在灰色表示不存在。X-Cell实现跨细胞语境的扰动效应泛化图3X-Cell通过扩散预训练实现跨细胞语境和扰动基准的稳健泛化(A) X-Cell以scGPT编码器权重初始化在涵盖4个筛选HCT116、HEK293T、HepG2 和 iPSC的X-Atlas/Pisces扰动语料库上持续预训练使用超过1,000万个细胞和37,000个扰动-语境组合进行训练和评估。模型性能在200个预留验证扰动iPSC/HepG2-200上评估。在2个外部数据集Replogle-Nadig和Parse-1M上进行微调评估。Replogle-Nadig包含4种训练细胞系的遗传扰动和380个HepG2测试扰动。Parse-1M包含外周血单个核细胞PBMC其中CD4记忆细胞中有59个配体信号测试扰动。(B) 扩散语言模型预训练使推理过程中能迭代优化预测基因表达。线图显示iPSC-200验证集上4个扩散步骤的Pearson Δ和MAE。(C) X-Cell与Cell2Sentence、STATE和scGPT在iPSC/HepG2-200验证扰动、Replogle-Nadig和Parse-1M上的基准对比。使用细胞评估cell-eval指标评估性能包括Pearson Δ、OverlapN、差异表达方向匹配DE Direction Match、差异表达对数倍变化斯皮尔曼相关DE Spearman LFC、质心准确率Centroid Accuracy和MAE。雷达图总结4种基准模型的相对排名。(D) Replogle-Nadig测试扰动的先验知识归因。饼图显示X-Cell最终跨注意力层的平均注意力权重。线图显示随机化各知识来源嵌入后六个指标的性能下降情况。(E) X-Cell在包含单靶点抑制剂药物中等剂量的Tahoe-100M子集上的零样本基准与STATE对比。每个点代表50个细胞系中12种药物的汇总指标。箱线图显示细胞系间的中位数和4分位距菱形表示平均值。X-Cell零样本预测T细胞失活扰动图4 X-Cell区分Jurkat T细胞的生理状态转换(A) 失活指数示意图。星号代表非靶向对照激活态或静息态圆圈代表扰动。失活指数基于全局转录组相似性量化激活态细胞向静息态表型的转变程度。(B) 真实数据Pisces图谱数据集、线性基线和X-Cell预测的示意图。在线性基线中静息态Jurkat细胞中测量的扰动影响Δ被叠加到未受扰动激活态Jurkat细胞的对数归一化图谱上。(C) 箱线图显示已验证的T细胞激活调控因子CD3复合物绿色包括CD3D、CD3E、CD3G和CD247与其他4,455个扰动灰色的失活指数Z分数分布。与线性基线相比X-Cell预测出更显著的向静息态的转变Mann-Whitney U检验p0.01。(D) X-Cell与线性基线在CD3复合物上的性能对比。评估指标包括识别差异表达基因DEG的auROC和预测转录组变化幅度的Pearson Δ。柱状图显示平均分数误差线表示95%置信区间。(E) 与(D)类似展示X-Cell识别推定失活因子WDR53、APPL2等转录组变化的能力。(F) 热图显示CD3E、WDR53、LRBA和APPL2的预测转录组图谱的对数倍变化和聚类表明X-Cell预测与真实Pisces图谱数据高度一致。X-Cell-Ultra遵循通用神经缩放定律通过增加计算量和数据量实现进一步性能提升图5X-Cell-Ultra零样本泛化至黑素细胞祖细胞和原代人T细胞(A) 示意图显示X-Cell-Ultra在X-Atlas/Pisces数据集上预训练排除iPSC多谱系分化筛选中的黑素细胞祖细胞群体。以0样本方式在黑素细胞祖细胞群体以及Zhu等人的原代人T细胞数据集上评估X-Cell-Ultra。使用测试时自适应通过自监督目标在这些数据集上校准模型。(B) 测试损失随可训练参数遵循幂律L (N)∝N⁻⁰・⁰³R²0.97。5种模型8300万-31亿参数在相同超参数下在Replogle-Nadig数据集上训练20个epoch。圆圈大小与参数数量成正比颜色表示差异表达Pearson相关系数DE Pearson r。线图右显示X-Cell架构蓝色和X-Cell-Ultra架构粉色在测试集上的坍缩指标δ-范数比δ-norm ratio上和差异表达基因的Pearson相关系数下对比。(C) 对照均值基线、扰动均值基线、STATE、X-Cell和X-Cell-Ultra在Pearson Δ左、差异表达方向匹配中和平均绝对误差右上的性能。直方图上显示1,341个扰动的指标分布柱状图下显示均值±95%置信区间C.I.。(D) 箱线图显示291个扰动在2名供体、3种语境静息态和激活态2个时间点的原代人T细胞中的Pearson Δ左、差异表达方向匹配中和平均绝对误差右分布。(E) 热图显示供体D2左和D3右激活后48小时APPL2表达的对数倍变化真实数据与STATE、X-Cell和X-Cell-Ultra的预测结果。数据与模型/代码数据https://huggingface.co/datasets/Xaira-Therapeutics/X-Atlas-PiscesHugging Face模型https://huggingface.co/Xaira-Therapeutics/X-CellGitHubhttps://github.com/xaira-therapeutics/x-cell详细总结思维导图核心数据资源X-Atlas/Pisces数据集模型版本对比参考X-Cell: Scaling Causal Perturbation Prediction Across Diverse Cellular Contexts via Diffusion Language Modelsdoi: https://doi.org/10.64898/2026.03.18.712807260320X-Cell.pdf注AI辅助创作如有错误欢迎指出。内容仅供参考不构成任何建议。