Xaira首款虚拟细胞模型创现有规模之最面向复杂生物学依托可扩展的单细胞数据集训练的模型是临床转化的重要基石#人工智能 #药物研发 #药理学 #单细胞RNA测序 #T细胞 #基因泰克 #葛兰素史克 #强生生物学显微镜下的细胞分裂图源urfinguss/iStock/Getty Images Plus获得10亿美元融资的AI药物研发企业Xaira Therapeutics近期发布业界迄今参数量最大的虚拟细胞模型用于预判细胞在全新生物环境下受基因扰动的应答特征。研发团队提出精准预测转录组层面的扰动效应可高效赋能靶点发现、药物作用机制解析、患者分层、毒性预测等多项转化研究。该模型命名为X-Cell参数量高达49亿是全球首个在虚拟细胞领域验证缩放定律的模型。49亿参数×2560万细胞因果扰动预测试验结果显示基因扰动的预测效果遵循幂律缩放规律幂指数与大语言模型匹配。Marc Tessier-Lavigne博士Xaira CEO性能层面X-Cell可样本预测T细胞抑制类基因扰动对训练集未收录的药用研究体系具备良好泛化能力包含诱导多能干细胞来源黑素前体细胞、多供体原代人T细胞。相关研究以预印本形式刊发于bioRxiv尚未完成同行评议。Xaira于2024年成立由斯坦福大学前校长、基因泰克首席科学官Marc Tessier-Lavigne博士担任CEO。公司高管星光熠熠包括诺贝尔奖得主David Baker博士、Carolyn Bertozzi博士、美国FDA前局长Scott Gottlieb医学博士以及强生公司前首席执行官Alex Gorsky。扩散演变多数虚拟细胞模型基于观测型单细胞RNA测序表达数据集构建但药物处理等外界刺激的细胞应答预测需大规模基因扰动测序数据此类公开数据储备稀缺。为完成 X-Cell 训练Xaira初创阶段搭建业界体量顶尖的全基因组CRISPRi Perturb-seq数据集X-Atlas/Pisces。该数据集由去年6月上线的X-Atlas/Orion拓展而来覆盖7组筛选实验、16种生物背景合计2,560万个细胞。这份适配AI运算、生物场景丰富的独家数据集支撑X-Cell实现数10亿级参数量构建。X-Cell首次借助交叉注意力机制系统性整合已发表文献中的生物学先验信息涵盖特定基因注释、蛋白互作、细胞形态等内容。架构上Xaira初代虚拟细胞选用扩散语言模型通过不断用扰动后基因表达值替换对照组表达数值迭代优化预测结果该架构区别于上一代单细胞多组学模型如Xaira生物医药AI高级副总裁Bo Wang博士研发的scGPT采用的自回归架构。Wang以写作类比自回归模型如同从左至右逐字输入文本单处出错即会造成整段内容失效。Bo Wang博士Xaira SVP兼生物医药AI负责人与之不同扩散语言模型类似文稿修改以「我喜欢咖啡」作为初始基底依次迭代优化为「我喜欢低因咖啡」、「我喜欢精细研磨的低因咖啡」每轮迭代均优化输出结果使其贴合真实数据分布。「更精密预测性能更优异语言领域的专家也认可其推理能力优势。」 Wang在接受GEN Edge采访时介绍该扩散方案。工程学科「检验技术价值最直观的标准是依托模型研发新药、惠及病患。」Tessier-Lavigne在专访中表示。他提出新药研发与生俱来的试错属性导致研发周期冗长、临床淘汰率居高不下从靶点确认到药物获批平均耗时13年成候选化合物折戟临床试验。Xaira的使命是搭建平台与自研管线将经验化的新药研发转型为标准化工程学科。除虚拟细胞研发外Xaira布局分子设计板块依托2024年诺贝尔化学奖得主Baker的蛋白设计技术开发新型抗体靶向胞外结合区域稀少、跨膜次数多的难成药膜蛋白该类靶点临床价值明确但长期缺少可落地的靶向药物。去年11月由Xaira联合创始人、Baker实验室博士后Nathaniel Bennett博士、Joseph Watson博士牵头的研究刊登于Nature实现从头合成全长抗体可在原子精度下结合指定抗原表位。同期家企业Nabla Bio、Chai Discovery、Absci也在全新抗体创制领域取得同等进展。尽管Xaira甚少披露分子管线细节Tessier-Lavigne称企业自成立起便重点布局该方向后续数月将陆续公开研发进展。对细胞研究满怀热忱可适配陌生生物场景的泛化型虚拟细胞虽夯实基础生物学研究但距离精准预判患者临床预后仍存技术鸿沟。Noetik首席执行官医学博士Ron Alfa提出由单细胞实验逐层搭建组织乃至人体仿真模型难度极高基于组织特征分词建模是更贴合临床转化的研发路径。「我们深耕细胞研究领域」Alfa于上周圣何塞英伟达GTC大会上发言「训练高阶 AI 模型核心在于依托底层生物数据生成标准化特征单元。」Noetik立足人体样本依托患者来源肿瘤多模态数据集搭建癌症预后预测模型该技术促成企业与葛兰素史克(GSK)签订年授权协议GSK可使用其非小细胞肺癌、结直肠癌基础模型。Tessier-Lavigne将X-Cell视作企业长线研发的开端项目将循序渐进、分步落地。「任何实验室或企业都需要平衡终极模型研发与短期科研产出。」大规模Perturb-seq数据集的搭建能够助力解析全基因组中调控生理功能的基因调控网络。Wang表示Xaira现阶段聚焦细胞虚拟建模后续将拓展类器官、模式动物乃至人体层级仿真人体临床数据获取成本高、周期长可规模化细胞模型能够产出科研假说为人体层级AI模型的验证提供支撑。研发团队计划继续扩充数据类型新增调控信号通路的化学小分子扰动数据、蛋白质组数据。今年1月Biohub、Arc研究所、Tahoe Therapeutics官宣联合搭建开源大型化学扰动数据集数据集上线时间尚未公示。「AI的优势是搭建统一底层框架持续汇入新数据后可依托迁移学习实现多维度互通这正是我们的研发愿景。」 Tessier-Lavigne说道。单细胞测序仅能捕获复杂生命信息的局部片段各类组学数据不存在竞争关系而是互补增益每次技术迭代都会提升模型解析分辨率持续推动行业搭建完整、可精准预测的全维度生物学仿真体系。详细总结思维导图内容汇总参考Xaira’s First Virtual Cell Model Is Largest To-Date, Toward Complex Biologyhttps://www.genengnews.com/topics/artificial-intelligence/xairas-first-virtual-cell-model-is-largest-to-date-toward-complex-biology/注AI辅助创作如有不当欢迎指出。内容仅供参考不构成任何建议。