技术分享:HerbComb中药联合治疗数据库的构建与AI虚拟筛选落地
随着 AI 技术在制药领域的深入应用高质量的结构化数据成为模型训练和药物发现的核心基础。在中药研发领域由于数据的异构性和复杂性一直缺乏一个全面、统一的整合数据库。本文将介绍最新上线的 HerbComb 中药组合疗法整合数据库的技术架构并分享基于该数据库的 AI 化合物虚拟筛选技术实践。一、HerbComb 数据库核心技术架构数据整合与标准化HerbComb 整合了 15 个中药数据库、6 个方剂数据库以及 ChEMBL、UniProt 等国际权威靶点和蛋白数据库同时手动标注了 2000-2023 年发表的 3900 余篇中药联合治疗相关文献。研究团队建立了统一的实体映射规则对药材、成分、靶点、疾病等所有实体进行了标识符标准化处理解决了跨数据库数据不一致的问题。协同作用推断算法数据库采用基于网络邻近度的协同作用推断模型通过构建人类蛋白互作网络计算两个实体靶点集合之间的最短路径距离量化其相互作用强度。为了保证结果的可靠性所有推断结果均经过 1000 次随机置换检验筛选出 P 值小于 0.05 的高置信度协同对最终得到 2999 个药材 - 药材协同对和 7748 个成分 - 成分协同对。多组学数据整合除了基础的实体关联数据HerbComb 还整合了多维度的组学和性质数据包括 49285 种成分的 119 项 ADMET 性质预测结果基于 ADMETlab 2.0 模型以及 693 种中药处理后的转录组基因表达特征数据为多组学层面的作用机制研究提供了支持。二、基于 HerbComb 的 AI 化合物虚拟筛选实践HerbComb的高质量结构化数据科晶生物搭建了端到端的中药活性成分虚拟筛选技术流程基于数据库的靶点 - 成分关联数据快速构建针对特定靶点的中药化合物库采用分子对接技术AutoDock VinaGlide进行初步筛选结合 MD 动力学模拟验证结合稳定性整合 ADMET 性质数据优先筛选成药性好的化合物结合转录组特征数据进一步分析化合物的潜在作用通路。该技术流程能够将传统实验筛选的周期从数月缩短至数周大幅降低了早期研发成本。目前该技术已应用于多个中药先导化合物发现项目取得了良好的效果。科晶生物化合物虚拟筛选技术流程三、数据库访问与资源HerbComb 数据库已开放免费访问支持在线查询、自定义分析和数据批量下载代码和相关数据集已托管至 GitHub相关研究论文Wang et al., HerbComb: An Integrated Database for Herbal Combinational Therapies, CSBJ, 2025.相关论文链接https://doi.org/10.1016/j.csbj.2025.10.065.