人类生物分子图谱计划
摘要2016年FAIR指导原则发布后科研界愈发重视实验数据的可发现、可访问、可互操作与可重用。但受限于缺失标准化、可落地的基础设施FAIR原则始终难以融入常规科研工作流。美国国立卫生研究院NIH人类生物分子图谱计划HuBMAP联盟汇聚了40余家机构的万余套数据集覆盖单细胞测序、维及维空间组学等50余种实验技术具备搭建FAIR数据生态的先天条件。人类生物分子图谱计划HuBMAPR为实现数据FAIR化HuBMAP围绕全研究周期制定并推行了业内公认、规则明确的元数据报告标准。该标准整合适配各类实验技术的精细化规范明确数据集元数据与数据文件的组织形式可完整记录数据采集、原始数据、共享打包全流程信息同时严格遵循「健康保险流通与责任法案」HIPAA要求。依托这套标准及配套落地技术HuBMAP产出大量符合FAIR要求的数据并通过数据门户与人类参考图谱对外公开。HuBMAP研究人员采用的流程与轻量化工作模式可为其他整合多源数据集、开展同类研究的科研团队提供参考。目前NIH细胞衰老网络SenNet联盟已借鉴并优化这套以元数据为核心的端到端工作流相关开源技术也可供全球科研人员使用。safisherupenn.eduj.c.spitt.edumusenstanford.edu#人类生物分子图谱计划 #FAIR原则 #元数据 #溯源模型 #数据标准化 #单细胞测序 #空间组学 #数据共享工作组模式图1 HuBMAP数据标准的制定与发布工作流程新标准由数据协调工作组DCWG联合领域专家发起制定随后由本体专家、软件工程师与生物信息学家对描述性、结构性元数据规范开展多轮迭代审核。定稿的标准将接入CEDAR工作台生成标准化模板与配套文档在联盟内正式发布。HuBMAP元数据报告标准溯源模型描述性元数据的顶层框架图2 基于有向图结构的HuBMAP溯源模型本溯源模型以节点呈现数据采集全流程各环节涵盖受试者采样、组织制备、单项/多项实验检测的完整链路箭头代表1类或多类溯源关联事件如1块组织块可切分为多张切片单份组织样本可开展多项实验。部分实验可由多个子实验组合而成例如Visium技术组织学染色 RNA测序、10x Genomics多组学技术RNA测序 ATAC测序。描述性元数据模式基于本体的人机通用模型表1 RNA测序元数据规范仅展示RNA测序元数据规范的部分字段图3 实验工作流时间轴元数据规范记录溯源模型各环节中组织样本的处理时长即「处理时间」以及样本在不同环节间的存放时长即「原始样本存储时间」时长单位统一采用分钟、小时或天。结构性元数据模式标准化文件组织规范表2 RNA测序实验文件组织规范各类实验均配套层级化文件结构、文件类型与命名规则通用内容在不同数据集间保持统一如原始数据统一存放于raw/目录。本示例中RNA测序FASTQ文件为必填项需存放至raw/fastq/RNA/目录extras/目录可选择性存放预期细胞计数文件。图4 数据集组织结构示例统一的文件与目录规范实现了不同实验类型、不同数据提交方的文件结构标准化。(A) RNA测序FASTQ文件存放于raw/fastq/RNA目录DNA测序ATAC测序FASTQ文件存放于raw/fastq/ATAC目录(B) 10X Genomics多组学实验整合RNA测序与DNA测序模块本图展示2类测序规范作为子模块组合为多组学实验规范的形式(C) 数据提交方对外共享的10x Genomics数据集目录结构实例。与人类细胞图谱标准的对接图5 HuBMAP与人类细胞图谱HCA溯源模型对比2套溯源模型整体架构相近但在元数据采集范围、数据文件收录规则上存在明显差异。支撑工作流的软件基础设施图6 CEDAR元数据验证工具及验证工作流(A) 在线CEDAR元数据验证工具界面示例。上传ExcelXLSX或制表符分隔TSV格式的元数据表格后工具从字段完整性必填字段是否齐全、内容合规性数据值是否符合预设类型2个维度完成全量检测并反馈结果。(B) 元数据验证工作流示意图Excel或TSV格式的元数据文件可通过网页端或应用程序接口API调用CEDAR验证器完成校验。数据HuBMAP研究属性值集HRAVS可在BioPortal平台获取访问地址https://purl.humanatlas.io/vocab/hravs采用本标准发布的数据集可在大数据门户检索获取HuBMAP数据门户https://portal.hubmapconsortium.org/SenNet数据门户https://data.sennetconsortium.org/代码工作流所使用的HuBMAP、SenNet、CEDAR相关软件均为开源程序可从以下代码仓库免费下载https://github.com/hubmapconsortiumhttps://github.com/sennetconsortiumhttps://github.com/metadatacenter详细总结思维导图参考bioRxiv[Preprint]. 2026 Jun 4:2026.06.01.728946. doi: 10.64898/2026.06.01.728946.The HuBMAP Framework for Advancing Data FAIRness注AI辅助创作如有不当欢迎指出。内容仅供参考不构成任何建议。