北京基因组所(国家生物信息中心)多组学数据资源体系建设取得系列重要进展

NGDC  Jan 6, 2022


  在2022年1月正式出版的国际生物数据库顶级期刊《核酸研究》(Nucleic Acids Research)2022年度数据库专刊上,中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心(CNCB-NGDC)共有10篇论文集中亮相,包括1篇整体介绍和9篇数据库论文,展示了国家生物信息中心多组学数据资源体系建设的最新成果,并连续5年被该刊称为与美国国家生物技术信息中心(NCBI)、欧洲生物信息学研究所(EBI)并列的全球主要生物数据中心。 

  2021年,CNCB-NGDC与共建单位以及30多家合作单位密切协同,进一步更新和完善核心数据库资源(BioProject、BioSample、GSA、GWH、GVM、GEN、MethBank、非编码RNA、新冠病毒资源信息库、生物多样性等),同时开发了脑疾病知识库BrainBase、癌症单细胞表达谱数据库CancerSCEM、细胞药物反应知识库CeDR Atlas、细胞分类库Cell Taxonomy、分子序列组分数据库CompoDynamics、表观基因组关联分析平台EWAS Open Platform、再生知识库Regeneration Roadmap、单细胞甲基化库scMethBank、生命科学文献库OpenLB等,涉及单细胞组学和精准医学研究等多个前沿领域,建成涵盖国家人类遗传资源、重要战略生物资源、在线分析工具等在内的多组学数据资源体系,形成了组学“数据—信息—知识”一体化资源系统。该资源体系的建设,解决了长期以来我国基因组科学数据汇交共享严重依赖国际数据库的问题,为国家基因组科学数据的汇交共享、安全管理和挖掘利用提供了重要支撑,入选国家“十三五”科技创新成就。 

  CNCB-NGDC汇聚全球数据,为国内外用户提供一站式数据递交和中英文服务,发布的数据编号被Springer Nature、Elsevier、Wiley、Taylor & Francis、Cell等全球主要出版集团认可。截至2021年底,组学原始数据管理体系(GSA Family)已汇交科技项目4200多个,数据量超11 PB,来自471家单位2082个用户,相关数据发表于276种国内外期刊的841篇文章。2019新冠病毒信息库(RCoV19)不断更新,目前已收录新冠病毒序列近700万条,为全球179个国家/地区140多万名访客提供数据服务,累计数据下载超21亿条,为中国—世卫新冠病毒联合溯源研究提供基因组及其变异数据分析支撑,在病毒演化分析、监测、溯源等方面发挥了重要作用。 

  CNCB-NGDC的建设得到科技部、财政部、中国科学院、国家自然科学基金委、一带一路国际科学组织联盟、国际生物科学联合会等的资助。 

  整体介绍文章链接

   CNCB-NGDC多组学数据资源体系