NGDC 2021-6-24
近日,国际著名学术期刊Cell在其数据递交指南中将北京基因组所(国家生物信息中心)国家基因组科学数据中心(CNCB-NGDC)的多个数据库列为其生命组学数据存储的推荐数据库,包括组学原始数据归档库(Genome Sequence Archive,GSA)、人类遗传资源组学原始数据归档库(Genome Sequence Archive for Human,GSA-Human)、基因组变异数据库(Genome Variation Map,GVM)、全球生物数据库目录(Database Commons),标志着中国在生命组学大数据领域的国际化认可又迈出了重要一步,也标志着CNCB-NGDC的数据库体系逐渐被国际认可。
此次Cell推荐的数据存储共涉及组学原始数据、基因组变异数据、生物数据库三种重要的数据类型。组学原始数据归档库GSA是我国最早及最大的组学数据汇交、存储、管理和共享平台,采取公开下载的方式发布数据,已汇聚超过8PB组学原始数据,支撑发表科学论文600余篇。GSA-Human系统专用于归档人类遗传资源数据,采用受控方式存储和共享数据,已汇聚超过6.8万人的组学原始数据。基因组变异数据库GVM是存储基因组变异信息的二级数据库,已收录41个物种6.5万个样本的变异数据。全球生物数据库目录Database Commons是生物医学数据库的存储与查询系统,目前已收录全球5455个数据库,并提供各个数据库的关键信息、分类和排名。
目前,GSA已被Elsevier、Wiley和Taylor & Francis出版集团列入核酸序列存储数据库推荐列表,并被Elsevier指定为亚洲唯一的基因数据归档库。Cell是隶属于Elsevier出版集团的国际顶尖期刊,目前是首次将中国生命科学数据中心的多个数据库整体列出并认证。
自2015年10月建成以来,GSA系统不断丰富完善,已服务于国家重点研发计划、国家自然科学基金、中科院战略先导等1000多个国家科研项目的数据汇交、共享与管理,用户递交数据量达到8589 TB,收录来自国内外387个机构所提交的3651个项目、242,414个样本、335,683个实验和385,513个测序信息,涵盖200多个物种,获得国内外239个学术期刊的认可,支撑科研人员发表634篇研究论文,为我国生命组学大数据存储与共享,防止数据孤岛,提高数据利用价值等做出了重要贡献。
组学原始数据归档库GSA首页
人类遗传资源组学原始数据归档库GSA-Human首页
基因组变异数据库GVM首页
全球生物数据库目录Database Commons首页