NGDC Jul 2, 2021
基因组序列和注释是基因组相关研究的重要资源,中国作为世界上生物多样性最丰富的国家之一,在过去几十年中,已经对大量重要国家战略资源物种的基因组进行测序和组装。为解决科研人员汇交数据过程中遇到的难题,满足国内外用户迅速增长的基因组数据汇交、管理和共享需求,北京基因组所(国家生物信息中心)国家基因组科学数据中心开发了基因组数据库Genome Warehouse(GWH)。2021年6月24日,GWH相关研究成果以“Genome Warehouse: A Public Repository Housing Genome-scale Data”为题在线发表于学术期刊《基因组蛋白质组与生物信息学报》(Genomics, Proteomics & Bioinformatics)。
GWH是一个存储各物种基因组组装数据的公共资源库,为基因组数据汇交、存储、发布和共享提供一系列web服务。GWH接受具有不同组装水平的全基因组和部分基因组(叶绿体、线粒体和质粒等)序列,以及对已有基因组数据的更新。除了基因组序列和注释外,GWH 还收集了生物项目、生物样本和基因组组装相关元数据的详细信息。为收集高质量的基因组序列和注释信息,GWH配备了统一和标准化的质量控制程序。除基本的浏览和搜索功能外,所有发布的基因组序列和注释均可以通过 JBrowse 进行可视化。
截至2021年7月1日,GWH 已收到19,769个汇交的基因组组装数据,涵盖1196个物种,并已发布其中的9353个。GWH发布的基因组数据已经在47个期刊的近百篇文章中发表。此外,GWH还与美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI)建立了数据共享交换机制,提升了数据的国际影响力。
此项工作得到了中国科学院战略性先导科技专项、国家重点研发计划、中国科学院“十三五”信息化专项等项目的资助。
截至2021年7月1日GWH收录的基因组组装数据统计