北京基因组所(国家生物信息中心)开发上线基因序列数据库GenBase

NGDC  2023-3-27


  中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心(NGDC)最新开发的基因序列数据库GenBase正式上线,为科研用户提供基因序列数据汇交共享和查询下载服务。

  基因的序列和注释信息(包括DNA、RNA和蛋白序列信息)是支撑基因功能研究的核心基础数据之一。伴随生物学的迅猛发展,在过去几十年中,我国生命科学领域科学家产出了海量的基因序列数据。为保障我国基因序列数据的主权和安全,满足我国科研人员在基因序列数据汇交、管理和共享过程中的现实需求,对标美国国家生物信息中心NCBI的GenBank数据库,NGDC建立了基因序列数据库GenBase。

  GenBase的核心功能是存储、管理、共享所有物种基因序列、注释信息及其编码蛋白质序列,可为基因序列数据的汇交、存储、发布和共享提供一系列Web服务。基于GenBase的提交系统,用户可根据详细的操作提示,按步骤提交包括提交者信息、参考文献、核苷酸序列、数据来源、数据特征等在内的重要的实体和元数据信息。GenBase严格把控数据质量,保障基因序列数据的准确性、完整性和可用性。GenBase系统的建设遵循国际核酸序列共享联盟(International Nucleotide Sequence Database Collaboration,INSDC)的相关标准,立足中国,服务全球,可接收来自全球科研人员的数据提交,并且通过数据交换机制实现与GenBank的无缝共享。同时,为保障全球基因序列数据的本地化管理,GenBase整合了INSDC发布的基因序列数据,提高国内科研人员查询和获取数据的效率。目前,GenBase可支持用户查询或下载GenBank已公开的4.2亿多条核酸及其编码蛋白质序列。

  中国科学院北京基因组所(国家生物信息中心)针对我国基因组数据“存管用”的实际需求,除了GenBase外,已建立65个服务于生物医学研究的公共数据库资源,涵盖原始数据、基因组和变异、基因表达、非编码RNA、表观基因组、单细胞组学、生物多样性和生物合成、健康和疾病、文献和教育以及工具等10个大类,初步形成了我国生命组学数据安全汇交、管理、共享和应用的数据资源体系框架,服务于生物和医学领域的基础和转化研究。