北京基因组所(国家生物信息中心)发布全球生物数据库目录Database Commons

NGDC  2023-1-19


  近日,由中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心研发的全球生物数据库目录Database Commons正式发布。该研究内容以“Database Commons: A Catalog of Worldwide Biological Databases”为题在国际学术期刊Genomics Proteomics & Bioinformatics 在线发表。

  生物数据库是生命科学及相关学科研究的重要基础,为科学研究提供基础数据资源,变革生命科学研究模式,促进大数据驱动的科学发现和创新突破。随着生命科学数据的激增,世界各国不断加大生物数据库资源的建设投入,生物数据库数量、规模和重要性持续增加。然而,全球范围内长期缺乏生物数据库的全面调研,无法纵览全球生物数据库发展趋势,缺少全球生物数据库的标准化信息整合和评估平台。为此,研究团队建立全球生物数据库目录Database Commons,构建了生物数据库分类标准和结构化信息审编模型,研发多种评估方法,开发可实时更新的后台审编系统,联合国内外多家科研机构持续开展全球生物数据库信息审编。

  截至2022年9月20日,北京基因组所联合欧洲生物信息学研究所(EBI)、巴基斯坦真纳大学等科研机构,基于8931篇科研文献,审编获取了由1975个机构开发的5825个生物数据库,分布于72个国家/地区,归属于13个分类。针对每个数据库,系统收集了基本信息、分类标签、联系信息、文章信息四个模块的31条信息,创新性地发展数据库评价新指标z-index,结合引用次数、用户打分等多方位评估数据库质量和影响力。同时,根据数据库文章引用和z-index对所有生物数据库及其隶属机构和国家进行排名。基于此,Database Commons提供了全球生物数据库的一系列统计数据和发展趋势,为更好地了解数据库发展态势及其对生命健康科学的影响提供全球视角。最新的全球生物数据库目录,以及审编的元信息和相关统计数据,均可在该网站公开获取。

  Database Commons于2015年建成,北京基因组所联合国内外多家科研机构,持续开展全球生物数据库的信息审编整合,其评估结果获得了科研人员的普遍认可。同时,作为数据库信息检索引擎,深受用户欢迎。截至2023年1月19日,已为全球193个国家/地区的66万余名用户提供服务,访问量超155万次(自2018年04月23日统计)。目前,Database Commons作为数据库信息归档系统,已被国际生物数据库领域最具影响力期刊Nucleic Acids Research 数据库专刊推荐,并获得了Cell Press出版集团和Bioinformatics Advances期刊的认可。

  北京基因组所(国家生物信息中心)副研究员马利娜、高级工程师邹东、特别研究助理刘琳为本文共同第一作者,马利娜副研究员与章张研究员为共同通讯作者。该研究得到了中科院战略性先导科技专项、国家自然科学基金、“一带一路”国际科学组织联盟、中科院青促会、中国科学院国际伙伴计划项目资助。