NGDC 2021-11-14
为存好、管好、用好我国生命组学大数据,解决国内重要数据资源流失和生命组学数据孤岛等问题,提高数据共享率和利用率,北京基因组所面向国家重大需求,勇担“国家责”,于2015年10月布局构建中国生命组学大数据体系,建设至今,尤其经过“十三五”期间的长足发展,初步形成具备多组学数据平台、可实现我国生物数据安全汇交管理的国家中心数据资源体系,涉及衰老、疾病、调控和生物多样性等多个前沿领域。连续4年被国际生物大数据领域权威期刊Nucleic Acids Research 评为与美国国立生物技术信息中心(NCBI)和欧洲生物信息研究所(EBI)并列的全球核心数据中心,获得国际同行高度认可。
作为“十三五”期间组建的国家科技资源共享服务平台之一,在科技部、财政部和中科院等主管部门的大力支持下,国家基因组科学数据中心面向国家大数据和健康中国战略,建成涵盖国家人类遗传资源和重要战略生物资源的多组学数据资源体系,支撑各类科研项目1000多项,生物数据资源规模超过10 PB,排名国内第一,为国家重点研发计划、国家自然科学基金、中科院战略先导专项等国家重大、重点研究计划及任务的科学数据安全管理和归档共享提供了重要支撑。
以组学原始数据归档库(GSA)为代表的组学原始数据存储归档系统,是国内首个组学原始数据汇交、存储、管理与共享系统,也是国内首个被国际期刊认可的组学数据汇交共享平台,上线至今,GSA数据库体系已汇交数据量达10.23 PB,接收国内外456家研究机构1910名用户的数据递交,支撑科研人员在275种期刊发表研究论文827篇,为全球110多个国家/地区的用户提供数据服务,已成为Springer Nature、Elsevier、Wiley、Taylor & Francis及Cell 等国际著名出版集团指定/认可的核酸数据归档库,解决了长期以来我国生物组学数据汇交共享严重依赖国际数据库的现象。GSA子库GSA-Human,专用于归档人类遗传资源数据,实现人类遗传资源数据的分级管理和受控访问,有效保障了国家人类遗传资源数据的安全管理和合理利用,为用户提供人类遗传资源数据受控访问服务。
基于在生物信息大数据领域的及时布局和坚实基础,新冠疫情暴发后,研究所率先发布“2019新冠病毒信息库”并持续更新,致力于全球新冠病毒基因组信息的整合与审编、系统注释与变异分析,是目前全球收录信息最全的新冠病毒序列信息库,在病毒溯源、监测、变异演化分析等方面发挥了重要科技支撑作用。
面对当前发展的新形势和新任务,北京基因组所(国家生物信息中心)将以习近平新时代中国特色社会主义思想为指导,认真贯彻落实国家科技发展战略和重大任务需求,切实维护国家数据安全和主权,存好、管好、用好科学数据,为加快实现高水平科技自立自强、建设世界科技强国努力作出贡献。