NGDC Nov 10, 2023
新冠肺炎(COVID-19)是近一个世纪以来传播范围最广、影响最大的流行病,新冠病毒(SARS-CoV-2)的基因组序列数量远超其他已知病毒序列的总和。海量的新冠病毒基因组序列对数据的快速整合分析与挖掘带来了前所未有的挑战。新冠肺炎疫情仍在全球蔓延,新冠病毒的基因组也在不断发生变异和演化,发展并建立大规模新冠病毒基因组数据的自动化整合、实时监测和高风险株系预警的方法平台具有重要应用价值和科学意义。
中国科学院北京基因组研究所(国家生物信息中心)于2020年1月22日,率先公开发布全球第一个新冠病毒综合性信息库RCoV19。该信息库持续动态整合全球新冠病毒基因组序列及元信息,支持全球新冠病毒基因组数据的汇交存储与共享,并提供突变注释信息和演化支系等信息,已发展为国际上规模最大、资源最丰富的新冠病毒研究公共平台。为更好服务新冠病毒科学研究与基于基因组大数据的监测预警体系建设,研究团队于近期对RCoV19进行了全面的升级和完善。
RCoV19开发了全自动化的数据智能审编模型和数据共享页面,用于开展全球新冠病毒基因组数据自动化收集、去冗余、交叉引用、质量评估等工作。该模型可持续提供实时全面的新冠病毒基因组元信息、全球分布与统计等信息,并提供高效的个性化高级检索服务。
基于数据库整合的海量数据,RCoV19建立了基因组快速变异解析流程、单倍型网络演化构建算法以及基于机器学习的高风险株系预警模型,开发了新冠病毒传播演化实时监测平台、高风险变异株预警可视化系统和交互式突变谱快速比对功能模块,实现了新冠病毒基因组序列、变异和演化支系的可视化动态监测,高风险变异株的及早预警,以及重要序列或谱系的变异特征规律分析。上述方法平台为基因组大数据驱动的公共卫生安全响应提供了重要的技术和数据支持。
此外,RCoV19人工审编了新冠病毒基因组突变的效应知识,涵盖感染性/传染性、抗体抗性、药物抗性和T细胞表位等,可帮助科研人员及防控政策决策人员更好地理解新冠病毒的变异特性,为科学研究及防控决策提供重要的参考依据。
总之,一站式新冠病毒基因组信息库RCoV19,是集新冠病毒基因组数据自动整合、变异监测、风险预警和突变效应知识于一体的全链条的综合性平台,将促进全球范围内的新冠病毒科学研究,并为全球公共卫生安全体系的建设提供有力支持。
上述研究以“RCoV19: A One-stop Hub for SARS-CoV-2 Genome Data Integration, Variant Monitoring, and Risk Pre-warning”为题在国际学术期刊Genomics, Proteomics & Bioinformatics在线发表。中国科学院北京基因组研究所(国家生物信息中心)李翠萍工程师、马利娜副研究员、邹东高级工程师和硕士生张荣钦为该文共同第一作者,鲍一明研究员和宋述慧研究员为该文共同通讯作者。本研究得到了中国科学院战略重点研究计划、2022年度“一带一路”国际科学组织联盟联合研究合作专项、国家自然科学基金和中国科学院青年创新促进会等项目的支持。