新冠病毒的基因组信息和序列从全球主要的数据中心获取,包括NCBI、GISAID、NGDC、NMDC、CNGB。我们基于元信息和序列比对去冗余和审编。疫情期间,“基因组序列发布动态”表格每天更新。
相关ID:我们通过数据审编获得非冗余的病毒株基因组信息,尤其是全基因组序列信息,以便于用户使用这些数据获得准确的研究结果,如病毒变异频率,系统进化树。
1、 数据库之间的重复:一条基因组序列可能被递交到多个数据库。我们基于元信息、序列比对、数据递交者提供的报告鉴定哪些是重复出现的序列。我们优先提供对所有用户开放的数据库的相关信息,如“Accession ID” 和 “Virus Strain Name”。其余数据库的序列号在“Related ID”条目列出。我们鼓励基因组序列公开共享,这将有助于发挥每个平台的优势,促进新冠病毒基因组序列的审编、注释、分析和实验研究。
2、 数据库内部的重复:数据库内部的重复(病毒株名、序列、病人信息、采样时间、传代等信息均相同)可能是用户重复递交同样的数据或其它错误导致。对于这种情况,之后出现的序列的序列号将在“Related ID”条目列出。
3、全基因组序列与基因序列:如果一个病毒株既有全基因组序列,又有基因序列,我们只列全基因组序列的信息,基因序列的序列号也不在表格中展示;如果一个病毒株没有全基因组序列,只有不同基因的序列,那么这些基因序列将作为不同的条目在表格中列出,一旦全基因组序列出现,基因序列将被移除,替换成全基因组序列。
1、 数据库之间的重复:一条基因组序列可能被递交到多个数据库。我们基于元信息、序列比对、数据递交者提供的报告鉴定哪些是重复出现的序列。我们优先提供对所有用户开放的数据库的相关信息,如“Accession ID” 和 “Virus Strain Name”。其余数据库的序列号在“Related ID”条目列出。我们鼓励基因组序列公开共享,这将有助于发挥每个平台的优势,促进新冠病毒基因组序列的审编、注释、分析和实验研究。
2、 数据库内部的重复:数据库内部的重复(病毒株名、序列、病人信息、采样时间、传代等信息均相同)可能是用户重复递交同样的数据或其它错误导致。对于这种情况,之后出现的序列的序列号将在“Related ID”条目列出。
3、全基因组序列与基因序列:如果一个病毒株既有全基因组序列,又有基因序列,我们只列全基因组序列的信息,基因序列的序列号也不在表格中展示;如果一个病毒株没有全基因组序列,只有不同基因的序列,那么这些基因序列将作为不同的条目在表格中列出,一旦全基因组序列出现,基因序列将被移除,替换成全基因组序列。
下载:所有用户均可免费下载元信息,但仅能下载公开发布的序列。GISAID 数据库的数据对注册用户开放,因此在本数据库中不提供下载。
序列完整度:基于和参考基因组序列MN908947比对,如果序列覆盖所有的蛋白编码区/CDS区,同时长度大于29k,序列将被鉴定为完整的基因组序列,即“Complete”,否则为“Partial”。
质量评估:对序列完整度为“Complete”的基因组序列,在5个方面进行质量检测,包括未知碱基(N)数量、简并碱基(非ATGCN的碱基)数量、与参考序列(MN908947)比对后出现的gap(deletion、insertion、indel)数量、变异总数、变异密度(变异数/区间长度,区间长度<=20nt)。变异总数为序列全长范围内的所有变异,其余质量评估条目只考虑蛋白编码区域。
基于表格中列出的条件进行质量评估,“绿色”表示通过质控检测,“红色”提示没有通过质控检测。将鼠标放置在每个绿色/红色圆点上面将展示数量等信息,详情见表格中的“展示内容”。
带有红色圆点的序列需谨慎使用。“N”和简并碱基数目过多,和参考序列比对出现多处gaps,这些情况提示可能由于低覆盖度、低测序深度、技术问题等造成序列质量不高。同时,高变异数和高变异密度提示可能存在异常,用户使用这些序列时有必要进一步核查。
如果序列含有较多未知碱基或简并碱基,不再进行变异相关的质量评估。同时,非人源病毒株的序列相对于参考序列变异较多,不进行变异相关的质量评估,仅提供对未知碱基数和简并碱基数的评估。
下载表格中“质量评估”一列展示每一质量检测条目对应的数量。变异密度为YES/NO,表示有/无变异密集区。如果没有进行变异检测,显示为“NA”。
预期变异碱基总数根据每年每个碱基突变率8.69 × 10−4 计算,详细信息请参考文章Liu et al., 2020
基于表格中列出的条件进行质量评估,“绿色”表示通过质控检测,“红色”提示没有通过质控检测。将鼠标放置在每个绿色/红色圆点上面将展示数量等信息,详情见表格中的“展示内容”。
带有红色圆点的序列需谨慎使用。“N”和简并碱基数目过多,和参考序列比对出现多处gaps,这些情况提示可能由于低覆盖度、低测序深度、技术问题等造成序列质量不高。同时,高变异数和高变异密度提示可能存在异常,用户使用这些序列时有必要进一步核查。
如果序列含有较多未知碱基或简并碱基,不再进行变异相关的质量评估。同时,非人源病毒株的序列相对于参考序列变异较多,不进行变异相关的质量评估,仅提供对未知碱基数和简并碱基数的评估。
下载表格中“质量评估”一列展示每一质量检测条目对应的数量。变异密度为YES/NO,表示有/无变异密集区。如果没有进行变异检测,显示为“NA”。
未知碱基 | 简并碱基 | Gap数目 | 变异总数 | 变异密度 | |
---|---|---|---|---|---|
绿色 | <=15 | <=50 | <=2 gaps | <=期望值+1 | <0.25 |
红色 | >15 | >50 | >2 gaps | >期望值+1 | >=0.25 |
展示内容 | 未知碱基:数量 | 简并碱基:数量 | Gap数目:数量 | 变异总数:数量 | 变异密集区间:区间起始位置~区间终止位置(区间长度-区间内变异总数-变异密度);不存在变异密集区将显示“NO” |
序列质量:我们基于未知碱基数量、简并碱基数量评估序列质量。如果序列在两个方面均通过质控检测,被定义为高质量序列;如有至少一项未通过质控检测,则定义为低质量序列。