新冠病毒的基因组信息和序列从全球主要的数据中心获取,包括NCBI、GISAID、NGDC、NMDC、CNGB。我们基于元信息和序列比对去冗余和审编。疫情期间,“基因组序列发布动态”表格每天更新。
1、 数据库之间的重复:一条基因组序列可能被递交到多个数据库。我们基于元信息、序列比对、数据递交者提供的报告鉴定哪些是重复出现的序列。我们优先提供对所有用户开放的数据库的相关信息,如“Accession ID” 和 “Virus Strain Name”。其余数据库的序列号在“Related ID”条目列出。我们鼓励基因组序列公开共享,这将有助于发挥每个平台的优势,促进新冠病毒基因组序列的审编、注释、分析和实验研究。
2、 数据库内部的重复:数据库内部的重复(病毒株名、序列、病人信息、采样时间、传代等信息均相同)可能是用户重复递交同样的数据或其它错误导致。对于这种情况,之后出现的序列的序列号将在“Related ID”条目列出。
3、全基因组序列与基因序列:如果一个病毒株既有全基因组序列,又有基因序列,我们只列全基因组序列的信息,基因序列的序列号也不在表格中展示;如果一个病毒株没有全基因组序列,只有不同基因的序列,那么这些基因序列将作为不同的条目在表格中列出,一旦全基因组序列出现,基因序列将被移除,替换成全基因组序列。
基于表格中列出的条件进行质量评估,“绿色”表示通过质控检测,“红色”提示没有通过质控检测。将鼠标放置在每个绿色/红色圆点上面将展示数量等信息,详情见表格中的“展示内容”。
带有红色圆点的序列需谨慎使用。“N”和简并碱基数目过多,和参考序列比对出现多处gaps,这些情况提示可能由于低覆盖度、低测序深度、技术问题等造成序列质量不高。同时,高变异数和高变异密度提示可能存在异常,用户使用这些序列时有必要进一步核查。
如果序列含有较多未知碱基或简并碱基,不再进行变异相关的质量评估。同时,非人源病毒株的序列相对于参考序列变异较多,不进行变异相关的质量评估,仅提供对未知碱基数和简并碱基数的评估。
下载表格中“质量评估”一列展示每一质量检测条目对应的数量。变异密度为YES/NO,表示有/无变异密集区。如果没有进行变异检测,显示为“NA”。
未知碱基 | 简并碱基 | Gap数目 | 变异总数 | 变异密度 | |
---|---|---|---|---|---|
绿色 | <=15 | <=50 | <=2 gaps | <=15 | <0.25 |
红色 | >15 | >50 | >2 gaps | >15 | >=0.25 |
展示内容 | 未知碱基:数量 | 简并碱基:数量 | Gap数目:数量 | 变异总数:数量 | 变异密集区间:区间起始位置~区间终止位置(区间长度-区间内变异总数-变异密度);不存在变异密集区将显示“NO” |