Lineage Browse - 2019新型冠状病毒信息库

RCoV19

谱系结果基于Pangolin (Pangolin 4.3.1, PangoLEARN v1.17.1)计算得出, 具体谱系详情参见 lineages.
参考文献 A dynamic nomenclature proposal for SARS-CoV-2 lineages to assist genomic epidemiology.

Loading ...

所选支系中样本的采样时间分布

所选支系中样本的采样国家分布

所选支系中样本的采样时空分布

Show entries

Search:

病毒株名	序列号	谱系	Pangolin版本	序列质量	质量评估	宿主	采样日期	采样地点

Processing...

注：变异样本比例是基于高质量的人源序列计算。

Show entries

突变位置	序列变化	基因	氨基酸变化	突变样本数量	突变样本比例 (%)

突变位置	序列变化	基因	氨基酸变化	突变样本数量	突变样本比例 (%)

Loading...

Processing...

Showing 0 to 0 of 0 entries

Show entries

Search:

WHO命名	谱系	样本数量	最早发现日期	支系描述	变异位点（样本数量，%）	国家分布（样本数量，%）
Loading...

Showing 0 to 0 of 0 entries

新冠病毒的基因组信息和序列从全球主要的数据中心获取，包括NCBI、GISAID、NGDC、NMDC、CNGB。我们基于元信息和序列比对去冗余和审编。疫情期间，“基因组序列发布动态”表格每天更新。

相关ID：我们通过数据审编获得非冗余的病毒株基因组信息，尤其是全基因组序列信息，以便于用户使用这些数据获得准确的研究结果，如病毒变异频率，系统进化树。
1、数据库之间的重复：一条基因组序列可能被递交到多个数据库。我们基于元信息、序列比对、数据递交者提供的报告鉴定哪些是重复出现的序列。我们优先提供对所有用户开放的数据库的相关信息，如“Accession ID” 和 “Virus Strain Name”。其余数据库的序列号在“Related ID”条目列出。我们鼓励基因组序列公开共享，这将有助于发挥每个平台的优势，促进新冠病毒基因组序列的审编、注释、分析和实验研究。
2、数据库内部的重复：数据库内部的重复（病毒株名、序列、病人信息、采样时间、传代等信息均相同）可能是用户重复递交同样的数据或其它错误导致。对于这种情况，之后出现的序列的序列号将在“Related ID”条目列出。
3、全基因组序列与基因序列：如果一个病毒株既有全基因组序列，又有基因序列，我们只列全基因组序列的信息，基因序列的序列号也不在表格中展示；如果一个病毒株没有全基因组序列，只有不同基因的序列，那么这些基因序列将作为不同的条目在表格中列出，一旦全基因组序列出现，基因序列将被移除，替换成全基因组序列。

下载：所有用户均可免费下载元信息，但仅能下载公开发布的序列。GISAID 数据库的数据对注册用户开放，因此在本数据库中不提供下载。

序列完整度：基于和参考基因组序列MN908947比对，如果序列覆盖所有的蛋白编码区／CDS区，同时长度大于29k，序列将被鉴定为完整的基因组序列，即“Complete”，否则为“Partial”。

质量评估：对序列完整度为“Complete”的基因组序列，在5个方面进行质量检测，包括未知碱基（N）数量、简并碱基（非ATGCN的碱基）数量、与参考序列（MN908947）比对后出现的gap（deletion、insertion、indel）数量、变异总数、变异密度（变异数/区间长度，区间长度<=20nt）。变异总数为序列全长范围内的所有变异，其余质量评估条目只考虑蛋白编码区域。
基于表格中列出的条件进行质量评估，“绿色”表示通过质控检测，“红色”提示没有通过质控检测。将鼠标放置在每个绿色／红色圆点上面将展示数量等信息，详情见表格中的“展示内容”。
带有红色圆点的序列需谨慎使用。“N”和简并碱基数目过多，和参考序列比对出现多处gaps，这些情况提示可能由于低覆盖度、低测序深度、技术问题等造成序列质量不高。同时，高变异数和高变异密度提示可能存在异常，用户使用这些序列时有必要进一步核查。
如果序列含有较多未知碱基或简并碱基，不再进行变异相关的质量评估。同时，非人源病毒株的序列相对于参考序列变异较多，不进行变异相关的质量评估，仅提供对未知碱基数和简并碱基数的评估。
下载表格中“质量评估”一列展示每一质量检测条目对应的数量。变异密度为YES／NO，表示有／无变异密集区。如果没有进行变异检测，显示为“NA”。

	未知碱基	简并碱基	Gap数目	变异总数	变异密度
绿色	<=15	<=50	<=2 gaps	<=15	<0.25
红色	>15	>50	>2 gaps	>15	>=0.25
展示内容	未知碱基：数量	简并碱基：数量	Gap数目：数量	变异总数：数量	变异密集区间：区间起始位置~区间终止位置（区间长度-区间内变异总数-变异密度）；不存在变异密集区将显示“NO”

序列质量：我们基于未知碱基数量、简并碱基数量评估序列质量。如果序列在两个方面均通过质控检测，被定义为高质量序列；如有至少一项未通过质控检测，则定义为低质量序列。

质量评估：对序列完整度为“Complete”的基因组序列，在5个方面进行质量检测，包括未知碱基（N）数量、简并碱基（非ATGCN的碱基）数量、与参考序列（MN908947）比对后出现的gap（deletion、insertion、indel）数量、变异总数、变异密度（变异数/区间长度，区间长度<=20nt）。变异总数为序列全长范围内的所有变异，其余质量评估条目只考虑蛋白编码区域。
基于表格中列出的条件进行质量评估，“绿色”表示通过质控检测，“红色”提示没有通过质控检测。将鼠标放置在每个绿色／红色圆点上面将展示数量等信息，详情见表格中的“展示内容”。
带有红色圆点的序列需谨慎使用。“N”和简并碱基数目过多，和参考序列比对出现多处gaps，这些情况提示可能由于低覆盖度、低测序深度、技术问题等造成序列质量不高。同时，高变异数和高变异密度提示可能存在异常，用户使用这些序列时有必要进一步核查。
如果序列含有较多未知碱基或简并碱基，不再进行变异相关的质量评估。同时，非人源病毒株的序列相对于参考序列变异较多，不进行变异相关的质量评估，仅提供对未知碱基数和简并碱基数的评估。
下载表格中“质量评估”一列展示每一质量检测条目对应的数量。变异密度为YES／NO，表示有／无变异密集区。如果没有进行变异检测，显示为“NA”。

	未知碱基	简并碱基	Gap数目	变异总数	变异密度
	<=15	<=50	<=2	<=15	<0.25
	>15	>50	>2	>15	>=0.25
展示内容	未知碱基：数量	简并碱基：数量	Gap数目：数量	变异总数：数量	变异密集区间：区间起始位置~区间终止位置（区间长度-区间内变异总数-变异密度）；不存在变异密集区将显示“NO”

2019新型冠状病毒信息库 - 突变谱系浏览

Research & Resources

Featured

Alliance & Collaboration

Conference & Outreach

About