基因组数据搜索 - 2019新型冠状病毒信息库

基因组数据搜索数据检索接口

全选	序列号	病毒株名	合并相同序列	性别	年龄	数据来源	相关ID	原始数据	谱系	序列完整度	序列长度	序列质量	质量评估	宿主	采样日期	采样地点	样本提供单位	递交时间	数据递交单位	发布时间	国家/地区	省市区	城市	最后更新时间

由于使用权限的原因，GISAID数据库的序列不能在此被下载，请登录GISAID的网站获取。

序列完整度

{{item.name}} ({{item.value}})

序列质量

{{item.name === "1" ? "High" : "Low"}} ({{item.value}})

数据来源

{{item.name}} ({{item.value}})

WHO谱系命名

{{item.name}} ({{item.value}})

谱系

{{item.name}} ({{item.value}})

国家

{{item.name}} ({{item.value}})

宿主

{{item.name}} ({{item.value}})

新冠病毒的基因组信息和序列从全球主要的数据中心获取，包括NCBI、GISAID、NGDC、NMDC、CNGB。我们基于元信息和序列比对去冗余和审编。疫情期间，“基因组序列发布动态”表格每天更新。

相关ID：我们通过数据审编获得非冗余的病毒株基因组信息，尤其是全基因组序列信息，以便于用户使用这些数据获得准确的研究结果，如病毒变异频率，系统进化树。
1、数据库之间的重复：一条基因组序列可能被递交到多个数据库。我们基于元信息、序列比对、数据递交者提供的报告鉴定哪些是重复出现的序列。我们优先提供对所有用户开放的数据库的相关信息，如“Accession ID” 和 “Virus Strain Name”。其余数据库的序列号在“Related ID”条目列出。我们鼓励基因组序列公开共享，这将有助于发挥每个平台的优势，促进新冠病毒基因组序列的审编、注释、分析和实验研究。
2、数据库内部的重复：数据库内部的重复（病毒株名、序列、病人信息、采样时间、传代等信息均相同）可能是用户重复递交同样的数据或其它错误导致。对于这种情况，之后出现的序列的序列号将在“Related ID”条目列出。
3、全基因组序列与基因序列：如果一个病毒株既有全基因组序列，又有基因序列，我们只列全基因组序列的信息，基因序列的序列号也不在表格中展示；如果一个病毒株没有全基因组序列，只有不同基因的序列，那么这些基因序列将作为不同的条目在表格中列出，一旦全基因组序列出现，基因序列将被移除，替换成全基因组序列。

下载：所有用户均可免费下载元信息，但仅能下载公开发布的序列。GISAID 数据库的数据对注册用户开放，因此在本数据库中不提供下载。

序列完整度：基于和参考基因组序列MN908947比对，如果序列覆盖所有的蛋白编码区／CDS区，同时长度大于29k，序列将被鉴定为完整的基因组序列，即“Complete”，否则为“Partial”。

质量评估：对序列完整度为“Complete”的基因组序列，在5个方面进行质量检测，包括未知碱基（N）数量、简并碱基（非ATGCN的碱基）数量、与参考序列（MN908947）比对后出现的gap（deletion、insertion、indel）数量、变异总数、变异密度（变异数/区间长度，区间长度<=20nt）。变异总数为序列全长范围内的所有变异，其余质量评估条目只考虑蛋白编码区域。
基于表格中列出的条件进行质量评估，“绿色”表示通过质控检测，“红色”提示没有通过质控检测。将鼠标放置在每个绿色／红色圆点上面将展示数量等信息，详情见表格中的“展示内容”。
带有红色圆点的序列需谨慎使用。“N”和简并碱基数目过多，和参考序列比对出现多处gaps，这些情况提示可能由于低覆盖度、低测序深度、技术问题等造成序列质量不高。同时，高变异数和高变异密度提示可能存在异常，用户使用这些序列时有必要进一步核查。
如果序列含有较多未知碱基或简并碱基，不再进行变异相关的质量评估。同时，非人源病毒株的序列相对于参考序列变异较多，不进行变异相关的质量评估，仅提供对未知碱基数和简并碱基数的评估。
下载表格中“质量评估”一列展示每一质量检测条目对应的数量。变异密度为YES／NO，表示有／无变异密集区。如果没有进行变异检测，显示为“NA”。

	未知碱基	简并碱基	Gap数目	变异总数	变异密度
绿色	<=15	<=50	<=2 gaps	<=期望值+1	<0.25
红色	>15	>50	>2 gaps	>期望值+1	>=0.25
展示内容	未知碱基：数量	简并碱基：数量	Gap数目：数量	变异总数：数量	变异密集区间：区间起始位置~区间终止位置（区间长度-区间内变异总数-变异密度）；不存在变异密集区将显示“NO”

预期变异碱基总数根据每年每个碱基突变率8.69 × 10⁻⁴ 计算，详细信息请参考文章Liu et al., 2020

序列质量：我们基于未知碱基数量、简并碱基数量评估序列质量。如果序列在两个方面均通过质控检测，被定义为高质量序列；如有至少一项未通过质控检测，则定义为低质量序列。

	未知碱基	简并碱基	Gap数目	变异总数	变异密度
绿色	<=15	<=50	<=2 gaps	<=期望值+1	<0.25
红色	>15	>50	>2 gaps	>期望值+1	>=0.25
展示内容	未知碱基：数量	简并碱基：数量	Gap数目：数量	变异总数：数量	变异密集区间：区间起始位置~区间终止位置（区间长度-区间内变异总数-变异密度）；不存在变异密集区将显示“NO”

请求方法: GET

请求链接: https://ngdc.cncb.ac.cn/ncov/api/es/genome/query

请求参数:

参数名称	参数类型	描述	示例
q	字符串	检索关键词	omicron
start	整数	检索起始位置	0
length	整数	检索返回数据记录数	10 <10000
accession	字符串	检索指定ID	C_AA008737.1
country	字符串	按国家检索	China
province	字符串	按省份检索	Beijing
host	字符串	按宿主检索	Homo sapiens
source	字符串	按数据源检索	GenBase
minCollectDate	日期	指定最小采样日期	2023-01-01
maxCollectDate	日期	指定最大采样日期	2023-04-01
minSubmitDate	日期	指定最小递交时间	2023-01-01
maxSubmitDate	日期	指定最大递交时间	2023-04-01
qc	整数	按数据质量检索	0 (0 / 1)
complete	字符串	按序列完整度检索	Complete (Complete / Partial)
minLength	整数	序列最小长度	29000
maxLength	整数	序列最大长度	30000
ns	整数	最大未知碱基数量	15
ds	整数	最大简并碱基数量	50
lineage	字符串	按序列谱系检索	BF.7.14
whoLabel	字符串	按序列WHO命名支系检索	Omicron

2019新型冠状病毒信息库 - 基因组数据搜索

基因组数据搜索 数据检索接口

基因组数据搜索数据检索接口