SARS-CoV-2提交流程(完整或部分序列):
提交SARS-CoV-2组装序列数据必须符合以下要求:
- 所有序列均来自SARS-CoV-2;
- 必须提供以下信息:Collection_date(样本采集时间),Country/Region(国家/地区),Host(宿主),Isolate(毒株名称)。
提交SARS-CoV-2组装序列数据后,系统将自动评估其质量,并使用病毒注释工具VADR为您进行注释(https://github.com/nawrockie/vadr/wiki/Coronavirusannotation)
一、提交准备
在开始SARS-CoV-2数据提交前,请预先准备好以下信息:
- 常规信息:提交者联系方式,作者,出版信息,数据拟发布日期等;
- 测序技术信息:测序技术、组装信息;
- FASTA格式核苷酸序列文件:
- 请使用FASTA格式,以定义行(Definition line)开始,然后是序列行;
- 最简单的定义行需要“>”符号和一个序列标识符(Sequence ID);
-
Sequence ID命名要求:
- 以字母开头,建议用单位的缩写(比如QHCDC),避免重复;
- 可以包含字母、数字、横线“-”和下划线“_”;
- Sequence ID的长度需要小于23个字符;
- 序列长度必须在50 – 30,000碱基之间,且未知碱基Ns <50%,序列两端不能包含未知碱基Ns,否则两端的Ns会被自动删除,且内部不能包含横线"-"(有些比对软件运行后插入的);
- FASTA文件可包含一条或多条序列;
- 请以纯文本文件的形式上传FASTA文件(保证换行符格式是Unix的换行符LF格式,而不是Windows的CRLF格式。Windows下的文本编辑器推荐使用Notepad3, https://www.rizonesoft.com/downloads/notepad3/ ,双击文本编辑器右下角为LF即可。 Linux系统下可以通过dos2unix命令完成转换)。
-
示例:
> QHCDC_HB2Y01 CCTTTAT... > BJCDC-0242 GGTAGGT...
- 我们提供了独立的GenBaseTools(gbt)程序给有大批量序列提交需求的用户来使用。用户可以将此程序下载到本地运行序列校验并根据提示修改直到通过,无需将大量序列多次上传到GenBase网站。本工具目前支持通用序列和新冠肺炎序列的校验,并且支持在所有常见的linux发行版中运行。查看帮助。
-
元信息文件:
请填写模板文件
GenBase_Modifiers_SARS-CoV-2.xlsx
- 必填列:Sequence_ID(序列ID),Collection_date(序列收集时间),Country/Region(国家/地区),Host(宿主),Isolate(毒株名称);
- 选填列:Isolation_source(毒株来源),Host_sex(宿主性别),Host_age(宿主年龄)等;
- 请注意,Isolate(毒株名称)需按照ICTV(国际病毒分类委员会)指定格式,即"SARS-CoV-2/宿主/三字母的国家缩写/病毒唯一编号/年份"的格式来编写,例如"SARS-CoV-2/human/CHN/BJCDC-0242/2023"或者"SARS-CoV-2/human/USA/SD-SDPHL-2510/2022"。
二、特别声明
- 如果系统校验过程中发现您提交的序列中有错误,报错的序列将从当前提交中剔除,您将收到关于所有错误序列的详细报错报告,并可在进一步检查后重新提交。因此,为了一次性顺利完成数据提交,建议运行VADR来检查您的数据。 (https://github.com/ncbi/vadr/wiki/Coronavirus-annotation)
- 如果您认为错误是由于病毒发生突变造成的,请将描述突变证据的信息以电子邮件方式发送到:genbase@big.ac.cn。