高级检索
提交类型
     
常规序列提交准备
1.概述
请准备以下信息:
  1. 基本信息: 您的联系方式,作者,出版物,数据发布日期
  2. 提交类型:
    • 原始组装/注释
    • 同一基因座的多个序列集合(如果适用)
    • 分子类型
  3. FASTA格式的核酸序列
  4. 物种名
  5. 元信息, 例如: isolate, strain, collection date, country
  6. 特征注释, 例如: CDS (coding region), tRNA, ncRNA, gene
2.序列
您可以按以下格式提交序列:

FASTA,可包含一条或多条序列。请使用FASTA格式,以定义行开始,然后是序列行。最简单的定义行需要“>”符号和一个序列标识符(Sequence ID)。

例如:

>Seq1 [organism=Mus emesi]
CCTTTAT...
>Seq2 [organism=Mus bufo]
GGTAGGT...
所有序列文件必须是纯文本,仅使用ASCII字符。序列使用IUPAC代码。
我们提供了独立的GenBaseTools(gbt)程序给有大批量序列提交需求的用户来使用。用户可以将此程序下载到本地运行序列校验并根据提示修改直到通过,无需将大量序列多次上传到GenBase网站。本工具目前支持通用序列和新冠肺炎序列的校验,并且支持在所有常见的linux发行版中运行。
3.元信息
元信息将被要求作为提交的一部分,并使用受控词汇表来描述您如何、何时以及在何处获得样品。您可以使用元信息(如isolate, clone, strain or specimen voucher)唯一地识别来自同一生物体的样品。
您将被要求根据您的物种信息提供某些元信息的值。额外的元信息将可添加。
元信息可通过以下Excel表提供。
模板文件: GenBase_Modifiers.xlsx
4.特征
请准备序列对应的特征注释:
对于简单的注释(例如,所有序列都具有相同的特征),请准备Excel表格上传;
对于复杂的注释,请准备一个由制表符分隔的五列特征表(TBL格式文件)来上传;
根据你提交的序列提供特征间隔。对于蛋白质编码序列,请对您序列上的编码区域(CDS)进行特征注释,无论是部分的还是完整的。
不提供完整的特征注释将延迟审批号的分配和处理。
模板文件: GenBase_Features.xlsx