NGDC Apr 3, 2023
大豆(Glycine max (L.) Merr.)作为世界范围内重要的粮油作物之一,其产量提升、品质改进关乎全球人口的需求和利益。高通量测序技术的发展促使大豆组学研究不断深入。实现大豆多维组学数据的整合分析,将会为大豆遗传育种提供有力支持。
近日,中科院遗传发育所田志喜团队联合中科院北京基因组所(国家生物信息中心)章张、宋述慧团队开发了大豆多维组学深度整合数据库SoyOmics。研究成果以“SoyOmics: A deeply integrated database on soybean multi-omics”为题在国际期刊Molecular Plant上发表。
SoyOmics数据库全面整合分析了大豆相关的多维组学数据。数据库目前收录了27个大豆品系的从头组装基因组数据,并对相应基因组信息进行了全面的基因组注释。以高质量的ZH13作为参考基因组,对2898份材料的全基因组测序数据进行了全基因组序列变异检测,共鉴定到约3800万条SNP/INDEL变异数据,同时为每个变异位点提供多层次注释信息。除序列变异外,还提供了来自大豆泛基因组分析的约55万条结构变异数据以及基于结构变异构建的图泛基因组。数据库还收录了来自ZH13和Williams82两个基因组27个组织时期的表达数据,以及其他26个品系9个组织时期的表达数据,并展示了不同品系间同源基因的差异表达。针对115个表型多年多点测定的约2.7万条表型记录进行了本体注释和归类,并将表型数据与变异数据进行关联。除以上组学数据外,数据库同时提供了部分种质资源的甲基化测序数据,以及Soy40K大豆芯片数据。该数据库从基因组、变异组、转录组、表型组等不同层面整合了大豆相关数据集,实现了不同层次组学数据的交互查询和联合比较分析。
为更好服务于用户,研究团队开发了多个实用的“一站式”分析模块,支撑实现GWAS分析、表达模式分析、单倍型分析、基因组坐标转换、图泛基因组可视化等。综上,该数据库具备多维组学数据间的深度关联性、用户的高度可交互性以及分析场景的高覆盖性,预期能为大豆遗传学及育种研究提供基础数据支撑和全新的观察视角。
中科院遗传发育所田志喜研究员,中科院北京基因组所(国家生物信息中心)章张研究员、宋述慧研究员为该论文共同通讯作者,中科院遗传发育所刘羽诚博士,中科院北京基因组所(国家生物信息中心)博士研究生张阳、刘晓楠,中科院遗传发育所申妍婷副研究员为该论文共同第一作者。该研究得到了中科院先导项目、科技创新2030-重大项目、国家自然科学基金、国家重点研发计划、博士后创新人才计划等项目的资助。