北京基因组所(国家生物信息中心)发布更新版人类长非编码RNA知识库LncRNAWiki 2.0

NGDC  Dec 2, 2021


  近日,由中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心开发的人类长非编码RNA(long non-coding RNA, lncRNA)知识库LncRNAWiki 2.0正式上线。该研究系统介绍了LncRNAWiki更新版主要内容,并以“LncRNAWiki 2.0: a knowledgebase of human long non-coding RNAs with enhanced curation model and database system”为题在国际学术期刊Nucleic Acids Research 在线发表。

  LncRNA通过复杂多样的分子机制发挥重要功能,在多个生物学过程发挥重要作用,与人类疾病的发生发展密切相关。LncRNAWiki是一个基于MediaWiki框架开发的人类lncRNA群体审编知识库,最初注释了86个文献报道的lncRNA。此后,研究团队每年持续增加新的功能性lncRNA并丰富lncRNA注释。截至2020年,LncRNAWiki已包含2,056个功能性lncRNA的注释信息,为了解lncRNA的功能和研究进展提供了重要的资源平台。

  为方便数据结构化管理及统计查询,LncRNAWiki 2.0大幅提升了系统框架,并建立了标准化审编模型。具体来说,2.0版主要基于MySQL/Java构建,结构化展示功能性lncRNA的10类注释信息,实时统计多种关键内容的研究进展,支持注册用户根据审编模型在线提交/编辑/更新lncRNA相关知识,并基于审编知识和生信分析结果预测lncRNA功能。在群体审编方面,提供了包含分子特征、临床关联、靶基因、调控因子、实验样本、生物学功能、CRISPR实验、文献等10类内容的系统性审编模型,支持结构化审编注释。为确保审编质量,增加了专业审核环节,且任何用户均可报告lncRNA页面上的注释错误。

  目前,LncRNAWiki 2.0共包含2,512个lncRNA的106,242条知识关联信息,这些关联知识主要来自于对16个专业数据库信息的标准化整合审编。基于全面丰富的注释,在统计页面为研究人员提供实时的lncRNA功能图谱,例如根据现有注释可知70%以上的lncRNA研究集中在疾病方面,在肝癌、白血病、结直肠癌中的研究较多;MALAT1、HOTAIR、H19等被报道较多,具有丰富的功能注释信息;lncRNA的定位研究主要集中在外泌体、细胞核中;帕比司他、顺铂和多西紫杉醇三种药物与lncRNA的关联研究较多。所有相关知识在Browse页面均可一键免费下载。

  LncRNAWiki 2.0数据库具备友好的网页界面,方便数据管理,包括数据提交、编辑、审核、错误报告,以及浏览、搜索、下载和统计,提供了多种在线工具,用于lncRNA ID转换、序列比对和功能预测,助力发掘新的lncRNA功能,有望成为lncRNA功能注释和研究的重要资源平台。

  北京基因组所(国家生物信息中心)特别研究助理刘琳,博士研究生李昭和硕士研究生刘畅为本文共同第一作者,马利娜副研究员与章张研究员为共同通讯作者。该研究得到了中科院战略性先导科技专项、国家重点研发计划、中科院青促会等项目资助。

   LncRNAWiki 2.0知识审编流程与主要内容

  文章链接