NGDC Nov 24, 2021
近日,中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心开发的癌症单细胞表达图谱数据库(CancerSCEM)正式上线。该研究成果以“CancerSCEM: a database of single-cell expression map across various human cancers”为题在国际学术期刊Nucleic Acid Research 在线发表。
单细胞分辨率的全转录组测序技术(scRNA-seq)具有研究细胞异质性的显著优势,已成为研究肿瘤微环境、癌症发病机制、转移与侵袭以及各类癌症治疗与诊断不可或缺的手段。截至2021年11月,PubMed已有超过1300个癌症相关的单细胞转录组学研究,极大提升了我们对人类癌症发生发展的理解,推动了癌症临床诊断与治疗的进程。大规模癌症scRNA-seq数据在过去十年中呈现爆炸式增长,迫切需要对这些数据进行规范化整合与处理,对各类癌症的肿瘤微环境进行深入挖掘与比较分析。为应对这一需求,国家基因组科学数据中心研究团队开发了CancerSCEM数据库。
CancerSCEM 1.0版本整合分析了208个癌症scRNA-seq数据集,涵盖肺腺癌(LUAD)、结肠直肠癌(CRC)、恶性胶质瘤(GBM)等在内的20种人类癌症类型。通过标准化分析流程处理,获得了精确的细胞类型注释信息。在此基础上,团队还开展了一系列附加分析,包括不同细胞类型间基因差异表达分析(可为新型标志物筛选提供参考)、细胞表面受体-配体基因对表达谱、样本内细胞互作网络构建等,可为用户提供更加丰富的肿瘤微环境相关信息,并开展了基于TCGA表达数据与临床信息的生存分析。
数据库为用户提供浏览、多重检索、在线分析及下载等服务功能,用户可采用首页的快速检索、词云及精确检索等途径查询感兴趣的癌症单细胞数据集或样本。如点击词云里的基因名“HLA-A”或通过搜索框输入,均可触发数据库查询功能,并实时获得目标基因的详细信息及其在单细胞层面与细胞群体(组织)层面的表达分布信息。为方便临床相关用户的使用,团队共审编获得36个常用免疫检查点分子(如PDCD1、CTLA4、LAG3、HMGB1等)并提供专门的搜索列表,以帮助各类癌症的临床免疫治疗研究寻找更优的治疗靶点。
数据库还配备了一个交互式综合在线分析平台,共集成2个分析模块与7个分析功能。通过基因分析模块,用户可开展四个方面的实时分析及可视化展示:1)样本内目标基因的整体表达概况;2)样本内基因在不同细胞类型间的表达比较;3)基因表达相关性计算及筛选;4)208样本中单细胞或bulk层面的基因表达比较。通过样本分析模块,用户可进行1)样本间细胞组成比较;2)样本内细胞互作网络构建以及3)基于TCGA的生存分析。该分析平台将为用户开展个性化的癌症scRNA-seq数据挖掘提供友好的增值服务。
中国科学院北京基因组研究所(国家生物信息中心)助理研究员曾瀞瑶、特别研究助理张亚东及硕士研究生尚云飞为本工作共同第一作者,肖景发研究员为通讯作者。本工作得到中科院战略性先导科技专项、国家自然科学基金、国家重点研发计划等项目资助。