PlantscRNAdb
2021
Molecular Plant
PlantscRNAdb: A database for plant single-cell RNA analysis
数据库开发背景
(1)随着测序技术的发展,scRNA-seq已经被广泛用来研究植物基因表达组织异质性。scRNA-seq数据量快速增长,需要建立数据库和工具来容纳和分析这些数据。
(2)许多scRNA-seq数据库都是利用人类和模式动物的数据开发的。目前还没有针对多个植物物种的scRNA-seq数据库,特别是没有一个包含综合分析结果的数据库,如特定细胞类型的marker基因及其表达谱。因此,为植物建立一个全面的scRNA-seq数据库势在必行。
亮点
作者建立了植物scRNA-seq数据库(PlantscRNAdb; http://ibi.zju.edu.cn/plantscrnadb/)。
PlantscRNAdb包含4种植物(拟南芥、水稻、番茄和玉米)的128种不同细胞类型的26326个marker基因,该数据库还可用于探索单个细胞类型和全基因组规模的基因表达。
PlantscRNAdb介绍
Fig 1a-b
作者收集了拟南芥、水稻、番茄和玉米的各细胞类型的marker基因,根据数据来源,将这些marker基因分成四类:
(1)具有实验证据支持的marker基因:作者从pubmed上根据关键词“marker(s)”或“specific expression”进行搜索,整理了3000篇文献中的marker基因。
(2)基于特定细胞类型的bulk-RNA-seq数据鉴定到的marker基因。
(3)已发表的scRNA-seq研究的marker基因,即基于scRNA-seq鉴定到的在不同细胞类型中显著差异表达的marker基因。
(4)作者使用统一的方法和共同的参数重新分析已发表的scRNA-seq数据鉴定到的marker基因。由于可能与之前的研究使用了不一样的流程和参数,所以一些marker基因可能存在错误的识别和遗漏。
整合上述四种marker后,去除冗余,最终得到拟南芥的14922个marker基因(10个组织、79种细胞类型)、苜蓿的5428个marker基因(5个组织、35种细胞类型)、玉米的5901个marker基因(9个组织、42种细胞类型)和番茄的75个marker基因(5个组织、25种细胞类型)(Fig 1a,b)。其中大部分的marker基因主要来自近期的scRNA-seq数据。
另外,作者定义:当一个基因在特定细胞类型中的reads数占该基因总reads数的80%以上时(即该基因的表达主要由这一个细胞类型所贡献),称为“marker#1”,反则称为“marker#2”。
Fig 1c
所有的marker基因都可以从PlantscRNAdb下载,每个生物可单独下载,也可作为一个整体下载。
同时,该数据库提供了两种检索方式,一种是通过细胞类型检索,另一种是通过marker基因进行检索。选择物种、组织和细胞类型后,可以详细的展示与细胞类型对应的marker基因信息。通过选择感兴趣的物种并输入感兴趣的marker基因的ID,可以通t-SNE或UMAP展示marker基因在不同scRNA-seq中的表达信息(Fig 1c)。对处理过的样品,也可以比较处理对基因表达的影响。
Fig 1d-e
scRNA-seq最大的优势是能比较组织内部和组织间不同细胞类型的基因表达谱。PlantscRNAdb包含了不同细胞类型的基因(尤其是marker基因)的详细信息。它使用了基因组浏览器来展示不同细胞类型中基因表达的直观信息(Fig 1d)。由于不同的scRNA-seq测序测到的细胞数目不同,所显示的基因数据(对应的bam文件)都经历过归一化。
为了满足用户的个性化需求,PlantscRNAdb还提供了scRNA-seq对应的表达矩阵。同时,数据库提供了每篇已发表文章的详细信息(如使用的测序方法和测序得到的细胞数量),可以指导用户设计自己的单细胞测序方案。
非模式物种的marker基因比模式物种少的多,这给非模式物种的分析带来很大苦难。这一缺陷可以通过使用其近缘物种的同源marker基因来克服。为此,PlantscRNAdb提供了一个在线的blastp工具,使用感兴趣的植物物种的序列作为查询,在四个物种中进行同源搜索(Fig 1e)。
PlantscRNAdb实操
图1
网址
http://ibi.zju.edu.cn/plantscrnadb/index.php
图2
截至发文,该网站已经有五个版本(图 2),更新还算非常及时。
图3
图4
每次更新基本都是加入最新发表的scRNA-seq以及新鉴定的marker基因,目前涉及15个物种(图 3-4)
图5
该网站还有以上8个功能模块(图5)
Home页面显示基本的版本和更新信息。
图6
Statistic页面展示对收集到的单细胞数据和marker基因数做了统计,比如收集到的拟南芥scRNA-seq涉及22个组织,275种细胞类型,共23,154个marker基因(图6)。
图7
Search页面有三种模式。
第一种是查找指定物种、指定组织的指定细胞类型(Fig 7).
图8
第二种是查找某个物种的特定marker基因(图 8),一定要注意基因编号与内置的参考基因组一致,home界面有基因组版本。
图9
第三种是查找指定物种指定组织的两种class的marker基因(图 9),有两类,分别是marker#1和marker#2.
在文章中作者定义:当一个基因在特定细胞类型中的reads数占该基因总reads数的80%以上时(即该基因的表达主要由这一个细胞类型所贡献),称为“marker#1”,反则称为“marker#2”。
注意:目前可能存在bug,三种方式我均无法搜索。
图10
该网站最新版本还收集了四个物种的空间转录组数据(图10),在Spatial页面可以点击相应拉丁名跳转到特定的在线小工具.
图11
通过这个小工具可以展示cluster以及marker的表达量(图11).
图12
对于非模式物种或者没有被该数据库收录的物种,该网站提供了一个在线blast用于快速鉴定同源基因(图12)。选择用于比对的物种后再输入自己研究的蛋白序列,设定合适的阈值即可在线blast。
图13
PlantscRNAdb还内置了基因组浏览器Jbrowse,目前仅支持5个物种(图13)。
图14
选择物种后可以选定自己关注的数据集,结合基因注释信息可以用来直观展示某个细胞类型在某种处理后的基因表达水平(图14)。
图15
最后dowmload界面可以下载内置物种的marker基因的详细信息,对于刚开始接触单细胞转录组分析,划分细胞类型还是比较有帮助的,至少不需要自己去收集已发表的marker基因。
总结
作者创建了一个scRNA-seq数据库用于跟踪和分析可用的植物scRNA-seq数据,并为研究人员提供了一个用户友好的单细胞研究平台。当有新的植物scRNA-seq数据集可用时,PlantscRNAdb会定期更新,并在数据库中开发新的功能,以满足用户需求。
本文使用 文章同步助手 同步