摘要
转座子(Transposable elements,TEs)是一种插入诱变剂,对真核生物基因组可塑性的贡献显著,影响物种的进化和适应以及个体的生理或疾病。测量TE的表达不仅有助于了解TE动员可以在何时何地发生,而且还有助于了解这一过程如何改变基因表达、染色质可及性或细胞信号通路。虽然全基因组表达分析,如RNA测序中包括了转座子衍生的转录本,但大多数计算分析工具对这些TE衍生的reads进行丢弃或曲解。新兴的方法提高了TE表达位点的识别能力,以及能够区分允许TE动员的gene-TE嵌合或普遍转录的TE转录本。在这里,我们回顾了与TE表达相关的主要挑战,包括可映射性、插入和内部序列多态性,以及TE转录景观的多样性,以及解决这些问题的不同实验和计算策略。
TEs是一种可移动的遗传元件,构成真核染色体的很大比例,从占秀丽隐杆线虫(Caenorhabditis elegans)基因组的12%到占据玉米基因组的85%。基因组的大小在很大程度上反映了TE拷贝数量。TEs是插入诱变因子和基因组进化的主要驱动因素,作用于生殖细胞和特定的体细胞。它们对宿主适应和疾病的具有影响,如参与肿瘤或神经退行性疾病的发生已被广泛记录。
TEs根据其复制的分子机制属于不同的类别,逆转录转座子和DNA转座子之间存在主要区别(图1)。
图1 | TE类及其中间产物。TEs根据其动员机制和分子中间体,一般可分为两大类。第一大类包括通过RNA中间产物和逆转录步骤进行复制的逆转录元件,即所谓的copy-and-paste转座子。主要包括两个主要家族:第一家族包括内源性逆转录病毒(ERVs)和长末端重复序列(LTR)的逆转录转座子,如Gypsy和Copia元件(a部分)和第二家族被称为non-LTR逆转录转座子,如长分散元素(LINEs)和短分散元素(SINEs)(b部分)。ERVs和LTR逆转录转座子的逆转录发生在细胞质病毒样颗粒中,导致染色体外双链DNA(dsDNA)的形成,该DNA在整合到一个新的位点之前被导入细胞核。non-LTR逆转录转座子在切割基因组DNA后直接在目标位点启动逆转录,这一过程被称为“靶引物逆转录(target-primed reverse transcription)”。DNA转座子,即所谓的剪切粘贴cut-and-paste转座子,它们组成了第二大类(c部分)。它们的动员包括将转座子DNA从其原始位点切除,并重新整合到另一个位点。每一大类TE包含了自主元件和非自主元件。自主元件编码了它们自身动员所必需的酶,而非自主元件则通过劫持了自主元素编码的动员机制所需的酶。其他代表性较少或研究较少的家族也被描述过,如Helitron、Crypton和Maverick家族等(未显示)。动员机制的分子细节已经在其他地方被回顾过。
转录是逆转录转座子复制的第一步,逆转录转座子RNA可以作为逆转录转座子蛋白质翻译和逆转录的模板,这一过程导致形成一个新的DNA拷贝插入宿主基因组。尽管转录对DNA转座子也很重要——转座酶表达(即切除和重组步骤中所需的蛋白质)——但我们在这里重点关注逆转录元件,因为它们的特异性。虽然许多转录后机制可以抑制TE的动员,但转录是TEs增殖和诱变活性的先决条件。
许多TEs都是“分子化石”,是数百万年前发生的动员波的遗迹。这些古老的TEs随着宿主的积累了失活、突变和截断等演变,抑制了它们在现代基因组中的动员能力(图2a),但仍然可能具有转录活性,对宿主基因组有潜在的作用。
图2,整合后改变与TE共有序列。a|在没有积极选择的情况下,TE拷贝通过各种过程整合后逐渐分化,如替换(diamonds钻石形)、小片段序列的插入或者删除(small indels)、截断或大缺失、末端重复序列之间的重组(例如,在长末端重复(LTR)内部发生的重组,导致solo LTR)或其他TE的插入(绿色)。这些变化的程度取决于自整合完成后的时间
独立于它们的转座作用,TE的表达本身,即通过转录本或随后的TE复制中间体均可以参与基因表达和染色质可及性,激活细胞信号通路,如干扰素反应或RNA干扰反应,并触发老化或抗病毒活动。
除少数例外,沿TE单位的转录通常是由一个内部启动子驱动的,该启动子与元件本身同时被动员。这确保了新插入的TE具有自己的启动子,而不依赖于其插入位点附近的启动子。然而,由于TEs可以包含多个顺式作用序列(例如,正义和反义启动子、受体和供体剪接位点,或聚腺苷化信号),被分割并插入基因或在基因附近,它们的转录活性往往与基因的转录活性交织在一起。因此,自主TE单元的转录(autonomous TE unit transcription)很容易与嵌合转录本(chimeric transcripts)或插入给定TE的基因的表达混淆,这种情况被称为共转录(co-transcription),也被称为通读转录(readthrough transcription)。
综上所述,TEs是重复和分散的,具有多态性,可能与基因重叠,产生由TE或基因启动子启动的复杂转录本。
这些独特的特征阻碍了通过使用检测基因表达的标准方法来分析TE的表达,无论是基于杂交还是测序,如逆转录-定量PCR(RT–qPCRs)、northern blotting、microarrays或RNA测序(RNA-seq)。这些方法的错误应用可能会导致TE表达的高估或低估,从而导致关于TE再激活的错误结论,误解TE对宿主转录组的影响,或简单地忽略TE在整个研究的过程中的作用。然而,随着专用算法、多组学和测序技术的进步,改进了TE表达的定量与解释,为宿主-TE互作提供了新的见解。
在这里,我们首先概述阻碍TE表达研究的三个主要TE特征。然后,我们将介绍用于量化和解释TE表达的主要实验方法并强调最近的进展和如何克服TE的特殊性带来的主要挑战以及现有的局限性。最后,我们讨论新的算法和长reads测序技术带来的展望。
TE表达研究具有挑战性的特性
TE序列是重复的和分散的
在整合到基因组中时,一个新的TE拷贝与它的来源或祖先具有是相同的拷贝。然而,在没有阳性选择的情况下,TEs的内部序列通过随机突变和其他形式的改变进行整合后逐渐分化(图2)。为简单起见,通常将目前或最近活跃的家族被称为“年轻家族”,而那些具有共有序列的分化程度较高的家族被称为“老家族”(图2)。
图2b|通过比对包含替换(diamonds钻石形)的单个拷贝(红色和绿色),可以为每个TE家族建立共有序列。这些共有序列集中在诸如`Repbase`、`Dfam`或`RepetDB`等数据库中,虽然这些序列模型通常不存在于真实的基因组中,但它们可以被认为是具有共同祖先元件的粗略重建。
然而,年轻和年老的TE家族只是相对的相对概念并依赖于调查过程。例如,在致病插入(disease-causing insertions)被研究时,人类的“年轻”的长分散元素1(LINE-1或L1)家族可能指人特异性L1(
L1HS
)家族,但当研究灵长类动物进化时,也可能包含“老家族”如L1PA2到L1PA5,这些元件的整合均发生在大约在300和2000万年前。一个特定物种内活跃的家族数量以及这些家族内活跃的祖元件数量是高度可变的。在人类中,只有最年轻的TE亚型,Alu、L1和SVA元件(由SINEs、可变数量的串联重复序列variable number tandem repeats和Alu序列组成的逆转录转座子)仍然可以被积极地动员。然而,Alu和SVA是非编码序列,依赖于L1的活性,因为只有后者能够编码逆转录转座。据估计在人类基因组中存在的数十万个拷贝中,只有80-100个L1元素具有逆转录转座能力(无论是否表达),它们均属于L1HS家族。其中,只有20个可能负责大多数正在进行的L1活动。事实上,哺乳动物的逆转录转座子已经被少量主要拷贝(master copies)的连续逆转录转座子波放大,而这些主要拷贝(master copies)最终被突变失活或被表观遗传机制沉默。因此,可以发现内部特征性SNP可以区分TE家族,甚至是一个特定家族内的谱系。
在其他脊椎动物、昆虫和许多植物物种中,似乎具有比人类更多同时活跃的TE家族。例如,黑腹果蝇中大多数TE家族包括DNA转座子(例如,Pogo和P元件),长末端重复(LTR)逆转录转座子(例如,Copia和Gypsy)和non-LTR逆转录转座子(即LINE样元件,如TART和Jockey)都可能拥有活跃成员,独特拷贝的30%的被认为能够转座。然而在这些生物体中,如果蝇中,独特的TE家族通常并没有扩展到在哺乳动物中的拷贝数,可能是由于较短的代?(short generation time)时间和快速的基因组周转率。体内受精和体温也可能是解释这种差异的重要因素。
综上所述,“老”的TEs积累了突变,随着时间的推移而分化,并趋于具有独特性,而“年轻”的TEs彼此间几乎相同(图2)。在同一基因组中,与进化相关的逆转录转座子的“老”与“新”家族的同时存在增加了区分活跃家族和非活跃家族的难度。
TEs是多态性元件
一些TE家族的持续活动导致了插入多态性;也就是说,一个物种内或限定种群内,在给定基因座上可能存在或缺失TE。一些多态性甚至可以是单个个体私有的。已经开发了各种专门的湿实验室方法和生物信息学工具来识别易变元件的插入。例如在人类中,20%的遗传结构变异是由新的TE插入引起的。在仅考虑L1元件时,两个人类个体的基因组平均在285个位点上具有L1插入与否的差异。在小鼠中,L1和ERVs的联合活性,如intracisternal A particle(IAP)和早期转座子(ETn)/Mus musculus D型(MusD)家族,导致了比人类更多的TE插入多态性。
在动物或植物种,这种类型的变异的程度似乎是更大。例如,在开花植物拟南芥的自然种群中,TEs具有很强的活性,并且已经鉴定出涉及100多个不同TE家族的数千个TE插入多态性。低等位基因频率的多态性TEs往往是最活跃的元素之一,因为它们新近插入的,因此,很少或没有改变。它们的动员可能受到环境和遗传因素的影响,其中一些表现出参与积极选择特征,而另一些则有有害影响,并与疾病有关。因此,当人们分析TE表达时,不要排除多态性TEs是至关重要的。最后,除了这些插入多态性,给定TE位点的内部序列也可能包含各个体不同的SNP,并可以改变它们的逆转录转座潜力。
TE转录本多样性
TE转录本用作逆转录的模板
逆转录转座子转录是逆转录过程的起点。作为典型模板产生逆转录的RNA被称为“TE单位长度转录本TE unit-length transcripts”(也称为全长的full-length、适当的proper或基因组转录本)。转录始于LTR逆转录转座子和ERVs的LTRs中包含的内部RNA聚合酶II(Pol II)启动子,或在LINEs的5'非翻译区(UTR)中(图3a)。
图3a Origins of TE-derived transcripts
短分散元件(SINE)可以有内部的Pol III启动子(例如,Alu和MIR),也可以有Pol II启动子(SVA元件)。转录可以终止于识别位于含有LTR的逆转录因子的3’LTR(U3或R段)或 LINEs的3’UTR中的聚腺苷化信号。或者,终止也可以发生在下游的侧翼序列中。例如,Alu元件不包含Pol III终止信号,该信号由一个简单的(T)4通道组成,但一旦该基序到达侧翼序列,转录就会停止。类似地,L1元件具有较弱的多聚腺苷酸化信号,导致了相当比例的3’通读。这些3’-延伸的L1 RNA的比例有所不同,可能取决于元件的poly(dA)长度。这些延伸的RNA可以像单位长度的转录本一样有效地作为逆转录的模板,导致来自L1 3’侧翼的序列的逆转录转位到新的基因组位置(3’转导)。类似地,L1或SVA可以从其5’侧翼的启动子启动转录,在逆转录时导致5’转导。值得注意的是,“3’通读”指的是从L1启动子启动的转录本,但延伸超出了其多聚腺苷酸化信号,并结束于3’侧翼序列。这一过程不同于通读转录,是通读转录对应于基因启动子启动的TE序列的被动共转录passive co-transcription。然而,non-LTR逆转录转座子的R2转座子是这种情况的一个明显的例外。这些元件特异性地整合到核糖体DNA中,并与核糖体DNA单元共转录。然后,R2 RNA被一种自切割核酶切割,将其位于5’端从共转录本中分离出来。
短TE转录本异构体
除了全长逆转录转座子RNA,较短的TE转录异构体可以通过过早的聚腺苷化或剪接合成,可以由细胞调控机制产生,如PIWI-interacting RNA-guided选择性剪接。短TE转录异构体可能编码具有显著生物活性的蛋白质。例如,人类L1可以剪接成只包含ORF2p的亚基因组RNA,ORF2p是一种具有内切酶和逆转录酶活性的蛋白质。该蛋白本身不能支持L1逆转录转座,L1也需要全长转录本表达ORF1p,但它可以反式动员Alu或SVA元件,并触发DNA损伤。类似地,酿酒酵母Saccharomyces cerevisiae中Ty1逆转录转座子的内部转录本编码Gag的显性阴性形式,Gag是病毒样颗粒的主要成分,这限制了其逆转录转座能力。逆转录转座子也经常包含反义启动子,尽管它们可能不是逆转录转座子单元转录的主要决定因素。
TE内部启动子完整性
逆转录转座子的自主转录能力取决于其启动子的存在和完整性。然而,由于插入时受到的整合处理和DNA修复机制可能的干预,经常出现LINE逆转录转座子5’片段被截断(图3a)。L1启动子的活性也可以通过在逆转录前的5’UTR内剪接L1 RNA而丧失。例如,在人类基因组中存在的50万个L1元件中,只有5000个是全长的,因此包含了这些元件典型的内部5’-UTR启动子。相反,LTR逆转录转座子经常在其两个LTRs之间发生异位同源重组(图2a,3a),导致编码区完全消除,但留下一个完整的单独LTR及其所有原始的顺式调节序列。
嵌合体TE RNA和普遍转录
基因的转录单元与TEs间的相互作用使逆转录转座子转录景观变得更加复杂,如一个TE片段或全部被合并到成熟mRNA中导致嵌合转录(图3)。Solo LTRs以及反义L1启动子通常驱动长链非编码RNA(lncRNAs)的合成。它们也可以作为细胞基因的替代启动子,导致嵌合转录本(图3b),通常与剪接事件一起发生。另外,TEs或TE片段可以通过与它们插入的细胞基因共转录而被整合到剪接的mRNA中。这种情况可能发生在当TEs插入外显子(通常对应于3’UTR),或当TEs插入内含子,但其序列的一个片段被剪接化时(图3b)。这种情况远非偶然,因为超过三分之一的人类蛋白质编码转录本包含一个TE起源的外显子(主要在它们的UTRs中),以及四分之三的人类lncRNAs。因此,TE表达水平的明显变化可能只是反映了这个特定TE家族成员被插入的基因表达的变化。
图3b|TE(黄色和绿色)和基因(灰色)转录单元之间可能的嵌合转录本。虚线表示剪接的内含子序列。
鉴于真核生物基因组中TEs的富集,特别是在基因间区域和内含子中,普遍转录(pervasive transcription)和前mRNAs可以代表所有含TE-RNA的很大一部分,尽管每个位点对整个转录组的贡献很小(图3b)。例如在人类中,超过99%的L1衍生RNA来自共转录或普遍转录,并不反映来自L1单位转录本的转录。普遍转录的生物学意义尚不清楚,但其部分参与了lncRNAs和增强子相关RNA的产生。
双链TE RNA
TE-转录本的大量多样性可以通过正义和反义转录本之间的互补性导致双链RNA(dsRNAs)的形成(图3)。这些可以通过收敛和重叠的转录或通过来自共享同源TE序列的不同位点的转录本的退火而产生。在多种生物体中,dsRNA的合成可以触发RNA干扰和TEs的沉默。TE衍生的dsRNA转录本也可以通过基因内或基因间的TEs启动的反义RNA与基因转录本的退火形成,诱导基因表达抑制或相关TE的沉默。含相反方向的TEs的不同细胞转录本也可以通过Staufen介导的RNA衰减相互调节。类似地,DNA去甲基化制剂,如用于癌症化疗的药物,可诱导TE衍生的dsRNAs的表达,从而激活抗病毒防御和干扰素应答途径。
总之,TE的转录景观并不局限于用于逆转录转座的单位长度TE转录本,还包括来自TE启动子活性或被动共转录的一些嵌合或普遍转录本。总的来说,这些RNA可以独立于TE的动员而显著影响细胞生理。
TE表达的测量方法
现在已有许多分子和计算工具可以用来评估TE的表达,但这些策略必须以明确定义潜在的生物学问题和假设为指导。经常被研究的TE生物学各个方面,包括具有动员能力的TE是否表达,这可能导致新的插入;TEs是否对基因功能具有影响;TEs是否合成了生物活性分子(即dsRNAs、小RNA(sRNAs)或TE蛋白)。在下一节中,我们将描述可用于测量和理解TEs表达的传统和全基因组方法,并解释它们如何帮助研究其生物学的特定方面。
传统方法
尽管测序技术的使用呈指数级增长,但传统的分子生物学方法仍然被广泛用于研究TEs,其中一些方法提供了全基因组方法无法获得的独特信息。
TE衍生的转录本检测
RT-qPCR常用于测量TEs的转录水平,但有几个主要的局限性。首先,由于进行PCR起始物质通常是总RNA,包括pre-mRNA,因此自主转录和被动转录常被混淆(Box 1)。其次,通常很难设计出真正针对特定TE家族的探针和引物。第三,扩增片段的序列是未知的,可能来自带有突变或截断的缺陷拷贝,或来自非单位长度的转录本(non-unit-length transcripts)。相反,northern blotting可能揭示TE衍生转录本的大小分布和全长TE转录本的潜在存在,尽管相关家族之间的探针交叉杂交是可能的。最后,报告基因敲入可以用来测量单个TE位点的自主转录,并可以并行化。这种方法已被用于检测实验室S. cerevisiae菌株中存在的每个Ty1逆转录转座子的转录活性,但难以推广。
Box 1 | 技术注意事项 |
---|
包含TE的转录本的结构和起源是多样的,反映了广泛的生物过程。这些基因有时很难被区分,因此,TE的表达水平或它们的变异可能会被误解。 对于基于RNA测序和杂交的实验,链特异性分析对于可靠地推断转录本的结构及其起源至关重要。同样,试验初始使用的RNA材料的性质也会强烈地影响可以得出的结论。通过RT-qPCR测定RNA总量一种实验方法,但获取的信息不足,因为该方法不能区分地单位长度转录本、潜在的嵌合转录本、内含子和外显子共转录本以及普遍转录的转录形式。相比之下,从整个细胞或细胞质RNA中分离poly(A)阳性RNA可以能够富集成熟的mRNA,并减少内含子TEs或普遍转录对观察到的信号的贡献。另外,使用核糖体RNA耗尽的RNA可以揭示具有重要调控作用的非多聚腺苷化长链非编码RNA,而如果仅对poly(A)阳性RNA被测序,则不能得到相应的结果。因此,试验初始使用的RNA材料的选择应该直接由所提出的生物学问题来进行指导。 在测量TE RNA水平时,另一个被低估的缺陷是基因组DNA污染。少量的污染DNA不会对基因表达的测量产生很大的影响,由于TE拷贝数高,会显著影响TE的表达结果。此外,这种污染通常是不可重复的,不同样品间的差异可能很大。这可以很容易通过在RT-qPCR实验中通过包含no-RT对照样本来进行验证。对于RNA测序,检查内含子-外显子或基因间-基因内信号比值的一致性可以帮助识别质量较差的样本。由DNA污染造成的偏差并不限于总RNA或核糖体RNA耗尽的RNA。事实上,使用oligo(dT)进行pull down poly(A)阳性RNA时,可能会pull down具有长poly(dA)束的DNA片段,如许多非长末端重复逆转录元件的3’端,如L1、Alu或SVA元件。为了减少这个问题,我们建议进行连续进行两轮的RNA纯化(用酸苯酚-硫氰酸胍或硅基柱),然后进行DNase消化。 |
TE蛋白的检测
内部TE的突变阻止了功能性TE蛋白的翻译以及通过细胞因子的转录后调控限制了TE转录下游的逆转录转座。关于这个问题,免疫印迹和免疫荧光实验是一种互补的方法,可以帮助评估动员机制本身的表达。然而,基于蛋白质的方法受限于可用试剂的特异性、敏感性、可验证性,抗体在TEs家族间潜在的交叉反应以及频繁检测需要消耗大量的试剂量。类似地,通过电子显微镜也可用于对复合物(例如,核糖核蛋白粒子ribonucleoprotein particle或病毒样粒子virus-like particles)进行纯化或直接可视化,是检测组装的复制中间体的直接手段。
总之,这些技术中的一些对于测量选定家族的整体表达是有用的,并可能提供独特的见解(例如,TE编码能力长度和潜在的组装复合物),但无法获得无偏倚的全基因组的TEs表达视图。
TE表达的全基因组分析
尽管已经尝试使用通用或专门的微阵列测序,但它们在分析TE转录中还尚未被广泛采用,可能是由于设计短的、特异性探针较为困难。微阵列测序现在很大程度上被深度测序技术所取代。然而,短读长测序的限制和早期详细介绍的TEs的具体特征意味着TE转录不能像基因转录那样进行分析。因此,TE专用的计算方法和工具的数量正在迅速增加(表1),并且选择其中一种可能具有挑战性。大多数全基因组方法使用RNA-seq数据,但它们主要的不同之处在于其定位策略(使用唯一和多重比对的reads)和其分辨率(家族或位点特异性水平);考虑TE多态性的策略;从共转录和普遍转录中鉴定自主转录的能力;发现和/或量化嵌合转录本的能力;以及对其他TE衍生转录本,如dsRNA和sRNAs的分析。
Table 1 | Computational tools and approaches to analyse TE unit expression from RNA-seq data |
---|
Tools or approaches | Mapping or pseudo-mapping to | Fate of multimappers | Type of quantification | Distinguishes unit-length transcripts from other TE-derived transcripts | Includes polymorphic TE expression | Notes | Ref. |
---|---|---|---|---|---|---|---|
TEtools | TE pseudogenome | Randomly assigned | F | − | − | Applicable to unassembled genomes | 136 |
SalmonTE | Consensus transcriptome | EM algorithm | F | − | − | Fast pseudomapping | 152 |
REdiscoverTE | Model transcriptome | EM algorithm | F | + | − | Uses SalmonTE algorithm | 153 |
TEtranscripts | Reference genome | EM algorithm | F | − | − | One of the most used tools, tested on a wide variety of organisms | 148 |
RepEnrich | Reference genome | Remapped on TE pseudogenome | F | − | − | – | 144 |
TeXP | Reference genome | Randomly assigned | F | +/− | − | Subtracts signal from pervasive transcription but not from other forms of chimeric transcripts | 100 |
ERVmap | Reference genome | Discarded | L | − | − | Uses a curated full-length human ERV database | 157 |
Random assignment of multimappers | Reference genome | Randomly assigned | L | − | − | Locus-specific transcription not reliable on youngest TEs | 134 |
TEcandidates | Reference genome | Remapped on partially masked reference genome | L | − | − | – | 146 |
SQuIRE | Reference genome | EM algorithm | L | − | +/− | Polymorphic insertion can be added as extra chromosome if internal sequence known | 145 |
Manual curation | Reference genome | Discarded | L | + | − | Difficult to generalize | 99 |
Telescope | Reference genome | EM algorithm | L | + | − | – | 149 |
L1EM | Reference genome and model transcriptome | EM algorithm | L | + | − | Proof of principle on human L1 elements, could be generalized | 65 |
Multi-omics 1 | Reference genome | NA | L | + | + | Combines targeted DNA sequencing, RNA-seq and ChIP–seq | 154 |
Multi-omics 2 | Reference genome | NA | L | + | + | Combines whole-genome sequencing and RNA-seq | 33 |
ChIP-seq,染色质免疫沉淀后测序;EM,期望最大化;ERV;内源性逆转录病毒;F,家族特异性;L,位点特异性;L1,长分散元件1;NA,不适用;RNA-seq,RNA测序;TE,转座因子。
待解决关于TE表达的挑战
可映射性Mappability
TEs是高度重复的序列,而且进化相关的TE家族也通常存在于同一基因组中,这导致来源于TEs的短序列reads在基因组的不同位置进行很好地定位(图4a)。这些reads被称为“多映射者multimappers”,因此它们的来源位置不能被明确地定义。同样,引物或探针也可以交叉杂交到多个拷贝或相关家族。当人们在研究TE转录组时,一个规避可映射性(Box 2)问题的简单策略是将reads与参考基因组进行映射,并只保留唯一的reads,然后聚合每个家族的计数。只保留唯一的映射reads,被称为“单映射者unimappers”,可以为老TE家族的表达提供令人满意的评估。然而这种方法应该被避免,因为它往往会大大低估甚至消除与年轻TE家庭相关的信号;也就是那些仍然有动员能力的家族(图4a)。
图4|模糊映射的起源 a|可映射性Mappability。与较年轻的元素(绿色矩形)相比,旧的插入(红色矩形)积累了有区别的SNPs(菱形)。因此,年轻TE衍生的reads倾向于在基因组的多个位置(浅灰色条,多映射)进行映射,它们的真正起源位点无法确定。相比之下,更多的唯一映射(填充条)可以明确地映射到较老的元件上,促进其表达的量化,而多映射者是随机分配的。
因此,信号结果更接近地反映元件的可映射性(Box 2),而不是它的转录水平。可以通过增加读长和使用paired-end建库方法进行一定程度的减轻这种影响。50 bp的短reads具有与68%的注释人类TEs的唯一映射,但100 bp长reads则具有88%的唯一映射。然而,即使2 ×100 bp的paired-end文库,也只有不到一半来自最年轻的人类L1家族L1HS或小鼠基因组中25个最年轻的TE家族的reads能够被唯一地定位。因此,multimapping reads对于新近或目前活跃的TE家族的定量来说仍是一个需要面对的挑战,但对于老家族来说稍好,至少在常用的短reads测序技术和实验条件下是这样情况。
Box 2 | 可映射性、对齐性和唯一性 |
---|
可映射性Mappability可以通过两个不同的指标来估计:对齐性alignability和唯一性uniqueness。对齐性是由在特定位置序列与在基因组的其他位置对齐的频率来定义的。一般来说,在一定程度上可以容忍不匹配(例如,两个不匹配),以解释测序误差或SNP。简单地说,可以通过1)生成具有定义长度的虚拟reads,(2)将这些虚拟reads映射回参考基因组,同时允许一些不匹配,以及3)计算这些reads映射的位置数量。例如,如果生成的reads在一个基因组位点中有5个不同的匹配,它的对齐性将为1/5 = 0.2。唯一性是相似的,但不能容忍不匹配,并且对于超过4个以上的备选位置,其分数被设置为0,如在上面的例子中。 低复杂度区域和重复序列,如TEs表现出较低的可映射性。显然,reads长度强烈地影响了基因组的可映射部分。此外,TE家族/插入的可映射性与其年龄相关。年轻元件显示出较低的可映射性得分,这可能会显著影响TE测序研究,造成结果极大的偏倚。因此,估计它们的可映射性有助于评估哪些TE家族或位点可以在位点特异性水平上可信的定量结果,而不是在聚集家族水平。类似地,低可映射性区域也容易人工映射,即使人们只考虑由于遗传变异或测序错误而导致的单可映射者。从人类和小鼠基因组的不同reads长度计算出的可映射性得分,包括他们的TEs,可以从UCSC基因组浏览器网站上获得。 |
相比之下,将reads与共有序列库进行映射,如Repbase
,将直接得到按家族聚合的TE计数,并可能对最年轻的元件表达评估十分重要。然而,这会造成“老”元件的映射效率的降低,因为“老”元件与一致序列异质性更高,因此必须放宽比对设置的从而容忍更多的不匹配(图4)。这样做的后果是:non-TE 来源的reads或相关TE reads的映射将强制进行共有序列映射计数,导致高估该家族的reads计数。TEtools
对采用上述策略进行了更深层的探索,它将整个基因组替代共有序列的重复序列。虽然这种方法解决了TE年龄映射的偏差,但它由于通过强制non-derived片段映射到TE序列,会造成部分TE计数的高估。这些以TE为中心的参考方法缺少区分共转录和TE单位转录的能力,从而导致年轻和年老元件的TE家族转录水平的高估。其他缺陷包括:家族间歧义仍然发生,表达的位点数量未知,大多数reads仍然未映射,使归一化和样本-样本间的比较变得复杂。然而,当研究没有参考基因组或转录组的物种时,它们可能是首次获得TE转录组的唯一选择。
为了在对参考基因组而不是一致序列进行映射时提供了一个更好的TE转录图像,许多策略利用了通用的映射软件,如Bowtie2
、BWA
、TopHat
或STAR
等,它们需要首先区分唯一映射reads和多映射reads。然后,这些策略对多映射reads的处理方式会有所不同。例如,RepEnrich
将多映射reads在一个包含感兴趣基因组上的所有注释和相关重复的假基因组上进行重新比对,获取一个与匹配该read的家族数量成反比的分数值,通过对基因组位置得分最高的位点随机分配多映射reads的策略,RepEnrich
似乎低估了年轻元件的表达水平(图5a)。
图5|最近从RNA-seq数据中测量TE表达的策略 a|对参考基因组定位。处理多映射者(浅灰色条)的策略不同:(顶部)在最佳匹配的TE拷贝(用绿色和红色矩形表示)之间随机分配多映射者,然后通过TE家族的reads计数聚合(例如,见134);(底部)应用EM算法重复统计重新分配多映射者,随后也可以家族水平的reads计数聚合(例如,TEtranscripts),也可以提供位点特异性的读计数(例如,SQuIRE)
这种偏差也可能是由
RepEnrich
推荐的底层映射软件Bowtie 1
造成的,因为它不能将不一致的reads或具有小的插入和删除(indels)的reads与参考基因组对齐,并且只输出所有可能的多映射reads位置的有限部分。相比之下,TEcandidates
首先进行从头转录组组装以识别潜在的TE表达位点,然后屏蔽参考基因组中未表达的位点,最后将多映射reads在被屏蔽的基因组上进行重新比对,以减少映射模糊性。然而,TEcandidates
组装TE转录组的正确性以及其在年轻TE中识别表达位点的能力尚未得到评估。另一组策略包括根据通过统计学方法对唯一映射reads的量进行评估,然后重新分配多映射reads(图5a)。期望最大化(expectation–maximization,EM)算法此类策略的通用算法,反复通过使用唯一映射和多映射的reads数的重新分配直到实现收敛。最初,
RSEM
开发了该算法并用于识别中的特异型异构转录(isoform-specific transcription),随后该算法被纳入TEtranscripts
和多个其他软件程序,用于TE转录组分析(表1)。基于EM的算法有提供对TE转录本的结构和来源信息的潜能(下文将进行讨论)。TEtranscripts
的定量仅限于家族水平,但新近开发的工具如SQuIRE
或Telescope
可提供位点特异性的TE的估计,尽管对最年轻的TE亚家族的置信度有所降低。如Kallisto
或Salmon
可实现在模型转录组上的伪比对(Pseudoalignment),作为基因组比对更快的一种替代方法(图5b)。图5|最近从RNA-seq数据中测量TE表达的策略 b|在转录组模型上的伪映射。转录组模型中包含了来自每个TE位点的潜在转录本。这里所示的简化模型中,一个家族由两个TE位点(红色矩形)表示: 1)一个具有鉴别SNP的基因间拷贝(橙色菱形,左),2)一个内含子插入(右)(灰色)。左边的TE只有一个潜在的单位长度的转录本(“仅为TE”),而右边的位点可以表达为三个可替代的转录本(仅为TE,“基因+TE”,或“仅为基因”)。从这个转录组模型中,通过创建转录组de Bruijn图建立一个索引,其中每个节点(虚点椭圆)对应k-mers(长度为k个核苷酸的短序列),提供转录的特定亚型的信息。通过Kallisto或Salmon从RNA测序(RNA-seq)中提取k-mers进行伪比对,测试它们对每个节点的兼容性,并在转录组de Bruijn图中找到“路径覆盖”(这里只覆盖“基因+TE”)。然后使用EM算法反复重新分配模糊的k-mers,并根据亚定位(内含子、外显子和基因间)在家族水平上(例如,redisverTE153)量化reads。
简而言之,伪比对是测试reads k-mers与从一个转录组中提取的所有可能路径k-mers的兼容性的
de Bruijn 图
。SalmonTE
和REdiscoverTE
均通过这种方法进行TE转录的定量。然而,SalmonTE
转录组模型基于Repbase
的共有序列,而REdiscoverTE
使用的是从参考基因组中提取的注释TE序列,并为共转录鉴别引入了替代转录模型(下文讨论)。综上所述,随机分配多映射reads或使用基于EM的软件均可在家族水平上提供共有序列的TE表达分析。然而,确定准确的表达位点仍然是模糊的,特别是在针对最年轻的TE家族。
TE序列和插入多态性
在实践中,RNA-seq数据的分析总是首先将reads映射到参考基因组或转录组,映射既不包含插入多态性也不含内部序列多态性。对于最年轻的TE家族,即使是被唯一映射reads也可能是模糊的,因为它们可能来源于参考基因组中未被体现出的表达位点(图4b)。相反,它们会被映射到源元件(如果它本身包含在参考基因组中)或映射到一个密切相关的元件。
图4|模糊映射的起源 b|插入多态性。一个TE存在于被研究样本的基因组中(顶部,左,纯矩形),但在参考基因组中缺失(左,底部,虚线矩形)。然而,由于reads被映射到参考基因组,尽管它们是唯一映射reads,它们也会被错误地分配给一个具有参考基因组的TE家族。
此外,密切相关序列的识别依赖于每个TE位点的一些内部和诊断性 SNP。个体间的序列多态性以及测序错误,增加了额外的变异水平,增加了唯一映射reads的映射模糊性(图4c)。
图4|模糊映射的起源 c|内部序列多态性和测序错误。在图中的参考基因组(底部)中,每个拷贝都有一个有区别的SNP(圆圈和菱形)。然而,在所研究的基因组中(上),右边的位点也具有菱形SNP。此外,测序错误导致圆状SNP并入来自最右侧位点的部分reads中。这种情况导致reads错误地映射到左右位点,而不是表达的中间位点。因为多映射者Multimappers是随机分配的。
虽然上面描述的方法都没有考虑到这些不同形式的多态性,但相关研究已经为人类L1元件尝试了几种复杂的解决方案。Philippe等人首先通过targeted DNA测序(ATLAS测序)绘制了感兴趣的样本中的全长L1HS,然后通过标记结合活性组蛋白来识别表达的TE拷贝,即组蛋白3赖氨酸4氨基化三甲基化(histone 3 lysine 4 trimethylation,H3K4me3)染色质免疫沉淀测序(ChIP-seq)信号,就在这些元件的上游和3’通读转录的下游。在这种方法中,TE序列内部的多映射reads被完全忽略。目前尚不清楚是否所有的L1HS位点都具有产生3’通读转录的潜能,这可能代表了该方法的一个局限性。事实上,一些L1HS位点可以通过
L1EM
程序来识别,这是一个基于EM算法的专注于L1的软件程序,但在没有侧翼序列通读转录。然而,也有可能这些reads实际上来自于L1EM
索引中没有表示的相关非引用插入,因此是错误的。随着越来越多的多态性TE目录的出现,最初的TE分析步骤可能可以在将来被避免。另一种替代策略已被开发,用以识别和测量结肠癌中驱动突变的多态性L1HS元件的表达。这种方法首先通过全基因组短读长测序来定位患者基因组中的所有L1HS元件。接下来,通过结合长链PCR和Sanger或长reads(PacBio)测序,对全部非参考全长元件进行完全测序,从而推断每个6 kb位点的诊断性SNPs的独特特征。最后,跨越这些内部多态性的RNA-seq 得到的reads来估计每个位点的相对表达量。
值得注意的是,诊断一个TE家族而不是一个位点的SNP的覆盖率也可以用于估计相对家族水平的表达 。总之,获得非参考TE拷贝的位点特异性表达仍然是一个困难和工作密集型的目标,迄今为止只能通过多组学方法来实现(表1)。
共转录和普遍转录
当研究逆转录转座或其转录调控时,区分自主TE单位长度转录与基因的被动共转录,包括内含子保留,或从普遍的基因间转录并不是一项简单的任务。事实上,绝大多数TE衍生的RNA-seq序列来源于共转录或普遍转录。最近的努力已经解决了这个问题。ERVmap
使用了一个专用全长ERV元件的数据库,并通过设置严格的标准来过滤ERVs中的模糊reads和低可映射性区域。因此,该方法为每个注释的全长ERV提供了计数定量,并部分整合了该元件的编码能力,但不能区分自主转录和普遍转录。相比之下,TeXP
应用了一种基于来自模拟普遍和自主转录的可映射性特征的校正来估计家族水平的表达。其他的纠正方法包括对TE转录本进行修改,将内含子TE的reads与其周围内含子的覆盖率成比例减少,或丢弃与TE转录本和已知编码或非编码转录本重叠的reads。RedissverTE
明确地模拟了Salmon
伪比对的索引转录组中的自主和共转录本。最后,L1EM
包括每个位点的自主正义和反义转录、被动共转录和3’通读模型,可以提供位点特异性表达值(图5c),尽管可以推广,但它当前仅关注L1元件。手动管理的数据集,如已发布为人类L1元件,将有助于对最近开发的软件程序进一步比较和基准测试。
图5|最近从RNA-seq数据中测量TE表达的策略 c|在参考基因组和模型转录组上的混合定位。为所有全长元件(橙色的被动,黄色的3’通读,蓝色的自主,红色的反义转录)建立的代表每个转录位点上的不同的潜在转录本亚型的转录组模型。只有普遍转录pervasive transcription被包括在截断元件中。一个诊断性SNP显示在全长元件中(橙色钻石)。Reads首先与参考基因组对齐,然后分配到TE位点,包括多映射,被映射到模型转录组上,并用EM算法重新分配。对每个TE位点和每个相关的转录本亚型(例如,L1EM)
通过使用
基因表达帽分析
(cap analysis of gene expression,CAGE)或RAMPAGE或整合染色质修饰4来识别活化启动子,也可以帮助区分自主TE转录和被动TE转录。另外,5’或3’ cDNA末端快速扩增(RACE)结合Sanger或高通量测序可以确定或确认含TE的RNA分子的范围,并提供其起源位点的信息。然而,RACE实验并不是定量的。
嵌合转录本
基因附近或基因内的TEs可以提供替代的启动子或多聚腺苷酸化信号,以及可变剪接的受体和供体位点,这可以极大地改变宿主的基因表达模式。嵌合转录本指由包含TE片段的成熟转录本定义(图3b)。这些可变转录本的检测,很少包含在常规的基因模型数据集中,如Refseq
或GENCODE
,最初依赖于表达序列标签数据库对一致重复序列库的计算筛选。最近,CLIFinder
和LIONS
等工具结合了RNA-seq paired-end文库中的分裂reads和不一致reads pair,系统地识别肿瘤-扩展onco-exaptation事件,其中TE提供了一个细胞基因的替代启动子,导致形成一种新的致癌基因或肿瘤抑制基因亚型。TopHat-Fusion
检测跨越基因和TE连接的读取来识别嵌合转录本,可以用于single和paired-end端文库,但single文库的假阳性数量更高。此外,从头转录组组装可以成功识别嵌合转录本,如那些导致致癌基因或癌症特异性抗原表达的转录本。诸如CAGE
或RAMPAGE
等技术也允许检测可能的lncRNAs。最后,不同的策略已经被开发,将表达TEs与附近基因表达的修饰联系起来。例如,NearTrans
将差异表达的TEs与差异表达的基因联系起来,而TEffectR
是一个基于线性回归模型的R包,旨在在统计上将TE转录与附近基因的表达联系起来。
TE衍生的dsRNA和sRNA
TE衍生的dsRNA可以导致基因或TE沉默或干扰素反应的激活。因此,量化跨基因或TEs的普遍转录有时正是人们正在寻求的东西,并且可以根据计算在定向RNA-seq数据中感兴趣的特征上的正义和反义RNA之间的比率来实现。更具体的方法已经被开发出来,如dsRNA-seq
,通过单链RNA的消化来富集dsRNA,然后用针对dsRNA的不依赖序列抗体对dsRNA进行免疫沉淀后测序。这种方法最初是用来识别病毒的dsRNA的。候选的dsRNA产生位点可以通过RT-qPCR对轻度RNase A消化进行检测,因为dsRNA比单链RNA更具抗性。利用该方法确认在去甲基化剂处理癌细胞时诱导的ERV dsRNA的存在。
与TE衍生的dsRNAs类似,sRNAs,包括microRNAs(miRNAs)、短干扰RNAs(siRNAs)和PIWI相互作用RNAs(piRNAs),在调节TEs中发挥着核心作用。sRNA-seq分析和mRNA-seq分析都有一些共同的挑战,如映射歧义或定量。然而,在重复序列的背景下的sRNA-seq分析有其他的特异性,在其他地方详细介绍了。
未来方向
我们预计,最近发展的实验或计算方法可能会很快将地极大促进TE表达的研究。基于图形的映射已经成为一种新的策略,将群体中发现的遗传变异(SNPs、indels和结构变异)纳入扩展的基因组模型或泛基因组中,而不是基于一致性或个体的参考基因组。虽然尚未应用于TEs或RNA-seq,但这种方法可以揭示多态性TEs的表达,并减少由于它们在传统参考基因组中缺失而导致的定位错误。
到目前为止,质谱方法研究TE表达的应用还很少,但最近的结果显示似乎很有研究前景。例如,通过使用一种名为“由转录组学提供信息的蛋白质组学proteomics informed by transcriptomics”的策略,该策略将从头RNA-seq组装与蛋白质组学数据相结合,在注释不佳的蚊子(埃及伊蚊Aedes aegypti)基因组中发现了活跃的TE序列。这种蛋白质组学方法很有可能识别来自TEs的生物活性蛋白,并在特定条件或样本中提供转座活性的概览。类似地,质谱方法和质谱数据库的挖掘已经允许验证肿瘤或灵长类胚胎干细胞中预测的嵌合TE衍生肽,并确认人类癌症中L1的表达。
单细胞RNA-seq实验为评估人群细胞中TE的转录异质性提供了可能性,特别是在癌症组织或大脑中,这可能为TE激活的机制提供新的见解。然而,在上述关于传统RNA测序出现的问题仍然有效,甚至更为严重。例如,当人们使用单细胞RNA-seq分析神经元时,对核分离的要求会导致大量的内含子reads,并可能掩盖TE的自主转录。
TE表达的研究无疑也将受益于长reads单分子测序技术,如PacBio
或Oxford Nanopore
。全长RNA-seq可以显著减少模糊映射reads的比例,至少在理论上是这样,并可以提供位点特异性的表达水平。这种策略有可能揭示表达转录本的天性,包括共转录本或嵌合转录本。在拥有已知最大基因组之一(6.5 Gb)的移行性蝗虫Locusta migratoria身上首次得到了原理证明。全长cDNA Nanopore
测序显示,该生物体中有很高比例的外显子化TEs。对人类细胞系中来自L1元件的相当长的5‘-RACE产物进行批量PacBio
测序也有助于识别产生L1全长单位转录本的位点。将全基因组DNA测序和从头组装与全长RNA-seq结合,有助于在TE转录组学研究中考虑序列和插入多态性。事实上,长reads测序可以显著提高TEs多态性的检测性能,特别是在基因组的低复杂度或重复区域。此外,直接单分子测序可以识别与TEs的表观遗传调控相关的DNA修饰。目前长reads测序的承诺的错误率限制可能远远超过TE位点之间的序列差异的阻碍。因此,必须应用纠错方法,如通过rolling-circle amplification、 tandem sequencing of both strands,或tagging with unique molecular identifiers,这些技术才能成功地用于研究TE表达。
结论
TE转录的研究面临三个主要困难:可映射性、多态性和转录本特征性(类型)(图6)。
图6|与TE转录研究相关的挑战 TE转录研究面临三个主要困难:可定位性(a部分)、多态性(b部分)和转录本类型(c部分)。a|最近插入的TEs在单个拷贝间或近家族内表现出较低的序列差异。因此,TE衍生的reads可以对齐到多个基因组位置。b|一些TE家族的持续动员导致了整合位点的高度多样性,并在群体中产生了TE插入多态性,而且可能不包括在参考基因组中。从这种多态性TE插入中获得的Reads被错误地映射到参考基因组中最近的相关位点,高估了后者的表达。在一个给定的TE位点上的内部序列多态性和个体之间的变异是另一个模糊映射的来源(未显示)。c|TE单位长度转录本的自主转录(左)很容易与嵌合转录本或插入给定TE的基因的表达混淆(右),从而影响实验解释。
显然,在研究TEs时,其他测序方法也会遇到这些困难,甚至更明显。例如,在bisulfite测序去描绘胞嘧啶甲基化实验中,化学处理导致reads的序列复杂性降低,而且众所周知难以映射到TEs。近年来,测序和计算方法取得了令人兴奋的进展,这些方法专门用来解决其中一个或几个挑战。这些进展促进了对TE表达的研究,揭示了一个关于调控过程的全新世界。然而,这里描述的任何工具或方法都不能单独带来全面的解决方案。最终,所调查的问题应该指导实验设计和后续的分析。表1突出显示了不同策略的关键特性和局限性。整合互补的方法或策略,总是根据正在研究的TE生物学的具体方面,仍然是目前评估和解释TE表达的最佳策略。