真核生物和原核生物RNA的转录合成遵循共同的规律,分为起始、延伸、终止和后加工四个阶段。其中延伸阶段基本相同,起始、终止和后加工差别明显。真核生物各种RNA合成的起始、延伸、终止阶段是一致的,区别主要在转录后加工和转录调控。此外,真核生物不同的RNA由不同的RNA聚合酶催化合成。真核生物转录复合物及其转录调控要比原核生物复杂得多。
与原核基因相比,真核基因启动子结构复杂,RNA聚合酶需要通用转录因子的协助才能识别并结合于启动子,启动转录。
1.启动子 真核基因的启动子可分为Ⅰ、Ⅱ、Ⅲ三类,三种RNA聚合酶各识别其中一类。RNA聚合酶Ⅱ识别的Ⅱ类启动子(~100bp)种类最多,序列差异最大,以蛋白基因的启动子为主。 Ⅱ类启动子 结构特征尚未完全阐明,已从其序列中鉴定到两类启动子元件:① 核心启动子 (core promoter):40~60nt,有方向性,位于-45~+20区,包括TATA盒、起始子、下游启动子元件等,功能是确定转录起始位点。② 上游元件 (upstream element):又称上游启动子元件,无方向性,包括GC盒、CAAT盒等,功能是控制转录启动效率(图3-9)。
图3-9 真核基因Ⅱ类启动子元件
(1) 起始子 (initiator,Inr):即解链起点,是含转录起始位点的一段保守序列,位于-2~+5区,哺乳动物共有序列是YY A +1 NWYY(W=T+A),其中 A +1 是转录起始位点。pre-mRNA的5'末端碱基通常是嘌呤,特别是腺嘌呤。起始子是通用转录因子TFⅡD特定TAF亚基的识别结合位点。
(2) TATA盒 (TATA box):又称Hogness盒,中心一般位于-25~-31区(酵母TATA盒位于-90区),共有序列是TATAAAA,是转录因子TBP(TATA结合蛋白)的识别结合位点、前起始复合物形成位点,作用是确定转录起始位点。TATA盒富含A-T碱基对,容易解链,有利于RNA聚合酶Ⅱ与启动子结合并启动转录,是RNA聚合酶Ⅱ稳定结合的序列。TATA盒在Ⅱ类启动子中出现率较高,常与起始子共存。
(3) 下游启动子元件 (downstream promoter element,DPE):共有序列是RGWCGTG,中心位于+25~+32区,是转录因子TFⅡD的TAF6、TAF9亚基的识别结合位点。含起始子而不含TATA盒的基因多含下游启动子元件。
(4) CAAT盒 (CAAT box):又称CAT盒,分布较散,多位于-70~-90区,是转录因子NF-Y(Nuclear transcription factor Y,异三聚体)的结合位点,作用是控制转录启动效率。
(5) GC盒 (GC box):哺乳动物不含TATA盒的启动子内的一段保守序列,多位于-90区。GC盒长度为20~50bp,包含两段共有序列:GGGCGG和CCGCCC。它们互为反向重复序列,是转录因子Sp1(specificity protein 1)的结合位点,作用是控制转录启动效率。
不过,并非所有的Ⅱ类启动子都含上述启动子元件。对几千种蛋白基因启动子分析表明,30%只含起始子,30%含起始子和TATA盒,25%含起始子和DPE,15%含起始子、TATA盒和DPE。例如,猿猴空泡病毒40(SV40)的早期启动子含六个GC盒,不含TATA盒、CAAT盒;组蛋白H2B的启动子含一个TATA盒和两个CAAT盒。
2.转录因子 是参与RNA转录合成的一类蛋白因子。真核生物的三种RNA聚合酶Ⅰ、Ⅱ、Ⅲ转录基因时分别需要Ⅰ、Ⅱ、Ⅲ类转录因子(TFⅠ、Ⅱ、Ⅲ)协助。RNA聚合酶Ⅱ需要一组转录因子,其中有些转录因子是与启动子结合的,称为 通用转录因子 (general transcription factor,基础转录因子),相当于原核生物σ因子(表3-5)。
表3-5 人RNA聚合酶Ⅱ的通用转录因子
TATA结合蛋白 (TBP)是唯一能识别并结合TATA盒的转录因子。然而,即使没有TATA盒的启动子也需TBP参与识别,且三类启动子都需要。TBP可以和一组 TBP相关因子 (TAFⅡ,包括TAF1~TAF13)组成TFⅡD。TFⅡD也能与不含TATA盒的启动子结合,机制是通过TAFⅡ与起始子、下游启动子元件等其他核心元件结合。TAFⅡ还可以与其他转录因子(转录激活因子和共激活因子,第六章,162页)结合。
●双向启动子 基因在基因组中的分布大都是随机的。研究发现,哺乳动物基因组中约10%的基因以 基因对 (gene pair)形式存在:它们的启动子反向串联于一段短的基因间区(<1000bp)两翼,模板链不在同一股DNA 上,因而转录方向相背。它们可能受基因间区内同一调控序列调控。这种基因对被称为 双向基因对 (bidirectional gene pair),基因间区内的启动子和共用调控序列称为 双向启动子 (bi-directional promoter)。双向基因对的表达产物功能相关(例如同一异聚体蛋白的两种亚基、同一代谢途径的两种酶)且都很重要(例如DNA修复系统成员),因而在进化过程中很保守。双向基因对具有表达调控优势。
3.起始过程 转录起始是通用转录因子协助RNA聚合酶依托启动子形成转录复合物的过程(覆盖启动子-30~+30的60bp序列),以含TATA盒启动子为例(图3-10)。
图3-10 真核生物RNA聚合酶Ⅱ的转录过程
(1)闭合复合物形成:TFⅡD(TBP-TAF1~13)通过TBP识别结合TATA盒而结合于启动子,通过β折叠插入小沟使TATA盒变形(特别是弯曲约80°,使小沟展宽),进而依次募集TFⅡA、TFⅡB、TFⅡF-RNA聚合酶Ⅱ、TFⅡE、TFⅡH,形成 闭合复合物 ( 转录前起始复合物 ,基础转录复合物)。
TBP与TATA盒的亲和力10 5 倍于其他序列,TBPTATA盒复合物解离常数约1nmol/L。TBP构象呈鞍型,凹面与TATA盒结合,致使其双链弯曲(富含AT序列柔性好),小沟展宽,与TBP的β折叠充分结合(主要是疏水作用)。TBP-TATA盒复合物不对称,对识别转录起始位点进而单向转录非常重要(图3-11)。
图3-11 TBP-TATA盒
(2)开放复合物形成:TFⅡH是十亚基蛋白,由一个七亚基TFIIH核心复合物(XPB-XPD-GTF2H1-5,参与转录偶联的核苷酸切除修复)与1个三亚基CDK激活激酶CAK(cyclin H-CDK7-MNAT1)构成。XPB(3'→5')、XPD(5'→3')是依赖ATP的DNA解旋酶,可从起始子区解链11~15bp,使闭合复合物变构为 开放复合物 ( 转录起始复合物 )。TFⅡE可能参与解链。
(3)RNA合成启动:TFⅡH中的CDK7(细胞周期蛋白激酶7)催化RNA聚合酶Ⅱ大亚基RPB1的C端结构域(RPB1-CTD)七肽单位中的Ser5磷酸化,导致开放复合物变构,启动RNA合成。和原核基因一样,真核mRNA转录合成多数也是从A开始(小鼠 Tlr 转录起始位点GCTCTCCT,第一碱基为G)。
(4)启动子清除:RNA合成至60~70nt时,转录延伸因子P-TEFb(正性转录延伸因子b,CDK9-cyclin T二聚体)中的CDK9(细胞周期蛋白激酶9)催化RPB1-CTD七肽单位中的Ser2磷酸化,致使RNA聚合酶Ⅱ释放TFⅡE、TFⅡH等大多数转录因子,转录进入延伸阶段。
RNA聚合酶与约50bp DNA保持结合,受核小体移位和重塑影响,转录速度较慢(10~ 40nt/s)。
真核基因的转录延伸与原核基因基本相同,不过RNA聚合酶Ⅱ始终与TFⅡF结合,并被RPB1-CTD募集的转录延伸因子(P-TEFb、ELL、SⅡ、SⅢ)激活,通过RPB1-CTD进一步募集RNA加工酶类等。研究表明,人胚胎干细胞约1/3基因的表达过程需要转录延伸因子。
起始阶段RPB1-CTD必须处于去磷酸化状态,以与增强子募集的共激活因子结合(图6-4,155页)。之后必须被CDK7、CDK9催化磷酸化,以摆脱大多数起始因子,进入延伸阶段,且在延伸阶段募集RNA加工酶系(Ser5募集加帽酶,Ser2募集剪接因子)进行转录后加工。
如果转录泡移动因遇到DNA损伤而中止时,TFⅡH可结合于损伤部位,募集核苷酸切除修复酶系修复损伤,模板链修复效率高于编码链。TFⅡH特定亚基遗传缺陷导致某些遗传病,如着色性干皮病、Cockayne综合征。
真核蛋白基因的转录终止机制尚未阐明。哺乳动物蛋白基因的最后一个外显子中有一段保守序列,称为 加尾信号 (多腺苷酸化信号,polyadenylation signal),其共有序列是AATAAA。加尾信号下游10~30bp处是 加尾位点 (多腺苷酸化位点,polyadenylation site),加尾位点下游20~40bp处还有一段富含G/T或T的序列(图3-12)。mRNA转录终止与加尾同步进行。
图3-12 真核生物蛋白基因转录终止和加尾
1.切割 转录过加尾位点后,加尾信号AAUAAA依次募集聚腺苷酸化特异因子CPSF(有核酸内切酶活性)、剪切刺激因子(切割刺激因子,该因子同时与加尾位点下游富含G/U或U的序列结合)、剪切因子Ⅰ、剪切因子Ⅱ,最后募集poly(A)聚合酶。poly(A)聚合酶激活CPSF,CPSF从加尾位点切断转录产物。
2.加尾 poly(A)聚合酶以ATP为原料,在RNA的3'端合成200~250nt的poly(A)尾。
值得注意的是,只有RNA聚合酶Ⅱ的转录产物才会加尾。组蛋白基因转录发生于细胞周期S期,转录产物不加尾。
3.终止 切割、加尾之后,RNA聚合酶Ⅱ并未终止转录,而是继续转录,长度可达几千个核苷酸(称为额外RNA),之后才会终止转录,终止信号和终止机制尚未阐明。目前有以下两种终止模型。
(1) 变构模型 (allosteric model):RNA切割导致转录泡构象改变,使RNA聚合酶Ⅱ延伸能力减弱,终止转录并与RNA、模板分离。
(2) 鱼雷模型 (torpedo model):5'→3'核酸外切酶2结合于RNA加尾位点之后部分(还在继续转录)的无帽5'端,其催化RNA降解的速度快于RNA聚合酶Ⅱ合成的速度,因而追上RNA聚合酶Ⅱ,协助结合于RPB1-CTD上的辅助蛋白使RNA聚合酶Ⅱ终止转录并与模板分离。
转录终止时,RPB1-CTD去磷酸化,转录复合物解体,必要时启动新一轮转录。
RNA聚合酶转录一个转录单位得到一种初级转录产物,经过转录后加工得到功能RNA。转录单位可根据加工方式分为简单转录单位和复杂转录单位。
简单转录单位 (simple transcription unit)占人蛋白基因的5%,其初级转录产物只有一种剪接方式(个别甚至不需要剪接),因而最终只得到一种或一组功能RNA。简单转录单位有三种情况:①初级转录产物不加尾,不剪接,如核心组蛋白和大多数rRNA、tRNA基因。②初级转录产物只加尾,不剪接,如α干扰素、酵母大多数蛋白质、鸟类组蛋白H5基因。③初级转录产物既加尾,又剪接,但只有一种剪接方式,称为 组成性剪接 (constitutive splicing),如α、β珠蛋白基因和所有非编码RNA基因。
复杂转录单位 (complex transcription unit)占人蛋白基因的95%,其初级转录产物需要剪接,且有不止一种剪接方式(少则两种,多至几百种甚至几千种),称为 选择性剪接 (alternative splicing,又称可变剪接)。复杂转录单位均为蛋白基因,经过选择性剪接可以得到不同的成熟mRNA,指导合成不同的蛋白质。这些RNA及其编码的蛋白质统称 同源[异构]体 (isoform,剪接变异体,splicing variant)。成人多数组织只表达基因组10%~20%的基因,即2500~5000种基因(肝、肾表达10000~15000种),但却指导合成10000~20000种mRNA。每种基因平均指导合成4种mRNA。这主要是通过选择性剪接实现的。
人类几乎所有mRNA都要进行5'端加帽、剪接、3'端加尾,之后才会运出细胞核,指导合成蛋白质。催化mRNA前体加帽、剪接、加尾等的转录后加工因子均募集于磷酸化RPB1-CTD且相互结合,因而mRNA前体的各种后加工之间及其与转录合成之间相互协调。
真核蛋白基因大多数是断裂基因,其外显子和内含子都被转录,初级转录产物是 mRNA前体 (pre-mRNA)。pre-mRNA的平均长度是成熟mRNA的4~5倍(人类高达10倍),并且半衰期短(5~15分钟),只有一部分加工成为 成熟mRNA 。pre-mRNA加工过程如下(mRNA的转录“后”加工并非始于转录终止后)。
1. 5'端加帽 又称 mRNA加帽 。真核生物几乎所有mRNA的5'端都有一个特殊的三核苷酸结构,称为 5'帽子 。其第一个核苷酸是5'-磷酸-7-甲基鸟苷(5'-m7GMP),第二个是5'-二磷酸核苷(5'-NDP),两者通过5'-5'三磷酸连接(5',5'-triphosphate linkage)。目前已经发现三种5'帽子结构,其中1型最多,但单细胞真核生物mRNA主要是0型,酵母甚至只有0型,2型见于脊椎动物RNA(图3-13,表3-6)。
图3-13 5'帽子结构
表3-6 真核生物mRNA三种5'帽子
5'帽子结构的作用:①募集帽结合复合物,介导5'外显子剪接及mRNA转运出核。②募集翻译起始因子eIF-4F,介导组装核糖体复合物,启动蛋白质合成。③抗磷酸酶重复降解,从而保护mRNA。
真核生物mRNA的5'帽子结构形成于转录延伸早期,当时RNA仅合成了20~30nt。催化加帽的酶就结合在RPB1-CTD七肽单位的磷酸化Ser5上。
mRNA加帽过程由加帽酶系(表3-7)催化:①HCAP1催化mRNA的5'-pppRpN二核苷酸水解脱去γ-磷酸,生成5'-ppRpN。②HCAP1催化5'-ppRpN与GTP缩合,生成GpppRpN。③RG7MT1催化G甲基化,形成m 7 GpppRpN(0型帽子)。④MTr1催化0型帽子R-2'- O -甲基化,形成m 7 GpppRmpN(1型帽子)。⑤MTr2催化1型帽子 N -2'- O -甲基化,形成m 7 GpppRmpNm(2型帽子)。加帽所需甲基来自 S -腺苷蛋氨酸(adoMet,供出甲基生成 S -腺苷同型半胱氨酸,adoHcy)(图3-14)。
表3-7 人mRNA加帽酶系
图3-14 mRNA加帽
许多非编码小RNA(sncRNA)也有5'帽子结构,例如剪接体sncRNA含三甲基帽子结构(含三甲基鸟嘌呤)。
2. 3'端加尾 又称 mRNA多腺苷酸化 。除组蛋白mRNA外,真核生物其他mRNA的3'端都有聚腺苷酸序列,其长度因不同mRNA而异,一般为200~250nt,该序列称为 poly(A)尾 或 多聚(A)尾 。加尾过程见图3-12。
poly(A)尾的作用:①参与蛋白质合成的起始和终止,提高翻译效率。②募集poly(A)结合蛋白(PABP)以保护poly(A),抗3'→5'外切酶降解,提高mRNA稳定性。poly(A)尾可使mRNA寿命延长至数小时甚至数日。组蛋白mRNA没有poly(A)尾,半衰期只有几分钟。一些细菌mRNA也有poly(A)尾,但却促进其降解。
在细胞核内完成加尾的mRNA转运到细胞质后,其poly(A)会被降解并导致mRNA降解。特殊情况下一些mRNA会在细胞质进行二次加尾,以延长寿命。有些mRNA先以无尾形式储存,翻译前再加尾。
其他RNA也有加尾修饰,如5S rRNA、U2-snRNA、SRP RNA、7SK RNA。
3. RNA编辑(RNA editing) 是指在转录后加工时通过非剪接方式改变RNA的编码区序列,即在mRNA中插入、删除或改变核苷酸,从而改变密码子,结果一个基因可以编码多种蛋白质。目前已有两种编辑机制被阐明。
(1)位点特异性脱氨基:多见于腺嘌呤和胞嘧啶脱氨基,分别形成次黄嘌呤和尿嘧啶。脱氨基发生于特定组织细胞且受到调控,例如人类载脂蛋白apo B-100和apo B-48是同一个基因 APOB 产物。①apo B-100:在肝细胞内, APOB 基因的初级转录产物在加工之后指导合成4563aa的多肽链,经过切除27aa的信号肽等翻译后修饰得到4536aa的apo B-100。②apo B-48:在小肠细胞中, APOB 基因初级转录产物的加工有所不同,一种小肠细胞特异性胞嘧啶脱氨酶(mRNA C-6666脱氨酶)与初级转录产物的第2180号密码子CAA(位于外显子26中,编码谷氨酰胺)结合,催化其胞嘧啶脱氨基成尿嘧啶,密码子CAA改造为终止密码子UAA,指导合成2179aa的多肽链,经过切除27aa的信号肽等翻译后修饰得到2152aa的apo B-48(图3-15)。
图3-15 人 APOB 基因mRNA编辑
人脑组织谷氨酸受体2(GluR2,一种阳离子通道)mRNA发生Gln607Arg编辑(CAG→ CGG),编辑氨基酸位于第二段跨膜域内,是其生理功能必需的。未编辑型谷氨酸受体2允许多种阳离子通过,编辑型谷氨酸受体2阻止钙离子通过。人转录因子WT1的mRNA在睾丸会发生T839C编辑,导致Leu280Pro置换,置换后转录因子活性降低30%。
(2)gRNA指导的UMP插入/删除:在线粒体和叶绿体基因RNA最常见。锥虫(trypanosomes)线粒体几种蛋白质pre-mRNA的后加工过程发生尿嘧啶插入或删除导致密码子甚至阅读框改变,例如其细胞色素氧化酶亚基Ⅱ-mRNA的一段序列发生如下编辑:GAG-AAC-CU→GA U- U G U A U A-CCU。该编辑依赖 指导RNA (guide RNA,gRNA,一种60~80nt的线粒体RNA,含被编辑RNA的互补序列)定位和一组酶催化,插入的 U 来自gRNA的poly(U)(图3-16)。该编辑既导致密码子改变,又发生 -1移码 (第六章,177页)。
图3-16 锥虫线粒体细胞色素氧化酶亚基Ⅱ-mRNA编辑
一种真核基因通过编辑可以编码多种氨基酸序列不同的蛋白质,这不但丰富了基因的信息量、基因产物的多样性,而且还和生物发育有关,是基因表达调控的一个环节,使生物可以更好地适应生存环境。
某些microRNA后加工时发生A脱氨基编辑(第六章,176页)。
4.修饰 除了在5'帽子结构中有1~3个甲基化核苷酸之外,真核生物许多mRNA分子内部也有1~2个 N 6 -甲基腺嘌呤,常见于5'非翻译区(第四章,99页)。 N 6 -甲基腺嘌呤是在pre-mRNA剪接之前由特异RNA甲基化酶催化形成的。真核生物mRNA的化学修饰会影响到mRNA与RNA结合蛋白的相互作用,从而在翻译水平影响基因表达。
加帽、加尾、剪接体系并不是各行其是,它们在RPB1-CTD上有序组装,加工时相互协调,与转录同步(cotranscription),与转录延伸偶联(couple)。
从mRNA转录、转录后加工到向细胞质转运,先后有几十种蛋白质参与,它们与mRNA形成一种复杂的动态超分子结构(supramolecular),称为 信使核糖核蛋白[体] (messenger ribonucleoprotein,mRNP)。mRNP的蛋白质组成随mRNA加工、运输和翻译而变,它们决定着mRNA的运输、翻译和归宿。
真核生物rRNA基因的拷贝数较高,通常有几十到几千个,并且形成基因簇。每个转录单位由18S、5.8S、28S rRNA基因及外转录间隔区、内转录间隔区组成,在核仁区由RNA聚合酶Ⅰ催化转录,合成 rRNA前体 (哺乳动物rRNA前体45S),经过修饰与切割,得到3种 成熟rRNA (图3-17)。大多数真核生物的5S rRNA基因自成转录单位,由RNA聚合酶Ⅲ催化转录。rRNA与核糖体蛋白聚合成核糖体大亚基和小亚基。
图3-17 真核生物rRNA前体转录后加工
真核生物rRNA前体加工类似原核生物,包括内切酶或外切酶催化的切割、核苷酸修饰,部分RNA前体加工还包括内含子剪接。rRNA前体加工始于核仁。在加工因子的协助下,还在转录延伸阶段的rRNA边合成边与核糖体蛋白组装成大的核糖核蛋白,例如小亚基(small-subunit,SSU)加工体(processome)结合于pre-rRNA的5'端,介导18S rRNA加工。rRNA转录、后加工和核糖体组装在核仁内偶联进行,一气呵成。每个复合物包含切割rRNA前体的核酸酶、碱基修饰酶、snoRNA、核糖体蛋白。酵母rRNA前体加工需要超过170种非核糖体蛋白、约70种指导碱基、核糖修饰的snoRNA和78种核糖体蛋白。人rRNA约有200种修饰核苷,因而需要更多的snoRNA和蛋白质参与。
1.核糖和碱基修饰 主要是核糖甲基化和形成假尿苷酸。人rRNA有115个核糖2'- O -甲基化(依赖40多种C/D snoRNP),95个尿苷酸变位成假尿苷酸(依赖20多种H/ACA snoRNP),每一种snoRNP都由一种snoRNA和4~5种组装蛋白(包括修饰酶)构成。
snoRNA ( 核仁小RNA ,small nucleolar RNA,属于snRNA)长60~300nt,许多为其他RNA前体内含子序列的转录后加工产物。每一种snoRNA都有一段10~21nt序列(反义元件)与rRNA修饰位点旁序列完全互补,为修饰酶指示rRNA修饰位点。snoRNA还含有两类关键元件,作用是折叠成特定构象,进而募集相关蛋白组成 snoRNP ( 核仁小核糖核蛋白 ):①H/ACA盒(box H/ACA):含H盒(box H,共有序列ANANNA)和ACA盒(box ACA,共有序列ACA),组成的 H/ACA snoRNP 参与假尿嘧啶核苷化。②C/D盒(box C/D):组成的 C/D snoRNP 参与2'- O -甲基化。
2.亚基组装和rRNA前体切割 与大肠杆菌一样,真核生物rRNA加工与亚基组装同步进行。始于核仁,完成于核质。切割在亚基组装完成后进行,由多种核酸内切酶和核酸外切酶催化进行。
亚基转至细胞质后还要进行其他修饰,故后加工始于细胞核仁,完成于细胞质。
真核生物tRNA基因由RNA聚合酶Ⅲ催化转录合成 tRNA前体 ,加工得到 成熟tRNA ,其加工与原核生物一致(图3-18)。
图3-18 真核生物tRNA前体转录后加工
1.切割 tRNA前体5'前导序列由内切酶RNase P切除,3'尾随序列由核酸外切酶RNase Z等核酸酶切除。
人RNase P由一个催化RNA(H1)和至少十个蛋白亚基构成,参与RNA聚合酶Ⅲ催化合成的各种RNA的加工,包括tRNA、5S rRNA、7SL RNA、U6 snRNA。
2.加接3'CCA 真核生物几乎所有tRNA前体都没有3'CCA,要在加工时添加,由CCA tRNA核苷酸转移酶催化,不需要模板,加接反应在细胞核和细胞质进行。
3.剪接 人类基因组有509个tRNA基因,其中32个有一个14~60nt的Ⅳ型内含子,位于反密码子下游且只隔一个核苷酸。在加工时,该内含子由一种剪接核酸内切酶(splicing endonuclease)切除(形成5'-羟基和3'-磷酸基),再由一种tRNA剪接酶复合体将两个外显子连接起来(消耗GTP),这一过程称为 tRNA剪接 ,反应在细胞核内进行。
4.碱基修饰 包括甲基化、还原、脱氨、糖苷键重排,有的发生于剪接前,有的发生于剪接后;有的发生于细胞核,有的发生于细胞质。
5.加接5'G 组氨酸tRNA没有5'G,由组氨酸tRNA鸟苷酸转移酶催化加接,反应在细胞质中进行。
真核生物经过加工去除断裂基因初级转录产物中的内含子,连接外显子,得到功能RNA,这一过程称为 RNA剪接 (RNA splicing)。
1.内含子分类 内含子存在于mRNA、rRNA和tRNA前体中,可根据剪接机制的不同分为四类。染色体基因组蛋白基因主要含Ⅲ型内含子,又称剪接体内含子(表3-8)。
表3-8 内含子分类及剪接机制
2.Ⅲ型内含子剪接 存在于真核生物pre-mRNA中的Ⅲ型内含子通过形成剪接体进行剪接。 剪接体 (spliceosome,60S)是由5种核内小核糖核蛋白(snRNP)与300多种其他剪接因子组装于Ⅲ型内含子上形成的复合体,是真核细胞最复杂的超分子复合物。剪接体所含RNA成分是各种剪接步骤的催化剂,整个剪接体可被视为具有柔性结构的核糖核蛋白酶,可适应细胞核中序列和大小均差异极大的各种pre-mRNA。
(1) 核内小核糖核蛋白 :是参与RNA剪接的主要 剪接因子 (splicing factor),是含 核内小RNA (核小RNA,small nuclear RNA,snRNA)的核蛋白。 snRNA 是真核生物细胞核内的一类小RNA,每一种都与特定蛋白形成snRNP。多细胞真核生物snRNA长度90~300nt,在不同的真核生物中高度保守,其中一部分因富含尿嘧啶而用U和数字编号命名。在哺乳动物细胞核内已经发现了十几种snRNA:①U1、U2、U4、U5和U6(长度106~185nt)位于核质内,参与形成剪接体,参与pre-mRNA的剪接。其中U6是核酶。②U7参与组蛋白pre-mRNA 3'端的加工。③U3(U3 snRNA,U3 snoRNA)主要位于核仁内,参与rRNA前体的加工及核糖体组装(表3-9)。
表3-9 参与mRNA剪接的核内小核糖核蛋白(snRNP)
此外有些snRNA有其他功能。例如,7SK RNA(280nt)调节转录因子活性,B2 RNA调节RNA聚合酶Ⅱ活性,端粒酶RNA作为指导端粒合成的模板。
(2)Ⅲ型内含子:绝大多数 Ⅲ型内含子 含三段保守序列,称为 剪接信号 :①5'端的二核苷酸序列 GU 位于 5'剪接位点 (5' splice site),又称 剪接供体 (splice donor,SD)内(脊椎动物共有序列为AG- GU AAGU),可以与U1的5'端序列互补结合,形成双螺旋结构。②3'端的二核苷酸序列 AG 位于 3'剪接位点 (3' splice site),又称 剪接受体 (splice acceptor,SA)内(脊椎动物共有序列为Y 10 NC AG -GU)。上述Ⅲ型内含子末端序列的保守特征称为 GT- AG规则 (GTAG法则)。③3'剪接位点上游18~50nt处的一段富含嘧啶的序列,可以与U2互补结合。该序列中有一个特定的 A ,称为 分支点 (intron branch site,酵母共有序列UACUA A C,动物共有序列YNYYR A Y,图3-19)。
图3-19 酵母Ⅲ型内含子
Ⅲ型内含子以符合GT-AG规则的U2型为主(占人类基因组Ⅲ型内含子的98%以上),另有少量符合GT-AG规则的U12型和符合AT-AC规则的U12型。
(3)转酯反应:Ⅲ型内含子剪接过程是先组装剪接体,再发生两步转酯反应(transesterification reaction):①第一步转酯反应:又称 2'- 3'转酯反应 ,分支点A的2'-羟基亲核攻击上游外显子(upstream exon)3'端的3'-磷酸酯键(内含子5'端磷酸基),使其断开,释放上游外显子3'端羟基,内含子5'端则形成含2',5'-磷酸二酯键的 内含子套索 (intron lariat)。②第二步转酯反应:又称 3'- 3'转酯反应 ,上游外显子3'端羟基亲核攻击内含子3'端的3'-磷酸酯键(内含子3'端磷酸基),使其断开,释放内含子套索,并使上游外显子3'端与下游外显子(downstream exon)5'端以3',5'-磷酸二酯键连接(图3-20)。
图3-20 Ⅲ型内含子转酯反应
(4)剪接过程:①形成A复合物:U1 snRNP通过暴露于表面的snRNA保守的6nt序列ACUUAC与5'剪接位点互补结合。U2 snRNP在剪接因子U2AF和SF1(BBP)的协助下通过碱基配对结合于分支点(消耗ATP),形成 A复合物 (A complex),且A凸出,便于与5'剪接位点进行转酯反应。②形成B复合物:U4、U5、U6 snRNP预组装为三联体(tri-snRNP),通过U4 snRNP结合于U2 snRNP(消耗ATP),形成 B复合物 (又称无活性剪接体),此时内含子弯曲,上游外显子与下游外显子相互靠近。③形成C复合物:U6 snRNP取代U1 snRNP与5'剪接位点结合,U1 snRNP释放。U6 snRNP取代U4 snRNP与U2 snRNP结合形成活性中心,U4 snRNP释放,分支点靠近5'剪接位点,形成 C复合物 (又称活性剪接体)。④转酯反应(图3-21)。
剪接过程有多个步骤消耗ATP,用于RNA解旋酶解链以便于碱基变更配对及snRNP释放。剪接体中有8种蛋白质是ATPase。如果把剪接体视为一个酶蛋白,则它是一种一次性转换酶,每组装一次只能切除一个内含子。因此,每切除一个内含子都要经历组装、激活、催化、释放等环节。
图3-21 Ⅲ型内含子剪接
上述剪接GU-AG内含子的剪接体称为 主要剪接体 。人类基因组约1%内含子是AU-AC内含子,由次要剪接体剪接。 次要剪接体 不含U1、U2、U4、U6 snRNP,取而代之的是U11、U12、U4atac、U6atac snRNP。
3.选择性剪接 是指一种pre-mRNA有不止一种剪接方式,因而得到不同的成熟mRNA同源体,它们指导合成不同功能的蛋白质。选择性剪接由剪接体中的反式剪接因子与pre-mRNA中顺式剪接元件的结合决定,因而具有组织特异性或条件特异性,即在不同发育阶段、不同组织细胞或受到不同信号刺激时发生不同的剪接。例如,同一pre-mRNA在人甲状腺经过选择性剪接得到降钙素mRNA(翻译产物调节钙磷代谢),在人脑经过选择性剪接得到降钙素基因相关肽mRNA(翻译产物是一种血管扩张剂)(图3-22)。选择性剪接既极大增加了蛋白质多样性,又是一种有效的基因表达调控方式。人类基因组中每个基因平均有4种剪接方式。选择性剪接大大增加了蛋白质的多样性,以支持更复杂的生命活动,但也使蛋白质组比基因组更复杂。
图3-22 mRNA选择性剪接
4.异常剪接 选择性剪接与细胞分化、个体发育等关系密切。在点突变导致的遗传病中,至少有15%是因为发生 剪接[位点]突变 (splicing mutation)导致 异常剪接 (aberrant splicing)。例如,人类基因组有两个 SMN 基因, SMN1 和 SMN2 。只有SMN1-mRNA可以正常剪接得到成熟mRNA,指导合成功能蛋白。SMN2-mRNA中有一段RNA沉默子序列,它可导致SMN1-mRNA外显子7被切除,因而不能指导合成功能蛋白。健康个体通过表达 SMN1 即可得到SMN蛋白,用以组装snRNP,进而组装剪接体, SMN1 突变个体SMN1-mRNA内含子6的3'剪接位点发生突变,导致pre-mRNA异常剪接,丢失外显子7,翻译产物很快就被降解,导致脊髓运动神经元过早死亡,发生脊髓性肌萎缩症,通常在两岁前死亡。用于治疗脊髓性肌萎缩症的诺西那生(XM09)是一种人工合成18mer反义寡核苷酸,与SMN2-mRNA沉默子序列互补,可以矫正其选择性剪接方式,保留外显子7,得到成熟mRNA,指导合成功能SMN蛋白。
一些病毒基因的表达过程也发生选择性剪接,例如猿猴空泡病毒40(SV40)的早期基因初级转录产物通过5'选择性剪接生成大T抗原(LT-AG)和小t抗原(ST-AG)mRNA。