线粒体给寄主细胞带来威力强大的“发电厂”的同时,也带来了另一个“不速之客”,那就是内含子。它的出现使得细胞核成为必要。要知道什么是内含子,就要从1977年美国两个实验室的意外发现说起。
在20世纪70年代以前,人们对基因的认识是很简单的:基因就是DNA分子上为蛋白质编码的区段,再加上控制基因表达的“开关”,即启动子。当启动子把基因“打开”时,这段编码的DNA序列就被“转录”为mRNA,mRNA再指导核糖体合成蛋白质。为蛋白质编码的DNA序列被认为是连续的,mRNA分子中为蛋白质编码的RNA序列也因此是连续的。在原核生物中,这的确是实际情况。在大肠杆菌中,合成mRNA的过程还没有完成,在附近的核糖体就“迫不及待”地“抓住”mRNA,开始蛋白质合成了。所以在原核生物中,合成mRNA和合成蛋白质是在同一个地方,几乎同时进行的(图3-3)。
图3-3 大肠杆菌中的转录和翻译。在这幅电镜照片中,mRNA刚开始合成,核糖体就结合在mRNA分子上,开始蛋白质的合成(翻译),而不等待mRNA的生产完成。同一条mRNA分子上可以结合多个核糖体,同时进行蛋白质的合成
这种“编码序列是连续的”的观念在1977年被打破了。在这一年,美国冷泉港实验室的里查德·罗伯兹(Richard J. Roberts)和麻省理工学院的菲利浦·夏普(Phillip A. Sharp)同时在研究引起人感冒的腺病毒(adenovirus)。这种腺病毒的主要蛋白叫做六邻体(Hexon),是包裹病毒DNA的表面蛋白质。他们先从被病毒感染的细胞中提取到六邻体的mRNA。为了寻找病毒DNA中为六邻体蛋白编码的部位,他们让mRNA和病毒的DNA“杂交”,即让mRNA的序列和DNA分子上相应的序列通过碱基配对彼此结合。出乎意料的是,六邻体mRNA和DNA上四个互不相连的区段结合,这四个区段之间没有和mRNA结合的部分则游离出来,形成三个环。这个结果使他们认识到,腺病毒DNA为六邻体蛋白质编码的序列不是连续的,而是分为许多段(图3-4)。
图3-4 基因中内含子的发现。腺病毒的六邻体基因中,为蛋白质编码的部分不是连续的,而是分为四段,它们之间被非编码的DNA序列隔开。mRNA的分子中,编码部分被连在一起,间隔序列则被“剪”掉。当用六邻体基因的DNA和对应的mRNA杂交时,mRNA只和编码的序列通过碱基配对结合,间隔序列则形成环。基因中为蛋白质编码的序列被称为外显子,间隔序列称为内含子。上为图示;左下为杂交结构的电镜照片;右下为照片的图解
在这些实验结果的基础上,美国科学家瓦尔托·基尔伯特(Walter Gilbert)于次年(1978年)提出了内含子(intron)的概念。内含子就是编码序列之间的DNA区段,其序列在mRNA合成后被“剪切”掉,不出现在成熟的mRNA分子中。而为蛋白质编码的区段则被称为外显子(exon),它们被内含子分隔开,和内含子的序列一起被转录。当mRNA分子中的内含子序列被剪切掉以后,外显子就连在一起,去指导蛋白质的合成,最后的效果就像当初内含子不存在一样。我们可以想象为蛋白质编码的DNA序列为蓝线,被分成几段,中间由白线(内含子)连起来。把白线剪掉,把蓝线部分连起来的过程就叫做mRNA的剪接(splice)。罗伯兹和夏普的研究结果使科学家也去研究真核生物的基因,发现许多这些基因中编码序列也是不连续的,也就是许多真核生物的基因含有内含子。这是基因结构观念上的大革命,罗伯兹和夏普也因此获得了1993年的诺贝尔生理学和医学奖。
内含子是如何起源的,至今科学界还没有统一的意见。一种假说认为,内含子在生命出现的早期,在RNA世界时就出现了。当时DNA还没有出现,RNA分子则“一身数任”:既要催化自己的合成,又要催化蛋白质的合成,还要用自己的核苷酸序列为蛋白质中的氨基酸序列编码(见第一章第四节)。要使一个长长的RNA分子的连续序列来为蛋白质编码,编出来的蛋白质又是具有生物功能的,概率非常小,就像把英文的26个字母随机地排列在一起会出现一段有意义的文字那样困难。比较可能的情况是RNA分子内有许多小的区段,每段给一些氨基酸编码。有选择性地把这些区段结合起来,就有可能产生有功能的蛋白质。这就像随机排列的字母不容易产生有意义的词和句子,但是有选择性地去掉一些字母,就可以连成有意义的词和句子。由于RNA分子具有自我剪接的能力,这样的过程是有可能的。当然这是一个漫长和随机的过程,但是这样的目标最终是可以实现的。一旦这样的组合被固定下来,它们就可以在DNA出现后,被复制到DNA分子中,然后在mRNA阶段再进行剪接。现在原核生物以RNA为最终产物(如tRNA和rRNA)的基因(即不为蛋白质编码的基因)中,就还有许多这样的区段,它们能够在RNA分子被合成后,自己把自己剪切掉,包括Ⅰ型和Ⅱ型内含子(这两型内含子剪切自己的方式不同)。经过几十亿年的时间,能够自我剪接的RNA内含子类型居然还有两种,说明内含子在RNA生命阶段就出现的学说是有一定道理的。
不过到原核生物出现后,这种为蛋白质编码的方式就不理想了。因为在合成的mRNA分子中,有很大一部分是不为蛋白质编码,因此需要去除的“废物”。这些内含子既占DNA的空间,使得原核生物复制DNA时要付出更多的成本,在合成mRNA时,细胞还要花费资源去合成这些废物,而且剪接mRNA也需要时间。而对于简单的原核生物,资源有限,还必须迅速繁殖才能与其他的原核生物竞争。如果能够把这些“废物”去掉,既能节省资源,又能繁殖,对于原核生物的生存无疑是非常有利的。这样经过亿万年的演化,原核生物基本上已经把内含子“清除”掉了。为蛋白质编码的DNA序列是连续的,生成的mRNA也不需要剪接,而是可以直接用来指导蛋白质的合成,因而出现了在原核生物中,转录和蛋白质合成同时同地进行的情形(参看图3-3)。在这种情况下,细胞核的存在反而会延迟转译开始的时间,因此原核生物中的绝大多数都没有细胞核。原核生物的基因之间也有一些“没用”的DNA序列,不过一般只占DNA序列的10%~15%,残余的内含子也基本上“躲”在这些地方。
另一方面,真核生物的DNA中却含有大量的内含子,而且越是高级的生物(例如哺乳动物和开花植物),基因中内含子的数量越多。为蛋白质编码的基因,几乎都含有内含子。例如人类,每个基因平均含有8.1个内含子,拟南芥( Arabidopsis thaliana ,一种开花植物)每个基因平均含有4.4个内含子,就连低等动物,如果蝇( Drosophila melanogaster ),每个基因也平均有3.4个内含子,而许多原核生物总共也只有几个内含子。看到这里,估计有人会产生疑问:原核生物想尽量去掉的东西,真核生物怎么会让它存在并且让它繁荣起来呢?原因看来有两个:一是真核生物因为有线粒体提供能量,“财大气粗”,不在乎这点“废物”的存在。真核生物是以质取胜,即通过自己更强大多样的功能取胜,而不是像原核生物那样以量取胜,所以不必拼命繁殖。二是真核生物巧妙地利用了内含子的存在来形成更多的蛋白质。在原核生物中,因为编码序列是连续的,没有“花样”可玩。编码序列什么样,蛋白质就什么样,一个编码程序就只能生成一种蛋白质,真是“一个基因对应一种蛋白质”。而在真核生物中,由于编码序列是最后“拼接”起来的,如果改变拼接方法,只使用其中的一些编码区段,让外显子以不同的方式结合,就可以从同一个基因形成不同的蛋白质。这种不同的拼接外显子的方法叫做选择性剪接(alternative splicing)。例如果蝇的dsx基因是控制性别的基因。它有6个外显子。如果把外显子1、2、3、5、6拼接在一起,就会形成一个使果蝇向雄性发育的转录因子。但是如果把外显子1、2、3、4拼接在一起,就会形成一个使果蝇向雌性发育的转录因子。这样,同一个基因就可以产生功能完全相反的两种蛋白质。一个基因产生巨大数量蛋白质的“冠军”,要数果蝇的DSCAM基因。它有24个外显子,可以形成38016种不同的组合,即生成38016种蛋白质,而果蝇的全部基因数才15016个!在人的全部DNA序列测定以后,发现其中只有大约21000个基因。这个结果出乎人们的预料,甚至有人认为这是对人类的羞辱,因为那么低级的原核生物大肠杆菌(菌种K-12)都有4377个基因,其中4290个基因为蛋白质编码。考虑到人的复杂性远远超过大肠杆菌,人类好像应该至少有100000个以上的基因才“合理”。其中的奥妙就在人的基因能够活跃地进行选择性剪接,所以两万个左右的基因可以形成10万种以上的蛋白质。这就可以解释为什么生物越高级,为蛋白质编码的基因中内含子越多。
为蛋白质编码的基因中出现内含子,转录生成的最初的mRNA就不能直接在核糖体中指导蛋白质的合成了,因为那样会把内含子中的序列也当做是编码,合成出错误的蛋白质,所以必须先把mRNA中的内含子部分去掉,然后才能用来合成蛋白质。而去掉内含子的剪接过程又是比较慢的,怎么才能防止内含子去掉之前合成蛋白质的过程就开始呢?唯一的办法就是不让核糖体接触到还没有“加工”完毕的mRNA。换句话说,就是转录和蛋白质合成必须在空间上分开,而这正是细胞核的作用。细胞核的膜能够防止完整的核糖体进入细胞核,而mRNA在剪接完成前,又不会离开细胞核,这样核糖体能够接触的,就只能是加工完毕的mRNA。其实真核生物加工mRNA还不只是去掉内含子,还要给mRNA“穿靴戴帽”。“穿靴”就是给mRNA分子加上一个由100~250个腺苷酸组成的“尾巴”,叫做“多聚腺苷酸尾巴”。“戴帽”是在mRNA的“头”(5′端)的鸟嘌呤上面加一个甲基(—CH3)。这两个修饰都使mRNA分子更稳定,也等于是给mRNA分子戴上了“放行徽章”,可以离开细胞核了。所以细胞核的出现,是为蛋白质编码的基因中出现内含子的必然结果。
如果把各种真核生物同种基因中内含子的位置做比较,发现许多这些内含子的位置是相同的。例如动物和植物之间有17%的内含子位置是相同的,真菌和植物之间有13%的内含子位置相同,甚至人类和开花植物拟南芥之间,都有25%内含子在基因中的位置相同。这些事实说明,真核生物的内含子出现的时间非常早,在所有真核生物的共同祖先中就出现了。据各种模型的推测,在最早的真核生物中,为蛋白质编码的每个基因平均含有2~3个内含子。由于细菌的DNA含有的内含子数量极少,在最初的真核生物形成时,一定有一个内含子数量突然大量增加的事件。由于原核生物经过10亿年左右的演化,已经将内含子基本消除,真核生物的共同祖先又是从原核生物演化而来的,内含子的突然增加是如何发生的呢?2006年,美国科学家尤金·库宁(Eugene V. Koonin)提出一个假说,他认为是后来要变成线粒体的 α-变形菌进入寄主细胞后,其DNA中的内含子“入侵”寄主的DNA并在那里繁殖,使得最初的真核细胞含有大量的内含子。
真核生物为了适应这种情况,发展出了细胞核把DNA和核糖体分开,同时发展出了更有效的方式来剪除mRNA中的内含子序列,这就是剪接体(spliceosome)。剪接体是由5个细胞核内的小分子RNA(snRNA,包括U1、U2、U4、U5、U6)和蛋白质组成的巨型复合物。5个snRNA分别识别内含子的各个部位,例如U1会先辨识内含子的5′端剪接点( 内含子5′端与外显子结合的地方),而U2 识别3′端剪接点(内含子3′ 端与另一个外显子结合的地方)上游的“分支点”。这个步骤将mRNA上要被剪切除去的内含子定位。然后,由U4-U5-U6组成的三聚体加入,使得分支位点上的腺苷酸被连到内含子的5′端上,使它脱离外显子,同时内含子的RNA链形成一个“套马索”那样的环状结构。脱离了内含子的5′外显子再与3′的外显子结合,内含子就被剪切掉了(图3-5)。
图3-5 内含子被剪除的过程
剪切体剪除内含子的过程与Ⅱ型内含子“自我”剪切的过程极为相似,例如都形成“套马索”那样的结构和中间步骤,RNA分子的空间结构也高度一致。所以真核生物的剪切体应该是从原核生物的Ⅱ型内含子演化而来的。Ⅱ型内含子是自己切割自己,而剪切体的5个snRNA则是Ⅱ型内含子分开的片段,再与蛋白质形成复合体。所有的原核生物都没有剪切体,剪切体是被真核生物发展出来的,即把原来自我剪切的内含子分成几段,再分别和蛋白质结合。即使是在人类的细胞里,实际剪切内含子的分子还是剪切体中的snRNA,蛋白质只起辅助作用。核糖体合成蛋白质时,起催化作用的仍然是RNA(rRNA)分子。这些事实都说明,最初的生命是RNA的世界,真核生物的内含子也是由RNA分子中的Ⅱ型内含子演化而来的。
有趣的是,并不是所有的真核生物都含有大量的内含子。对于那些单细胞的真核生物,繁殖速度对于生存还是很重要的。俗话说,“活在狼群中,就得学狼叫”,所以这些单细胞的真核生物,像同样是单细胞的原核生物一样,都去除了大量的内含子。例如裂殖酵母( Schizosaccharomyces pombe )每个基因平均只有0.9个内含子,出芽酵母( Saccharomyces cerevisae )的内含子含量更低,每个基因平均只有0.05个内含子。而多细胞的真核生物,则在演化过程中不断增加内含子的数量,在人身上甚至达到每个基因平均有8个以上的内含子。
线粒体的出现给真核生物带来充足能源的同时,也带来了内含子的入侵。为蛋白质编码的基因中内含子的出现,又迫使细胞形成细胞核以把DNA和核糖体分隔开来。这大概就是真核细胞出现的根本原因。其他的改变都是在这个基础上进行的。