生命通史最新章节_朱钦士著

第三节

细胞核出现

线粒体给寄主细胞带来威力强大的“发电厂”的同时，也带来了另一个“不速之客”，那就是内含子。它的出现使得细胞核成为必要。要知道什么是内含子，就要从1977年美国两个实验室的意外发现说起。

在20世纪70年代以前，人们对基因的认识是很简单的：基因就是DNA分子上为蛋白质编码的区段，再加上控制基因表达的“开关”，即启动子。当启动子把基因“打开”时，这段编码的DNA序列就被“转录”为mRNA，mRNA再指导核糖体合成蛋白质。为蛋白质编码的DNA序列被认为是连续的，mRNA分子中为蛋白质编码的RNA序列也因此是连续的。在原核生物中，这的确是实际情况。在大肠杆菌中，合成mRNA的过程还没有完成，在附近的核糖体就“迫不及待”地“抓住”mRNA，开始蛋白质合成了。所以在原核生物中，合成mRNA和合成蛋白质是在同一个地方，几乎同时进行的（图3-3）。

图3-3 大肠杆菌中的转录和翻译。在这幅电镜照片中，mRNA刚开始合成，核糖体就结合在mRNA分子上，开始蛋白质的合成（翻译），而不等待mRNA的生产完成。同一条mRNA分子上可以结合多个核糖体，同时进行蛋白质的合成

这种“编码序列是连续的”的观念在1977年被打破了。在这一年，美国冷泉港实验室的里查德·罗伯兹（Richard J. Roberts）和麻省理工学院的菲利浦·夏普（Phillip A. Sharp）同时在研究引起人感冒的腺病毒（adenovirus）。这种腺病毒的主要蛋白叫做六邻体（Hexon），是包裹病毒DNA的表面蛋白质。他们先从被病毒感染的细胞中提取到六邻体的mRNA。为了寻找病毒DNA中为六邻体蛋白编码的部位，他们让mRNA和病毒的DNA“杂交”，即让mRNA的序列和DNA分子上相应的序列通过碱基配对彼此结合。出乎意料的是，六邻体mRNA和DNA上四个互不相连的区段结合，这四个区段之间没有和mRNA结合的部分则游离出来，形成三个环。这个结果使他们认识到，腺病毒DNA为六邻体蛋白质编码的序列不是连续的，而是分为许多段（图3-4）。

图3-4 基因中内含子的发现。腺病毒的六邻体基因中，为蛋白质编码的部分不是连续的，而是分为四段，它们之间被非编码的DNA序列隔开。mRNA的分子中，编码部分被连在一起，间隔序列则被“剪”掉。当用六邻体基因的DNA和对应的mRNA杂交时，mRNA只和编码的序列通过碱基配对结合，间隔序列则形成环。基因中为蛋白质编码的序列被称为外显子，间隔序列称为内含子。上为图示；左下为杂交结构的电镜照片；右下为照片的图解

在这些实验结果的基础上，美国科学家瓦尔托·基尔伯特（Walter Gilbert）于次年（1978年）提出了内含子（intron）的概念。内含子就是编码序列之间的DNA区段，其序列在mRNA合成后被“剪切”掉，不出现在成熟的mRNA分子中。而为蛋白质编码的区段则被称为外显子（exon），它们被内含子分隔开，和内含子的序列一起被转录。当mRNA分子中的内含子序列被剪切掉以后，外显子就连在一起，去指导蛋白质的合成，最后的效果就像当初内含子不存在一样。我们可以想象为蛋白质编码的DNA序列为蓝线，被分成几段，中间由白线（内含子）连起来。把白线剪掉，把蓝线部分连起来的过程就叫做mRNA的剪接（splice）。罗伯兹和夏普的研究结果使科学家也去研究真核生物的基因，发现许多这些基因中编码序列也是不连续的，也就是许多真核生物的基因含有内含子。这是基因结构观念上的大革命，罗伯兹和夏普也因此获得了1993年的诺贝尔生理学和医学奖。

内含子是如何起源的，至今科学界还没有统一的意见。一种假说认为，内含子在生命出现的早期，在RNA世界时就出现了。当时DNA还没有出现，RNA分子则“一身数任”：既要催化自己的合成，又要催化蛋白质的合成，还要用自己的核苷酸序列为蛋白质中的氨基酸序列编码（见第一章第四节）。要使一个长长的RNA分子的连续序列来为蛋白质编码，编出来的蛋白质又是具有生物功能的，概率非常小，就像把英文的26个字母随机地排列在一起会出现一段有意义的文字那样困难。比较可能的情况是RNA分子内有许多小的区段，每段给一些氨基酸编码。有选择性地把这些区段结合起来，就有可能产生有功能的蛋白质。这就像随机排列的字母不容易产生有意义的词和句子，但是有选择性地去掉一些字母，就可以连成有意义的词和句子。由于RNA分子具有自我剪接的能力，这样的过程是有可能的。当然这是一个漫长和随机的过程，但是这样的目标最终是可以实现的。一旦这样的组合被固定下来，它们就可以在DNA出现后，被复制到DNA分子中，然后在mRNA阶段再进行剪接。现在原核生物以RNA为最终产物（如tRNA和rRNA）的基因（即不为蛋白质编码的基因）中，就还有许多这样的区段，它们能够在RNA分子被合成后，自己把自己剪切掉，包括Ⅰ型和Ⅱ型内含子（这两型内含子剪切自己的方式不同）。经过几十亿年的时间，能够自我剪接的RNA内含子类型居然还有两种，说明内含子在RNA生命阶段就出现的学说是有一定道理的。

不过到原核生物出现后，这种为蛋白质编码的方式就不理想了。因为在合成的mRNA分子中，有很大一部分是不为蛋白质编码，因此需要去除的“废物”。这些内含子既占DNA的空间，使得原核生物复制DNA时要付出更多的成本，在合成mRNA时，细胞还要花费资源去合成这些废物，而且剪接mRNA也需要时间。而对于简单的原核生物，资源有限，还必须迅速繁殖才能与其他的原核生物竞争。如果能够把这些“废物”去掉，既能节省资源，又能繁殖，对于原核生物的生存无疑是非常有利的。这样经过亿万年的演化，原核生物基本上已经把内含子“清除”掉了。为蛋白质编码的DNA序列是连续的，生成的mRNA也不需要剪接，而是可以直接用来指导蛋白质的合成，因而出现了在原核生物中，转录和蛋白质合成同时同地进行的情形（参看图3-3）。在这种情况下，细胞核的存在反而会延迟转译开始的时间，因此原核生物中的绝大多数都没有细胞核。原核生物的基因之间也有一些“没用”的DNA序列，不过一般只占DNA序列的10%~15%，残余的内含子也基本上“躲”在这些地方。

另一方面，真核生物的DNA中却含有大量的内含子，而且越是高级的生物（例如哺乳动物和开花植物），基因中内含子的数量越多。为蛋白质编码的基因，几乎都含有内含子。例如人类，每个基因平均含有8.1个内含子，拟南芥（ Arabidopsis thaliana ，一种开花植物）每个基因平均含有4.4个内含子，就连低等动物，如果蝇（ Drosophila melanogaster ），每个基因也平均有3.4个内含子，而许多原核生物总共也只有几个内含子。看到这里，估计有人会产生疑问：原核生物想尽量去掉的东西，真核生物怎么会让它存在并且让它繁荣起来呢？原因看来有两个：一是真核生物因为有线粒体提供能量，“财大气粗”，不在乎这点“废物”的存在。真核生物是以质取胜，即通过自己更强大多样的功能取胜，而不是像原核生物那样以量取胜，所以不必拼命繁殖。二是真核生物巧妙地利用了内含子的存在来形成更多的蛋白质。在原核生物中，因为编码序列是连续的，没有“花样”可玩。编码序列什么样，蛋白质就什么样，一个编码程序就只能生成一种蛋白质，真是“一个基因对应一种蛋白质”。而在真核生物中，由于编码序列是最后“拼接”起来的，如果改变拼接方法，只使用其中的一些编码区段，让外显子以不同的方式结合，就可以从同一个基因形成不同的蛋白质。这种不同的拼接外显子的方法叫做选择性剪接（alternative splicing）。例如果蝇的dsx基因是控制性别的基因。它有6个外显子。如果把外显子1、2、3、5、6拼接在一起，就会形成一个使果蝇向雄性发育的转录因子。但是如果把外显子1、2、3、4拼接在一起，就会形成一个使果蝇向雌性发育的转录因子。这样，同一个基因就可以产生功能完全相反的两种蛋白质。一个基因产生巨大数量蛋白质的“冠军”，要数果蝇的DSCAM基因。它有24个外显子，可以形成38016种不同的组合，即生成38016种蛋白质，而果蝇的全部基因数才15016个！在人的全部DNA序列测定以后，发现其中只有大约21000个基因。这个结果出乎人们的预料，甚至有人认为这是对人类的羞辱，因为那么低级的原核生物大肠杆菌（菌种K-12）都有4377个基因，其中4290个基因为蛋白质编码。考虑到人的复杂性远远超过大肠杆菌，人类好像应该至少有100000个以上的基因才“合理”。其中的奥妙就在人的基因能够活跃地进行选择性剪接，所以两万个左右的基因可以形成10万种以上的蛋白质。这就可以解释为什么生物越高级，为蛋白质编码的基因中内含子越多。

为蛋白质编码的基因中出现内含子，转录生成的最初的mRNA就不能直接在核糖体中指导蛋白质的合成了，因为那样会把内含子中的序列也当做是编码，合成出错误的蛋白质，所以必须先把mRNA中的内含子部分去掉，然后才能用来合成蛋白质。而去掉内含子的剪接过程又是比较慢的，怎么才能防止内含子去掉之前合成蛋白质的过程就开始呢？唯一的办法就是不让核糖体接触到还没有“加工”完毕的mRNA。换句话说，就是转录和蛋白质合成必须在空间上分开，而这正是细胞核的作用。细胞核的膜能够防止完整的核糖体进入细胞核，而mRNA在剪接完成前，又不会离开细胞核，这样核糖体能够接触的，就只能是加工完毕的mRNA。其实真核生物加工mRNA还不只是去掉内含子，还要给mRNA“穿靴戴帽”。“穿靴”就是给mRNA分子加上一个由100~250个腺苷酸组成的“尾巴”，叫做“多聚腺苷酸尾巴”。“戴帽”是在mRNA的“头”（5′端）的鸟嘌呤上面加一个甲基（—CH3）。这两个修饰都使mRNA分子更稳定，也等于是给mRNA分子戴上了“放行徽章”，可以离开细胞核了。所以细胞核的出现，是为蛋白质编码的基因中出现内含子的必然结果。

如果把各种真核生物同种基因中内含子的位置做比较，发现许多这些内含子的位置是相同的。例如动物和植物之间有17%的内含子位置是相同的，真菌和植物之间有13%的内含子位置相同，甚至人类和开花植物拟南芥之间，都有25%内含子在基因中的位置相同。这些事实说明，真核生物的内含子出现的时间非常早，在所有真核生物的共同祖先中就出现了。据各种模型的推测，在最早的真核生物中，为蛋白质编码的每个基因平均含有2~3个内含子。由于细菌的DNA含有的内含子数量极少，在最初的真核生物形成时，一定有一个内含子数量突然大量增加的事件。由于原核生物经过10亿年左右的演化，已经将内含子基本消除，真核生物的共同祖先又是从原核生物演化而来的，内含子的突然增加是如何发生的呢？2006年，美国科学家尤金·库宁（Eugene V. Koonin）提出一个假说，他认为是后来要变成线粒体的 α-变形菌进入寄主细胞后，其DNA中的内含子“入侵”寄主的DNA并在那里繁殖，使得最初的真核细胞含有大量的内含子。

真核生物为了适应这种情况，发展出了细胞核把DNA和核糖体分开，同时发展出了更有效的方式来剪除mRNA中的内含子序列，这就是剪接体（spliceosome）。剪接体是由5个细胞核内的小分子RNA（snRNA，包括U1、U2、U4、U5、U6）和蛋白质组成的巨型复合物。5个snRNA分别识别内含子的各个部位，例如U1会先辨识内含子的5′端剪接点（内含子5′端与外显子结合的地方），而U2 识别3′端剪接点（内含子3′ 端与另一个外显子结合的地方）上游的“分支点”。这个步骤将mRNA上要被剪切除去的内含子定位。然后，由U4-U5-U6组成的三聚体加入，使得分支位点上的腺苷酸被连到内含子的5′端上，使它脱离外显子，同时内含子的RNA链形成一个“套马索”那样的环状结构。脱离了内含子的5′外显子再与3′的外显子结合，内含子就被剪切掉了（图3-5）。

图3-5 内含子被剪除的过程

剪切体剪除内含子的过程与Ⅱ型内含子“自我”剪切的过程极为相似，例如都形成“套马索”那样的结构和中间步骤，RNA分子的空间结构也高度一致。所以真核生物的剪切体应该是从原核生物的Ⅱ型内含子演化而来的。Ⅱ型内含子是自己切割自己，而剪切体的5个snRNA则是Ⅱ型内含子分开的片段，再与蛋白质形成复合体。所有的原核生物都没有剪切体，剪切体是被真核生物发展出来的，即把原来自我剪切的内含子分成几段，再分别和蛋白质结合。即使是在人类的细胞里，实际剪切内含子的分子还是剪切体中的snRNA，蛋白质只起辅助作用。核糖体合成蛋白质时，起催化作用的仍然是RNA（rRNA）分子。这些事实都说明，最初的生命是RNA的世界，真核生物的内含子也是由RNA分子中的Ⅱ型内含子演化而来的。

有趣的是，并不是所有的真核生物都含有大量的内含子。对于那些单细胞的真核生物，繁殖速度对于生存还是很重要的。俗话说，“活在狼群中，就得学狼叫”，所以这些单细胞的真核生物，像同样是单细胞的原核生物一样，都去除了大量的内含子。例如裂殖酵母（ Schizosaccharomyces pombe ）每个基因平均只有0.9个内含子，出芽酵母（ Saccharomyces cerevisae ）的内含子含量更低，每个基因平均只有0.05个内含子。而多细胞的真核生物，则在演化过程中不断增加内含子的数量，在人身上甚至达到每个基因平均有8个以上的内含子。

线粒体的出现给真核生物带来充足能源的同时，也带来了内含子的入侵。为蛋白质编码的基因中内含子的出现，又迫使细胞形成细胞核以把DNA和核糖体分隔开来。这大概就是真核细胞出现的根本原因。其他的改变都是在这个基础上进行的。