没有人愿意回到38亿年前的地球,那时原始地球的大气中充满了有毒气体,地表是沸腾的海洋,只有少量火山岛露出海面,日夜不停地喷发着炽热的岩浆。滚烫的海水在月亮的吸引下猛烈起伏,巨浪甚至高达几十米。这就是细菌出现之前的混沌状态,科学家称为原始汤。
远古地球的原始汤中,由于持续不断的高温催化,产生了大量随机漂浮的有机物质,它们都是从零开始,通过各种反应任意生成的产物。因为免于细菌的破坏,这些小分子有机物得以长期存在,成为组成生命的基本材料,比如小分子肽与核苷酸链,很容易聚合形成各种结构的颗粒,有些结构可能具有病毒的特征,出现自组装和进化的能力。这就是病毒“自主起源假说”,因为主张病毒先于细菌出现,又叫作“病毒优先假说”。
自主起源假说认为,病毒是从非生命向生命过渡的中间阶段,先有病毒,再有细菌。而细菌一旦出现,原始汤的环境也随之改变,有机物一旦成为细菌的食物,就很难再有机会随意漂浮。病毒失去了理想的自组装环境,只能向细菌内部发展,这才不得已进化出了寄生性状,永无出头之日。
自主起源假说是最早提出的病毒起源理论,得到了病毒学家卢里亚的支持,他因研究噬菌体而获得了1969年诺贝尔生理学与医学奖。这个假说也因卢里亚的推崇而广为人知。更重要的是,自主起源假说不但巧妙避开了病毒只能在细胞内生存的难题,而且符合一般的生物进化逻辑,即从简单到复杂、从无机到有机。正好病毒的表现也恰似无生命与有生命之间的桥梁,这应该不是巧合。
那么,率先在原始汤中出现的病毒到底是DNA病毒,还是RNA病毒呢?抑或是蛋白质病毒?
相比而言,现存的RNA病毒结构更简单、基因组更小,编码能力比DNA病毒逊色很多。按照一般逻辑,简单的结构应该率先出现。也就是说,原始汤曾经是一个充满了RNA的世界。这就是另一位诺贝尔化学奖得主吉尔伯特于1981年提出的“RNA世界假说”,是病毒自主起源假说的翻版,或者说是代表。如果RNA世界假说是正确的,那么病毒自主起源假说就是正确的;反之亦然,如果RNA世界假说是错误的,那么病毒自主起源假说也就岌岌可危了。
RNA世界假说有哪些证据呢?
RNA世界假说的关键在于RNA分子是否具有自我催化能力。如果一种分子无法自我催化,那就无法自我复制。既然无法自我复制,当然就不可能具有病毒的特征,更谈不上在RNA世界中靠数量取胜了。而美国科罗拉多大学的生化学家切赫则用四膜虫证明,RNA分子确实具有自我复制能力。
每一位生物学家都有自己喜欢的研究对象,有人喜欢果蝇,比如摩尔根,用偷来的牛奶瓶培养大量果蝇,并顺便开启了现代遗传学;有人喜欢线虫,比如布莱纳,利用线虫开辟了发育生物学研究新领域;还有人喜欢拟南芥,比如科恩,通过拟南芥展开了全新的植物开花模式研究。这些受到研究人员喜爱的生物,就叫作模式生物。模式生物廉价易养,许多人都在研究,学术资料比较丰富,更有助于研究人员获得新的研究成果。1981年,切赫喜欢上了另一种模式生物——四膜虫,这是一种原生动物。所谓原生动物,又叫原虫,往往指一类单细胞的真核生物,介于动物和植物之间,有的可以捕食,比如轮虫;有的可以进行光合作用,比如眼虫。四膜虫就是可以快速移动的小型原生动物,是纤毛虫的一种,之所以叫作四膜虫,并不是因为它们真的有四层膜,而是因为在它们的细胞表面有一排一排的纤毛,在老式显微镜下看起来就像是手风琴上的风箱纸板,总共有四排。观察者误以为那是膜结构,这才命名为四膜虫。虽然闹了个大乌龙,不过这个名称已经沿用了下来,大家也就懒得再改了。
四膜虫有两个细胞核,一个小一个大,分别叫作小核和大核。小核又叫生殖核,主要负责遗传工程,因此对基因要求非常严格。大核又叫营养核,任务就是负责生活,需要用各种复杂的基因应对环境的挑战,但对基因序列要求不严,就算大核基因被剪切得乱七八糟也无所谓。就是这个乱七八糟的大核,居然催生了好几个诺贝尔奖,其中就有切赫的一个。
切赫在研究四膜虫时,重点关注了核糖体RNA,那是核糖体中的一段RNA序列,在合成蛋白质工作中扮演了一定的角色,英文简写为rRNA。切赫注意到,rRNA前体需要经过剪切和加工,才能变成有效的rRNA,而这个加工过程完全由RNA自我催化,无须任何其他物质的参与,不需要蛋白质,也不需要DNA。起初切赫完全不敢相信自己的发现,他们反复验证这一过程,并设法去除了所有蛋白质干扰,rRNA仍然可以自我剪接。切赫这才意识到,他们离诺贝尔奖很近了。这一发现意味着,RNA序列完全可以自给自足,能够同时完成自身拼接和自我复制。如果某种分子能够独立完成合成、拼接和复制这三个重要环节,就等于具备了基本的生命特征。尽管如此,由于RNA的自我催化功能过于惊世骇俗,以至于这一说法遭到了经典酶化学专家的猛烈抨击。他们认为关于RNA自我催化的说法过于天真,切赫的研究肯定充满了错漏,因为分子生物学研究要求相当严谨,以至于说话时喷了一点唾沫星儿到溶液里,都可能改变研究结果。但切赫随后以无可辩驳的事实捍卫了自己的结论,一下子让RNA世界假说拥有了坚实的基础,受到了大批学者的高度关注,切赫也因此获得了1989年的诺贝尔化学奖,当年他只有42岁。
这一研究赋予了RNA世界以极大的合理性,逻辑也很通顺。生命很难起源于一段DNA,因为DNA结构过于稳定,没有自我催化能力,必须在蛋白质的帮助下,以RNA为中介才能复制自己。也就是说,在生命起源过程中,结构稳定其实是一种劣势。缺少变化,就会缺少更多的可能。与此相反,RNA则有着巨大优势,因为它们的结构并不稳定,至少没有DNA稳定,或者换句话说,化学性质比较活泼。正因为活泼,才会导致RNA分子容易随机断裂和重组,难以形成较长的序列,只能在RNA的世界里快速出现,然后快速消失,以此不断尝试各种可能。在亿万年的混沌世界里,一种具有自我复制和催化能力的RNA序列经过海量的化学反应后终于诞生了。这种能力一旦出现,就会确保这种序列越来越多,并迅速压倒其他序列,进而成为原始汤中的主流分子。
尽管如此,由于快速突变,这种独特的RNA序列仍然像是风中的烛火,时明时灭,很难长期维持既有的功能。它们迫切需要一个生化助手,以便将这种好不容易得到的序列稳定下来,这个助手就是DNA。
DNA分子如同RNA世界里的高人,沉默而低调,虽然难以合成,但结构非常稳定,可以形成较长的序列,保存较多的信息,加上DNA可以和RNA完美互补,对RNA具有良好的保护作用。由此推知,DNA序列应该是在RNA序列出现之后的产物,主要任务就是记录RNA在灵光一闪之间创造的独特的遗传信息。
到目前为止,所有这些推论都只停留在理论层面,没有任何直接的证据。当然这样说并不全面,虽然原始汤的环境已经无法复制,科学家难以亲自观察DNA和RNA的互动情况,但是现存的每一个细胞都可以提供旁证。在所有细胞内部,DNA和RNA都在不断重复着原始汤中曾经发生过的故事:DNA指导RNA合成,RNA指导蛋白质合成,蛋白质再合成DNA,如此往复,永不停止。这种模式可能在原始汤中就已经存在,通用的生化机制在此基础上建立起来,并为各种细胞所保留。所以现存的生物类型尽管千差万别,但基本的生化机制却相差无几。RNA是生命的开拓者,DNA是生命的继承者,蛋白质则为生命复杂化开辟了新的道路。
这就是RNA世界假说的主要观点,简洁地说就是先有RNA分子,再通过随机作用而形成RNA病毒。DNA只是RNA用于保存自己信息的工具。现在仍有许多病毒只含有RNA,它们就像是来自远古RNA世界的使者,默默诉说着自己的身世。许多RNA病毒和DNA病毒都存在同源基因,比如衣壳蛋白基因,也就是包裹病毒的蛋白质外壳,只存在于病毒中,在细胞中没有被发现。这种情况说明RNA病毒曾经和DNA病毒有过共同的信息交流,这种信息交流独立于细胞之外。合理的推测是,这种交流就发生在RNA世界里,那时细胞还没有出现。
一旦突破了相关思维屏障,大家立即发现,原来RNA的价值被严重低估了。我们原本以为它们只是DNA的辅助工具,想不到它们才是生命的掌控者和先行者。如果用这种视角重新审视生命,我们就会观察到一个简单的事实:RNA世界的线索几乎到处都是,塞满了整个细胞——所有细胞都离不开RNA。特别是在蛋白质合成的过程中,RNA更是无可替代:mRNA指导蛋白质的合成;tRNA实现氨基酸的搬运;rRNA是组装核糖体的关键成分,对于合成蛋白质不可或缺。三大RNA类型复杂,各不相同,各司其职,建立起了DNA与蛋白质之间的有机联系。
细究蛋白质合成的整条流水线可以发现,DNA只是提供了一份粗略的组装信息,此后的每一步,包括一些精细的调节,都离不开RNA。显而易见,RNA的任务远比DNA的烦琐。在真核细胞中,DNA被限制在细胞核中,只有RNA才能随意出入细胞核,穿梭于细胞的各个角落,直接指导重要的生命活动。这都暗示RNA确实起到了先锋带头作用,可能是来自RNA世界的直接遗产。
随着分子生物学研究的不断深入,科学家还发现,RNA的作用远不止合成蛋白质那么简单,它们还可以通过各种方式控制DNA的活性。几乎所有基因的表达,都受到RNA的强力调控,而且调控方式灵活多样,其中最常见也是最重要的一种方式就是基因剪接,那是RNA的传统手艺。
人类基因组工程的结果表明,人体细胞中只有两万多个基因,其中仅有一部分可以编码蛋白质。根据中心法则,一个基因转录为一个mRNA,一个mRNA再翻译为一个蛋白质。可是人体内mRNA的数量却高达20多万种,比基因数量多了十倍。为什么如此少的基因却可以制造出如此多的mRNA呢?
这曾经是摆在生化学家面前的一道难题,让好多生化学家都愁白了头,直到他们发现了基因的剪切和粘贴(合称为剪接),才算解开了这个谜团。
细菌基因非常干净,几乎不会携带任何无用的序列,因此基本无须剪接。而那些比细菌复杂的生物,从玫瑰到大象、从果蝇到人类,细胞内都在进行着大量剪接。相关工作当然不能在DNA上进行,那会把基因剪成一堆乱麻,最佳操作对象是mRNA。mRNA从DNA转录以后,只是半成品,然后会被专门的剪切酶剪为几截,把其中的一些片段扔掉。被扔掉的片段,就是所谓的内含子,它们在基因中基本就是撑门面的;没被扔掉的片段叫作外显子,它们将在组装之后被翻译为蛋白质。
外显子如何组装呢,其中大有讲究。假如一段基因序列被转录为一段mRNA,然后被剪成五段,扔掉了两段内含子,保留了三段外显子,分别标记为1、2、3号。这时我们就能理解为什么少量基因能够转录出大量mRNA了,因为这三段外显子可以彼此组合,比如第一段和第二段组合,也可以第二段和第三段组合,或者还有更复杂的组合形式,几乎没有什么禁忌,一切以翻译为有功能的蛋白质为最终目标。经过不断拼接,三段外显子可以翻译为许多种蛋白质,这就是剪接的威力。就像电影剪辑,用相同的底片,却可以剪出不同版本的影片来。底片越长,剪出复杂产品的可能性也就越大。
所有这些操作都只在mRNA上进行。三段外显子只是简单的例子,在生物体内,具体过程要复杂得多。比如在果蝇基因组中,有一个与脑细胞相关的基因,居然可以剪出38段外显子,然后拼接成三万多段有效的mRNA。而在人类脑细胞中,这样的基因有数百个,每个基因都可以剪接出数百个版本的RNA。mRNA的剪接其实是对基因的大规模编辑,整段整段地裁剪,大块大块地删除,幅度较大、力度较猛。除此之外,细胞还会对RNA进行精细的微调,也就是在DNA转录为mRNA后,在不改变DNA序列的前提下,却悄悄更换了RNA的个别字母,这样就用一套DNA得到不同的mRNA。这些微调非常普遍,在人类大脑皮层中几乎所有mRNA都被编辑过,而在小脑中,则有一半被编辑过。
正是经过如此复杂的编辑处理,生物就可以用少量的DNA序列,使得原本单调的基因呈现出了复杂的多样性,进而合成海量的蛋白质。这就是人类只有两万多个基因,却能组装起如此复杂而精妙的身体的原因。所有这些烦琐的工作,全部由RNA操刀完成。如果不是在RNA世界练出的绝技,很难想象它们能够把活儿干得如此出色。尤其是现在的许多RNA病毒也有强大的剪接能力,暗示了在远古的RNA世界中,RNA剪切可能是一项常规工作,细胞只是继承了这门传统的手艺而已。
除此之外,还有一种重要的基因调控功能也与RNA息息相关,那就是RNA干扰。人们曾经一度认为这是只有病毒才拥有的能力,后来却发现,RNA干扰在细胞内无处不在。研究人员以牵牛花作为样本,将其中负责生成紫色色素的基因转入到另一种牵牛花中,得到了一种新型的牵牛花。根据研究计划,新型牵牛花应该开出深紫色的花朵,但结果却让所有人都糊涂了:它们不但没有开出深紫色的花朵,甚至连原来的色素都丢失了,新的花朵居然是白色的!
此后,科学家在更多的研究中发现了类似现象,他们开始意识到,额外转入的基因产生了额外的RNA,它们会转变为一种无法忽视的力量,居然可以封闭正常的基因活性,这一现象就是RNA干扰。在牵牛花实验中,正是转入的额外基因产生了额外的RNA,封闭了所有色素基因,最终使牵牛花意外开出了白花。
RNA干扰对所有生物都有效,而且用量很少,每个细胞只需要导入几个分子即可,结果却非常可观。它们很像是来自RNA世界的证据,因为有一类小分子RNA的干扰行为非常可疑,它们不像是在调控基因,反倒像是敌方阵营的刺客,不断破坏细胞行使正常的功能,那就是微小RNA。
微小RNA的序列很短,除了可以干扰基因的表达,还有一些微妙的作用。人体有三分之一的基因会受到微小RNA的影响,特别是它们对免疫系统起到抑制作用,从而有利于病毒在细胞内的复制。有些病毒会故意刺激微小RNA的活性,强化其抑制免疫能力,甚至导致机体感染或诱发癌症。卡波西肉瘤疱疹病毒就采用这种策略,在机体感染后六小时内就大大强化微小RNA的作用,不仅增强了病毒基因的表达,还会影响干扰素的作用,促进病毒的复制。
有些病毒之所以会诱发癌变,就是因为利用了微小RNA,直接把细胞变成可以拎包入住的病毒旅馆。从这种意义上说,微小RNA就相当于是潜伏在细胞中的间谍,随时对病毒攻击做出响应,因为大家都是来自RNA世界的战友。细胞对此无能为力,只能尽力整合原始的RNA功能,努力为己所用。现有的细胞,其实是DNA和RNA妥协的结果。
RNA世界假说还可以解释病毒为什么那么小。
如果病毒想扩大规模,首先要有足够的基因。以病毒的能力,它们完全有机会从细胞中偷取大量基因。有的病毒就像透明胶带,可以贴在细胞的染色体上,再撕下来时往往会带走部分基因;有的病毒可以随时发生各种突变,偶尔会变出新的基因;还有的病毒可以互相交换基因。无论通过哪种途径,经过漫长的积累,病毒都可能变得更加复杂。但奇怪的是,亿万年以来,病毒一直在变异,却始终没有获得更复杂的结构。是什么阻挡了病毒复杂化的脚步呢?答案可能就隐藏在RNA世界里。RNA世界的法则并非弱肉强食,而是快者为王——复制速度越快,成功的机会就越大。
那么,如何才能保证快速复制呢?
混沌的RNA世界里并没有什么复杂的办法,最简单的策略就是尽量维持较短的序列。RNA分子越短,复制就越快,留下的拷贝就越多。它们一旦采用这种策略,就很难再放弃。因为RNA世界存在典型的分子竞争,快速复制的短序列将会迅速消耗大量原材料,减少其他分子复制的机会,长序列因此而在竞争中处于不利地位。更短、更快、更多,才是RNA世界的王道。所以现存细胞内的RNA分子,不管是传递信息的mRNA,还是核糖体中的rRNA,或是搬运氨基酸的tRNA,包括行使干扰功能的微小RNA,序列都很短,与DNA根本不在同一个数量级。这个逻辑同样适用于RNA病毒,它们的序列也都很短,这绝非偶然的巧合,而是从RNA世界延续下来的基本特征。那些分子量太大、复制太慢的病毒,早已经被淘汰了。
长序列除了容易在竞争中落败,还容易触发错误阈值而自我崩溃。这是约束病毒复杂化的另一道门槛。
所谓错误阈值,就是某个系统可以容纳多少错误的量化指标。比如堆积木,有些积木可以堆错,但错误的数量不能太多,如果超过这个数值,积木就会崩塌。导致积木崩塌时的那个错误数值就是错误阈值。一套积木如果摆错了三个就崩塌,错误阈值就等于三;如果摆错了三十个才崩塌,错误阈值就等于三十。很明显,错误阈值越高,也就是容错率越高,崩溃的危险就越小,系统就越稳定。
很多系统都有自己的错误阈值,RNA序列也不例外。
RNA序列在复制过程中错误率很高。序列越长,错误数量就越大,也就越容易接近错误阈值,因而更容易崩溃;而序列越短,复制错误越少,就很难达到错误阈值,于是更加稳定。正因为受到错误阈值的制约,RNA序列长度基本都有一个上限。分子量太大的RNA序列,都因复制错误太多而常常触发阈值,直至最后崩溃。所以RNA序列不可能太长,信息量也不可能太多。这一制约因素导致RNA病毒的尺度同样无法得到有效提升。相同的逻辑对于DNA病毒同样适用。结果就是,现存的病毒,无论是DNA病毒还是RNA病毒,它们的尺度都很小。只不过由于DNA的稳定性要强于RNA,错误阈值高于RNA分子,因此DNA病毒的尺度要明显大于RNA病毒,但仍然无法摆脱分子竞争和错误阈值的限制。
巨型病毒就是典型的DNA病毒,在基因长度和体积上足以压制所有RNA病毒。为了保证自己的基因组不会因为快速突变而崩溃,巨型病毒采用了一条复杂的策略,它们拥有了一定程度的自我修复功能,以此降低复制错误率,轻易不会触发错误阈值。如此一来,巨型病毒就拥有了一定的稳定性,而不是像普通病毒那样随意突变。但修复功能需要更多的基因信息作为保障,为此巨型病毒必须提升基因数量,不可避免地导致复制速度变慢。由此可见,巨型病毒在进化方面远谈不上成功,只能躲在阿米巴原虫的细胞内勉强偷生,就因为它们基因太多,失去了与其他病毒竞争的资格。巨型病毒寄生在阿米巴原虫体内,就像是遁入了青山的隐士,可以躲避激烈的分子竞争。阿米巴原虫分布密度较低,对于寄居的病毒来说,快速增殖并没有实际价值,因为它们并不能在复制以后迅速找到下一个宿主。相反,它们应该在好不容易才找到的宿主体内享受慢生活。既然它们不需要快速增殖,当然就有可能维持较复杂的基因组,远比其他病毒复杂得多。
正因为如此,当巨型病毒被发现之后,自主起源假说的支持者立即声称,巨型病毒必定支持自主起源假说,而且他们已经找到了一些证据。尽管巨型病毒是DNA病毒,却保留着来自RNA世界的线索。
巨型病毒的基因组中包含许多类型的基因,特别是一批关键基因,与阿米巴原虫没有任何关系,说明巨型病毒并非细胞退化而来,而是有着自己的进化渊源。巨型病毒的另一个重要特征是没有垃圾基因,也就是说,它们几乎所有基因都有价值。而它们所寄生的阿米巴原虫是一种真核生物,细胞核中存在大量垃圾基因。垃圾基因就像是真核生物的标签,而这个标签在巨型病毒身上居然无影无踪,这表明巨型病毒并非由细胞退化而来,否则很难不从细胞中获得垃圾基因的标签。
尽管科学家已经在实验室中观察到了巨型病毒的退化倾向,但与此同时,他们也发现了巨型病毒基因存在复杂化的倾向。这表明巨型病毒基因存在双向进化的趋势,并没有固定的方向。这一点使得各种假说都有了浑水摸鱼的机会。
原本巨型病毒作为病毒界的新锐,似乎能够对两派争议起到一锤定音的裁决作用,想不到它们却是左右逢源的两面派,只提供了一些似是而非的证据,哪一方都不敢得罪。想要凭借巨型病毒决定病毒起源问题的希望就此破灭。
既然自主起源假说和退化起源假说都无法说服对方,就连巨型病毒也无能为力,给其他观点留下了充足的空间,“逃逸假说”就这样登上了舞台。由于逃逸是在细胞进化过程中发生的意外事件,所以逃逸假说又叫作“进程假说”。
本质而言,逃逸假说是病毒退化起源假说的翻版,同样认为病毒来自细菌,或者来自真核细胞,是在复杂生命出现之后才出现的简单生命形式。但与退化起源假说的具体机制不同,逃逸假说并不认为病毒是一步步丢失其他功能的结果,而是从细胞囚笼中逃逸的结果。
那么,逃逸假说中的主角是谁呢?到底是谁在逃逸?