原初生命体发展到某一阶段,很可能通过几个简单的小步骤就进化成由RNA(核糖核酸)构成的早期生命体。RNA是DNA的近亲,与已知的任何非生命体相比,RNA是更高效、更灵活的信息载体。
RNA是如何承载信息的?和DNA一样,RNA是由碱基组合而成的长链状分子,RNA碱基有4种类型,或者称为4个“字母”。3个字母组成的三联体序列是一种很重要的组合,RNA中的“词”都由3个字母组成(对DNA或RNA而言,所有词都是3个字母长度)。每个词代表一种氨基酸(共有20种左右的氨基酸)。氨基酸是构成细胞的物质,氨基酸组合形成蛋白质,而几乎所有的细胞活动都离不开蛋白质。细胞根据氨基酸排列顺序制造不同类型的蛋白质,而这种氨基酸序列就是基因。 [1]
原始非生命体简单的分子结构只能反映有限的信息,与之相比,RNA所能反映的信息要多好几倍。RNA通过制造大量的蛋白质分子承载信息,一个细胞就可能包含上千个蛋白质分子,而每个蛋白质分子的化学结构都要比任何一个简单的非生命复制体复杂得多。
这是一个无比复杂、灵活的系统,尽管RNA编码的随意变动会引起内在信息的变化。之前讲到简单的非生命化学物质时,提到这些化学物质具有反映周围环境的“想法”,这样的说法显得有些牵强,因为这些化学物质形体太小,化学特性很少,所能反映的信息量也微乎其微(尽管这些早期的信息承载体在从非生命体进化到生命体的过程中起了关键作用)。而基于RNA的生命体形式是经过一个周密谨慎的进化过程形成的。RNA作为信息储存载体,像计算机一样具有特殊字符编码(计算机采用0和1二进制编码),而它的“软件程序”用来制造蛋白质。经过几代的进化,RNA很可能会发生一些改变。为了更新记录在RNA上的信息,使生命体具有更优秀的特性,RNA字母的序列会稍作改动,结果是淘汰那些不能准确反映信息的生物,而培养那些能够最准确地反映信息的生物。通过这种方式,基因不仅能储存信息,而且经过几代的演化逐渐学会最佳的生存方式。
与简单的自我复制的化学物质相比,RNA在向生命体的进化过程中迈进了一大步。即便如此,它还是有不少缺陷。RNA的分子结构不稳定,很容易被分解。RNA储存简单的信息没有问题(因为这些信息可以很快被复制),但很难储存那些由上千个字母组成的复杂信息。复杂信息的长序列结构会很快分解,导致有机体不能将经过自然选择而产生的有利特性传给下一代。
换句话说,想要增加信息储存量,RNA不是理想的选择。RNA无法增大信息储存量:储存的信息越多,成功传给下一代的信息会越少。对RNA来说,一旦信息量增加,稳定(维护一种“信念”)和混乱(创造性地开发新“想法”,包括好的“想法”和坏的“想法”)之间的平衡就会被打破,结果完全向混乱倾斜,而之前积累起来的有用信息会丢失,生命体也必然要消亡。
DNA解决了这一问题。细菌可以说是第一个真正的生命体。在我们看来,细菌极为简单,但是即使是体积最小、结构最简单的细菌,其生物结构都必须包含一个DNA链,而这个DNA链由超过100 000个字母编码组成。复制DNA需要更多的能量,但它要比RNA稳定得多,也就是说,DNA在复制时很少会出错。因此,DNA作为储存信息的主要分子形式,对生命进化来说是件好事(RNA只是作为DNA与蛋白质的信息中间载体)。DNA与RNA结构极其相似(主要区别是DNA是双股结构,而RNA是单股结构),可能在进化早期就出现了,而且DNA的产生可能会相对容易些。
回到复杂性和适应性的问题,我们可以用一种更为具体的方式讨论生命体,而不是简单的非生命体。与人类基因组(一个有机体的所有基因)30亿个字母编码相比,细菌具有的100 000个字母是个小数目。但从原则上看,这个数目已经能产生足够多的不同类型的蛋白质,数量超过宇宙中原子的数量。事实上,只需要几百个DNA字母的不同组合就能超过宇宙中的原子数量(10 80 个)。因此,经过DNA重新编码,细菌从原则上讲能够做任何事。例如,目前生物技术工程师正在研发一种新型细菌,能够从废品中提取柴油。
[1] 这个系统以一种极其高效的方式储存信息,其运作形式与计算机类似,只是RNA只有少量的4个字母。对信息处理来说,4个字母少得过分,但是原则上4个字母可以进行各种编码。计算机采用二进制,即1和0,只要由这两个符号构成的序列长度够长,0和1就可以表现大量不同类型的信息。1个数字的排列可以反映2类信息(2 1 ,即1或者0),2个数字序列可代表4类信息(2 2 ,即00,01,10或11)。以此类推,10个数字序列能代表的信息类型就很可观了,达1 024(2 10 ,即0000000000,0000000001,0000000010,一直到1111111111)。RNA和DNA的运作方式与计算机相同,只是在1和0之外再添加2个数目。RNA的4种字母可以简单地标识为0,1,2,3,但通常我们以A,G,C,U表示,分别代表4种化学碱基:腺嘌呤(adenine)、鸟嘌呤(guanine)、胞嘧啶(cytosine)和尿嘧啶(uracil)。DNA的碱基与RNA相似,只是由T取代U,即由胸腺嘧啶(thymine)代替尿嘧啶。为什么要采用3个字母组成的序列进行编码呢?3个字母组成的三联体序列有64(4 3 )种不同组合,足够用来表现20种氨基酸。而2个字母组成的序列只有16(4 2 )种组合,不足以表现20种氨基酸。这就是RNA和DNA以3个字母的词进行编码形成氨基酸,进而构成蛋白质的原因。