我们的故事还没讲完。
“好了,我相信DNA分子确实就是遗传物质了,”你也许会说,“它的碱基顺序能够记录信息。它的半保留复制模式能够保证这些信息被完美复制和传递,甚至它的双螺旋结构是那么优美动人。可是这些到底和遗传有什么关系呢?讲了这么久,我还是不知道为什么‘种瓜得瓜,种豆得豆’,还是不知道黄色豌豆和绿色豌豆的区别,不知道为什么孩子总是长得像爸爸妈妈呀?”
这个疑问的核心其实是,遗传信息到底是以什么形式写进DNA的,或者反过来说,DNA上携带的信息是怎样决定生物性状的?就像我们刚刚举过的例子,如果把DNA看成是用一种外国语言出版的报纸,那么,报纸上的文章究竟该怎么读,它又说明了什么事情呢?
还是拿孟德尔的豌豆来举例吧,我们现在已经知道,必须有一种“黄豌豆”基因能够决定豌豆的表皮颜色,而且这个基因就在DNA分子长链上。我们甚至可以设计些简单的方法,准确地把它找出来。但是一段由四种简单的碱基分子组合而成的长链,怎么就能够决定豌豆的表皮颜色呢?
这个环节的主角,正是刚刚被遗传学家抛弃的分子——蛋白质。
从某种程度上来说,蛋白质就像是更加复杂的DNA。和DNA的组成方式类似,地球生物中的蛋白质分子是由20种氨基酸小分子首尾相连形成的长链。大多数地球生物的DNA分子总是呈现简洁的双螺旋结构,而蛋白质分子的三维结构则变化多端、复杂莫测。插句话,其实这也是在埃弗里实验之后,很多生物学家拒绝相信DNA是遗传物质的原因,他们下意识地觉得更加复杂和多样的蛋白质分子才是遗传物质。而人们对蛋白质的认识也要远远早于DNA。
早在20世纪初,人们就已经知道,生命体中存在着许多能催化各种化学反应的物质,这些物质就是蛋白质(图1-26是一个非常复杂的蛋白质三维结构)。就在沃森和克里克看着DNA晶体的X射线衍射图谱,用硬纸板和铁丝搭建双螺旋结构模型的时候,他们的同事马克斯·佩鲁茨(Max Perutz)和约翰·肯德鲁(John Kendrew)也在试图用同样的方法分析蛋白质分子的三维结构。他们的成功来得晚一些,到1959年,他们才成功知晓了在血液中负责运输氧气的血红蛋白的三维结构(见图1-26),而这也充分说明了蛋白质分子的复杂性。因此,在遗传的秘密终于得以发现后,人们有理由提出这样的假设,即生命体的各种性状是由各种各样的蛋白质分子决定的。
不难想象,也许有一种蛋白质分子能够合成黄色色素,所以会让豌豆种子长出黄色的表皮;也许有一种蛋白质分子能够制造厚厚的多糖,从而让肺炎链球菌具备光滑的外壳。这一类有着几乎无穷无尽的组合(一个由20个氨基酸组成的蛋白质可以有20 20 种可能),有着复杂空间结构的大分子,给人们留足了想象的空间。
于是我们的问题就变成:构成方式较为单调、结构也很简洁的DNA分子,是怎样指导生命体生产各种各样的蛋白质,从而决定生命性状的?
说起来有点惊人,对这个问题最初的回答居然不是在实验室里,而是在演算纸上完成的,这一点对于生物学这门绝大多数时候仍然依赖实验的科学来说非比寻常。大爆炸宇宙论的提出者、物理学家乔治·伽莫夫(George Gamow)对DNA的双螺旋结构也非常着迷,他试图用物理学家的思维方式帮助解决基因如何指导蛋白质准确合成的难题,这可能部分解释了为什么我们是从纸上而不是从试管里得到问题的答案的。
在和克里克的通信中,伽莫夫推测,如果DNA能够指导蛋白质的准确合成,就意味着四种碱基A、T、C、G的排列顺序必须能够指导20种氨基酸的排列顺序。就像我们在故事里提到的,一个简单的思路就是,数个碱基的序列共同决定一个氨基酸。如果是两个碱基分子构成一个氨基酸“密码”的话,那么仅有的4 2 (16)种组合不足以代表全部的氨基酸;如果是三个碱基构成一个氨基酸“密码”的话,那么4 3 (64)种组合,比氨基酸数量多;而如果是四个碱基构成一个氨基酸“密码”的话,那么4 4 (256)种组合则太过浪费了(见图1-27)。因此,伽莫夫推测,DNA指导蛋白质合成的基本原则是相邻三个碱基的序列构成一个独特的密码子,用来指代一种独一无二的氨基酸。
我们现在知道,伽莫夫的简单推理精确得不可思议,所有地球上的生命都只使用了三联体密码子指导氨基酸的装配序列和蛋白质的生产。这其实也是对生命进化之美的一次绝妙展示,在无数种可能的编码机制中,生命恰恰选择了一种足够多样而又非常简约的编码方式!
而解密密码子的实验也同样精巧美妙。如果三个相邻的碱基序列能够决定蛋白质分子中的一个氨基酸,那么我们就可以用一串人工合成的DNA序列,生产出任何一种我们想要的蛋白质分子来。1961年,马歇尔·尼伦伯格(Marshall Nirenberg)证明,一长串人工合成的尿嘧啶核酸序列,会指导生产出一个由一串苯丙氨酸相连而成的蛋白质分子。要说明的是,尼伦伯格实验中实际使用的是RNA而非DNA。RNA中的尿嘧啶对应的是DNA中的胸腺嘧啶。随后,尼伦伯格和他的同事们又相继证明,一长串腺嘌呤对应的是全部由赖氨酸组成的蛋白质,一长串鸟嘌呤对应的则是脯氨酸。碱基序列和氨基酸序列的对应关系得到了初次证明(见图1-28)。
当然,严格说起来,尼伦伯格实验只能证明DNA序列对应氨基酸序列,还不能证明到底是几个碱基构成一个氨基酸“密码”。在此后不久,哈尔·科拉纳(Har Khorana)又利用更复杂的长链核酸序列,证明了只能是三个碱基构成一个氨基酸“密码”(见图1-28)。在接下来的几年里,许多研究机构之间的白热化竞争最终解密了三个碱基构成的密码子的64种组合所携带的全部信息。最终我们知道了,大多数氨基酸都对应着两到三种密码子,与此同时,还有三种密码子不负责编码任何氨基酸。它们作为终止信号,竖立在基因DNA序列的尽头,标志着氨基酸装配工作的完成。
说到这里,我们大概可以再回头说说孟德尔神父的豌豆了。
我们现在已经知道,组成DNA分子的碱基排列顺序能够决定氨基酸的特定排列顺序,从而指导蛋白质的合成。那么想象豌豆里有这么一个“黄豌豆”基因就没有那么困难了。我们完全可以想象,豌豆里会有一种蛋白质,它的功能是帮助豌豆表皮合成黄色色素,从而使豌豆表皮变成淡黄色。而这种合成色素的蛋白质中氨基酸的排列顺序,都被一丝不苟地以三个碱基对应一个氨基酸的形式写在豌豆的DNA里。这段“黄豌豆”基因会随着豌豆的受精过程进入子孙后代的体内,再随着子孙后代的生长,不断地一分为二,二分为四,四分为八,进入每一个豌豆细胞的内部,从而让这些后代结出的千千万万颗豌豆都变成黄色。不管是豌豆还是人类,细胞内蕴藏的DNA分子都是由数十亿个碱基所组成的,与此同时,蛋白质一般是由数十个至数千个氨基酸构成的,这个数字乘以三就是编码所需的碱基个数。也就是说,复杂生物的遗传物质足以编码数以万计的蛋白质分子。这个庞大的数字,也就是丰富多彩的生物性状的物质基础。
· DNA是遗传信息的载体。
· 遗传信息的最小单位——基因,以碱基序列的形式存在于细长的DNA分子上。
· DNA分子通过一轮又一轮的半保留复制,将遗传信息忠实地传递给了每一个后代。
· 基因通过三个碱基对应一个氨基酸的形式,决定了氨基酸的装配序列和蛋白质的生产。
· 蛋白质催化了生物体内各种各样的化学反应,从而让生物体呈现出丰富多样的性状。
这,可能就是遗传的秘密。
需要说明的是,在我们今天的生物学认知里,遗传的秘密比这几条简单的原则要复杂得多。从某种程度上说,今天的地球生命正是在此基础上叠床架屋,增加了许多层次的复杂度,从而保证了对遗传信息的精确传递以及对生物性状的复杂控制。
比如说,我们现在知道,大多数复杂生物的DNA并不是单纯用来编码RNA和蛋白质的。人类的基因组DNA中有多达90%的碱基序列并不用来制造任何蛋白质。单纯从蛋白质生产的角度而言,人类的基因组里充满了“垃圾”,效率低下得惊人。但是这些看似无用的“垃圾”DNA为遗传的秘密增添了新的复杂度。我们已经知道,很多不直接参与蛋白质制造的DNA能够通过各种方式参与蛋白质合成的调节,正是它们保证了生物可以在合适的时间和地点生产出合适数量的蛋白质分子。
再比如说,早在DNA双螺旋结构模型刚刚诞生的时候,克里克就已经预言,DNA并不会直接指导蛋白质的合成,而必须借助中间桥梁RNA。DNA首先要根据碱基互补的原则,以自身为模板制造一条RNA长链;RNA再根据三个碱基对应一个氨基酸的原则制造蛋白质。这个假说之后也被证明了,DNA→RNA→蛋白质的遗传信息流动规律,被冠以“中心法则”的大名(见图1-29),站在了生物学发现的顶端。RNA又为遗传的秘密增添了一层神秘的面纱。因为RNA的存在,细胞对蛋白质生产的时空调节可以通过RNA来进行。比如说,我们可以想象,如果细胞大量合成某个特定的RNA分子,就可以极大地促进其对应的蛋白质分子的生产。
又比如说,我们今天也知道,蛋白质分子自身的结构和功能也能够被精密地调控。许多蛋白质分子需要在特定氨基酸位置上发生化学修饰,例如被磷酸化、甲基化、乙酰化等,才能够发挥特定的功能。与此同时,我们也知道了生物体内的蛋白质分子并不是永生的,它们也有自己的生命周期,有诞生和独立存活,也有死亡和降解。正因为如此,遗传的秘密可谓非常复杂。
但是如果抛开这些所有的复杂调节,“中心法则”始终存在于地球上的每个生命体内。
细细想来,这个法则可谓意味深长。
对于地球生命而言,这无疑是传递遗传信息最简洁高效的办法。我们可以把一个活的生物体看成许许多多化学物质在三维空间里的时空分布。对于人体而言,这意味着差不多有近10 23 个原子,在以纳米为空间精度、以微秒为时间精度的约束下完成排列组合。其中蕴含的信息量远远超过人类文明的理解范围。即使在遥远的将来,它对于人类文明来说也可能是一个秘密。所有这些时空组合的源头,却不过是区区30亿个碱基对组成的DNA长链。在DNA长链上,遗传信息以碱基组合变化的方法存储,呈简单的一维线性排列,而且精确到在世代传递中几乎不发生任何错误!可想而知,在生物世代繁衍的过程中,想要准确复制一条DNA分子的难度要远远低于临摹先辈三维空间里的全部生物性状。而DNA在复制和传递过程中出现偶然差错的概率大约是1/10 9 ,反过来也可以赋予生物体足够的多样性,这就为进化论提供了理论基础,让地球生命在严酷多变的地球环境中经受自然选择的洗礼。
而对于渴望理解生命、理解人类自身的我们而言,DNA为我们的理解与探寻提供了方便的入口。对于刚刚走进生命大厦的一楼大厅却渴望探索大厦里每一处神秘角落的我们而言,DNA就像建筑师的蓝图,为我们提供了最可靠的指南。人类遗传学手段帮助我们理解了许多人类基因的功能。简单来说,当我们发现某个疾病患者体内缺失了某个基因的功能,我们就可以将这个基因与这种疾病联系在一起。类似的例子包括先天性色觉障碍、白化病、血友病,以及某些更为复杂的癌症和代谢疾病。而反过来,我们也可以想象,如果有一天我们期望能够改造人类自身,消灭某些顽疾,甚至是增强某些机能,直接在人类的基因组上下手将是最快捷和最高效的做法。
路漫漫其修远兮。
在过去的亿万年里,是遗传规律促成了地球生命的开枝散叶,并呈现出五彩斑斓的模样。基因就像亿万年间从未止息的河流,把地球生命带向一个又一个新的港湾。
在过去的一万年间,对遗传现象的认识和利用催生了农业社会的到来,人类这种不起眼的灵长类生物也由此建立起辉煌的文明大厦,开始了认识自身、认识世界、认识宇宙的漫漫征程。
而在过去的一两百年中,我们才真正开始理解遗传的秘密,理解在一代代生命的繁衍中,是什么样的规律主宰了遗传信息的流动,这些信息又如何塑造每个独一无二的生物体。我们甚至已经开始利用这些规律来改造地球生物,甚至改造我们自己。
在即将到来的未来,遗传的秘密又将把我们带往何处?人类有一天会不会操起上帝的手术刀,主动修改自身的遗传信息,就像在河流上建坝修堤,让生命的河流顺着我们的意愿流淌?