购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第2章

DNA
生物学的理性化

伟大的思想

遗传因子是在DNA中进行编码的

生命体的几乎所有活动都是在分子水平上就设计好的,如果不了解这些分子,那么我们对生命本质的理解将是十分粗略的。

——弗朗西斯·克里克

我们每个人都“可能”摇身变出百万亿个自己。我们身体里大约有数以百亿计的细胞,其中每个细胞都包含可以形成我们自身完整躯体的模板(即DNA)。大多数细胞是相当微小的,以至于需要用大约200个这样的细胞才能把字母“i”中的上面那个圆点覆盖住。理论上——这往往是一个很玄乎的令人生疑的词——你身体中的数以百亿计的细胞能够产生出百亿个你(克隆),而其中的每一个“你”中的数以百亿计的细胞又分散开来,然后又可以产生出百亿个你,很快地,你和你的这些众多克隆体一起将彻底统治地球。幸运的是,自然界总是存在着各种物理的和生物的制约因素,从而使得上述理论结果不可能发生(仅仅是幻想而已)。但是能够思考上述“理论”的可能性,甚至是做一些幻想,这也表明我们对细胞本质的了解已经到达了一个空前的高度。

我们确实做到了。实际上,除了那个传教士(即孟德尔,后面将要讲到)外,达尔文和与他同时代的那些科学家们对于遗传的本质一无所知。尽管他们对自然界的许多现象和生存竞争所带来的后果有着很深的理解,但是对遗传机制的无知使得他们在理解别的问题时却是举步维艰。当时最被人们所接受的有关遗传机制的学说是 融合遗传理论 。它认为,亲代双方将他们各自可遗传的性状都注入最终发育成为其子代个体的“熔炉”中,其子代个体由这种混合成分萌发而成。而事实上,这种融合性并不能使自然选择很好地维持下去(即不太能够支持自然选择持续发生),因为生物产生的独有的适应性很快就被掩盖,因此它经常被用作反对达尔文观点的有力证据,并使得达尔文进化论迟迟不能得到广泛接受。亚里士多德,尽管他对疑难问题的执着追求而受到后人极大尊敬,却在遗传机制这个问题上又像往常一样抛出了错误的结论,从而再次展现了一个没有实验支持的摇椅上的思考的失败事实 。因观察到血液流经身体的各个器官的现象,所以亚里士多德将遗传机制归因于血液,这个观点至今仍作为一个暗喻而存在。他认为精液是净化过的血液,在交配时,这种“净化过的血液”与经血混合,从而产生了下一代。

上文提到的那个握有打开遗传秘密大门钥匙的传教士就是格里戈·约翰·孟德尔(1822-1884),他出生在奥地利西里西亚地区摩拉维亚省(后并入捷克斯洛伐克,现在属于捷克共和国)北部的海因申多夫村(即现在的海因西斯村)的一个农民家庭。孟德尔的父亲安顿是一个小佃农,他把许多精力都投入到了园艺中。不幸的是,有一次在工作时被一棵正在倒下的树砸在身上,从此落下疾病,长期不愈,全家生计更是雪上加霜。于是安顿将他的土地转卖给他的女婿以供养他唯一的儿子——孟德尔先后在特鲁堡和奥尔姆兹求学,由于从小就受到植物学方面的熏陶,所以孟德尔整个生命轨迹都被植物学所塑造。生活的压力迫使孟德尔在22岁那年进入布鲁恩市(现为捷克的布尔诺市)圣托马斯的奥古斯丁修道院,并取教名为格里戈,1847年(25岁时)他被任命为神父。之后孟德尔被修道院送到维也纳大学去学习数学和其他自然科学,以便成为一名中学教师,而这段学习经历为他日后将辅修的算术应用到遗传研究中作了一些铺垫。但是他在维也纳大学的研究工作却比较薄弱,尤其是生物学。在两年的学习期满后,孟德尔回到了修道院,并在后来当上了修道院的院长(1868年)。

孟德尔扮演着多种角色。他首先是弗朗兹·约瑟夫皇帝领导下的奥地利皇家帝国的在职牧师,他还是摩拉维亚抵押银行的功不可没的董事、奥地利气象协会的创立者、奥地利皇家帝国国家农业和自然科学与知识促进会摩拉维亚和西里西亚分会委员,以及最重要的角色——园艺家。在19世纪50年代,正当达尔文埋头于整理他的思想理论之时,孟德尔开始了他的研究工作,而这些工作使得他在去世后声名远扬。针对他的研究的各种疑问接踵而来——当然是激烈的批驳——都是关于他和他的助手所做工作的真实性问题,比如1936年,著名的统计学家和遗传学家罗纳德·艾尔默·费舍尔(1890-1962)就曾指出,孟德尔报道的数字结果是值得怀疑的。之后更进一步的问题被提出,那就是:孟德尔到底知不知道自己所做实验的目标是什么,以及围绕他的成就所发展起来的各种遗传“神话”(理论构建)是否更多的与我们自己的后知后觉有关,而不是孟德尔自身的洞察力?

因此有些人认为,孟德尔的研究工作的原动力就是试图去理解杂交规律,而不是遗传的内在机制。他的动机就是追求验证当时流行的观点——新物种起源于杂交,即“遗传稳定的杂交体”就是新物种。而他孤注一掷的目标就是去创造一个新物种,但在这方面,他彻底败下阵来。

孟德尔在布隆自然历史学会1865年2月8日和3月8日两次会议上,陈述了他的研究报告——一个不被理睬的令人感伤的报告,并在该学会于1866年出版的学报上以《植物杂交实验》为题进行了发表。但是他的研究成果却被完全忽视了,只有W.O.福克在其发表于1881年的《植物杂种》中引用过孟德尔的工作,但却对他的工作提出了批评,因此孟德尔的研究结果在发表后30多年间一直被束之高阁,直到1900年。这些结果一直被忽视的可能原因是,按照当时的观点,它们并没有揭示出植物杂交的合理性机制,它们代表的仅仅是杂交失败的结果。孟德尔转而将更多时间花在修道院的管理工作上,这也反映出他对自己毕生心血造就的惨淡结果极度失望的心境。后来的三位植物学家——荷兰的德弗里斯、德国的柯灵斯和澳大利亚的切尔马克——各自宣布独立地重复了孟德尔的工作。但是后来证实,这些报告中有一些猫腻的意味。因为直到柯灵斯发表了与孟德尔具有相似结果的工作后,德弗里斯才完全认可了孟德尔的优先地位,同时他也意识到自己已经没有希望去争夺遗传规律发现的优先头衔了。因此,他重申了孟德尔的地位,以使柯灵斯的“发现遗传规律”这一重要成果失去应有的光泽。对于孟德尔的重要发现被束之高阁长达35年这一事实,人们作出了各种各样的解释。有人认为,孟德尔只是一个半路杀出的业余植物学爱好者,再者,他与教会联系太紧密,而教会往往被认为不可能会产生什么对科学发展有益的东西。还有人认为,孟德尔在其研究中借助的数学工具——尽管只是简单的数学知识——使得当时的生物学家一头雾水。但是真正的原因也许要简单得多:孟德尔的实验设计太超前了,从而使得与他同时代的科学家们无法将数字结果与遗传机制联系起来,而直到德弗里斯、柯灵斯和切尔马克重新复活了孟德尔的研究工作,并用一种现代科学的眼光去看待这些结果,才使得孟德尔的成就大白于天下。

孟德尔的工作是在19世纪完成的,但直到人类历史进入了20世纪,他的工作的重要性才逐步体现出来。就像普朗克量子化能量(参看第7章),孟德尔也将遗传进行了量化。而这一成就给遗传理论提供了一个强有力的证据,并最终导致当时十分流行的融合遗传理论的垮台,并且适时地被颗粒遗传理论(遗传信息由许多不连续的单元所携带)所取代。整整8年,孟德尔将他的注意力都放在了豌豆(Pisum sativum)的研究上,因为豌豆有很多特殊的特征而使其成为理想的研究材料。首先,豌豆花本身结构十分特殊,因此两个植株进行杂交比较容易。另外,对于野生植株来说,它也可以进行自花授粉(自交)。再者,豌豆可以表现出许多变异的性状,比如,它的花瓣既可以是白色,又可以是紫色;果实可以是光滑的也可以是皱缩的;子叶可以是绿色,又可以是黄色;豆荚也分为绿色和黄色;植株有的表现为矮秆,有的为高秆。还有一点,或许是当时的真实情况:豌豆比较便宜,也容易获得,况且它还有占地小,在较短时间内产生的子代数量较多等优势。此外,我们还可以天马行空地做一些猜想:豌豆汤也许经常在圣托马斯的修道院的伙食菜单上不厌其烦地露脸。但是,豌豆的一大缺点是,它是一种不“上镜”的植物,因此孟德尔当时的豌豆实验园地早已被改种了更美丽的秋海棠以取悦游人(图2-1)。

图2-1 修道院内孟德尔的实验园地。孟德尔用普通的豌豆作为实验材料,事后证明这是一个很恰当的选择,一方面因为豌豆的经济性,更主要的原因是豌豆的许多性状都是独立遗传的。不过修道院中的这片园地现在已被秋海棠占据

当孟德尔观察到植物杂交产生的变异体能够将这种变异性状遗传到随后的世代时,他着实吃了一惊。他决定通过实验观察去探寻隐藏在其中的系统遗传模式。在最初两年中,他开始着手培育豌豆纯种,即绿色果实植株只能结出绿色果实,黄色果实植株只能结出黄色果实,其他的各个性状也同理。接下来,孟德尔开始进行一系列的杂交和自交实验。例如,当他用绿色豌豆种子植株与黄色豌豆种子植株进行杂交时发现,由此产生的子一代(即F 1 代杂交体)豌豆种子均为黄色。但是,当用上述得到的F 1 代杂交体之间进行自交时,产生的F 2 代中有3/4的种子为黄色,剩余的1/4为绿色。这简直有些不可思议,因为最初的绿色种子性状又重新出现了。当孟德尔针对豌豆的其他性状继续进行杂交、自交实验(方法同上)时,也分别得出了与上述情况相似的结果。很显然,一种遗传模式已经浮出水面并且亟待给予合理的解释。

孟德尔以其大量的实验结果为基础构建了一个假说。他的第一条线索就是,实验中的变异体是以一个简单的数量比出现的。为解释这些比率所涉及的抽象(离散)的数字,他提出,每个性状内部的不同(比如绿色种子和黄色种子)取决于植株中控制该性状的两个相异的不连续单元(遗传因子)的表达情况的不同。孟德尔用“因子”这个词来表示这种不连续的可遗传单元,当讨论植物的外部特征即表现型时,他应用了“性状”这个词。孟德尔的大多数理论推理都建立在这些可观察的性状之上,而后来的研究者们则将注意力从生物外部特征转移到了对这些特征背后的“因子”的探索上。从那以后,人们对于这种遗传实体的命名简直是五花八门,但是目前被广泛认可的命名是由丹麦生物学家约翰森于1909年提出的“ 基因 ”。更准确地说,控制同一个性状的不同表现型的两个基因,比如控制豌豆种子颜色(绿色和黄色)的基因,叫作 等位基因 。因此,绿色豌豆和黄色豌豆分别对应不同的等位基因。

为了解释孟德尔豌豆杂交实验中得出的简单的数量比,我们可以假设基因(即上述的“因子”,遗传实体)——姑且按照现在的说法——是成对存在的,并且一对基因控制一个性状(两个表现型),生物的每个配子(即生殖细胞,在动物中称为卵子和精子;在植物中称为胚珠和花粉)包含上述控制性状的一对基因中的一个。接下来,在受精(植物中称为授粉)过程中,雄性和雌性配子发生随机融合,并使两份单个基因又重新成双。孟德尔将这些可遗传性状分为显性和隐性。同理,将控制显性性状和隐性性状的基因分别称为显性基因和隐性基因,它们是等位基因。因此,当一个显性等位基因与一个隐性等位基因成对时,生物将会产生显性等位基因所对应的表现型。举例来说,孟德尔的实验得出,黄色种子的基因对绿色种子的基因(二者是等位基因)是显性的,因为当用黄色种子的纯种植株与绿色种子的纯种植株进行杂交时,产生的子代的种子都表现为黄色。

我们可以借助一些符号来阐明这些观点。比如用Y来表示黄色豌豆等位基因,用y来表示绿色豌豆等位基因(这是基础遗传学中的惯例:用大写字母来表示一个特定性状的显性等位基因,用该字母的小写形式来表示该性状的隐性等位基因)。纯合(纯种)的黄色豌豆和绿色豌豆分别标记为YY和yy。其配子分别是Y和y。当它们杂交后,其子代基因型一定是Yy,因为黄色是显性的(即Y是显性基因),因而上述子代全部为黄色豌豆。现在我们使上述杂合的子代进行交配,由于杂合系(Yy)植物的配子Y和y的随机分配性,因此其子代基因型将是YY,Yy,yY和yy。只有最后一个即yy表现为绿色豌豆(因为在Yy和yY中,Y对于y是显性的),所以得到的豌豆中黄色和绿色的比率是3:1,正如孟德尔所观察到的那样。他把这种简单的研究思路也推广到了对其他单一性状或复合性状(两个性状,例如绿色且矮秆的豌豆与黄色且高秆的豌豆)的研究中,并且发现各种情况下得出的结果与预期比率是一致的。(在这里,费舍尔根据统计学方法对孟德尔的结果提出了批评,因为上述比率很可能因掺杂有主观因素而变得不太准确,结果的离散性也值得怀疑——比如在确定表面有细微皱缩的豌豆应该归为光滑还是皱缩中可能做了有倾向性的选择)。

需要说明的是,并非所有的遗传现象都符合孟德尔遗传定律,以及由此产生的简单的统计比率。也许历史上最糟糕的“专家”建议就是德国慕尼黑大学的植物学家内格里给孟德尔提出的建议。事实上,内格里在没有弄明白孟德尔的实验结果及其意义的情况下,就仓促建议他停下手头的豌豆杂交实验,转而研究山柳菊(Hieracium)。但是山柳菊是孤雌生殖(即无性生殖)的,因此几乎无法重复豌豆实验所得出的孟德尔定律。而孟德尔当时肯定感到十分沮丧,因为他的山柳菊杂交实验根本看不到前景,也无法证明他在豌豆中发现的遗传定律。同时他对自己随后以菜豆为实验材料所得出的结果也感到非常沮丧,因为与豌豆(一个基因控制一个性状)不同的是,菜豆的表现型中的单个性状往往是由多个基因共同控制的,因此孟德尔估计,他先前在豌豆杂交实验中所得到的简单的性状比率很可能被掩盖了。

并非所有的有性遗传都遵守孟德尔法则,这其中有更多微妙的原因,因为有些基因与其他一些基因有连锁效应(相互影响而不是相互独立),因而某些性状对应的遗传并不是随机的。另外,很多基因具有功能多态性,这表现在它们能够控制表型中的多个性状,所以对于一个有机体来说,其外部特征(表现型)与其自身基因(基因型)往往不是一一对应的。例如,作为遗传学研究中的主角之一——果蝇中的某个基因突变会导致其复眼和肾脏(即马尔皮基微管)中色素沉着缺乏。而在果蝇的另一个突变中,不仅其翅膀向外侧伸展,而且其背部也缺少特定的被毛。甚至连简单明了的孟德尔遗传统计学意义也常常被一些副效应所掩盖。例如,马思岛猫带有一个叫t的基因,在基51因型为Tt的猫中它会阻碍脊髓的发育并造成常见的无尾表现型。当基因型为tt时,这种双份的等位基因可造成幼猫夭折或胚胎死亡。因此,基因型均为Tt的猫交配所产生的子代中,其表现型比为(TT):(Tt+tT)=1:2,而不是预期的1:3。

孟德尔的重要发现在沉寂了35年后终于重见天日,并像我们前面提到的那样,虽然其间有过坎坷,最终人们还是不情愿地承认了孟德尔在遗传学上的地位。但是即使在孟德尔的重要发现“沉睡”的时候,生物学也没有闲着,它沿着另外一条轨迹在前进,并注定要与孟德尔的遗传理论相汇合。

值得一提的是德国生物学家海克尔(1834-1919),他创造了“ 种系发育 ”这个词用来指代一个物种的进化历史,他也提出了“胚胎重演律”(phylogeny recapitulates ontology,其中ontology这里引申为个体的发育),其主要内涵为:胚胎在母体子宫中发育,会重现该物种的进化过程(二者有很大的类似),只不过较之物种进化过程速度要快得多。海克尔还提出了政治是生物学规律在人类社会中的应用(优胜劣汰)的论断,而在他去世20年后,这个论断终于应验了 。海克尔的论断中与现代生物学联系比较紧密的是,1868年他提出了细胞核中包含有能够控制生物遗传的信息。随后在1882年,德国胚胎学家沃尔特·弗莱明发现蝾螈幼虫的细胞核内存在一种能够被特定染料着色的呈杆状的物质,从而将海克尔的上述设想又推进了一步。在此基础上,德国生物学家瓦尔德尔于1889年将这种物质命名为染色体(“可以着色的实体”)

细胞核内的染色体数目很难统计,因为大部分时间里它们是以染色质纤维的形式纠集在一起,并散布于整个细胞核内的。直到细胞开始分裂的时候,即染色体需要复制并分配的时候,上述染色质纤维才凝聚成棒状小体的形式(染色体)。大多数我们认为低等动物的染色体数都少于人类,当然植物更是如此(无论高等或低等)。比如人类每个体细胞含有23对染色体,而家鼠只有20对。但是也有许多“另类”,比如西红柿有22对染色体,更不可思议的是,马铃薯竟然有24对染色体(注意:已经超过人类了)。事实上,由于染色体数目的不易确定性,之前很长一段时间,人们认为人类的染色体数和黑猩猩一样多(均为24对)。只有我们先收起自己的那份作为“人”的自满情绪,并承认染色体数目与物种的高低贵贱并没有必然的联系,我们才能够心平气和地接受这个现实,即人类实际上“只有”23对染色体。

在世纪之交(19世纪和20世纪),生物学家们终于意识到染色体是遗传的工具,而将染色体理论与孟德尔遗传理论统一起来的关键人物就是沃尔特·瑟顿(1877-1916)。瑟顿当时是纽约哥伦比亚大学的研究生,在研究一种蝗虫(具体地说,瑟顿研究的是一种活跃于美国西部及墨西哥平原地区的笨拙的蝗虫,即笨蝗。它的细胞较大,其中的染色体清晰可见)的精液时发现,原先成对的染色体确实会发生分离现象,从而分别进入两个不同的细胞。瑟顿的这一发现通常被冠名为瑟顿—波弗利染色体学说,因为德国生物学家波弗利(1862-1915)对海胆卵进行了研究,并在1904年宣称,他与瑟顿几乎同时发表这一学说。波弗利确实在一些核心思想的产生中作出过贡献(与其朋友一道),但是最重要的是,他得到了志同道合朋友的强有力的支持。

现在我们可以推断出瑟顿所研究的染色体其实正是孟德尔所提到的那种“基本单位”(基因)的载体,因此一种新科学就呼之欲出了。在1905年写给剑桥大学动物学家亚当·萨齐维克的一封信中,略微有些古怪的威廉·贝特森提出了“遗传学”这个词,并在1906年召开的第3届国际杂交会议上公之于众。贝特森的颇费周折(将“遗传学”公之于众),或许从另一个角度也说明在这一百年间科学家与公众的对话已经有了很大的进步,我们从贝特森的言论中可见一斑。

“遗传学”这一名词充分表明,我们的辛勤劳动都已投入到了揭示生物遗传和变异现象背后的机制中:换句话说,都投入到了对生物生理性状和功能的延续的研究中去了,而这种研究对进化学家和系统学家所关心的各种理论问题的探究,会产生潜在的影响,而对于动物或植物杂交学家来说,遗传理论能够指导其进行实践。

在进一步深入到遗传学内部去探讨生物遗传的机理之前,我们首先需要了解有丝分裂和减数分裂这两个重要的细胞事件及其机制。前者关乎体细胞(构成身体的普通细胞)的分裂,而后者则关乎配子(动物中称为精子和卵子,存在于生殖器官中;植物中称为花粉和胚珠,分别存在于花药和子房中)的形成。减数分裂过程的复杂性是导致有性生殖的进化以及为什么必须付出如此巨大的进化代价(即适应的过程是有代价的,参看第1章)等问题难以理解的诸多原因之一。再者,随着自然界的进化达到一定层次,减数分裂——这个比有丝分裂要求更高,也更严谨——就在一个适当的时候在适当的地方应运而生了。本书并不是生物教科书,因此我只将有丝分裂和减数分裂的过程分别做简单的概述,以使读者对其具体过程有一个大致的了解,以便更好地理解后面的内容。

我们首先来探讨有丝分裂,即体细胞的复制过程。每个细胞都有一个循环的生命周期,而在每个周期内,细胞只有不到10%的时间在进行有丝分裂。但是,其他90%的时间也是相当重要的。因为在此期间,细胞并没有闲着,它在忙碌地准备有丝分裂活动中用到的多种原料。在这个看似静态,但实际上却是忙碌且多产的时期内,我们每个体细胞内的23对染色体被拉伸成染色质纤维(呈长丝状),并且十分混乱地散布于细胞核内。当有丝分裂启动后,原先的染色质纤维经卷曲而缩短变粗,以使其更容易地在细胞核内自由移动。在此过程中,每条染色体均发生复制从而成为一对染色体。其中每条染色体都包含两条相同的呈棒状的染色单体,它们交汇于着丝粒,因此看起来像一个拉长的X形。随后,核膜逐渐消失,因此核内物质与其“原来的”外环境(由核膜阻隔),即细胞质——它介于细胞膜和细胞核之间,呈溶胶态,其中包含有大量的细胞组成物和功能实体——发生融合。然后染色体中的两条染色单体,由原来所处的细胞中央分别被纺锤丝拉向相反的两端,随后在两组染色体中间又形成新的细胞膜(我们这里仅以分开的染色单体为例),这时两个细胞的雏形已经形成。随后每个雏形细胞中的核膜开始形成,染色体又重新伸展开来成为染色质纤维,至此原来的一个细胞就分裂得到了现在的两个新细胞。

图2-2 有丝分裂的过程就是一个体细胞分裂成两个与之完全相同的子代细胞的过程。最初的时候染色体在细胞核(图中所显示的里面的球状物)中呈伸展的状态。分裂开始后,染色体经卷曲、复制而形成伸长的X形(这里只展示了两条染色体,在人类体细胞中总共有23对染色体),每条染色体包含2条交汇于着丝粒的染色单体。染色体排列于中央平面上,核膜消失,染色单体分离并被拉向两端,进入细胞质中。在这里核膜重新形成且细胞膜开始闭合并包裹各自的细胞核。最终染色体重新伸展,由原来的一个细胞分裂为两个相同的二倍体细胞(具有成对染色体的细胞)

现在来看减数分裂,即形成生殖配子的过程。减数分裂过程要比有丝分裂更复杂一些,在此过程中一个细胞将会分裂产生四个同样的细胞,且每个细胞仅含有分裂前细胞染色体数目的一半(即23条染色体,而不是原来的46条)。这个过程有些复杂,所以我们应跟着图2-3中的步骤去仔细探究一番。为方便起见,图中仅以一对染色体为例。最初的时候,染色质纤维互相缠绕在一起并充满整个细胞核,但当减数分裂开始后,这些染色质丝就解开这种纠缠状态并收缩成短粗的状态。在这个时段里,我们可以在显微镜下清楚地看到每个染色体都发生了复制,从而包含有两条染色单体。它们交汇于着丝粒且整体类似于伸长的X形,这一过程与有丝分裂相似。但是下面的过程就不太相同了。首先,来自父本的染色单体对(包含两条姐妹染色单体,母本也与此类似)与来自母本的染色单体对(这两个染色单体对称为同源染色体)发生配对,并拉伸形成类似于拉链两边的样式。每条染色体的末端,即被称作端粒的部分(即“远端的部分”)连在核膜上,这种锚定方式可能有利于同源染色体中的一个找到对方并发生配对。接下来,配对的两条染色体中的非姐妹染色单体(一个来自父本,一个来自母本)发生交叉,即染色体交换,从而使得父本和母本的遗传信息进行交流。因此,这一瞬间也意味着遗传变异在有机体中发生了。

图2-3 减数分裂就是单倍体配子形成的过程。其原则就是将一个二倍体细胞分裂为4个单倍体细胞(每个细胞只有原来数目减半的染色体),以便将来自亲本的遗传物质进行融合。这里我们仅画出了亲代细胞中的一对染色体。最初,染色体在细胞核里分散存在,当减数分裂开始后,其经卷曲、复制而产生两对连接在一起的染色单体,就像有丝分裂那样。然后来自父本和母本的两条染色体进行配对,并且交换染色体上携带的一部分遗传物质。之后上述配对染色体排列在细胞中央平面上,在这里发生第1次减数分裂(没有详细画出),并产生两个细胞,每个含有两条染色体(数目并未改变)。接下来在第2次减数分裂中,上述每个细胞核里的两条染色体又分离开来,最终产生4个单倍体细胞,每个细胞含有一条由亲本中两条染色体经遗传物质交换后的染色体(数目减半)。所谓繁殖,如果从概念上而不是从其机制上讲,就是减数分裂的逆过程,也即来自父本和母本的单倍体染色体配子进行结合的过程

当有机体生命进程中的这一实实在在的关键使命——染色体交换过程——完成后,两对杂交的染色单体由原来所处的细胞中央分别被纺锤丝拉向相反的两端,就像有丝分裂那样,形成两个细胞,每个细胞中包含有一对染色单体。如图2-3中所示的“第一次有丝分裂”。然后,在“第二次有丝分裂”中,每个细胞中的两条染色单体分别被拉向两端,并最终分别进入到新分裂形成的两个细胞中。因此经减数分裂后,一个细胞会分裂形成4个细胞,而原先从父本和母本得到的遗传信息也被分配进入分裂后产生的4个细胞内。其中有的细胞中的染色体可能携带显性基因,而有的细胞中的染色体则携带隐性基因,如豌豆黄色种子的显性等位基因(用Y表示)和绿色种子的隐性等位基因(用y表示)。在这里,孟德尔将简单的数学统计运用于他的实验观察中,得出了重要定律,并为现代遗传学的发展奠定了基础。注意科学的另一面:它可能具有高度的复杂性,比如这里的细胞生物学,但它也可能蕴藏在一种简单的、建立在数学统计基础上的实验观察中。

现在是该解开包裹在染色体上的层层面纱的时候了。遗传的真正实体是什么?遗传信息的真正化身又是什么?

在19世纪,一种认为化学物质编码遗传信息的思想应运而生,但它到底是哪种物质呢?大约在1902年前后,人们认识到蛋白质是由大约20种氨基酸(当然并不是每种蛋白质都悉数包含这20种氨基酸——译者注)以特定的顺序组成的长纤维状分子(通常卷曲折叠成球状),并推断蛋白质能够编码遗传信息,氨基酸不同的排列顺序能够将不同的遗传信息由上一代传给下一代。从那以后,人们对于这个思想的正确性充满热情的期待。但是不可否认的是,细胞核内还存在着另一种被称为“核酸”(之所以称为核酸,主要为了强调它存在于细胞“核”内)的令人迷惑不解的大分子,并且它也是由另外一些基本单位(不是氨基酸)以特定的顺序组成的长链状分子,关于它的组成我们将在后面介绍。这些核酸分子一度被认为是令人厌烦的,且结构太简单而不可能传递染色体所携带的海量遗传信息。人们普遍认为它们只不过起着维系细胞结构的作用,类似于植物中的纤维素。

但是,这一观点在1944年被艾弗里推翻了。奥斯瓦尔德·艾弗里(1877-1955),英国移民的后代,出生于加拿大的诺瓦斯克夏省,他既是一个短号演奏家又是一个生化学家,其所有研究工作都是在美国完成的。艾弗里研究了在肺炎病人和健康人口腔中发现的许多种不同类型的肺炎球菌。自从1923年以后,人们已经得知肺炎双球菌(能够引起肺炎的一种细菌)可以衍生出多种变异体:表面比较粗糙的非致病菌和表面比较光滑的致病菌。弗雷德里克·格里菲斯(1879-1941)曾在英国伦敦卫生部工作,他在研究肺炎双球菌时发现,上述表面粗糙的菌株和表面光滑的菌株二者之间可以相互转化。1930年,艾弗里及其同事在此基础上继续探究这种相互转化的机理,并且在不久以后发现,细菌之间相互转化的实现依赖于细菌细胞中的一种物质的存在,且这种作为转化效应物的“转化要素”可以被分离出来。随后艾弗里将主要精力集中于确定该“转化要素”的化学本质上。他发56现蛋白酶 对这种“转化要素”不起作用,因此这就说明它不是一种蛋白质。他还发现脂肪酶(专门裂解脂肪的酶类,而脂肪是构成细菌细胞壁的重要物质)对它也不起作用,因此断定它也不是脂类物质。在已经确定出了这种“转化要素”不是什么(既不是蛋白质也不是脂肪)的情况下,艾弗里紧接着又做了一系列实验,并最终得出结论:这种所谓的“转化要素”实际上就是我们前面提到过的那种“令人厌烦”的核酸。至此,整个局面彻底改观了(核酸是遗传信息携带者),而就像克拉克·肯特变身为超人一样,核酸的地位也逐渐被人们抬升到了一个之前从未有过的高度,并一度成为世界上最炙手可热和最重要的生物分子。

但是并不是每个人都心服口服。有些执著于遗传本质的蛋白质学说的科学家则坚持认为遗传信息的载体就是蛋白质,只不过这种蛋白质未被检测出来,且与核酸结合在一起。但是这一观点在随后几年内被彻底抛弃了。1952年,阿尔弗雷德·赫尔希(1908-1997)和他的实验助理马萨·切斯共同报道了他们用噬菌体(是一种专门侵染细菌的病毒)做的实验所得出的结果。他们注意到核酸含有磷元素,而蛋白质中却不存在。类似地,蛋白质中含有硫元素,而核酸中却没有。以此为依据,他们应用放射性同位素示踪法去追踪代谢后磷元素和硫元素的下落,从而达到追踪核酸和蛋白质的目的。随后他们发现,在噬菌体侵染细菌的过程中,只有噬菌体的核酸,而不是它的蛋白质进入到细菌细胞内。这一重要发现使所有人都相信了核酸编码遗传信息这一确凿事实。

与此同时,人们在解析一种特殊的核酸—— 脱氧核糖核酸 (DNA)的结构方面也取得了很大进展。1868年,瑞士医生弗雷德里希·米歇尔在对采自德国图宾根城的伤员被脓液浸透的绷带上的细胞进行分析后,发现了“核素”,即一种包含DNA的复合物。脓液中往往集聚着大量的对抗外部细菌感染的白细胞,而白细胞和哺乳动物的红细胞一样,都是没有细胞核的,因此比较容易从中分离到核酸物质。

图2-4 脱氧核糖核酸(DNA)的结构。通过对组成DNA的各个部分进行解析,我们可以更好地理解这个复杂分子的结构特点。左上图显示的是核糖的结构。它包含一个由4个碳原子(用C表示)和1个氧原子(用O表示)组成的环状结构,其他原子或基团连接在环中特定原子上。现在假如将连接在环中的一个碳原子(即图中箭头1指示的那个碳原子)上的氧原子去掉,那么核糖就转变成了脱氧核糖,在其另一端则连接有一个磷酸基团。现在来想一个碱基(请详细参看图2-5,此处仅用象征性的小圆环表示)连在脱氧核糖环中的其中一个特定碳原子上(图中箭头2指示的那个碳原子),而一个磷酸基团连接在该脱氧核糖环中的另一个碳原子上(图中箭头3指示的那个碳原子),这样就形成了如右图所示的那种长链,即DNA链

为了便于理解后面的内容,我们需要知道一些DNA(脱氧核糖核酸)化学组成的知识。也许将其全名拆开有助于理解,即脱氧—核糖—核酸。整个DNA分子犹如一条长链,而其他基团则连在这条长链上且有规律地排列着。这条长链本身是由脱氧核糖分子和磷酸基团交替排列构成,脱氧核糖分子是核糖中的一个氧原子被去掉(因此DNA的全名中有“脱氧—核糖”)后得到的,而核糖与葡萄糖具有“近亲”关系。从图2-4中我们可以看到,脱氧核糖中含有一个由4个碳原子和1个氧原子组成的简单的环状结构主体,其他原子或基团又连在这个环上的特定原子上。连接在脱氧核糖环上的磷酸基团含有一个与4个氧原子结合的磷原子(回忆一下前面提到过的赫尔希的放射性同位素示踪实验)。DNA骨架就是由成百上千个磷酸基团和脱氧核糖交替排列而成的类似于珍珠串的长链状结构。

图2-5 这4种碱基组成了遗传密码文字。腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)(图中未标记的浅灰色的稍小一点的代表氢原子。)图中箭头所示的是DNA中核糖分子能够形成化学键的氮原子

这就是DNA骨架,与脱氧核糖环连接的另外一种分子称为 碱基 。其中的“碱”是有专业来由的,因为在化学中,碱指的就是能够与酸发生反应的化合物。对于碱基来说,它的“碱”性则来源于其中存在的氮原子,这也是化学中碱类物质的普遍特征。DNA中包含4种碱基,即腺嘌呤(用其英文名首字母大写A表示,以下同)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)。这些分子的结构有很大相似性,从图2-5中看出,这4种碱基可以分为两组。腺嘌呤和鸟嘌呤的形状相似,都是由碳原子和氮原子形成双环结构,它是一大类称为“嘌呤”的化合物分子的共同特征。与之不同的是,胞嘧啶和胸腺嘧啶只有一个由碳原子和氮原子形成的环状结构,它是一大类称为“嘧啶”的化合物分子的共同特征。由此可以想到DNA分子就是由这4种碱基以看似随机的方式连接在DNA骨架(由脱氧核糖和磷酸基团交替排列延伸而成)中的脱氧核糖分子上而形成。可能现在你也有同感:DNA确实是令人厌烦的。

当DNA被确定为遗传物质以后,人们怀着极大的热情渴望去解析它的精细结构,埃尔文·查戈夫(1905—)便是其中一位关键人物。查戈夫出生在乌克兰西部的切尔诺夫策地区(后并入奥地利并改名为切尔诺维兹),之后移民到美国并在纽约哥伦比亚大学工作,正是他的重要发现使得DNA结构本质开始从层层迷雾中初露端倪。1950年,查戈夫运用新的实验方法“纸色谱法”(能够将理化性质相近的化学物质进行分离,并顺着一条纸带进行洗脱后可以确定每种物质的含量)发现,腺嘌呤和胸腺嘧啶的数量是相同的,而鸟嘌呤和胞嘧啶的数量也是相同的,这与DNA取自哪种生物组织没有任何关系。

上述结论表明,腺嘌呤总是与胸腺嘧啶配对,而鸟嘌呤则总是和胞嘧啶配对。查戈夫发现,上述每种类型碱基对(如A-T和G-C)数量在总碱基对数量中所占比例虽然因物种而异,但是对于同一个体的不同细胞来说,上述比例却是相同的。这一发现说明,生物体内的DNA是多种多样的,不同的生物其DNA组成也是不同的,就像我们每个人都有自己的不同于他人的思想一样。查戈夫还发现,无论他的实验材料——DNA——取自何种生物组织,其中的嘌呤(即双环的腺嘌呤和鸟嘌呤)总量总是与嘧啶(即单环的胞嘧啶和胸腺嘧啶)总量保持一致。所有这些信息对于认识DNA的结构都是十分重要的,且足以让人们最终可以完整解析DNA分子结构,这是后话。

最终揭开DNA结构真面目的关键人物是以下4位科学家,其中伦敦大学国王学院的莫里斯·威尔金斯(1916-2004)和罗莎琳德·富兰克林(1920-1958)通过X射线衍射法揭示了DNA结构的重要信息;而剑桥大学的弗朗西斯·克里克(1916-2004)和詹姆斯·沃森(1928—,生于芝加哥)则利用这些信息建构了DNA的双螺旋模型。但是,就像我们被无数次告知的那样,DNA结构发现的这段历史其实也充斥着一些不和谐音符,比如弄虚作假、敌对情绪、实用原则以及悲剧色彩等一些甚至无法想象的事情。因此,这个被誉为20世纪最重要的、并且赢得无数人喝彩的科学发现历程或许并不像人们所想的那样完美。

其中的悲剧人物当然就是富兰克林,她因为长年受到研究中使用的X射线的辐射而罹患卵巢癌,去世时年仅38岁 。富兰克林的生命历程充分体现了:如果不以生命为代价,则无法昭示生命的奥秘。尽管富兰克林的经历具有吸引力且值得同情,但是如果将其从悲剧人物提升到悲剧女英雄的高度,并且在这部DNA结构发现的“大戏”中担任核心角色的话,这显然是不合适的。事实上,这个十分反映人性本质的故事的真相似乎是如下将要述及的那样。以现在的观点来看,与20世纪中叶英国的强大的社会经济背景相对立的是,男性对女性的态度显然处在一种“不发达”状态。

威尔金斯当时在伦敦大学国王学院主要从事DNA的研究,其所在实验室的主任,也是威尔金斯的导师——兰德尔,出于建立X射线技术平台的考虑,而将富兰克林招至麾下,以引进她的高超的X射线晶体专业技能。富兰克林曾在巴黎一个实验室用X射线衍射法研究煤的微结构,从而练就了这方面的技能。同时她也热切渴望利用这种技术转而去做一些有生命的东西,而不是整天面对这种毫无生气的化石(指煤)。至于她是否能适应这种转变则不得而知,因为当时的国王学院规定女性不允许进入公共休息室 。富兰克林被兰德尔教授聘请到国王学院做研究一事,起初威尔金斯并不知情,因为他那时刚好外出,等他回到国王学院的时候,他对富兰克林在实验室的角色定位存在疑惑,而这也导致他们之间矛盾的产生。很快,二人之间的关系变得十分微妙,并最终导致他们各立门户。但是有一点相同的是,他们都在研究DNA的结构,并且不久以后就都获得了效果很好的DNA纤维X射线衍射图。在这之前,威尔金斯曾在意大利那不勒斯召开的学术会议上遇到了年轻的美国生物学家詹姆斯·沃森,并且给沃森看了他拍摄的DNA晶体衍射图片。而这也激发了沃森去破解DNA结构的信心。于是在1951年9月,沃森来到剑桥大学并在由劳伦斯·布莱格爵士(X射线晶体学的鼻祖之一)领导的实验室学习X射线晶体衍射技术。在这里,他结识了刚刚获得博士学位的弗朗西斯·克里克。

1951年11月,同为研究DNA结构的两股急流,终于不可避免地汇合了,并碰撞出了火花。其中以富兰克林和威尔金斯为代表的一方小心求证,但缺乏信心(或可理解为极度耐心)去提出独特见解,而以沃森和克里克为代表的另一方则大胆假设但却苦于缺乏实验证据(或缺乏耐心)。当时沃森去伦敦聆听了富兰克林的工作介绍,之后他匆忙赶回剑桥,并按照其从富兰克林那里得到的数据,和克里克一道创建了一个DNA结构模型,并邀请国王学院的同行前来参观。建立模型——当时是用铁丝和铁片制成的真正的实体模型——在当时来说是阐释蛋白质结构的一个行之有效的手段,因此沃森和克里克也跟随当时的潮流构建了DNA模型。但是国王学院的同行们却当即否定了这个模型,因为这个模型与他们得到的数据不相统一。他们同时也否定了这个实际上富有成效的——后来证明确实如此——模型构建方法。而就在此时,布莱格命令沃森和克里克立即停止手头的DNA结构研究工作,把它留给国王学院的研究组,因为这是他们的课题。从那时起,人们对科学研究中的所有权(领域划分)的态度以及对女性科学家的态度开始发生转变,也许接下来的事情是前一种态度发生变化的转折点。

1952年,沃森和克里克得知莱纳斯·鲍林也在试图解析DNA结构,实际上鲍林之前在蛋白质的结构解析方面可谓是功勋卓著,而对于鲍林转行研究DNA,布莱格的命令(即上述布莱格命令沃森和克里克立即停止DNA结构研究工作)不起作用。沃森和克里克在思索:既然鲍林也在做这项工作,那么就意味着国王学院的研究组已将这个难题泄漏出去了,而他们也与别人有同等权利去从事这项研究工作。紧接着一些不太光彩的事情发生了。正在这个关节点上,威尔金斯在未得到富兰克林同意的情况下就给沃森看了她的X射线DNA晶体衍射照片(图2-6),而马克斯·佩鲁茨也给沃森和克里克出示了富兰克林写给英国医学研究委员会的信函,即其最新实验数据尚未公开出版的研究报告。至此,沃森和克里克已经获得了一些可以确定DNA这种螺旋状分子的尺寸大小的关键数据,然后按照这些数据对之前建立的DNA模型进行了一些调整。仅仅数周之内,他们就成功地建立了新模型,并将其展示给了威尔金斯,他也认可了这个模型。1953年4月25日,《自然》杂志发表了DNA双螺旋模型论文,而有意思的是,这篇论文是一个三重唱,一方是沃森和克里克,一方是威尔金斯领导的研究组,还有一方就是富兰克林领导的研究组。实际上,正是后两方为沃森和克里克的设想提供了强有力的实验证据支持。因此,1953年4月25日这一天也标志着现代分子生物学诞生了。

图2-6 罗莎琳德·富兰克林获得的X射线晶体衍射图样是揭示DNA的精细结构的相当重要的证据。它证实了DNA分子具有双螺旋结构,而根据图片中的详细信息我们能够确定螺旋的尺寸大小

图2-7 DNA双螺旋结构。DNA分子中的两条核苷酸链经互相缠绕而形成双螺旋结构,螺旋中间有小沟和大沟(两股螺旋向内凹进去比较浅的叫作小沟,较深的叫作大沟——译者注)。这两条链依靠碱基之间形成的氢键连在一起,图中用长棒表示嘌呤碱(A和G),短棒表示嘧啶碱(C和T)。碱基配对方式总是A……T,G……C

DNA分子的结构就是久负盛名的且具有象征性的右手双螺旋样式,由其包含的两条长链经互相盘绕而成(图2-7),十分类似于梵蒂冈博物馆公共入口处旋转楼梯的样式 。DNA分子中的关键要素就是其中一条链上的碱基与另一条链上的碱基进行配对,这意味着腺嘌呤(A)总是和胸腺嘧啶(T)配对(用A……T来表示),鸟嘌呤(G)总是和胞嘧啶(C)配对(用G……C来表示)。这种配对方式也佐证了查戈夫在其所研究的DNA实验样品中发现的现象,即腺嘌呤的数量和胸腺嘧啶的数量相同,而鸟嘌呤的数量和胞嘧啶的数量相同。你可能还会发现,尺寸相对较小的嘌呤分子(腺嘌呤与鸟嘌呤两者比较)总是和尺寸相对较大的嘧啶分子配对(即A和T,G和C分别配对),因为这样一来DNA双螺旋结构才能比较均衡:两个较大的嘌呤分子会凸出,而两个较小的嘧啶分子则会凹进去。这种配对原则佐证了查戈夫的另一发现,即DNA样品中嘌呤总量(A+G)与嘧啶总量(T+C)是相等的。

图2-8 正是碱基之间的配对使得DNA的两条链连在一起,从而形成双螺旋结构。图中用直线代表碱基分子间形成的氢键。因嘌呤和嘧啶之间进行配对,因此总体来说,A……T和G……C的体积几乎相同,从而使得DNA双螺旋结构保持均衡

DNA两条核苷酸链是由碱基之间形成一种非常特别的被称为氢键的化学键而连接在一起的。之所以说氢键特别,并非意味着它不是常见的化学键,因为海洋里的每个水分子都是通过氢键与邻近的水分子连接在一起,因此仅仅在海洋里就有大约10 44 个氢键,再加上其他地方的氢键那就更是不计其数了。氢键的特别之处在于其特殊的成键方式:它只有在一些特定类型的原子间才能形成,其中包括氧原子和氮原子。为形成氢键,那么就必然需要一个氢原子(它本身体积较小,所以才能担当此类任务)夹在两个其他类型原子之间并扮演黏合剂的角色,从而使另外两个原子联系起来。理解DNA双螺旋结构的一个关键点在于——参看图2-8——胸腺嘧啶分子和腺嘌呤分子的空间构象很合理,因此氮原子、氧原子和氢原子可以很舒适地在这两个环状分子之间形成两个氢键。同理,胞嘧啶和鸟嘌呤之间配对也很合理,所不同的是,他们之间形成了3个氢键。实际上,氢键要比那些能将原子联系起来并形成稳定分子的普通化学键要弱得多,这也意味着DNA双螺旋的两条链能够很容易地分开,但却能使每条链的骨架保持完好无损的状态,这就像水可以由液态蒸发成气态,但却并不破坏水分子一样。

通过沃森和克里克的一些自信的言论,我们可以得知为什么他们能够总结出那篇虽然简短但具有里程碑意义(预示性的)的论文。

“不出所料,我们设想的那种特殊的碱基配对方式对于认识遗传信息的复制机制具有重要的指示意义。”

确实,他们的模型巧妙地解释了DNA复制的机制问题,这也是该模型很快被人们接受的一个重要原因,尽管实际上直到20世纪70年代末DNA分子结构的详细而严谨的信息才被破解。为了更好地理解这个诱人的且令人佩服的伟大创想(DNA复制机制)的发端,现在我们假设DNA两条链上的碱基采取如下排列顺序:

……ACCAGTAGGTCA……

……TGGTCATCCAGT……

其中处于上方的那条链中第一个A通过氢键与处于下方的那条链中第一个T连接起来,同样的C与G也连接起来,依此类推。接下来,我们假定这两条链分离开来,即:

……ACCAGTAGGTCA……和……TGGTCATCCAGT……

现在假定细胞内有多余的碱基分子供给,那么这些游离的碱基将结合到上述分开的单链上,而该单链则相当于一个模板,从而根据碱基互补配对原则而合成一条新链,如下所示:

现在我们就有两个相同的DNA双螺旋链,而最初我们仅有一个,这就是DNA的复制!

至此,我们就可以比较容易地将DNA的复制与在前面章节中遇到过的染色体复制联系起来,我们所应做的就是把染色体想象成DNA链。那么有丝分裂简单来说——是否简单,还需验证——就相当于DNA双螺旋的复制。

现在我们来说这个“简单”的问题。首先,一个摆在面前的难题就是DNA分子是很长的——如果人类细胞中的单倍数目的染色体(23条,其中每条染色体上含有一个DNA分子)上的DNA分子完全伸展并相接起来的话,那么这个长度将会达到1米左右——但是令人惊奇的是,这么长的DNA分子竟然能够盘踞在小小的细胞核内!由于染色体是成对存在的,且人体内大约有上百万亿个细胞,因此人体中所有DNA合起来的总长度是十分惊人的。我们在前面讲到,大约需要200个细胞才能将字母“i”上面的小点覆盖住,而这200个细胞中的DNA总长度将达到400米左右!为了能够在细胞核中盘踞,DNA双螺旋分子选择了缠绕在扮演着类似纺织机“纱锭”角色的一种叫作组蛋白的蛋白质分子簇上,而这些组蛋白也会互相缠绕。染色体围绕自身不断发生卷曲,甚至是超卷曲,这种卷曲的松紧程度将决定染色体是紧缩成束状——就像其在有丝分裂期间的状态,还是散布于整个细胞核——就像其在有丝分裂间歇期的状态(图2-9)。

图2-9 在塞进细胞核的过程中,DNA双螺旋经历了许多次卷曲和超卷曲。这幅图描述了一些细节。在最底端我们看到的是DNA双螺旋的本来面目,随后,DNA围绕着组蛋白(用球体表示,见图中)不断地进行盘旋卷曲,从而形成高度超卷曲的分子集团,最终形成了最上面所示的染色体

人体内大约有30亿个碱基对,而一些小型病毒大约只有5000个。我们可能又会骄傲于我们身体的复杂性,但是且慢,那些不起眼的蝾螈的基因组中竟然也含有20亿个碱基对,这着实又令我们陷入了痛苦的思索中。我们可以声称“很多DNA是毫无用处的”,从而像蝾螈扭动那样避开这个窘境。但是,可能蝾螈的很多DNA确实是冗余的,或许在最近一个阶段的进化中,它的细胞内又产生出了一套染色体(变成了像人类一样的“二倍体”),而其原来细胞中仅有一套染色体(即像生殖细胞一样的“单倍体”)。

DNA分子上储存着能够代代相传的遗传信息,并且正是这些信息使得有机体得以生存和延续。那么现在的问题就浮出水面了:这种遗传信息的本质是什么,它是怎样编码,又是怎样被翻译的?

活的有机体中各种各样的蛋白质扮演着与蜂箱中的工蜂类似的角色。有的蛋白质与生物的组织结构相关,比如存在于肌肉、软骨、蹄(如马、牛、羊等)、爪子和头发中的蛋白质;有的蛋白质与机体的生理功能相关,比如血红蛋白(存在于红细胞中)和控制机体代谢反应以使机体保持活力的数不清的酶类。制造出各种各样的蛋白质是遗传过程中的关键步骤,所以我们可以自信地宣称,DNA是制造蛋白质的一张设计图纸或一份食谱。实验证明,DNA的突变将导致蛋白质的异化,这也印证了我们的上述宣称。但是大多数情况下,DNA的突变将导致蛋白质功能异常,当然疾病也会伴随而来。个别情况下,DNA的突变是有益的,其产生的“疾病”(即与原来的功能不同)反而成了另一种方式的进化。

前面我们提到,所有蛋白质都是由一些被称为“氨基酸”的小分子连接而成的长链,图2-10中给出了氨基酸分子的基本构造。更专业地讲,我们应将蛋白质称为“多肽”,一些典型蛋白质就是包含100个左右氨基酸单位(而有的结构蛋白包含上千个氨基酸)的多肽。人体内总共大约有3万种的蛋白质参与机体功能的执行,但是种类如此繁多的蛋白质却仅由20种不同的氨基酸组合而成,因此DNA分子必须指导这些氨基酸以特定的序列连接起来以产生不同的蛋白质。顺便说一下,这种由20种氨基酸“独霸天下”的局面或许还有改进的空间,因为自然界中还存在着不计其数的其他类型的氨基酸,如果大自然想拓展它的技能的话(或许它已经在其他星球上完成了这项任务),那么它就会清理出空间让这些已往“不受重用”的氨基酸充分发挥作用。其他星球上的生命也许是由与我们不同的氨基酸组合而成的,因此当我们有朝一日到达那里时,我们必须对所吃的食物多加小心。事实上,大自然已经在地球上开始拓展其技能了,比如非标准的(相对于上述20种氨基酸)第21种氨基酸——硒代半胱氨酸(半胱氨酸分子中的一个硫原子被硒原子取代后的产物)。它是机体内一些酶的重要辅助成分,可以通过对付体内的活性氧自由基而起到保护细胞的作用。如果你恰好是来自中国中部地区的读者,那么你可能会有这方面的隐忧,因为那里的土壤中的硒含量较低,所以你有可能罹患Kashin-Beck综合征,它常表现为肌肉病变。

图2-10 蛋白质是由氨基酸组装起来的,所有氨基酸分子都有如图中左上方所示的那种共同的结构,但不同的氨基酸的差别在于示意结构图中灰色椭圆部分的不同。当两个氨基酸分子相结合时,以上图为例,右边氨基酸分子的—COOH(羧基)中的C(碳)原子连接在左边氨基酸分子中的N(氮)原子上。许多氨基酸分子以这种方式连接起来而形成如图中右下方所示的长链。这条链通常称为多肽链,含有两个氨基酸的多肽即称为二肽,依此类推。图中长链中的浅色平面上的—CONH—基团叫作肽键。氨基酸残基(即两个氨基酸分子形成肽键时要分别脱去一些基团,从而变得不完整,故称为残基)之间就是靠这种肽键连接起来的。这样形成的长链往往会旋转盘绕成螺旋形式,如图中深色背景所展示的血红蛋白片断图,其中的带状物就是多肽链

由于DNA分子包含由核苷酸碱基A、C、G、T组成的序列,因此人们很自然地就联想到这些“字母”能够组成遗传密码“单词”,从而指导氨基酸以特定的排列顺序连接成蛋白质分子。但是,这里仅仅有4个“字母”,而要用它们详尽描述出20种氨基酸,再加上那些指示蛋白质链合成起始和停止的氨基酸的话,很显然,一字母或两字母密码是不可能满足这个要求的,因为前者最多只能编译出4种氨基酸,而后者最多也只能编译出16种氨基酸。三字母密码,比如用ACG代表一种氨基酸,CAT表示另一种氨基酸,依此类推就会编译出4 3 =64种中间氨基酸和起止氨基酸(蛋白质链中),这足以满足上述要求。假定自然就有节约的天性(这就是说,自然有效利用有限的资源以及有效避免不必要的能量消耗均是无意识的),那么我们就可以认为遗传密码是一种三联体,即由3个“字母”编译而成的密码子。但是,我们却不能先入为主地否定一些可能存在的变异的密码,比如有人设想有些氨基酸由2个碱基编码,而另外的氨基酸则由3个碱基编码等可能的方式。然而,大自然实际上并没有采用上述设想中这种参差不齐的方法,而且值得庆幸的是,当时试图破解遗传密码的科研人员们似乎也并未走进那种死胡同。

三联体密码的一个优点就是它允许大自然通过利用多余的密码去编译新类型的氨基酸,从而去拓展自身的本领。实际上这里也已经暗示了这种本领的拓展是怎样通过进化得来的。前面我们已经认识了第21种氨基酸,即硒代半胱氨酸就是自然拓展自身本领的产物:它对应的三联体密码是TGA(TGA同时也是蛋白质合成的终止密码),它根据环境中是否有可利用的硒元素而调整其功能的执行(即识别硒代半胱氨酸)。如果环境中有可利用的硒,那么TGA就会发出指令——“快使用硒代半胱氨酸吧”;而如果没有硒的话,那么TGA就会说——“快停下来,我们没有硒代半胱氨酸,因此无法制造所需的蛋白质”。

遗传密码破译者们确实曾经走进过别的死胡同,而其中也不乏一些奇思妙想,但是这些想法往往是亚里士多德式的“摇椅猜想”,但在关键时刻,科学实验又一次展开营救,它揭示了这一现象,即大自然在面对遗传密码这个问题时,并没有采取最讲究也最具经济性的解决方案(换作人类的话,那结果可能就不一样了)。解读遗传密码是密码破译者的梦想,因为密码的备选符号是如此之少(只有4个),且与我们熟知的用于军事目的的战斗部署毫无关系,而仅仅用来编译出20种氨基酸。当时(1953年)并没有任何相关数据,因为人们对于DNA中的核苷酸的顺序一无所知,对于蛋白质中氨基酸的顺序也仅有粗略的了解:当时弗雷德里克·桑格尔(1918—)几乎已经完成了一种蛋白质——胰岛素的氨基酸测序工作(1955年),但也仅此而已。不过这也给科学家们留下了无限遐想的巨大空间。

俄国物理学家乔治·伽莫夫(1904-1968)就是具有无限遐想能力的科学家,因为他曾经提出了有关宇宙形成的大爆炸理论,并且还修正了化学元素起源的理论。伽莫夫对所有事情都很感兴趣,因此他的注意力很自然地就转移到了当时(20世纪50年代)科学研究的热点——遗传密码上了。不久,伽莫夫就产生了一个聪明的想法:蛋白质是在DNA双螺旋上的沟中的菱形孔洞(类似于钻石的形状)中产生的。上述孔洞是由4个碱基组成的三维结构,其中的两个碱基分别位于菱形最顶端和最底端(顺着DNA链的方向看),另外两个碱基则位于侧面,侧面的一个碱基与位于顶端和底端的那两个碱基都来自同一条DNA链,而侧面的另外一个碱基则来自于DNA的另一条链。尽管这个模型中包含有4个碱基,但它不愧是一个具有创造力的三联体密码模式。因为上述菱形孔洞侧面的两个碱基是互补配对的(像A……T,G……C等),因此只算作一个(因为如果一个碱基是A的话,那么与之配对的只能是T)。接着,伽莫夫又设想,氨基酸平时可能驻扎在适合它们的环境中,而一旦出现合适的酶,这些氨基酸就会被催化而连接起来形成蛋白质。他接着又进行了大胆的猜想,即对上述菱形结构中的碱基来说,无论从水平方向读取三联体密码还是从竖直方向来读取,它们代表的都是同种氨基酸,那么这种规定性就造成了只剩下20种不同密码(原来有64种)的结果,这个数字正好符合伽莫夫的需要(对应20种氨基酸)。但是,正所谓聪明反被聪明误,因为伽莫夫上述想法并没有考虑到蛋白质合成所需的起始密码子和终止密码子(这样一来20种密码子就不够用了)。不过,伽莫夫极大的科学热情使其乐观地认为上述问题肯定是有解的。

伽莫夫提出的上述钻石密码还有另外一个特殊性:这种形式的密码具有重叠性,因为DNA中每一个碱基可能会同时参与形成3个密码子。因此,AGTCTTG这个序列就会包括如下密码子(粗体显示):AGTCTTG、AGTCTTG、AGTCTTG、AGTCTTG、AGTCTTG。这种重叠的密码似乎应该成为自然在进化中的有力备选方案,因为它很高效且很紧凑(节省空间)。但是不巧的是,自然还有其他选择,因为重叠密码的一大弊端是它将很多氨基酸序列排除在外了。例如,假设我们要编码一个二肽,即由两个氨基酸分子形成的很小的蛋白质,一个具体例子就是阿斯巴特甜味剂(商品名为Nutra-Sweet),它是由分子结构发生细微改变的天冬氨酸和苯丙氨酸聚合而成的。由于天然存在20种氨基酸,所以总共有20×20=400种可能的二肽。若要用重叠密码编码出2个氨基酸,那将需要4个碱基,比如这里有CCGA,那么CCG就代表脯氨酸,CGA代表精氨酸。但是由于4个碱基最多只有4×4×4×4=256种可能的组合方式,这样一来很多二肽根本就享受不到被编码的机会(阿斯巴特甜味剂就是其中的一种)。然而,大自然还是给予了上述理论上那些被“打入冷宫”的组合以露面的机会。这说明它并没有采纳这种精致的重叠密码方式,大自然需要更大的灵活性,以使其在永无休止的进化的需求中施展本领。悉尼·布雷纳(1927—)已经就这个问题做了确定的分析:他通过已知的氨基酸序列反推出其对应的遗传密码,并因此排除了所有可能的重叠密码。这个分析现在已经盖棺定论了,钉在其上的一个具有想象力和说服力的“钉子”就是,DNA中一个碱基的突变将会使多至3个氨基酸发生改变,从而导致所产生出的蛋白质的序列改变。因此,如果一个序列AGTCTTG发生点突变(即一个碱基突变)而成为AGGCTTG,那么其包含的突变密码子(粗体部分)有AGGCTTG、AGGCTTG、AGGCTTG,由此可能产生功能异化的蛋白质。因此,即使是一个碱基的突变也可能会影响到整个生命体的存活。

从经济和精致角度出发而走入死胡同的,还有一个例子,但是事实再次证明了所谓的经济性和精致性不过是想象力丰富的物理学家们的一厢情愿罢了(将问题复杂化了)。大自然则对其视而不见,这就是密码读取的停顿问题(就像课文中的标点符号)。我们如何知道密码从哪里读起呢?即便不是重叠密码,如……AGTCTTG……就可以读作……(AGT)(CTT)(G……,……A)(GTC)(TTG)(……,……AG)(TCT)(TG……),等等。上述这些不同的密码读取方式叫作移动阅读框架,克里克提出,细胞中成分的组织方式(内部机构)只允许特定的密码子组合(特定的读码方式)存在,因此其他按照开放阅读框架读取的密码组合就是无意义的。还以上述序列为例,假设……(AGT)(CTT)(G……是正确的读码方式,那么AGT和CTT就是正确的密码,而GTC和TCT就是无意义的密码。这种密码形式被称为无逗号密码,因为它在无标点符号(停顿)的情况下就可被准确读取。在这个限制因素下来考察那64个备选密码子,就会发现只有20个是符合要求的,这正中密码破译者下怀。例如,TTT这个密码被排除在外,因为如下碱基组合……TTTTTT……含有阅读框架不确定性,比如它既可读为……(TTT)(TTT)……,又可读为(……T)(TTT)(TT……)。由于上述考察方法能够提供与所需数目正好相等的密码子,并且避免了移动阅读框架问题,因此这个猜想很快就被广泛接受。

但是这个“伟大”的想法却没有被大自然所接受。1961年,大自然严辞拒绝了上述种种不受约束的猜想,并及时叫停了这种可能还要浪费更多时间的遐想。正是马绍尔·尼伦伯格和海因里希·马太窥见了自然的这个奥秘。他们发现TTT也是一个正确的密码子,它代表的是苯丙氨酸 。这个发现使得原来那种精致考究的、限定条件的、并且无逗号的密码形式猜想瞬时灰飞烟灭。

事实证明,大自然以其特有的、无意识的、无心的虚张声势,使诸多“猜想家”陷入其中不能自拔。其实大自然进化出的是最简单的密码形式,无需考虑多余的密码子,也不用特意去关注密码本身的阅读框架问题。最终在20世纪60年代拼凑而成的遗传密码表中的密码子其实是高度冗余的,即有多个密码子(最多可达6个)可编码同一种氨基酸,还有多达3个终止密码子(指示蛋白质合成终止的密码子)(图2-11)。这种冗余性事后看来是相当明智的,因为它降低了由于DNA复制错误而发生致命后果的概率。例如,CCT,CCC,CCA,CCG都可编码产生脯氨酸,因此在DNA复制过程中,即便上述密码子中最后一个“字母”发生了错误,那么最后转译出的氨基酸仍然是脯氨酸(对蛋白质功能不影响)。即便是在单个碱基突变可能对生命体正常功能造成较大影响的情况下,其结果往往是用一个类似的氨基酸对“预期氨基酸”(二者在结构上近似)进行替代,从而不会在很大程度上影响蛋白质的功能,并最终使这种突变对机体产生的负面效应降到最低程度。例如,如果TTT这个密码子发生单个碱基突变而形成TAT,那么转译出的就是苯丙氨酸,它在一定程度上可以代替其“堂兄弟”酪氨酸(预期氨基酸)行使功能。这样看来这种形式的密码几乎是最理想的。最后,由于所有64种密码子都具有可利用性,因此就像我们前面提到的那样,大自然还有进行变异和试验的余地,以便最大限度地拓展自身能力。

图2-11 上图展示的是遗传密码和由三联体密码子翻译出的氨基酸的结构。从图中圆盘的中心处向外读,UAC密码子代表的是酪氨酸(英文简写为Tyr)。注意:U代表的是尿嘧啶(uracil),其结构见图2-12。图中显示了所有氨基酸分子的空间结构。注意观察有些氨基酸不止在一个位置出现,这说明了密码子是高度过剩的,尤其反映在其第3个“字母”上。比如ACG、ACU、ACT和ACA都是苏氨酸(Thr)的密码子

遗传密码如何在细胞内的细胞器中进行翻译是我们必须了解的,也是我们必须跨过的第3道障碍。最基本的问题就是DNA被束缚在细胞核内,而蛋白质的合成却发生在细胞质内(与细胞核之间由核膜阻隔)。DNA分子太大以至于不能穿过细胞核膜而进入细胞质中,所以这里的疑问就是:DNA携带的遗传信息是怎样到达其发挥作用(翻译出蛋白质)的场所(细胞质)的?

图2-12

现在,我们来看 核糖核酸 (RNA),它其实是原始版本的DNA(即远古以前RNA曾充当生物体的遗传物质,但随着进化的发展,DNA逐渐取代了它的地位)。RNA链与DNA单链的结构类似,也包含一个糖——磷酸骨架,且碱基连在这个骨架上。但不同的是,RNA中的糖是核糖,而不是脱氧核糖(因此,RNA中的R代表核糖[Ribose],而不是DNA中的[Deoxyribose]),即糖环中那个氧原子并未失去。其次,RNA中用尿嘧啶(用U表示)取代了与其分子结构类似的胸腺嘧啶(用T表示,存在于DNA中)。目前仍没有完全弄懂RNA和DNA组成上的这种差别产生的原因,很可能是由于RNA所形成的氢键的强度与DNA中的氢键存在着一些细微的差别所致。另外一个主要差别就是RNA只含有一条链。据推测,RNA是最原始的遗传物质,但是在进化早期的某个阶段,它的这项功能逐渐被更稳定的DNA所替代。一些实验证明,某些RNA还充当着酶的角色,而这个证据直接支持了上述推测。RNA执行酶的功能这一现象有助于解决有关生命起源的一个难题,即鸡(遗传物质执行功能所必需的酶)生蛋(能够编码产生酶的遗传物质)还是蛋生鸡的问题。

RNA主要分为两类,即 信使 RNA(mRNA)和 转运 RNA(tRNA)。我们首先来研究信使RNA,因为它能够将储存在DNA中的遗传信息从细胞核内携带到细胞质中。为了获得遗传信息,mRNA要进行合成,而这个合成过程与DNA复制过程很相似:DNA首先进行解链,从而将其中一条链暴露出来,然后在RNA聚合酶的催化下,以这条链为模板进行信使RNA的合成。这个过程中只用到一条DNA链,但这并不是说只会用到整个染色体上(染色体上有多个DNA分子)的同一条链,且这种合成的方向总是固定不变的(就像我们不能将贝多芬名曲逆乐谱演奏一样)。mRNA合成的速度相当快:脊椎动物细胞中RNA聚合酶1秒钟能合成30个碱基,因此7个小时就可以将整个细胞内的DNA上的遗传信息复制到信使RNA中。大约每100万个新复制的碱基中就有一个是错误的,但是不要紧,因为负责校正阅读(即复制过程)的酶监督着这一过程,并将大多数错误及时修正,从而可以使错误率降低到一百亿分之一。当合成进程到达“终止”密码子的时候,mRNA就会停止合成,并与DNA链分开,然后通过细胞核上的核孔,最终携带着它珍贵的遗传信息进入到细胞质内。而细胞质中的核糖体则在一旁等候调遣(图2-13)。这些乖巧的细胞器是由蛋白质和RNA聚合而成的小体,一般情况下它包括两个相对独立的部分,而当mRNA携带着从DNA上转录而来的遗传信息进入到细胞质这个“染缸”中时,核糖体的两个原先分离的部分就组合起来以发挥功能。接下来就该转运RNA登场了,转运RNA通过转运氨基酸而直接参与了蛋白质的构建。图2-14以不同的方式展示了转运RNA分子的结构和形状。其中有两个重要的组成部分:其一是转运RNA上的反密码环,它是识别信使RNA分子中的密码子并与之接合(通过氢键)的基团。例如,如果信使RNA中的密码子是CGU(编码精氨酸),那么其互补的反密码子就是GCA,二者之间形成氢键,并像维克罗(商品名)搭扣那样“粘”在一起。其二是位于tRNA链末端的氨基酸结合位点(也叫氨基酸臂),它也是一个类似维克罗搭扣样的部分,它含有一段只能结合一个氨基酸分子(这里以精氨酸为例)的核苷酸序列。

图2-13 核糖体包含大小不同的两个单元(也叫亚基),当转录发生时,原来处于分离状态的这两个单元就会组合起来。其中每个单元都是一个小型加工厂。较大的单元一般含有两种核糖体RNA(rRNA),分别包含约2900和120个碱基,以及含有32种不同且多数情况下为单拷贝的蛋白质(每种蛋白质只有一个)。较小的单元含有一条长为1540个碱基的RNA分子,且包含有21种单拷贝的蛋白质

图2-14 转运RNA分子的组成和结构。生物分子是如此复杂以至于我们不得不借助多种方式来描述它,以突出它的特点。第1幅图显示的是转运RNA分子的一般形状以及其中碱基(用方框表示)所处位置的示意图。其中的反密码子(位于图中最底部)用来识别信使RNA上的密码子,位于图中最顶部的是氨基酸结合位点(氨基酸臂)。第2幅示意图显示了真正的转运RNA分子(酵母苯丙氨酸转运RNA)中存在的化学键。为了更方便观看,第3幅图描述了覆盖在线状结构上的转运RNA分子的骨架结构。最后,第4幅图描述了转移RNA分子的所有原子并由其构成的空间填充的模型形状,但是其中的细节难以确定(只有通过其他分子才得以推导出来)

现在我们来看当核糖体像“钳子”一样把mRNA链的一部分夹住以后,细胞质中到底会发生什么事。核糖体在mRNA的第一个密码子处稍作一下停顿,然后各种各样的tRNA分子纷纷过来“碰运气”,但是由于其上的反密码子与mRNA上的密码子不互补而被拒之门外(图2-15)。之后终于来了一个携带的反密码子能够与mRNA上的密码子(此例中为GUU)互补的tRNA分子,且其氨基酸臂上连有一个缬氨酸。上述这种互补配对使得核糖体顺着mRNA链移到下一个密码子的位置(此例中为AGC)。与此同时,一个携带有能够与AGC互补配对的反密码子并且结合有一个丝氨酸的tRNA分子及时出现,反密码子与密码子进行互补配对,并使得丝氨酸与缬氨酸相互靠近,然后由一种酶将缬氨酸从其tRNA分子上解脱下来并与丝氨酸连接起来,因此这就形成了一个二肽,即缬氨酸——丝氨酸(准确地讲是“缬氨酰丝氨酸”)。而那个完成使命的tRNA分子(即脱去缬氨酸的那个tRNA)又重新回到细胞质中去寻找另一个缬氨酸。现在核糖体又滑向了mRNA上的下一个密码子,又开始重复上述过程。因此,蛋白质链在逐渐地延伸着,从而使得原先存在于核内DNA上的遗传信息最终转译成了有功能的蛋白质。这就是生命得以延续的基础。

图2-15 蛋白质的合成是在mRNA的指导下(mRNA相当于磁带上的一串字母)并在tRNA的参与下进行的。这个过程是在核糖体(图中并未表示出来)中发生的。装载着缬氨酸并带有CCA反密码子的tRNA“着陆”在mRNA上的GUU密码子上。随后,另一个装载着丝氨酸并带有UCG反密码子的tRNA经过一番“游荡”后与mRNA上的AGC密码子进行互补配对。然后在酶的作用下,缬氨酸和丝氨酸结合起来产生一个二肽Val-Ser(分别为缬氨酸和丝氨酸的英文名称简写),完成使命的带有CCA反密码子的tRNA游离下来,并去寻找另一个缬氨酸,而核糖体则移动到下一个密码子位点并等候合适的(即与该密码子互补的反密码子)tRNA分子送来氨基酸。以这种方式,蛋白质链按照mRNA指定的方向进行组装

下面我们将总结一下上述所有过程。这些过程可以表述为遗传的 中心法则 ,即遗传信息的流向是DNA→RNA→蛋白质。只有在极少数情况下遗传信息的流动方向是由RNA到DNA的(我们将在后面讨论)。而遗传信息不可能由蛋白质流向DNA这个结论,则进一步证明了拉马克的所谓获得性状(即蛋白质执行功能)是可遗传的猜想是不正确的。

因此,理解DNA结构的重要性在现在看来就显而易见了。但是我们还得接触许多零散的东西,虽然说是“零散”的东西,但实际上它们却是现今科学研究的重点与热点,并且永无止境。

首先是它与进化的联系,这一主题的分子基础我们在第1章中已经作了探讨。我们知道,DNA的复制和转录并非完美无缺:核苷酸和氨基酸分子在不停地“摸索”,以期加入各自对应的长链(如DNA,mRNA和蛋白质)的过程也会出错。这些分子根据其要加入的长链的形状和所带电荷作出相应的反应,尽管其尽其所能去“契合”整个长链,但是在有些情况下还是会进入错误的位置,并且不能在错误发生前及时收住脚步。DNA也许会在复制过程中发生错误,mRNA在翻译过程中也可能发生错误,tRNA分子也有可能结合到错误的密码子上,或者即便其结合到了正确的密码子上,但是它也可能会携带一个错误的氨基酸。但是纵观上面讨论的各种可能性就会发现,除了第一种可能性,即DNA复制发生错误,其他几种都是暂时现象,他们只会影响一个细胞,而不是整个个体。DNA复制发生错误即意味着突变的发生,往往称之为体细胞突变,它会影响整个机体的正常功能。因为在有机体发育早期发生的一个错误将会被不停地复制再复制,并会充斥整个机体。而在减数分裂发生即形成配子的过程中,突变的DNA将会随着种系的延续进入到下一代中,这种类型的突变叫作 生殖细胞突变

DNA复制很明显是一个存在着危险的过程,因为总有出错的机会。但是我们应该有起码的自信去认为这个过程还是比较稳定的,不然的话(即突变频繁发生),我们也就不会立于天地之间了。当然,随着时间的推移,总有一天我们(物种)会离开这个世界。至于DNA为什么能够“长寿”,其中一个原因就是我们机体中的每一个细胞中都有一个精密的监控和修复系统,它能够识别突变的基因并及时将其修正;另一个原因就是DNA包含大量的垃圾片断,这些区域称为 内含子 ,它们不编码任何遗传信息(即不“表达”),充其量只不过来凑凑热闹而已 。DNA中的重要部分,即真正编码遗传信息的区域称为 外显子 。如果突变发生在内含子中,那么对机体将不产生任何影响,因为内含子中的碱基序列并不表达产生蛋白质。人体内大多数DNA序列都是内含子,因为在大自然所谓的精巧与经济但实际上却是可悲的法则中,它并没有费心去把这些毫无用处的“垃圾”DNA清除掉,反而却不厌其烦地将其“拖”到一代又一代中。这种现象很令人不可思议,因为这意味着大量宝贵的资源——能量,将会消耗在垃圾DNA的复制过程中。或许这些垃圾DNA即内含子具有我们尚未认识的功能,或许它们的存在是保证遗传信息顺利延续下去的最优方案,因为内含子从不暴露于那种因活动频繁而带来的危险中。它们也许就是纯粹的、永恒的、但不表达的信息,除了无目的地存在以外,没有其他任何想法。这种无目的的DNA是极其成功的,因为如果按照是否编码蛋白质来说的话,我们携带的DNA中有98%就是这种垃圾DNA,只有剩余的2%是有用的。

我们很容易就联想到了DNA中的许多种类的突变。 碱基替换 就是指DNA序列中一个碱基被另一个碱基所替代。有些碱基替换是“沉默”的,意即含有突变碱基的密码子与原来的密码子编码的是同一种氨基酸,因此最终合成的蛋白质功能并不受影响。但是其他类型的碱基替换则有可能会改变遗传信息,而且这种改变所产生的负面效应的严重程度,将取决于突变的氨基酸与正常情况下(没有发生突变)的氨基酸在分子结构方面的差异程度。 插入突变 缺失突变 分别指的是原来的DNA序列中插入或缺失完整的碱基对。这两种突变将会扰乱DNA上遗传信息的正确解读,比如一段序列……ATGGTCT……应该读为……(ATG)(GTC)(T……,如果这段序列中的第二个T缺失的话,那么将会读为……(ATG)(GCT)(……,由此翻译而成的蛋白质可能会面目全非,并且没有功能。但是反过来说,也许这种突变也可能会对生物的进化产生积极意义(另一种方式的进化),比如会增强猎豹爪子的锋利程度,或者增强鹿类的嗅觉敏感性。

突变可以自发产生,也可以经诱导产生。自发突变往往是以一个恒定的频率发生,并且构成了生物圈内部那个以恒定速度运行的 分子遗传钟 。对于一个给定的基因来说,其突变发生的频率大体是恒定的,因此通过考察比较两个物种中存在差异的氨基酸的数量,就可以推断出它们是何时从一个共同的祖先分化开来的。我们在第1章中就了解了这样的信息,我们也注意到进化(趋势)是可预知的,因为没有哪个事例表明这种氨基酸的差异信息是与物种出现的先后顺序相冲突的。通过赋予分子遗传钟以时间刻度,可以使得生物世系的遗传图谱(就像图1-2中的世系片断)具有明确的时间性。另外,突变也可由环境因素诱导发生,比如生物体暴露于核辐射或紫外线照射,摄入化学品和有毒的含氧物质,比如超氧化物(其中一个氧原子带有单电子)的氧化作用等,这也是我们利用氧气并争取长寿所必须付出的代价。

尽管中心法则确定遗传信息是由DNA流向RNA,再流向蛋白质的,但是我们也发现了一些与这个中心法则相悖的事例,比如逆转录病毒。逆转录病毒含有一条单链RNA分子,它借助宿主细胞(即这种病毒在其中寄生的细胞)中的双链DNA分子进行自我复制。例如能够导致艾滋病的 人类免疫缺陷病毒 (HIV)就是一种逆转录病毒。它能够破坏人体免疫系统,相当于为细菌感染机体打开了方便之门。HIV是在1983年由法国巴黎的巴斯德研究所的卢克·蒙塔尼埃、美国国立肿瘤研究院的罗伯特·伽罗以及加州大学旧金山分校的杰·兰维首次分离出来的。HIV结合到人体内的一种白细胞——T淋巴细胞上(即HIV的宿主细胞),并将其自身的RNA和逆转录酶转移进T细胞内部。在这里,HIV的RNA分子移动到T淋巴细胞染色体上的DNA分子附近,随后在逆转录酶的催化作用下,以RNA分子为模板合成了一条与之互补的DNA链(RNA-DNA杂合双链)。之后这个杂合双链解开,又以其中新生的DNA链为模板合成了与之互补的新DNA链。至此,原来的单链RNA分子就“变”出了一个双链DNA分子。随后,这个病毒DNA分子整合进入宿主细胞的DNA中,并且借宿主DNA转录之便,病毒DNA分子也顺势转录出了自己的mRNA。接下来病毒mRNA将会被翻译成蛋白质,以构建出更多的病毒分子颗粒(这个过程也称为病毒的扩增)。随后这些病毒颗粒在宿主细胞中成长起来,并形成细胞壁来保护自己。这个过程会把淋巴细胞表面的膜溶解掉,并进而导致其死亡,因此降低了机体对感染的免疫耐受性。有的观点认为,逆转录病毒是多种癌症(包括在人类中发现的一些癌症)的诱发因素。

限制性内切酶 是多种细菌都可产生的一类酶,它能够识别DNA分子中特定的碱基序列,并且在特定的位点进行切割而将原来完整的DNA分子切成片段。此过程中形成的片段能够被另一种称为连接酶的酶类拼接起来。宿主细胞内还存在一种叫作 载体 的微观生命,它们的DNA能够独立于宿主DNA而进行自我复制(注意与病毒不同),其中常见的载体就是 质粒 ,它是一类在细菌中发现的环状DNA分子。含有插入的外源DNA片段(即非自身的)的载体分子叫作重组DNA。载体分子能够构建出一个特定序列的DNA片段的大量拷贝,原来的DNA经过扩增后会产生大量的DNA克隆。由此产生的菌落(细菌的集群)中可能会有目标物质的产生,就像通过基因工程来生产胰岛素一样,或者在基因治疗中,可以将这种重组DNA片段重新插入到原来的有机体中。

用于改造DNA的新方法包括如下几种:直接的显微注射法是将包含外源基因的遗传材料,经由一个带有精细尖端的毛细管,注射进受体细胞内。受体细胞将会“照料”这种注射进入其中的外源基因,并且启动一个机制,“亲切地”将外源基因带入宿主细胞的细胞核内,并将其整合到宿主细胞的DNA中。另一种则通过在宿主细胞膜上穿孔而使外来的基因进入到宿主细胞,并整合到宿主的DNA中。这种方法分为化学穿孔法和电穿孔法。前者是将宿主细胞孵育在含有特定化学物质的溶液中,而在细胞膜上进行打孔的方法;后者是将宿主细胞置于弱电流环境下而在细胞膜上打孔的方法。如果你认为以上的方法过于精密繁杂的话,那么你可以诉诸于 生物弹道学 ,这种方法是将表面吸附有遗传物质(外源基因)的金属颗粒直接射入宿主细胞中,从而使得外源基因有机会整合进宿主的DNA中。说到这里,我又回忆起了系列电影《印第安纳·琼斯》(又译《夺宝奇兵》)中的一个场景:在其对手完成一组令人惊叹的精彩的传统剑术“表演”后,琼斯轻巧地射杀了他。

说到枪杀,相关DNA理论的另一个主要应用就是法医学鉴定,一般采取DNA 图谱分析 方法,或者更准确地讲,就是DNA 指纹鉴定 。真正的指纹鉴定法是由曾在东京工作的苏格兰医师亨利·福尔兹于1880年首次提出的。当时用这种方法作为一种鉴别嫌疑犯的手段,随后利用这种鉴定的结果,作为赦免无罪的嫌疑犯和鉴别当地曾进行盗窃的罪犯证据。一百多年过去了,伴随着莱瑟斯特大学的阿莱克·杰里菲斯于1984年发明的“DNA指纹鉴定法”,我们用于鉴别某个人的手段已经发生了质的变化,检测对象也从他(她)的指尖(即指纹)深入到了他(她)身体内部的每个细胞中。在这里,我们需要了解这个技术所具有的两个特征:其一就是微量DNA需先进行扩增;其二就是真正的指纹鉴定过程。DNA图谱分析技术(即指纹鉴定法)在法医学鉴定,亲子(尤其是父子)关系确认以及生物进化的研究方面是如此重要,以至于在过去20年间有着极其巨大的发展,并且针对不同的情况又有许多改进。在这里我们将概述一下最典型的鉴定方法。

卡瑞·穆里斯(1944—)是 聚合酶链式反应 (PCR)技术的发明者。他曾说道,在1983年的某个晚上,当他伴着月光驾车行驶在加利福尼亚山岭之间时,灵感突然跃入了他的脑海,并促成了这项伟大技术的诞生。若干年后,凭借这一创造性成果,穆里斯最终获得了诺贝尔奖。聚合酶是一种能够催化解链(即DNA双链解开,成为两条单链)后的单链DNA进行复制的酶,它也可用于体外实验。为了能够发挥作用,聚合酶需要丰富的核苷酸碱基作为底物(即作用对象),除此之外,还需要有两个 引物 。引物就是指包含大约20个碱基的DNA短序列,它的作用就是“引发”DNA复制。扩增步骤如下:首先,通过加热使得DNA两条链分开(即DNA的“熔化”),随后降温(即“退火”)过程使得引物结合(根据碱基互补原则)到DNA链的合适部位。在这个过程中,引物左冲右撞直到正好找到与其碱基互补的位置并结合上去,并作为DNA链复制区与非复制区(即与引物相结合的DNA序列)的分界点。最后,温度再一次升高直到聚合酶能够发挥高效作用,这时与DNA模板链互补的链就开始合成了(即“延伸”)。纵观上述过程我们可以发现,其中的聚合酶必须能够经受得住“熔化”阶段高温的考验,因此它不是一般的聚合酶,而是从生活在高温温泉的细菌中,比如嗜热水生菌中提取出来的。一个循环过程(既“熔化”—“退火”—“延伸”过程)大约需要3分钟。然后这种循环过程不断重复,大约经过30或40轮这样的循环就会扩增出介于两个引物之间的海量的DNA拷贝(图2-16)。这意味着即便是极其微量的DNA样品也能够通过扩增而达到可以用于检测的量。

图2-16 这些图片展示了PCR反应发生的过程。左边最上面的图代表了一个目标DNA双螺旋链。其下面3幅图(从上到下)则分别代表了PCR反应的3个步骤。第1步,DNA双链解开成为两条单链;第2步,两个引物分别结合到这两条单链上;第3步,在DNA聚合酶的催化下,分别以上述两条单链为模板合成各自的互补链。然后新复制形成的DNA双链又发生解链,引物又结合上去,后在聚合酶催化下又形成了新的互补链,如此不断地循环往复。这样在多次循环以后,两个引物之间的DNA区域,即目标区域将会扩增出大量的克隆

DNA图谱分析法本身利用的是人类基因的多态性,即个体之间DNA分子序列存在一些明显的差异。例如,我们前面提到过的垃圾DNA(内含子)可能就包含着大段的“不知所云”(即不编码遗传信息)的DNA序列,它们是在减数分裂过程中积累起来的。这里我们将聚焦于 数目可变的随机重复序列 (VNTR),比如像下面这个在不同个体DNA中的相同区域中存在的数目可变的重复序列……CGATCGATCGATCGAT……。

由于这种随机重复序列位于内含子区域,因此它们不会表达。也正因为这样,人们常常忽视了它们的存在,而将更多的目光投向了外显子。因为外显子的变异常常会伴随着明显的外部特征的变化,比如棕色眼睛和蓝色眼睛(后者是由于缺乏棕色色素导致的)。

现在假设我们利用PCR技术扩增了DNA分子中的一段在个体之间有高度多态性(即个体之间差异较大)的序列,限制性内切酶如AluI在四处搜索直到遇到特定序列AGCT,并紧紧附着其上,然后在该序列处对DNA分子进行切割;或者我们也可以用另一种限制性内切酶如EcoRI,这种内切酶将会识别并结合到特定序列GAATTC上,并在此处对DNA分子进行切割。利用这些内切酶可以将扩增的DNA分子切割成许多大小不同的片段,而片段的大小则取决于个体DNA中随机重复序列的多少。然后利用电泳技术使切割得到的大小片段在电场作用下,在凝胶上进行迁移。由于小片段、较大片段更容易在凝胶上迁移,因此上述大小片段将会分离开来,并形成外观类似于条形码的一系列条带(图2-17)。这种条带的样式是样品中随机重复序列多寡的真实写照,因此它也是个体独有的特征。

图2-17 上图展示的是受害人(Victim)样品(Specimen)和3个嫌疑犯(Suspect)的DNA指纹图谱比较。其清楚地反映出1号嫌疑犯是真正的罪犯,因为他的DNA指纹图谱与样品的最接近

通过利用DNA指纹识别技术,强奸犯被绳之以法,无罪者被平反昭雪,沙皇之“女”被鉴别出来,假安娜斯塔西娅的骗局(她自称是沙皇的女儿)被揭穿,生物进化关系得以明确,强盗因为一根头发而无法逃脱法网,儿童也与其家庭破镜重圆(不只是在将整个家庭残暴地割裂开来进行人员重新分配的阿根廷),以及那些声称不知情的私生子的父亲在DNA指纹识别技术的确凿证据面前,也不得不承担起抚养的责任。因此,很少有微观(例如生物分子)研究的进步(青霉素的发现与避孕药的发明与之具有同等地位)能够对社会产生如此巨大的影响,但是DNA指纹识别技术做到了。

20世纪最雄心勃勃的科学项目之一就是人类基因组计划,即对人类全部基因组碱基进行测序。当然,这项极其艰巨的任务在本质上是不可能完成的,因为我们每个人之间的基因组是不同的(除了同卵双生的双胞胎)。但是,由于个体之间DNA中的外显子的差异往往是恒定的,因此一个“典型基因组”就浮出水面了:个体之间大约每1000个碱基中才会有一个碱基是不同的,人体内大约有30亿个碱基,因此个体之间大约有300万个碱基是不同的,且许多是无关紧要的。也许在不久的将来,我们每个人都能够读出自己的基因组序列,并将其提交给自己的医生(还有自己投保的保险公司)以帮助他们为你制定个性化诊疗方案。而且婴儿从出生之日起,他/她的基因组序列就被测定了,基因组中的遗传信息就像刻在了DVD上一样会伴其一生。

了解了人类基因组是多么庞大,我们就可以更好地理解测序工作的艰巨性了。人类基因组大约包含30亿个碱基。如果一本书有100万字的话,那么你的基因组就相当于一个藏书量达3000册的图书馆。假设你是一个绝顶聪明的化学家,能够利用常规的实验技术通过一系列化学反应手段和产物鉴别方法,以每小时一个碱基的速率进行人类全基因组碱基(30亿个)测序,那么完成全部测序将需要34000年。如果你有志于在10年内,而不是34000年完成这项工作,那就意味着你的效率必须提高3400倍,即必须能够达到一秒钟测一个碱基的速率,而且必须一周工作7天,一天工作24小时。为了保证测序的正确性,你还得把你的工作重复几次。一般来说,重复10次以后就可以确定你的测序工作基本完成,这也意味着你的测序速率降到了每10秒钟一个碱基。

但令人惊奇的是,人类基因组测序工作却有效地完成了。就像生物学史上的前两次关键步骤——孟德尔对遗传学的量化,以及沃森和克里克提出的DNA双螺旋模型——那样,在人类基因组计划提出和实施的过程中,也充满了争夺优先发现权和各种道德规范之间的冲突。这里我们就不再赘述这种基因组“战争”了(其争论的焦点就是人类基因组测序与伦理道德的关系)。因为这个问题早已被人类基因组测序的一些主要倡导者,如扮演重要角色的克雷格·文特尔(1946—)和无私的生物学家约翰·萨尔斯顿(1942—)详尽地探讨过了,更不用说其他一些主要的人类基因组计划负责人,如弗兰克·柯林斯和埃里克·兰德尔。这种争论有损人类历史上成就的巅峰。这种基因组“战争”引发的各个阵营之间的敌对情绪在不久以后将会像普法战争一样被人们遗忘,但是我们将会铭记这一科学史上的飞跃,而不去管得来的过程。

人类基因组测序的程式就是确定人体细胞中每条染色体上的每条DNA链上的碱基序列。DNA测序法是建立在弗雷德里克·桑格尔的工作基础之上的。桑格尔在成功测定出一个重要蛋白质的序列后,就把注意力转向了DNA测序,并于1977年成功地对一种含5375个碱基的病毒ΦX174的基因组进行了全序列测定。桑格尔的测序方法如下:首先,他以一条DNA单链为模板,在DNA聚合酶的催化下合成该模板的互补片段,并且该互补片段的最末端碱基带有放射性标记(即碱基分子中的某个原子被它的放射性同位素所代替)。为了达到这一目的,在一个反应体系中加入了DNA聚合酶、4种脱氧核苷酸以及其中一种脱氧核苷酸修饰形式——双脱氧核苷酸。当双脱氧核苷酸掺入到互补链中后,它会在其掺入的位置上中止DNA链的复制,从而产生一个DNA片段。然后,在其他条件不变的情况下,他用其他3种脱氧核苷酸相对应的修饰形式,即双脱氧核苷酸重复上述程序。由于互补链合成的中止位置(对应于模板链)不同,就会产生出一系列长度各不相同的DNA片段。之后通过电泳实验,这些大小不同的片段就会在凝胶上拖移,随后用X光底片对电泳凝胶进行放射自显影曝光就会显现出一系列DNA片段的电泳条带,因此我们就可以测出该DNA的碱基序列。DNA自动测序仪对桑格尔的上述手动测序方法做了一些改进,它通过运用不同颜色的荧光标记的引物而使不同的碱基显现出不同颜色,就像A(腺嘌呤)显示红色,C(胞嘧啶)显示绿色等,因此DNA序列就可以自动测定。

接下来要做的就是按照上述测定程序进行流水线作业,这样一来我们就可以一小时测定数千个碱基。这里有两种基本方法:一种是借助已知序列的DNA条带按顺序进行测序;另一种叫作“鸟枪法”,就是将整段DNA随机打成无数小片段,然后分别对其进行测序,最后再进行拼接得到完整的结果。对于后一种方法来说,其最大的挑战就是把那些混杂的小片段测序结果重新拼凑起来,而超级计算机在重新拼凑过程中扮演了核心角色。一般来说,前一种方法更准确一些,但后一种方法更快速。但在实际操作中,这两种方法也互相渗透,互相吸收对方的优点。

人类基因组测序草图于2001年首次公布,也就是大约在DNA双螺旋结构发现50年后,大约在孟德尔的工作被重新认识暨遗传学诞生100年后。人类基因组测序完成产生的后果是不可估量的,无论其产生的是正面影响还是负面影响。就像所有伟大的科学进步一样,其带来的新知识既有可能是快乐的“天使”,也有可能取悦“魔鬼”。但是,最坏的结果就是,我们将解救人类的“处方”贴在穿行于星际空间的宇宙飞船上,以期寻找适合人类居住的另一个星球,这样人类至少还有一些短暂的机会去重新塑造自己,即便我们的体貌特征与现在大相径庭。最好的结果就是,凭借着我们对人类基因组序列的深入了解,我们能够在目前生存的地球上,认识到我们与他人之间的亲密关系,并且不再把我们的激情浪费在因个体之间少数基因的差异而引发的鸡毛蒜皮的争执上。 kuh0iKufMCQXPNJlfJEcdGGkk6Vzp7nTAd1ja7ZNSTr4jzyR4/qnsPGkWyU2upG2

点击中间区域
呼出菜单
上一章
目录
下一章
×