在进行入境检查时,世界上许多国家的机场都会要求你把食指放在一个带玻璃板和闪光灯的小盒子上,它是一种“读取”指纹的扫描仪。之所以要使用这种设备,是因为相比用护照上的照片比对长相,检测指纹能更可靠地确定你的身份。拍完证件照,你可能会换发型,可能发胖或变瘦,嘴角渐渐长出法令纹,额头上多了几道抬头纹。哪怕这些变化都没有发生,至少你的面相也会随时间推移而变老。唉,谁没有老去的那一天呢?除此之外,我们还可以通过化妆模仿他人的长相,骗过人类和计算机。相比之下,你手指上的纹路则没那么容易改变。从你出生的那天起,它们就不曾改变——事实上,应该说它们在你还没出生的时候便已经定型了。而且,每个人的指纹都不相同。
正因为每个人的指纹都不一样,你可能会认为指纹这种性状应当是由某个基因决定的,或者没准儿跟两三个基因有关。毕竟我们会反复听到这样的话:DNA定义了我们,基因是什么样,我们就是什么样。然而,基因和指纹之间的关系并没有那么直接和紧密,即使是DNA相似性达到100%的同卵双胞胎,他(她)们的指纹也完全不同。不要说是双胞胎,哪怕是同一个人,十个手指头的指纹也各不相同。这就是为什么你明明可以用某根手指解锁手机,用另一只手上对应的手指却不行。
尽管相关的遗传学研究已经发现了数百个似乎与指纹有关的基因,但其中每一个都只起到了很小的作用,即使把这数百个基因的效应加在一起,它们对指纹的影响也没多大。 对于指尖上的纹路应该长成什么样,基因没有起到主导性作用,它在这个过程中只是个小配角。指纹的设计图并非印刻在我们的基因里。
眼睛和头发的颜色、鼻子的形状和大小,或者手指的长度,我们以为很多类似的性状都与父母遗传给我们的基因有关,但实际上,遗传对这些特征产生的影响并非我们认为的那样。眼睛的底色(棕色、蓝色、灰色或绿色)的确遗传自父母,但如果你仔细看看自己的虹膜,就会发现它的纹理十分复杂精巧。虽然双眼的基因完全相同,每只眼睛的虹膜卷缩轮、隐窝和沟纹却不完全一样。与指纹的情况类似,我们无法单凭基因预测虹膜实际的模样。
最常被用于确定个人身份的生物学特征却没有印刻在我们的DNA里,这着实出人意料。因为不管是指纹还是虹膜,都不是由基因决定的,它们依仗的其实是细胞。如果你用放大镜仔细观察自己的指纹,就会看到指尖精巧的纹理位于一层柔软的指垫之上,而你看不见的是,这些纹理由成千上万个细胞堆叠而成。当你还在母亲的子宫里时,正是这些细胞利用基因提供的工具和原料,在你的指尖上形成了指纹。
那么,今天的我们为什么会相信自己的存在和身份都是由基因决定的呢?为了回答这个问题,我们首先要弄明白,在解释“人类从何而来”的核心叙事中,基因是如何一步一步成为故事主角的。我们将从头开始回顾,重新审视基因是什么、如何工作,为什么我们经常把它们视为一种简便的工具和说法,用于解释自己是什么样的人,以及自己为何成为这样的人。这个故事涉及核酸、蛋白质和变异,你将看到极富创新精神的科学家及其远见卓识。了解这些与人类的存在息息相关的细节,对我们认识细胞在其中所起的作用至关重要。
在漫长的岁月中,人们认识到自己身上的某些关键特征可以遗传给后代。龙生龙,凤生凤,古代的动物养殖和农业实践全部建立在这种性状能代代相传的认识之上。日常生活中最常见的例子莫过于我们长得很像父母或祖父母。这种代际相似性使人联想到,或许有某种对生物体的存在来说不可或缺的东西被传递给了后代。而在很长一段时间里,人们都怀疑它是血液。这种观念的产生与世袭制度密不可分:贵族的头衔与特权正是基于血脉传承的。
后来人们发现,同一家族的人不光长得像,在其他许多方面也很相似,这加深了人们对特征可以遗传的印象。1751年,博学多闻的法国人皮埃尔-路易·莫罗·德·莫佩尔蒂出版了一部包含三代人的家谱,其中许多家族成员都有六根手指,他由此得出了六指这个特征可以遗传的结论。莫佩尔蒂很有可能是世界上第一个针对特定的人类性状,用规范的家谱记录其遗传状况的人。同样的观察和研究方法后来被应用于某些疾病,比如血友病。1803年,费城医生约瑟夫·康拉德·奥托首次描述了这种病症:“男性的家族性出血性疾病。”奥托对血友病进行了溯源,一直追溯到一名在1720年定居于新罕布什尔州普利茅斯市的女性。
随着人类对遗传的认识日益增加,我们把这些知识应用于实践。数千年来,我们一直凭自己的喜好繁育动物,不断提高畜肉和皮毛的品质,以满足我们的需要和特定的需求。到了18世纪,农民和畜牧人具备了足以支持大规模繁育实践的遗传学知识。对后世影响最大的育种者要数英国莱斯特郡迪什利农庄的罗伯特·贝克威尔,他在英国国内广泛搜集各个品种的绵羊,并培育出一个毛质上乘且产肉量高的新品种。不仅如此,他培育的公牛也比普通的公牛更壮硕:在英国农业革命爆发前的1700年,公牛被屠宰时的平均体重为170千克;而一个世纪以后,这个数字变成了370千克。贝克威尔的育种方式建立在动物个体的层面上,对于想要的特征,他会先找到具备这些特征的个体,然后让它们互相交配,直到所有特征集中到一个个体身上。在这个过程中,任何不符合要求的后代都会被简单粗暴地剔除。尽管贝克威尔取得了非凡的成功,但这种育种手段完全基于我们肉眼可见的动物性状,今天的科学家把这样的性状称为“表(现)型”。
遗传现象的背后肯定有某种原理,这对从事动植物育种的人来说早就不是什么新鲜的话题了,但探究系谱背后具体的机制需要的是可行的实践手段、对细节的关注,以及耐心地数豆子。
世界上第一项试图解释遗传现象的科学研究出现于1866年,摩拉维亚僧侣格雷戈尔·孟德尔在这一年举办了一系列讲座,展示他在豌豆杂交实验中得到的结果。孟德尔观察到,如果用于杂交的两株亲本结的都是表皮褶皱的豌豆,那么它们的后代也会结表皮褶皱的豌豆。而如果只有一株亲本结表皮褶皱的豌豆,另一株亲本始终稳定地结表皮圆润光滑的豌豆,那么双方杂交得到的后代都会结表皮光滑的豌豆。令人惊讶的是,当孟德尔让这些杂交所得的正常豌豆相互杂交时,下一代植株却又结出了一些表皮褶皱的豌豆。孟德尔发现其他成对的性状也存在同样的现象,比如:植株是高还是矮,豆荚的形状是干瘪还是饱满,花的颜色是紫色还是白色。从亲本到后续数代的子代,性状的遗传、消失和重现都有清晰的规律可循。不仅如此,这种遗传规律还可以被精确地量化。
图1 格雷戈尔·孟德尔的豌豆实验为基因、染色体及日后DNA双螺旋结构的发现奠定了基础
孟德尔据此认为,生物的性状与某种可以代际传递的实体粒子有关。他说,植物的每一个特征都对应两个这样的粒子,其中一个来自父本,另一个来自母本。有的粒子占主导地位(显性),有的则占从属地位(隐性),所以当一个显性粒子和一个隐性粒子配对时,我们只能看到后代表现出显性粒子对应的性状。比如,相较于褶皱的豌豆表皮,光滑的表皮是显性性状,因此只有当子代豌豆分别从两株亲本那里各获得一个对应褶皱表皮的粒子时,它们才会表现出褶皱表皮的性状。虽然这种遗传规律可以解释孟德尔观察到的现象,但它的作用也仅限于此。孟德尔既不知道这种粒子的本质,也不明白这种遗传现象背后的生物学机制(他只知道这与有性生殖有关)。
孟德尔激动地发表了自己的实验结果,却只引起了少数科学家的关注。据说孟德尔的论文被原封不动地摆在查尔斯·达尔文的书房里,从未被翻阅。直到20世纪初,科学家在许多不同的植物身上观察到类似的遗传规律,孟德尔的论文才得以重见天日。尤其值得一提的是英国生物学家威廉·贝特森,他被孟德尔的实验深深吸引,并与伊迪斯·桑德斯及剑桥大学纽纳姆女子学院的一个女性科学家团队一起,对生物性状的遗传开展了具有突破性的详细研究。一个接一个的动植物实验证实和补充了孟德尔的遗传定律:每个生物性状都以粒子的形式由亲本传递给后代,性状有显性和隐性之分,基于某种神秘且不可见的机制,性状的遗传严格遵循固定的比例。
1905年,贝特森发明了“genetics”(遗传学)一词,用来指代所有针对性状遗传的科学研究。这个词的词根是希腊语“genos”,意为“诞生”。几年后,人们又提出了“gene”(基因)的概念,对于可观察的遗传性状,基因是遗传的最小功能单位——相当于孟德尔想象的那种决定豌豆的表皮是褶皱还是光滑的粒子。类似但不同于肉眼可见的表型,对应特定性状的基因组合被称为“基因型”。在之后的几年里,遗传学逐渐从研究遗传的学科变成了研究基因的传递方式和效应的学科,尽管当时谁也没有见过真正的基因,甚至没有人知道基因是由什么构成的。在孟德尔的遗传定律得到确证后,科学家转而开始寻找这些令人费解的粒子。他们第一个想到的地方自然是生命最基本的单位:细胞。
当科学家用显微镜细致观察细胞的内部结构时,他们看到细胞有一个核心:细胞核。它像一个墓穴一样,里面充斥着一种类似细线的微小结构。科学家把这种细线样的结构命名为“chromosome”(染色体,源于希腊语“chromo”和“soma”,意思分别是“色彩”和“体”),因为它们可以被特定的染料染上颜色。通过检查染色体的数目,以及观察这个数目在动植物繁衍后代的过程中发生的变化,科学家确信被贝特森称为基因的东西最有可能存在于染色体中。有意思的是,每个物种的染色体数目似乎都是固定的,而且每种染色体均成对存在,这与孟德尔的发现不谋而合。比如,人类有23对染色体,总计46条;果蝇有4对染色体,总计8条;寄居蟹有127对染色体,多达254条。这还不是最多的,世界纪录的保持者是某些蕨类,它们有大约1 200条染色体。除了染色体数量的物种差异,同一个物种的染色体还存在性别差异:雌性和雄性有一对染色体不同,以人类为例,女性有两条X染色体,而男性只有一条X染色体和一条较小的Y染色体。那么,染色体会不会就是个体差异的来源呢?它们会不会就是孟德尔想象的实体粒子所在的地方?
至此,尽管科学家知道了基因可能位于哪里,但是未解的谜团还有很多。细胞核中的染色体会由亲本传递给后代,染色体数目又与生物的种类严格对应,因此科学家怀疑这种结构与生物的表型有关。话虽如此,他们对染色体如何决定表型却毫无头绪。只有弄清染色体复杂的化学构成(包括蛋白质、酸根、碱基,还有生物学体系中十分少见的元素磷),科学家才有可能破译这份被精心保存在细胞核里的遗传设计图。
1943年,第二次世界大战激战正酣,在美国纽约市的洛克菲勒医学研究中心,一位细菌学家梳理和总结了自己20年来的工作。他的研究课题是一种被他称为“转化因子”的东西的化学本质。肺炎球菌是一种可以引发肺炎的细菌,有致病菌株和非致病菌株之分,而这种神秘的转化因子似乎能把非致病菌转变成致病菌。
在第一次世界大战临近结束时爆发的西班牙流感给欧洲和美国造成了巨大损失,为了防止类似的瘟疫大流行再次发生,20世纪20年代,奥斯瓦尔德·埃弗里投身疫苗研发工作,这段工作经历让他对肺炎球菌产生了兴趣。当时,由于流感病毒尚未得到鉴定,肺炎球菌被视为公共卫生的头号公敌。埃弗里对英国公共卫生部的弗里德里克·格里菲思所做的研究一直抱有浓厚的兴趣。格里菲思发现了肺炎球菌的两种菌株:R型菌株和S型菌株。将它们注入小鼠体内,引发的后果迥然不同。R型菌株极少引发肺炎,而S型菌株具有百分之百的感染致死率。然而,当格里菲思把死亡的S型菌株与活的R型菌株混合注射时,每只接受注射的实验动物都死了。埃弗里对此很好奇,究竟是哪一种细胞成分拥有如此强大的力量,以至于在细胞已经死亡的情况下,这种物质居然还能改变其他活细胞的生物学特征。
科学研究常常是一个循序渐进的试错过程。改变其中一个变量,看看会发生什么;然后从头开始,改变另一个变量;再从头开始,如此循环往复,直到发现显著的因果关系。为了确定是哪种物质将非致病的R型菌株变成了致病菌,埃弗里每次只从死亡的S型菌株中去掉一种成分。随着实验的进行,一种名为DNA的物质引起了他的注意。当埃弗里将DNA从S型菌株的细胞残骸中去除时,R型菌株并没有转化为致病菌,而是保持原样。正是S型菌株的DNA把R型菌株变成了致命杀手。有了这样的发现,埃弗里事实上已经找到了遗传的物质基础,并且证实它能够改变生物体的特征。
DNA决定了肺炎球菌的基本特征。在一封写给他弟弟的信中,埃弗里思考了这些发现的影响:
“转化因子的化学本质是什么?……当然,这个问题牵涉甚广……它涉及遗传学、酶化学、细胞代谢与碳水化合物的合成,等等。眼下,除非有大量充分、翔实的证据,不然谁也不会相信……区区DNA,在不需要蛋白质的情况下,竟能拥有如此鲜活具体的生物学属性。”埃弗里的发现是我们认识遗传现象的关键性飞跃。神秘的孟德尔粒子似乎就是由DNA构成的。更有意思的是,这些性状不仅能在亲代和子代之间传递,还能在细胞和细胞之间横向转移。就算不涉及繁育和生殖,细胞的特征也可以发生改变。
或许是因为这一步迈得太大,埃弗里的发现没能引起多少人的关注,他的境遇同当年的孟德尔如出一辙。詹姆斯·D.沃森是少数注意到埃弗里研究的人之一,当时他还只是芝加哥大学的一名学生。沃森预感到,生物性状遗传的奥秘或许就隐藏在埃弗里发现的转化因子中。
20世纪50年代初,沃森在英国剑桥与物理学家弗朗西斯·克里克一起研究DNA的物理结构。当时,DNA的化学结构已基本阐明,但相比地球上形形色色的生命形式,它的结构显得过于单薄。DNA由核糖、磷酸和碱基构成。碱基共有4种,分别是腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)。“碱”指它们的化学本质。这4种碱基的比例因物种而异。它们会不会就是地球生命的奥秘所在?在回答这个问题之前,我们要先解决另一个问题:这些化学成分究竟以怎样的形式构成了DNA?
这个问题的答案蕴藏在一系列清晰的DNA分子X射线衍射图像中。拍摄这些图像的人是技艺精湛的年轻科学家罗莎琳德·富兰克林,1951—1953年,沃森和克里克在未经富兰克林允许的情况下分析了她拍摄的图像。根据衍射图像反映的结构,二人梳理出标志性的双螺旋结构:以核糖和磷酸分子为骨架的两条长链相互盘绕,每条链上都整齐地排布着若干数量的A、C、G和T。两条长链反向平行,链上的碱基以固定的搭配方式精确配对:A对应T,G对应C。假设双螺旋结构的其中一条链上的碱基序列是AGCT,另一条链上对应的碱基序列就是TCGA。
沃森和克里克(借助富兰克林的实验数据)成为发现DNA结构的功臣,但他们还做了一件更大胆、影响也更为深远的事。前人留下了很多问题,包括孟德尔的遗传粒子、贝特森的基因、埃弗里的转化因子,还有遗传学家研究的变异现象的基础,而在提出双螺旋模型后,沃森和克里克立刻看到了解答这些问题的关键。他们的双链理论能够解释细胞和生物体的增殖:两条链互为对方的镜像复制,只需获得其中一条链,就能以该链为模板,得到另一条互补的链。双螺旋结构可以解释为什么麻雀只能生出麻雀而生不出燕子,为什么蓝鲸只能生出蓝鲸而生不出海豚,以及为什么你的孩子会长得像父母或祖父母。双链的互补性意味着每当细胞分裂或生物体繁殖时,每条链都能以自己为模板,一模一样地合成另一条链(这样的方式自然很不容易出错)。沃森和克里克提出,无论是什么让一个生物体变成了麻雀、燕子、鲸、海豚或你我,这种东西都应当在碱基的序列里。双螺旋模型奠定了以基因为中心的自然观,并在将近一个世纪的时间里主宰着我们对生命的看法。
可是,这种基因中心论并不能解释一切。自从DNA的结构被发现,这种分子就经常被人称为“生命之书”,它由4种字母(A、G、C和T)写成,充当构建生物体的说明书。但是,这份说明书的具体内容是什么,又由谁来负责执行里面的指令?
其实DNA跟说明书一点儿也不像。想象一下日常生活中我们常见的说明书是什么样,比如家具的安装指南,我们可能会想到丰富的图示,告诉用户每一步要用到哪些零件,还有各种各样的箭头,指导你一点儿一点儿把书架或橱柜组装好。说明书起码应该展示做一件事的顺序、操作的位置,以及完成每一步所需的工具和材料,可DNA并不是这样的。沿DNA链整齐排列的碱基对并不遵循固定的先后顺序。不过,碱基对的特定顺序确实携带着遗传信息,这样的序列也就是我们所说的“基因”。寻找基因可不是一件简单的事。
就我们目前具备的遗传学知识而言,要把DNA拆分成一个一个的功能单位(基因)可没那么容易。如果你有机会跟生物学家聊天,他们很可能会告诉你,要精确定义基因几乎不可能。在有的生物学家看来,基因仅仅指一种简单的化学结构,它包含一段特定的DNA序列,由4种基本的字母排列组合而成,并进行代际传递。但许多人(有的是科学家,有的不是)认为,基因特指与某种性状直接有关的遗传单位。双方的分歧源于一个令人尴尬的事实:在你的基因组(每个细胞内所有的DNA)中,只有1%~3%与可遗传的生物性状直接相关。虽然确切的比例因物种而异,但纵观整个生物界,与基因有关的DNA都只占很小的比例。至于除基因以外的A、G、C、T序列有什么用,我们仍然不甚明了。正因为如此,所以有的人说,基因犹如被海量乱码隔开的文字;当然,基因本身也不同于人类的文字,它是化学物质。
不过,把基因比作“文字”确实有一定的道理:同文字一样,基因是有意义的;不仅如此,构成一个基因的字符串越长,它承载的信息就越多。字符串上的每一个位置都有4种可选的字母,即A、G、C和T。举个例子,假设一个基因含有4个字母,它就有4 4 或者说256种可能的组合方式,也就是256种不同的化学意义。如果它有5个字母,那么可能的组合有4 5 或者说1 024种。常见的基因往往有多达数千个字母,可能的组合方式事实上趋近于无限多种。尽管如此,同人类的语言一样,字母和词语的搭配只有遵循一定的规则才有意义,并不是能写多长就写多长,想怎么组合就怎么组合。
要想理解基因究竟是什么,以及它们扮演的角色是否真如基因中心论宣称的那般重要,科学家需要进行更为深入的研究,以便破译基因组的文本内容,弄清遗传密码的书写和读取规则。
史蒂夫·琼斯是伦敦大学学院的遗传学家,他写过几本关于遗传学的畅销书。在每学期的第一堂遗传学课上,琼斯都会告诉学生,他的工作就是把性讲得索然无味。琼斯对学生说,遗传学研究的是性,不过仅限于跟欢愉完全不沾边的那部分。他很可能是对的。谈遗传就不得不谈论性,毕竟遗传学里有豌豆的杂交实验,也有小鼠的杂交实验。可是,边数豌豆边对其进行分类,统计小鼠的毛色,做大量的指数运算,还有像念经一样不停地念叨AAAGTCCCTTA……无论怎么看,这些都不是能让人欲火焚身的事。
总而言之,与其说基因组是一部叫人面红耳热的爱情小说,不如说它更像一个需要破译的悬疑故事。除了把DNA称为“生命之书”或“生命脚本”,科学家还经常说DNA携带的信息会被“转录”成基因和性状之间的信使。扮演这个信使角色的是另一种核酸:RNA。RNA的分子结构与DNA十分相似,但有两个不同之处:DNA中的脱氧核糖被RNA中的核糖取代,胸腺嘧啶(T)被尿嘧啶(U)取代。这些差异导致RNA不会像DNA一样形成双螺旋结构,而是形成简单的线性分子或复杂的三维结构。
当发生转录时,染色体中的某段DNA双链如拉链一般被拉开,这个过程被称为“解旋”。这段细胞执行特定功能所需的DNA序列随即被抄录成RNA,而与DNA不同的是,RNA可以脱离染色体。这就是基因“表达”的过程,通常也叫转录。DNA里的基因往往只有一个拷贝,但一个基因可以转录出许多个RNA分子。除此之外,DNA分子的寿命不短于细胞的寿命,甚至在生物体死后依然能存活一定的时间,这正是奥斯瓦尔德·埃弗里能用死亡的致病菌做实验的原因;RNA分子的寿命则很短。一旦转录完成,DNA就会恢复原先的双螺旋结构,将遗传信息丢失的风险降到最低。
有的RNA分子在DNA功能的调控中扮演着重要角色,比如它们决定了基因应当在何时何地表达。更重要的是,DNA的加密“文字”必须靠RNA分子才能破译:DNA先把信息传递给RNA,RNA再根据自身携带的信息合成蛋白质。这种负责传递信息的RNA被称为信使RNA(简称mRNA)。
种类繁多的蛋白质是细胞功能的实际执行者。其中有一大类蛋白质负责在各种各样的生理过程中(包括将食物分解成小分子并产生能量的消化过程,或者将毒性物质分解成无害废物的免疫应答)催化化学反应。其他蛋白质则主要发挥结构性功能:角蛋白不仅为细胞提供结构支持和保护,而且是毛发和指甲的主要成分;血红蛋白不仅是红细胞的填充物,还负责把氧气运送到全身各处;抗肌萎缩蛋白(肌养蛋白)是一种柔韧的黏结剂,它将细胞连接到其他细胞或细胞外基质上,协助细胞的移动和细胞之间的通信。
将信使RNA变成蛋白质需要依靠一种叫作“翻译”的过程,之所以如此命名,是因为构成蛋白质的基本单位是氨基酸,一类完全不同于核酸的重要化学物质。DNA和RNA分别由4种分子单元构成,遵循严格的配对规则,形成线性或螺旋形的分子:构成蛋白质的氨基酸则多达20种,而且相互之间差别极大。构成DNA双螺旋结构的4种碱基十分相似,相比之下,氨基酸犹如花样繁多的乐高积木,凭借丰富的种类和多变的拼接顺序,能组合出数量惊人的结构和形状。氨基酸的排列顺序由核酸的序列决定:一种由4个字母构成的语言被翻译成另一种由20个字母构成的语言。
DNA的碱基没有固定的排列顺序,所以RNA的碱基也没有固定的排列顺序,但是,RNA必须抄录DNA携带的信息,两种序列唯一的区别是RNA把DNA上的T换成了U。一个碱基后面可以跟任何碱基。由于碱基共有4种,通过简单的排列组合可知,三个碱基的组合便可以涵盖所有的天然氨基酸。如果是一个碱基决定一个氨基酸,那么4种碱基只能对应4种氨基酸;同样,两个碱基只能对应16(4×4)种氨基酸,这个数量仍少于构成天然蛋白质所需的20种。如果编码一个氨基酸需要三个碱基,那么所有可能的组合将多达64(4×4×4)种,不仅数量足够,而且有富余。
许多实验都证实了这种碱基三联体对应一个氨基酸的编码方式,而且有的氨基酸对应了不止一个三联体。其中还有一些特殊的三联体,比如ATG,它在遗传序列中代表蛋白质合成的起始点;再比如TAA、TAG和TGA,它们表示遗传序列的翻译就此终止。这套遗传编码适用于所有现存的动植物,这种通用性意味着某种惊人的可能:现有的DNA全部来自亿万年前同一个成功的分子祖先。翻译的过程由一种奇妙的细胞器负责,它的名字叫核糖体,由蛋白质和RNA构成,能像扫描电报纸条的机器一样读取信使RNA上的信息,并根据这些信息合成蛋白质。
现在,对于基因是什么以及它们如何被翻译成肉眼可见的性状,你应该有大概的认识了。首先,DNA解旋,让一部分序列能够被转录成RNA;随后RNA又被翻译成用来执行特定功能的蛋白质,比如酶。在染色体上,DNA转录成RNA的起点和终点对应着由碱基A、G、C、T组成的特殊序列,于是我们把这种起点和终点之间的序列称作“基因”。也就是说,基因的“意义”建立在RNA和蛋白质之上,而RNA和蛋白质的合成又涉及遗传信息的读取、传递和翻译。这些过程的具体机制以及它们最初是如何起源的,足够再写一本书,因此我们不在这里对这些问题做详细探讨。
图2 分子生物学的中心法则认为,细胞核是DNA发生自我复制和被转录成信使RNA的地方。部分RNA被送到细胞质,一种大型结构随即附着到RNA分子上,它们是名为核糖体的纳米级细胞器,一边沿着信使RNA链移动,一边将信使RNA翻译成蛋白质
在人类的基因组里搜寻指导蛋白质合成的基因,犹如在一份总计60亿个字母的说明书里找出一段总长度为两万词且不连贯的书架组装说明。经过多年的反复试错,我们已经学会了如何辨别这些遗传信息和在染色体上定位它们,而且经常能将其破译。不过,我们并不清楚这些指令的排布遵循怎样的先后顺序,如果想利用这些DNA序列人工构造生物体,我们将不得不尝试每一种可能的字母组合,看看这些组合方式会得到怎样的结果。
作为一份说明书,基因组并不好用;作为一本书,它非常难读。尽管如此,基因组依然包含了与各种细胞的零部件、工具和原材料有关的信息,这些东西通过某种方式组合成了动物、植物、你我。不过,即使能从基因组的犄角旮旯里找出编码特定性状的序列,我们也仍不清楚DNA携带的这些信息究竟如何被转化成复杂的组织和器官,并使我们的生命得以延续。直到更为深入地研究了单个基因的意义和表达机制,这个谜题的答案才有了些许眉目。
正如前文所说,早在孟德尔之前,人们就已经发现某些疾病可能具有遗传性了,只是他们不知道这种可遗传的东西(导致遗传病的物质基础)究竟是什么。人类发现的第一种符合孟德尔遗传定律的疾病与某种酶有关,它的名字叫尿黑酸氧化酶。由于缺乏这种酶,尿黑酸尿症患者无法分解它们体内一种名为尿黑酸的物质,导致这种酸在尿液中大量积聚。尿黑酸水平超标还有可能引发关节炎等问题。暴露在空气中的尿黑酸会发黑,因此尿黑酸尿症也经常被称作“黑尿症”。在19世纪的最后几年,这种罕见的表型引起了伦敦大奥蒙德街医院的阿奇博尔德·加罗德医生的注意。
加罗德开始留意和记录那些尿布上有黑色污迹的新生儿,并发现这种病症带有明显的家族性。后来他又发现,这种病不仅表现出家族性,而且患儿的父母往往是堂表亲。加罗德去剑桥咨询了威廉·贝特森,贝特森向他介绍了孟德尔的豌豆实验。由于尿黑酸尿症极其罕见,它显然是一种隐性性状。加罗德在1902年发表的论文里称,患儿继承了某种“化学上的独特性”。在“基因”一词普及后,尿黑酸尿症便被划入遗传病范畴,它的病因是编码尿黑酸氧化酶的基因发生了“突变”,而患者正好继承了这种性状或者说缺陷。致病机制被阐明后,这种病的治疗不再是难题,只要为患者补充他们缺失的蛋白质即可。
正因为尿黑酸尿症的病因是基因突变导致某种酶缺失,科学家曾以为基因总是与酶有关。但事实上,许多基因和性状之间的联系并没有那么简单直接,针对这些基因的研究让我们有了意料之外的发现。
1900年前后,一位名叫阿比·拉斯洛普的退休教师在美国马萨诸塞州做起了宠物繁育和销售的生意。为稳妥起见,她首先选择了小鼠和大鼠(这些小型动物的繁殖速度快),这能让她尽早实现盈利。拉斯洛普最早饲养的动物中有一对日本华尔兹小鼠,这是一种17世纪起源于日本和中国的宠物鼠。这个品种的小鼠最大的特点是它们的行为表现:华尔兹小鼠不像普通小鼠那样不爱动或总是沿直线跑来跑去,它们喜欢绕圈跑,就像人在跳舞一样。有时候,它们甚至不是在跑步,而是单纯地绕着一条后腿旋转,一口气能转上数百圈。另外,它们总是摇头晃脑的。你应该看得出来人们为什么要培育这个品种,在电视和互联网发明之前,这种可爱的小鼠极大地满足了人们的好奇心。
随着时间的推移,这对小鼠及拉斯洛普饲育的其他“神奇”小鼠的后代总数突破了一万只。拉斯洛普知道华尔兹小鼠独特的行为表现是可遗传的,所以她必须让华尔兹小鼠彼此交配,只有这样才能保证它们的后代也是华尔兹小鼠。正因为如此,她饲养的小鼠都是近亲繁殖,有的是兄弟姐妹交配,有的是堂(表)兄弟姐妹交配。但没过几年,拉斯洛普就发现,有些近亲繁殖的华尔兹小鼠皮肤上长出了肿块,而且肿块会遗传。她觉得这种肿块类似肿瘤,于是联系了一些科学家,询问他们的意见。最后,拉斯洛普与圣路易斯华盛顿大学的里奥·勒布达成合作,一起研究哪些近亲繁殖的小鼠更容易患癌症。1913—1918年,他们先后发表了10篇开创性的论文,主题均与小鼠性状的遗传性有关,并且指出小鼠的乳腺肿瘤具有遗传性。从那以后,小鼠就成了实验室研究肿瘤的生物学模型,直到今天。同样延续到现在的还有基因能引发疾病的观点,尤其是基因与癌症之间的关系。
说豌豆的颜色和纹理可遗传是一回事,说癌症和神经系统的病症可遗传则是另一回事了。不要忘记,此时距离埃弗里观测到DNA的转化能力还有30多年的时间,距离沃森和克里克阐明DNA的化学结构及确定四种碱基(A、C、G和T)在DNA里呈线性排列,还有将近半个世纪。
今天,当说到突变时,我们指的是发生在某一段DNA序列中的变化。这种变化既可以是一个或多个字母被替换,也可以是序列中的某些字母发生缺失,导致相应的性状受到影响,而且这种影响可遗传给后代。类似的变化有多种不同的形式:要么是单个碱基字母被其他三个字母中的任意一个替换,要么是序列中出现字母缺失,或者有一整段序列出现重复。一旦基因中的某段序列发生改变,它就变成了原基因的新版本,我们称之为原基因的“等位基因”。你可以把基因想象成词语,如果它是一个动词,那么它的等位基因相当于这个动词的不同时态,而时态的变化会改变动词的意义。在等位基因被转录成RNA并被翻译成蛋白质之后,基因内发生的变化将决定蛋白质能做什么、不能做什么。如果这种蛋白质是机体发挥某种功能(比如分解尿黑酸)所必需的,基因序列的改变就会造成机体的功能障碍。类似的障碍并不总是攸关生死,比如光滑的种皮需要某种酶,即便缺乏这种酶,结果也仅仅是豌豆的表面会起皱。
我们只需要通过一个简单的例子,就能说明这一点。假设有这样一串字符,我们从第一个字母开始,每三个字母组成一个单词,模拟每三个字母对应一个氨基酸的基因,这句话原本是“THE CAT ATE THE RAT AND WAS ILL”(吃了老鼠的猫病倒了)。如果删除“CAT”(猫)中的“A”,整句话就读不通了,因为它现在变成了“THE CTA TET HER ATA NDW ASI LL”,完全不知所云。因此,类似这样的字母缺失会彻底摧毁蛋白质的功能。但如果只是某个单词内的字母发生了替换,这样的微小变动就不会导致整句话读不通,所以在某些情况下,我们依然能明白整句话想表达的意思。例如,如果“CAT”中的“A”变成了“E”,你基本上还是能明白“THE CET ATE THE RAT AND WAS ILL”的意思;但如果“T”变成了“W”,也就是“CAT”变成了“CAW”,我们就猜不出究竟是什么动物把老鼠吃掉了。而这样的改变将对蛋白质的功能造成严重的影响。
加罗德发现的尿黑酸尿症的病因,以及拉斯洛普悉心培育的华尔兹小鼠的“跳舞”行为,都是突变的结果。事实上,华尔兹小鼠的独特行为表现源于一种基因突变,这个基因编码的蛋白质对于维系内耳细胞的功能和掌控身体平衡至关重要。同样的突变如果发生在人类身上则会导致厄舍综合征,影响患者的平衡感、听力和视力。该突变涉及的基因编码的蛋白质并不是酶,这种情况让遗传学如临大敌:当一个基因编码的蛋白质不是酶时,我们要如何根据基因突变造成的异常后果,反向推断正常基因原本的功能呢?一种影响小鼠尾部的突变首次引起了人们对这个问题的关注。
20世纪20年代,纳迪娜·多布罗沃斯卡娅-扎瓦茨卡娅(Nadine Dobrovolskaya-Zavadskaya)在俄国革命后流亡海外。在巴黎的镭学研究所工作期间,她对辐射引起突变的效应产生了兴趣。事情的起因是一连串女性的死亡事件,其中绝大多数人的死因是贫血、骨折和肿瘤。这些死者的共同点在于,她们都因为镭能发出荧光的性质而选择用它装饰家里的物品。
通过与巴斯德研究所合作,多布罗沃斯卡娅-扎瓦茨卡娅对雄性小鼠的睾丸施以辐照,然后让它们与雌鼠交配,看其后代是否会发生变异。在进行了3 000次类似的交配实验后,她发现了两个“变异品系”——经过多代繁殖依然能稳定遗传的变种。其中一种变异小鼠的尾巴特别短,她把这个品系命名为T型变种,“T”代表“tail”(英文中的“尾巴”一词,如今这个品系被称为“Brachyury”,其希腊语义是“短尾巴”)。她遵循遗传学界不成文的命名惯例,用一个大写字母指代它,表示它是一种显性性状:哪怕双亲中只有一方有这种性状,也有一定的概率遗传给后代。不仅如此,这个变种的名称后来还成了发生突变的基因的名称。
多布罗沃斯卡娅-扎瓦茨卡娅发现的这种突变表现得非常独特。当辐照破坏了Brachyury基因的其中一个拷贝时,该小鼠的后代都有尾巴,只是尾巴变得很短。但令人感到惊讶的是,当Brachyury基因的两个拷贝都消失时,小鼠的后代会胎死腹中。多布罗沃斯卡娅-扎瓦茨卡娅的研究算得上非同凡响,而且它绝不是唯一一项歪打正着的研究,之后有很多原本针对癌症的实验最后却误打误撞地促进和加深了我们对发育(生物体形成过程)的认识。小鼠胚胎的死亡让科学家对隐藏在这种突变背后的东西浮想联翩。
当时,多布罗沃斯卡娅-扎瓦茨卡娅并不相信辐射会对小鼠的基因造成损伤。她认为辐照的作用是“让原先隐藏的病症显现出来”,它只是摧毁了某种原本对突变起限制作用的东西。对于这种致死突变,科学家后来决定直接研究胚胎死亡后留下的生物样本。他们发现死胎的脊髓很短,胸肌没有分化,也没有尾巴。这意味着如果Brachyury基因与某种酶有关,那么生理缺陷的严重程度与这种酶的缺失程度之间存在某种线性的量变关系:Brachyury基因越少,酶的功能就越弱,胚胎的生理缺陷也越严重;反过来也可以说,突变基因的表型(或者说基因型的物理表现)就越明显。
想要理解指导酶合成的基因有什么功能,并不是难事。以尿黑酸尿症为例,这种病涉及的酶的功能十分明确:分解一种名为尿黑酸的物质,将其转变成氨基酸,供人体利用。如果缺乏这种酶,尿黑酸就会大量积聚并引发疾病,因此患者可以通过补充缺失的化学物质治疗病症。在医疗实践中,这种治疗方式被称为酶替代疗法。但也有一些突变涉及的基因叫人难以捉摸,比如Brachyury。无论这个基因实际上编码的东西是什么,至少从表面看,它不仅决定了小鼠尾巴的长度,还决定了小鼠脊椎和肌肉的数量与形状。换句话说,它的功能也许就是调控小鼠躯体的发育和形成。虽然这个基因突变的后果显而易见,但它的正常版本编码的东西究竟是什么,还有它在脊椎的正常发育过程中到底起着怎样的作用,这些问题都很难回答。
Brachyury变种的繁育实验表明,基因的改变可能会殃及生物体的发育。但Brachyury会不会是个特例?其实畜牧人对类似的变种可不陌生,他们早就知道绵羊有独眼畸形(双眼融合成一只眼,并位于前额正中)、半肢畸形(四肢不完整)、多指/趾畸形或并指/趾畸形(指/趾的数量多于正常情况或相邻指/趾连为一体)。这些畸形均可遗传,意味着它们很可能与突变及基因有关。果真如此的话,这些基因编码的蛋白质会是什么样?它们的功能又是什么?更令人好奇的是,这些怪胎的存在是不是意味着还有更多奇形异状的怪胎尚未被发现?如果把它们都找出来,我们或许就能像拼拼图一样,弄清楚动物体是由哪些部分拼凑而成的。为此,我们需要对变种进行有组织的大规模搜寻。
虽然小鼠的繁殖速度很快,但还不够快,它们无法帮助科学家厘清基因型和表型之间的关系,更不能作为系统性人工诱变实验(这种实验不仅要求实验动物以惊人的速度繁殖,在短时间内产生海量的后代,而且不能占用过多的空间)的对象。最特别的是,如果你想仔细地观察致死突变,就需要找到一种在母体外发育的动物。
于是,“露水爱好者”果蝇 (黑腹果蝇,学名Drosophila melanogaster)登场了,并很快成为遗传学研究的明星物种。果蝇的繁殖速度非常快,从受精卵到能生育的成虫只需10天,更不要提它惊人的繁殖量了:一只吃饱喝足的雌性果蝇每天可以产卵100枚。同包括蝴蝶和蛾类在内的其他昆虫一样,果蝇的生活史分为两个阶段。第一个阶段是蛆,第二个阶段是经过变态发育的成蝇,成蝇有一对翅膀和三对足。蛆和成蝇都有体节,每段体节各有特点,这对实验人员统计它们的变异和缺陷来说非常方便。
果蝇之所以受到研究者的青睐,靠的并不是颜值。它的外表怎么也算不上讨人喜欢,除非你像著名的遗传学家柯特·斯特恩那样,仔仔细细地把果蝇全身看个遍。“当我把果蝇放到显微镜下时,”斯特恩曾写道,“我惊奇地看到……它脑袋上那对巨大的红色眼睛、触角,还有清晰可辨的口器;它壮实的胸部向后拱起,上面长着一对透明翅膀和三对足,翅膀表面映射着漂亮的七彩光芒。”事实上,果蝇在遗传学研究中广受欢迎的原因除体形小、寿命短之外,还在于它们仅有4对染色体。这大大降低了诱导基因突变及后续在染色体上定位突变的难度,毕竟它们的遗传序列总量有限。
从1910年开始,一个人数不多的美国科研团队利用果蝇解开了孟德尔遗传模式的谜题,这个团队的领导者是托马斯·亨特·摩尔根。我在这里特意用了“模式”这个词,原因在于果蝇本身就是一种极具“模式”的生物。它的翅膀上有“翅脉”,这种纹路看上去很像人的血管,但二者其实毫无关系。翅脉在翅面上纵横交错,它们的走向有固定的模式,所有果蝇翅膀表面的花纹都一样。在令斯特恩印象深刻的果蝇“壮实的胸部”——昆虫躯干的中间部分,刚毛的分布也有固定的模式,所有果蝇都一样。果蝇规律的身体结构让有别于正常模式的个体无所遁形,所以摩尔根及其同事能轻易找出变异的果蝇个体并在染色体上定位突变发生之处。到了1927年,摩尔根的研究团队已经证实,包括果蝇翅膀的形状和胸部是否有刚毛在内的诸多性状都遵循孟德尔遗传定律。他们还发现,这些性状相关的突变及其涉及的基因在染色体上的排列和分布都有固定的顺序,这种顺序也是代代相传的。
在多年的研究中,摩尔根的课题组(以及其他实验室)培育和记录了无数的果蝇变种。比如,眼睛是白色、朱红色、棕色或红宝石色而非正常红色的变种,刚毛更短、更细、更粗、更密或更稀的变种,以及眼睛更小或胸部颜色不同的变种。有时候出现的变种就像个怪物。有一个首次发现于1915年的变种外形非常怪异,它看上去仿佛是拼了命地想在正常的翅膀或腿的后方再长出一对翅膀或一对足。还有一个更惊悚的变种,它的脑袋上居然长出了一条腿。这两种变异果蝇都能正常繁殖,也都能稳定地把其严重的生理缺陷遗传给各自的后代。简言之,这些变异都与基因有关。
长着两对翅膀的果蝇变种令爱德华·B.路易斯着迷,当时这位年轻的遗传学家在位于帕萨迪纳的加州理工学院工作。路易斯本科阶段就开始研究果蝇,小时候他甚至把它们当成宠物养。另外,在研究了广岛和长崎两地原子弹幸存者的医学史后,他对突变如何被引发和传递这个问题产生了兴趣。20世纪五六十年代,路易斯一直在耐心地繁育果蝇,而且只关注长有两对翅膀的变种。他仔细地观察它们的身体结构,试图找出它们的染色体有哪些相似和不同之处。遗传学家的工作很好地诠释了什么叫作“细节决定成败”。虽然不知道它们额外的那对翅膀是怎样形成的,但路易斯意识到,每一只四翅变种果蝇与正常果蝇的差别都落在了3号染色体上的同一个特定区域内。
他注意到其中一个小差别在于果蝇的平衡棒。这是一对短粗的棒状感受器,有的昆虫靠它们来引导飞行。果蝇的翅膀一般长在第二胸节上,而平衡棒通常位于又小又不起眼的第三胸节。但是,路易斯发现四翅变种果蝇多出的那对翅膀似乎取代了正常果蝇的平衡棒,而且原本窄小的第三胸节变得宽大了一些。他在很多四翅变种果蝇身上观察到,第二对翅膀其实是没有完全变成翅膀的平衡棒。经过实验,路易斯设法培育出一种堪称完美的四翅变种果蝇,这种果蝇的第三胸节与第二胸节完全相同,多出的那对翅膀与正常翅膀也没有任何区别。路易斯给这种果蝇取了一个非常贴切的名字:bithorax(双胸变种)。
在他的果蝇杂交实验中,路易斯还发现了其他变异,比如腹节被其他体节替换的变种。这种替换有一个规律:变异只会让受影响的体节变成更靠近头部的体节。换句话说,腹节可能会变成胸节,因为胸节比腹节更靠近头部;而胸节不会表现出腹节的特征。举个例子,正常情况下,果蝇的足长在最后一个胸节上,而路易斯培育的某些变种的足长在第一腹节上。当路易斯试图寻找这些变种的突变位置时,他发现所有发生变化的基因都在果蝇3号染色体的某个区段附近,于是他把这些基因统称为“双胸复合物”,对应于他最早发现的那个变种。而在印第安纳大学,一个由托马斯·考夫曼领导的科研团队发现了脑袋上长腿的变种:一条腿取代了(右侧)触角,从果蝇的脑袋上伸了出来。研究人员将其命名为Antennapedia(触角足变种),这是他们发现的第一个前端体节发生变异的变种,类似的变异十分罕见。考夫曼团队把与这种前端体节变异有关的所有基因统称为“触角足复合物”。就双胸突变和触角足突变而言,前者涉及身体,后者涉及脑袋,二者以某种带有方向性的作用方式涵盖了果蝇全身。身体某些部位发生缺失、融合或重复的突变,被科学家统称为“同源异形突变”,因为它们是研究“同源异形”现象或生物体结构发育的重要依据。
图3 正常果蝇(左)有一对翅膀和三对足;相比之下,双胸变种果蝇(中)因为有两个重复的胸节而长出两对翅膀,触角足变种果蝇(右)则是头上长出了足
路易斯在1978年发表的论文中称,双胸变种果蝇表明基因与果蝇身体各个部位的结构和外观有关。 触角足复合物与双胸复合物的基因携手,塑造了果蝇身体各个部位的外形。
到了20世纪80年代初,遗传学研究又培育出一小批稀奇古怪的新变种,其中有些十分怪异。比如Krüppel(德语,意为“瘸腿”)变种,这种果蝇几乎没有胸部。再比如bicaudal(双尾)变种,它们的幼虫在原本是脑袋的一头长出了一条尾巴。虽然这些变种的寿命没有双胸变种和触角足变种那么长,但它们似乎蕴藏着解开生物体发育之谜的关键线索。
20世纪70年代,南非遗传学家悉尼·布伦纳在英国的剑桥分子生物学实验室,研究神经系统是如何形成的。他为这个课题挑选的实验动物秀丽隐杆线虫(Caenorhabditis elegans),是一个比果蝇更简单的物种。这种微小的生物不仅好养活,而且从卵到成虫的发育过程在显微镜下清晰可见。秀丽隐杆线虫学名的种加词“elegans”(秀丽)源于它们会在寻找食物时表现出优美的波浪形体态。布伦纳测试秀丽隐杆线虫的神经系统是否发育正常的方式是先戳它们,然后观察它们扭动身体的方式是优雅如常,还是只能往左或往右移动,又或者是停在原地、完全没有反应。他培育了上百种突变体,并逐个检验它们是否有反应或做出了错误的反应。他就是用这种方式甄别出哪些基因与神经系统的发育和功能有关。
20世纪70年代末,受布伦纳的工作启发,当时还在海德堡欧洲分子生物学实验室工作的克里斯汀·纽斯林-沃尔哈德和埃里克·威绍斯构思了一个旨在研究果蝇发育方式的实验:先培育出一种产下的卵无法孵化的果蝇,然后寻找哪些基因与这种致死突变有关。
在正常情况下,果蝇的受精卵只需24小时便能孵出一条长约一毫米的蛆。蛆分前后两端,前端为头,后端是尾。在头尾之间,蛆的身体分成了11个清晰可辨的体节,每一个都有自己独特鲜明的特征。蛆全身被一层不透水的外表皮包裹,这层表皮被称为“角质层”,上面有深浅不一的花纹。如果受精卵不能正常发育,结果要么是受精卵在蛆孵化前就腐坏了,要么是蛆死在卵里。无论是哪种情况,卵里都会留下可供进行死因分析的胚胎残骸,这些残骸便是纽斯林-沃尔哈德和威绍斯评估受精卵发育情况的依据。
对于一项科学实验,寻找突变也有让人犯难之处。纽斯林-沃尔哈德和威绍斯,以及后来加入他们的格尔德·于尔根斯,三个人要诱导突变并完成总计三万次杂交实验。挨个甄别这些杂交实验的后代并对它们进行准确的分类,是一件极其费时费力的事。不仅如此,虽然他们三人认为一定能找到胚胎发育失败的原因,但这种原因未必显而易见。更为不利的是,每条蛆的死因可能都不一样,胚胎的死亡与突变之间缺少明确的关联。但是,经过仔细的研究和分析,他们还是发现了规律。不同的突变的确有共通之处,它们可以据此分类。谁能想到,这些如此怪异的变种背后竟然也有规律可循。
有一类致死突变是双尾,即蛆的脑袋也变成了尾巴,与前文提到的双尾变种类似。有些变种的头尾之间的体节消失了,有些变种的每个体节则如前后颠倒一般。更令人疑惑的是,有的变种只缺少奇数或偶数体节,有的则长了两个腹部。在某些死亡的蛆身上,科学家发现它们的角质层不见了。
给他们培育的变种取名字时,纽斯林-沃尔哈德、威绍斯和于尔根斯遵循了以表型的突出特征命名的惯例,不时还带点儿让人会心一笑的幽默成分:丧钟,蜗牛,驼背,豪猪,偶数跳读,奇数跳读,遮阳伞,面包屑,火箭炮……随着时间推移,这份名单变得越来越长。有时候,致死突变恰好发生在某个已得到鉴定的果蝇基因上,而在早先的甄别实验里,这个基因的突变并不影响后代的存活。例如,导致体节融合的致死突变碰巧发生在“无翅”基因上,而这个基因之所以叫这个名字,是因为先前的实验发现它的突变会导致果蝇不长翅膀。还有一种让果蝇腹侧角质层消失的致死突变,决定这种性状的是Notch基因的一个等位基因,前者会导致果蝇翅膀的边缘产生V形凹口。这种现象非常有趣。正如路易斯所料,他的发现似乎证实了同一个基因可以执行多项功能。
为了寻找更多与发育有关的基因,年轻科学家纷纷涌向英国剑桥大学、德国图宾根大学和美国新泽西州的普林斯顿大学,它们分别是布伦纳任职、纽斯林-沃尔哈德移居和威绍斯建立实验室的地方。对从事发育研究的人来说,果蝇及其幼虫无疑是天赐的礼物,令他们收获颇丰,但更大的奖励隐藏在体形更大的实验动物身上。美国科学家乔治·施特莱辛格指出,斑马鱼(Danio rerio)这种宠物鱼很可能是研究动物发育过程的理想样本。他鉴别出了斑马鱼的几种会导致怪异个体出现的隐性突变,并认为只要研究这些变种,或许就能知道哪些基因对发育来说是必不可少的。尽管斑马鱼的个头比果蝇大得多,但它们的繁殖速度很快,从受精卵长到能繁殖的成鱼只需不到三个月的时间。更妙的是,斑马鱼通体透明,从鱼苗到幼鱼再到成鱼,研究人员一直能清晰地看到斑马鱼的器官在发育过程中的变化。
克里斯汀·纽斯林-沃尔哈德雄心勃勃地提出了筛选斑马鱼变种的实验计划,她打算把自己的果蝇实验原原本本地复刻到斑马鱼身上,但这种实验的组织难度几乎是军事行动级别的。就果蝇而言,你可以把它们分装进小瓶子里,再将其全部保存在一个大小相当于冰箱的恒温箱里。但是,鱼必须养在特制的水缸里:按照纽斯林-沃尔哈德的设想,她将持续跟踪4 000组斑马鱼数年,每组斑马鱼要完成4轮杂交实验,这个实验至少需要饲养7 000条斑马鱼。她和她的课题组最终找到了1 163个斑马鱼变种,涉及369个基因。她的学生沃尔夫冈·德里费尔毕业后独立开展了斑马鱼变种筛选研究,一共鉴定出577个变种和220个相关基因。同果蝇的情况一样,这些突变也可以分类,它们分别能够影响身体的形成过程、器官和组织的位置与结构,以及皮肤的色素分布。
最后该轮到小鼠了。发育生物学家凯瑟琳·安德森曾参与果蝇原肠作用(原肠胚形成)变异特征的鉴别,她在纽约的斯隆·凯特琳研究所开展了一项小型筛选研究,该研究持续至今。别忘了,小鼠是一种对空间和时间要求较高的实验动物。
无论怎么看,这些在实验室里由人工培育的变种都表明,我们可以通过诱导基因突变干扰生物体的发育,而且这种手段似乎适用于所有生物。显然,天然的可遗传畸形很有可能源于同样的机制。尽管如此,我们又遇到了遗传学领域那个老生常谈却经常被人遗忘的问题。就算科学家通过实验手段干扰了某项功能,并看到了由此导致的后果,他们也很难根据这个后果推断自己究竟干扰了哪项正常功能。解决这个难题的其中一种办法是:深入研究基因组,找到目标基因,然后利用遗传密码规则,尝试破译DNA序列编码的蛋白质。如果能做到这一点,那么我们不仅可以弄清楚生物体的发育过程,理解基因与某些复杂性状之间的关系也不再是难事,比如基因如何影响眼睛、腿或神经元的活动。
20世纪80年代,在芝加哥大学读研究生的我对包括Brachyury, bithorax和bicaudal在内的各种变种十分着迷,对海德堡的变种筛选实验也有所耳闻。这些突变体真能告诉我们生物体是如何形成的吗?这个疑问引导我走上了科研道路,并成为我的主要研究课题。那些基因编码的蛋白质究竟有怎样的魔力?如果各种各样的生命形式是形形色色的酶通过独特的方式组合而成的,那么科学研究的重点当然应该放在酶和它们的组合如何发挥作用上。但是,如果还有其他因素在起作用呢?要回答这个问题只有一种方法,就是探索基因的DNA序列,看看它们编码的到底是什么样的蛋白质。
采取这种研究思路的科研团队不在少数。在加利福尼亚州,爱德华·路易斯与生物化学家戴维·霍格内斯合作,寻找双胸复合物相关的DNA。还有两个团队的研究主要关注触角足复合物:一个在美国印第安纳州,由托马斯·考夫曼领导;另一个在瑞士巴塞尔,由沃尔特·格林领导。这项工作很有难度,但对染色体经年累月的探索,加上专门为此研发的实验技术,都为分析与这两类突变有关的DNA片段奠定了坚实的基础。研究人员在双胸复合物基因里发现了3段编码信使RNA的DNA序列,在触角足复合物里则发现了7段。然而,无论这些基因编码的信息是什么,它们最终都没有被翻译成酶。时间来到1983年某个夏日的傍晚,地点是英国剑桥,在一场由研究果蝇遗传学的欧洲科学家参加的会议上,格林实验室的几位成员分享了他们观察到的一个奇怪现象:归属于上述两种复合物的多个基因似乎含有一个相同的DNA片段,或者说一小段相同的序列。这个片段的长度是180个字母(碱基),能够编码60个氨基酸。科学家把它命名为“同源异形框”(homeobox,也称Hox),因为它包含了多个重复的同源异形基因。这种现象首次被发现正是在果蝇身上,这种昆虫的基因有重复片段。
格林实验室的研究人员很有先见之明,他们意识到可以把同源异形框的DNA序列当作鱼饵,“钓”出其他动物体内类似的基因。碱基A只会与T配对,G只会与C配对,所以你可以用一条序列已知的DNA单链,在任何生物的基因组里寻找能与这条单链互补的序列。科学家从各种各样的蠕虫和昆虫身上收集了大量DNA,让他们大吃一惊的是,同源异形框竟然无处不在。距离格林实验室不远的另一个实验室决定检测他们培育的蛙,结果发现蛙也有这些基因。用路易斯的话来说,Hox基因(同源异形基因)犹如一张“飞毯”,它让科学家能在许多动物中定位基因,从果蝇一直到高等脊椎动物。
能在那个时候成为一名生物学家,实乃人生幸事。我记得当时几乎每周都有令人心潮澎湃的新发现。在各个变种身上,Hox基因的表达因部位而异。这类基因的表达情况决定了生物体的各个部位会是什么样。最出人意料的是,Hox基因在染色体上的排列顺序与它们在生物体的哪些部位表达相对应。当科学家开始研究和分析它们编码的RNA和蛋白质时,这种规律依然成立。
如今我们已经知道,这些Hox基因存在于所有生物体内(包括人类),而且它们在其他生物染色体上的排列顺序与果蝇染色体上无异。这种隐藏在基因组里的规律就像一份描绘生物体的通用大纲或一幅地图。如此非同寻常的发现让威廉·布莱克的诗多了一层深意:
我又何尝不是一只
跟你一样的苍蝇?
而你又为何不能是一个
和我一样的人?
虽然果蝇和小鼠的外表天差地别,但Hox基因的相似性暗示了它们在遗传学上拥有共同的起源,或者用科学家的话说,这些基因具有高度的物种保守性。
更重要的是,Hox基因编码的蛋白质绝对不是酶。后来我们才知道,Hox蛋白属于一类名为“转录因子”的分子,这是一大类能够与DNA结合并启动基因表达的蛋白质,我们可以从中看出同源异形框的重要性。这意味着Hox基因是调控生物体结构的工具,而且它们的调控方式正如路易斯设想的那样:作用于染色体上特定的区域,控制其他基因的表达,并利用这些基因的产物,使生物体的不同部位发育成不同的形态。受Hox基因调控的基因中,有些编码的是其他工具分子或转录因子,也有一些基因编码的是生物体的结构成分——构成细胞骨架、充当黏合剂的蛋白质,以及细胞外隙中的物质。
原本用于搜寻Hox基因的技术很快被用于寻找其他的跨物种基因,科学家在线虫、斑马鱼和小鼠的基因组中都找到了果蝇变异相关的基因。这同样是一个惊人的发现:指导不同生物体构建过程的说明性“文字”居然如此雷同。虽然脊椎动物的词库比昆虫丰富一些,但总体而言,绝大多数动物的DNA携带的信息都是一样的。况且,很多DNA编码的蛋白质其实是转录因子,其中不少与同源异形框有关,这意味着发育的本质是调控基因表达。不过,也有一些蛋白质是细胞的结构成分,另有一些与细胞代谢有关。科学家在果蝇变种筛选实验中发现的许多基因都与严重的人类疾病有关。比如,hedgehog(意为“豪猪”)基因的变异会引发人类的基底细胞癌。到了20世纪90年代末,我们已经不得不承认,从遗传学的角度看,人类并不像我们从前认为的那么特殊。
在遗传工具的物种保守性背后,隐藏着另一个更为惊人的事实。谁都知道动物和动物之间是不一样的,有的区别显而易见:长颈鹿的脖子,大象的鼻子,还有前肢的分化(有的变成了爪子,有的变成了翅膀,还有的变成了手掌)。也有一些区别肉眼很难看见:无脊椎动物同我们一样需要泵血和呼吸,但负责执行这项任务的器官大不相同(有的无脊椎动物用分叉的气管,有的用鳃,我们则靠鼓风机般的肺)。另一个例子是视觉器官,果蝇的每只“眼睛”里有700多个独立的视觉感受器,而哺乳动物有两只结构高度复杂的眼睛。脊椎动物体内还有一些无脊椎动物根本没有的细胞,比如合成胰岛素的胰腺细胞。就在我们打算把身体各个部位的结构和功能归结于不同的基因时,却发现了非常惊人的事实。
以在果蝇等昆虫身上发现的tinman(意为“铁皮人”)基因为例。昆虫的心脏结构很简单,仅仅是一根能搏动的管道,而tinman基因恰恰与这根管道的发育有关。tinman变种没有心脏(就像《绿野仙踪》里的铁皮人一样,这也是遗传学家当初如此命名该基因的原因),而tinman基因的表达产物(RNA和蛋白质)存在于那些未来将发育成昆虫心脏的细胞内。鱼、小鼠和人类都有相似的基因,而且它们都与心脏的早期发育有关:这些动物的心脏起初都只是一根结构简单的管道。小鼠和人类的这个基因有一个乏味拗口的名称:Nkx2.5。但除名字不同之外,与果蝇体内的情况一样,该基因也参与了心脏的早期发育。这个基因编码了一种转录因子,它的作用方式与工具基因Hox没有区别,二者都通过联络和协调其他相关的工具基因,参与心脏的形成。
人类和昆虫的心脏在基因水平上竟然有如此密切的联系,这实在出乎很多人的预料。更让人意想不到的是,tinman和Nkx2.5这两个基因的情况并非孤例,许多与心脏发育有关且广泛存在于不同物种中的基因被陆续发现。这意味着,如果想系统地梳理心脏这个器官从昆虫到人类的演变,我们不仅可以从它的结构(从只有一根管道的开放式循环发展成能高效泵血的封闭式循环)入手,也可以从基因入手。类似地,有些基因在昆虫体内主导了四通八达的气管的发育,同样的基因在小鼠和人类体内掌管着支气管和细支气管(肺的典型结构)的发育。就连Brachyury这个与小鼠尾巴缩短有关的基因,也存在于昆虫和人类体内,而且它总是与动物背侧后部的发育有关。相似的基因在不同的动物身上控制着类似器官的发育。
今天,科学家可以在实验室中以惊人的速率对基因组进行测序。以人类基因组为例,完成测序只需要一天时间。基因组的碱基对数量是个天文数字,它们犹如基因组的“文字”,想从不同物种的基因组里找出相同的语句谈何容易,但机器学习技术使检索和比对不同物种的基因组序列文库成为可能。利用这种技术,我们得知:从结构简单的海绵和水母到结构复杂的人类,自然界的生物有许多相同或十分相似的基因。这倒是合情合理,毕竟地球上的生命拥有相同的起源。
但是,我们绝对不能把突变与基因及其编码的蛋白质的功能混为一谈。Nkx2.5和tinman基因的功能并不是让机体长出心脏,它们只是与心脏的发育有关,而我们并不知道具体是什么关系。但我们至少可以看出一点:不光基因本身是保守的,基因的功能也具有物种保守性,无论这种功能是什么。果蝇的eyeless(意为“无眼”)变种是说明这种趋同性的绝佳范例。eyeless基因发生突变后,果蝇的视觉感受器排列往往会变得杂乱无章,眼睛这个结构也将不复存在。当遗传学家设法将eyeless基因对应的RNA导入果蝇身体的其他部位,并促使基因编码的蛋白质在该处合成时,eyeless基因的RNA落到哪里,哪里就会长出眼睛。“无眼”基因的功能居然是促进身体“长出眼睛”。很有意思,对吧?但这只是开始。
其实人类也有一个与eyeless相似的基因,它被命名为PAX6。PAX6基因的突变会导致无虹膜畸形,患者的虹膜发育不全或根本没有虹膜。除此之外,PAX6基因还与其他先天性眼部畸形有关。沃尔特·格林实验室的科学家决定把人类的PAX6基因导入果蝇,看看如果它在果蝇体内表达会怎么样。实验结果:PAX6基因在哪里表达,哪里就会长出眼睛,这与eyeless基因的情况如出一辙。然而,奇怪的是,PAX6基因并没有使果蝇长出硕大、复杂的人类眼球,它们长出的依然是由700多个视觉感受器构成的果蝇眼睛。 导入果蝇身体的人类基因仍与眼睛的发育有关,只不过是果蝇的眼睛。其他基因也存在类似的现象,比如Dichaete基因,在果蝇身上这个基因与神经系统的发育有关,而小鼠和人类的同源基因被称为Sox2。著名的Hox基因也是如此:小鼠和人类的Hox基因都能在果蝇的身体发育方面起作用,纠正Hox基因突变体的结构异常问题。
生命之书真是一本奇书,如果一个单词在一门语言里是这种意思,那么它在其他所有语言里都是同样的用法和意思。
在过去的一个世纪里,生物学家一直想凭借数量多得令人目眩的遗传学研究,编织一种合理的说法,用于解释不同动物间的区别,我也曾是其中的一分子。这股风潮起于科学家对变种间的遗传差异展开了大规模搜索,止于人们意识到这些突变涉及的基因具有高度的物种保守性——同样的基因既与果蝇的心脏发育有关,也与人类的心脏发育有关。还有人想从基因组的其他特征入手,解释不同物种间的差异,比如每个物种的基因数量。可惜,我们的基因数量不比果蝇多多少(果蝇约有1.5万个基因,而人类的基因数量为2万~2.5万个),在我们介绍了基因的物种保守性之后,数量上的这点差异似乎也说明不了问题。
那么,还有哪些可能?我们可以诉诸基因表达的时间和位置。那些指导其他基因、让它们在合适的时间和位置启动表达的DNA序列,没准儿才是解释不同动物间差异的关键所在。又或者是蛋白质的组合方式造成了“差之毫厘,谬以千里”的效果,至少这种假设可以解释为什么人类的基因能指导果蝇的身体发育:因为在果蝇体内,人类的基因只负责指导蛋白质的合成,它编码的蛋白质仅仅是众多蛋白质中的一种,这些蛋白质需要互相组合,最后像拼乐高积木一样组成一只果蝇。上面这些说法都有一定的道理,但如果你觉得好像缺了点什么,那么你的感觉是正确的。正所谓砖头再多也不是房子,生物体远不只是基因的堆砌。
如果问我们能在哪种情景中直观地看到基因对人的相貌、感受和行为产生的巨大影响,那么答案肯定是双胞胎。尤其是同卵双胞胎,由于DNA完全相同,他(她)们成了我们评估基因会在多大程度上决定我们是谁或长什么样的便利途径。异卵双胞胎的角色在某种程度上则更像对照组,用来排除同卵双胞胎的各种特征与他(她)们曾住在同一个子宫里有关的可能性。
同卵双胞胎相似而异卵双胞胎不相似的特征被称为“一致性特征”,我们用某个特征的一致率来衡量这个特征在多大程度上受遗传影响。一致率的高低不仅与我们研究的具体特征有关,让人意想不到的是,不同的研究得出的一致率也不相同,特别是当研究对象不是生理特征和疾病,而是智力和行为时。这类研究得出的数字,经常与我们认为人的体貌特征大多与遗传有关的印象相符。毕竟,同卵双胞胎都长得很像,不是吗?举一个更量化的例子,身高的一致率极高,超过80%(注意:这个数字并不是100%)。相比之下,包括心血管疾病在内的许多疾病,一致率很低,基本上都落在20%~30%的区间内。事实上,曾有一项研究从上百万人的数据库里找出了受560种疾病影响的5.6万对双胞胎,这项研究最后得出的结论是,只有40%的疾病与遗传因素有强相关性。 即便如此,盲目强调一致率的风气也依然盛行,我觉得主要原因是我们已经对基因在个人特征和疾病易感性方面扮演重要角色的陈词滥调习以为常了。除此之外,时至今日,如果不能直接归咎于基因,我们就会把矛头指向表观遗传学。表观遗传学涉及一系列DNA的化学修饰基团及与某些特定基因有关的蛋白质,这个体系可以根据环境因素来调节基因表达。特别是,表观遗传学着重强调个体经历(饮食、锻炼、习惯)对基因表达的影响。表观遗传学研究当然不太可能是信口雌黄,但它经常给人一种“今朝有酒今朝醉”的感觉:如果我们不能把一种表型归咎于或只归咎于基因,那就看看是不是基因表达的调控出了问题,说来说去还是基因。
我们之所以会觉得同卵双胞胎长得很像,是因为我们有辨识人脸的能力,而且这种能力非常关注两张面孔的相似之处。对相似点的关注不仅会让我们产生两个人长得像的感觉,而且很可能会强化这种印象。然后,当得知他(她)们的DNA完全相同时,我们便会得出相貌的设计图就藏在基因组里这个结论。这确实合情合理,但要得出同样的结论,我们也可以改变思路:同卵双胞胎长得像不是因为面孔的设计图相同,而是因为用来构造面孔的工具和材料相同。这就像从商店购买的组装书架,最终的成品都一样,仅仅是因为套装提供的零件相同,组装的流程也相同。每个书架的组装图纸确实一模一样,但图纸本身也是由商家提供的;光有图纸可不够,还得有人按照图纸的说明把零件有序地组装起来。现实生活中,有一些虽然没有血缘关系但长得很像的人,他们的存在可以证明相似的长相的确源于遗传相似性。这些人很可能从各自的父母身上继承了相同或非常相似的容貌基因,我们应该能借此弄清楚有哪些基因参与了面孔的构建,以及它们各自的性质。果不其然,一项2022年的研究已经将这种想法付诸实施了。
我们可以从很多特征看出,基因对人体发育的贡献究竟有多大。这里我以内脏异位为例。通常情况下,我们的眼睛、耳朵和手臂都是成对的,它们对称分布在身体中线的两侧,左右各一。除此之外,大多数内脏器官都只有一个,要么位于中线左侧,要么位于右侧。人的心脏通常偏左,位于人体左侧的器官还有胰和脾,肝脏则偏右。而在内脏异位的人体内,至少有一个器官出现位置错误或根本不存在,无论是哪种情况,对一个人的健康来说都极为不利。很多内脏异位是可遗传的,科学家也确实找到了与这些病例有关的基因。但同样的突变造成的器官发育缺陷,其严重程度常因人而异。对于这个现象,最常见的解释是:不同人的基因和基因组不同。然而,即使是突变完全一样的同卵双胞胎,内脏异位的症状严重程度也可能会天差地别。
有这样一个典型案例,三胞胎出生的时候都有唇裂,其症状表现为嘴唇中间有缝隙或裂口,原因是嘴唇的左右两瓣没能正常愈合。 三胞胎中有两人的唇裂偏向右侧,第三个人的唇裂则位于正中。在唇裂偏右的两个人中,有一个人同时有严重的腭裂(腭指口腔的上壁)。三胞胎的DNA突变完全相同,突变效应却大相径庭。对于把嘴巴置于身体中线这项任务,基因无从得知哪里是左、哪里是右、哪里是中线。就三胞胎的这种情况而言,最简单的解释是器官在人体上的位置安放不归基因管。尽管我们早就对基因的无所不能习以为常(它们不仅决定了我们的嘴唇、耳朵、四肢、心脏、大脑怎么长,甚至决定了我们的性格如何),但如果基因连左中右都分不清,它们就不可能包办一切,也无法为你我的身体构建指明方向。
“基因是人体的建筑师,几乎无所不能”这种广泛的共识主要归因于遗传学在过去60年里取得的成功,尤其是该学科揭示了许多特殊疾病与致病基因之间的关系,比如尿黑酸尿症、地中海贫血、镰状细胞贫血、囊性纤维化和亨廷顿病。在很多情况下,认识疾病与致病基因之间的关系确实能帮助我们治愈这些疾病,比如,为患者补充缺失的酶,或者像最近取得成功的一小部分案例那样直接修复受损的基因。在遗传学一路高歌猛进的势头下,硕果累累的突变研究让我们更加相信,既然基因突变会影响生物体发育,就可以合理地引申出,生物体的正常发育倚仗的是同样的东西。换句话说,生物体的发育主要靠基因,还要稍稍借用基因编码的蛋白质的力量。这就是为什么我们总把基因挂在嘴边,毫无顾忌地用它解释眼睛、心脏或毛发的生长发育。这种认识的极端形式是:我们会说有的人拥有决定某种生理特征(比如红色的头发或蓝色的眼睛)的基因,而其他人没有,但事实上人类的基因都是一样的。我们谈论的其实是基因的变体或突变,而不是基因本身。
不过,引发特定疾病的基因与我们靠生物体的发育缺陷甄别出的那些基因有所不同。前者相当于产品即将组装完毕时出现的硬件问题,比如书架的某根螺丝或某个螺帽损坏了,这种问题比较容易纠正。能影响发育的突变则不同,它们经常是设计方面的问题。就目前而言,要弄清楚突变基因编码的蛋白质究竟如何干扰生物体发育,并不是一件容易的事。
仔细想想,探究人类从何而来这个问题时,遗传学本是研究的对象和手段,可在这个过程中,我们反而把基因当成了解释和机制。那么你可能要问,基因说了不算的话,谁说了算?如果基因组只是一个工具箱,谁来使用这个工具箱?人体的设计图又藏在哪里?
我们的主角一直没有登场,它的真实身份就藏在下面这则新闻报道里:2010年,基因组学界的“麻烦制造者”克雷格·文特尔创造出一种“人工合成的生命形式”。这是真的吗?后来的实验审查结果表明,文特尔言过其实了。他和他的团队只是用一段实验室合成的DNA,替换了某种极其微小的支原体内的天然DNA。这段人工合成的DNA非常短小,仅仅包含文特尔等人认为对其存活来说不可或缺的那些基因。整个细胞并非从头开始由人工完全合成。这种合成微生物的行为或许会改变,毕竟它的基因变得不一样了。但光有新的DNA可不行,支原体的行为变化最终还是得体现在细胞上。没有细胞的DNA毫无用处。将文特尔的合成细胞称作新的生命形式,无异于在一台电脑上只写了一段新程序,就宣称自己造出了新型电脑。事实上,是电脑在运行程序,而不是程序创造了电脑。软件永远离不开硬件,同样,你总是需要一个细胞来执行DNA的指令。对于文特尔取得的成果,更确切的描述应该是他们“改造”而非“创造”了细胞。
我们会在接下来的章节中看到,把基因视作生命的蓝图这种看法,被用于解释多细胞生物体的构建、发育(尤其是胚胎的形成)时,其局限性显而易见。多细胞生物存在于立体的空间,而基因既不能创造也无法感知这样的物理空间。没有人会否认基因在生物体发育过程中扮演的重要角色,这从针对突变的研究就能看出来,但它们并未占据主导地位。基因的功能处在细胞的控制之下。如果你打算把DNA放入试管,然后坐等它们创造出一个生物体,那你还是别等了,因为你永远看不到那一天。哪怕你再加入其他与遗传信息的读取和DNA的表达有关的成分,比如转录因子、某些氨基酸、脂质、糖和盐,也不可能看到你想要的结果。有了细胞,DNA中无形的遗传信息才能变成实实在在的结构。正如光有一堆砖头和灰浆建不了房子,只有一堆基因和它们的活动也不能构成组织或器官,更别说生物体了。
构建生物体和建造房屋一样,不仅需要设计图,还需要技术娴熟的工人,他们既能看懂建筑师的设计,又能熟练地使用合适的工具和材料,把设计转化成实物。就生物体的构建而言,细胞就是生命的建筑大师。