人类基因组指的是包含在23对独立的染色体中的一整套基因。按尺寸大小对其中的22对染色体进行排序,从最大(1号染色体),排到最小(22号染色体),而其余的那对则由性染色体组成:女性有两条大的X染色体,男性有一条X和一条小的Y染色体。就尺寸而言,X染色体处在7号和8号染色体之间,而Y染色体最小。
单说“23”这一数字,本身意义不大。许多物种,包括我们的近亲物种猿类,有着更多的染色体,其他许多物种的染色体数目则要少一些。而且,相似功能和类型的基因也不一定非得聚集在同一条染色体上。几年前,当我俯下身子用笔记本电脑与演化生物学家戴维·黑格(David Haig)进行交谈时,听他说19号染色体是他最喜欢的染色体,我不禁有些吃惊。他解释道,那条染色体上面有着各式各样逗趣的基因。之前我从未想过染色体会有其独特秉性,毕竟,它们不过是基因的肆意组合。但是黑格的不经意之言萦绕在我心头,长久以来仍挥之不去。为何不趁此时机开先河,试着从每条染色体上挑选出一个基因,来讲述人类基因组的轶事呢?话说普里莫·莱维(Primo Levi)就在他的自传体短篇小说中对元素周期表进行了类似的处理,书中的每个章节都以那段时间里他接触过的化学元素命名,以钩沉往昔历史。
由此,我便萌发了人类基因组本身即是一部人类自传的想法:自生命萌芽那一刻起,它便以“基因语言”的方式记录着人类及其祖先所历经的沧桑与变迁。自原始汤孕育出最早的单细胞生物以来,有些基因的变化并不大。某些基因在我们的祖先还呈蠕虫状时就已经有了,某些基因在我们的祖先还是鱼类时就已早早出现了,而某些基因仅仅是因为最近的流行病才成了目前的样子,还有一些基因可以用来回溯近千年来人类迁徙的历史。从40亿年前到最近几百年,基因组谱写了我们人类的自传,记录了过往的重大瞬间。
我写下了这23对染色体的名单,然后在其旁边分别列出了对应的人性主题。我开始缓慢而艰辛地找寻具有代表性故事的基因。当我找不到合适的基因,或者好不容易找到了理想的基因可它却位于别的染色体上面的时候,常常会感到沮丧不已。如何处理X和Y染色体,也令我颇感头疼。我将其放在7号染色体之后,以与X染色体的尺寸相匹配。此番解释以后,现在总该知道为何此书副标题自称有23章,但最后一章却名为第22章了吧。
乍一看,这样的安排很容易让人产生误解。我似乎暗指着1号染色体最为重要,实际上并非如此。我似乎是在示意11号染色体只与人的性格有关,实则不然。人类基因组大约有6万到8万个基因 ,我无法全然相告,一部分原因是迄今发现的基因数量不足8千个(尽管此数以每月数百的速度在增长),还有一部分原因是它们之中的绝大多数只是在调控枯燥而乏味的生化反应过程。
我只能速览全貌:在基因组中一些很是有趣的地方稍作停留,了解一些它们所传递的有关我们人类自身的事情。我们这一代人无疑是幸运的,因为我们将是首批阐释基因组这本天书的人。解读基因组将使我们得知更多有关我们起源、演化、本性以及心智等方面的信息,这是前所未有的科学创举。它将给人类学、心理学、医学、古生物学以及几乎所有其他科学带来革命性的影响。当然,这并非在鼓吹基因万能论,也不是说基因比其他因素更为重要。不过基因组的确很是重要,这一点是毋庸置疑的。
这并不是一本关于人类基因组计划(关乎基因作图和测序技术)的书,而是一本有关该计划有何创见的书。2000年6月26日,首个完整的人类基因组草图绘制完成。在短短的几年内,我们将从对基因几乎一无所知变成无所不知。我深信,我们正在经历史上人类智力的高光时刻,这一点毫无疑问。有些人或许会持异议,认为基因并非人类的全部,我并不否认。我们人类所拥有的当然不只是遗传密码,然而直到现在,人类基因仍旧满布谜团。我们将是首批参透其奥秘的人,我们将获取更多新知,当然,也将面对更多新挑战。这就是我在本书中所试图传达的内容。
该导论的第二部分旨在用简短的引言,配以描述性的术语,介绍基因及其作用机制。我希望读者速览此内容,以便在后续遇到不甚了解的技术术语时可以及时回顾。现代遗传学有一系列的专业术语,错综复杂。我在此书中会尽量避免使用技术术语,但不得不说时,仍不可避免。
人体有大约100万亿个细胞,其中大多数的直径不到0.1毫米。每个细胞内部都有一个黑点,称为细胞核。细胞核内有两套完整的人类基因组(例外的情况是:精、卵细胞中都只有一套,红细胞中则没有)。一套基因组来自母亲,一套来自父亲。理论上而言,每套都有同样23条染色体,且染色体上都有一样的6到8万个基因。可实际上,每个基因的父本和母本之间通常存在着细微的差别,就好比有的差别可以决定人的眼睛是呈蓝色抑或棕色。在生育过程中,父本和母本在进行被称为重组的染色体交换过程中,会传递一整套基因组给后代。
若把基因组比成一本书,那么此书:
共有23章,每一章即是一对 染色体 。
每章均包含数千个故事,每个故事就是一个 基因 。
每个故事都由不同的段落组成,即 外显子 。段落之间插播广告,而这些广告就是 内含子 。
每个段落均由单词组成,此单词就是 密码子 。
每个单词是用字母写就的,此字母就叫作 碱基 。
书中有10亿个单词,相当于本书厚度的5千多倍,或者说是《圣经》的800倍。如果每天以每秒一个单词,每天读8小时的速度来读取基因组,那将需要读上100年。如果把人类基因组写下来,每个字母一毫米,则总长度堪比多瑙河。这是一个巨型文档,一部浩瀚的书,一张冗长的配方,可是竟能把它们全都置于一个比大头针针尖还小的细胞微核之中。
严格来说,将基因组比作一本书并非隐喻。基因组真的是一本书。书是一种数据信息,以线性、一维和单向形式编写的。小小的字母符号按特定的组合顺序转译为有意义的代码并汇编成册,即为书。基因组也是如此。仅有的区别在于,所有的英文书都是从左至右读的,而基因组的某些部分是从左至右读的,某些部分又是从右至左读的,不过绝不至于双向同时都在读。
顺便说一句,在本段之后,你将不会在本书中看到令人烦腻的“蓝图”一词,原因有三。首先,只有架构师和工程师才使用蓝图一词,而且即便是他们,在计算机时代也都早已弃用蓝图一词了,而我们全在使用“书”这个词;其次,相对基因而言,蓝图是个非常糟糕的类比。因为蓝图是二维图,而非一维数字编码;再者,对于遗传学而言蓝图一词太过文绉绉,因为蓝图中的每个部分都与机器或建筑物上的一个部分相对应。毕竟,配方中的辞藻无论多么华丽,也不会真的让蛋糕变得别有风味。
英文书是用26个字母组成的单词所书写的,单词长短不一。而基因组则全然以3个字母的单词进行书写,且仅使用了4个字母:A,C,G和T(分别代表腺嘌呤,胞嘧啶,鸟嘌呤和胸腺嘧啶)。此外,它们并非写在平面纸张上,而是写在由糖和磷酸构建的长链上。这种长链被称为DNA分子,碱基作为侧梯连接在上面。每条染色体是一对(非常)长的DNA分子。
基因组是一本非常精巧的书,在适当的条件下它既可以复印,也可以自读。复印即为 复制 ,自读则是 翻译 。之所以可以复制,是因为这四个碱基的新奇特性:A总是与T配对,G总是与C配对。因此,单链DNA可以将T与A,A与T,C与G以及G与C通过互补配对的方式来进行自我复制。实际上,DNA的通常状态是那著名的 双螺旋 ,由原始链和互补配对链相互缠绕而成。
因此,复制互补链即可得到原文内容。在复制过程中,序列ACGT变为TGCA,再复制便又转录回原来的ACGT了。这使得DNA可以无限复制下去,却仍携带着同一套的信息。
翻译稍微复杂一点。首先,通过相同的碱基配对过程将一个基因的文本转录成一份副本,但是这份副本并非由DNA而是由RNA(一种略有不同的化学物质)构成的。RNA也可以携带线性密码,除了用U(尿嘧啶)代替T之外,它使用与DNA一样的字母。该RNA副本称为 信使RNA ,通过切除所有内含子而将所有外显子拼接在一起(见上文)。
之后,信使RNA结合被称为 核糖体 的微型分子机器,而该机器自身的一部分亦是由RNA构成的。核糖体沿着信使RNA进行移动,将三联密码子依次翻译成另一份字母表。这份字母表由20种不同氨基酸组成,每种氨基酸均由被称为 转录RNA 的不同分子携带转运而来。每个氨基酸都以与密码子相同的顺序首尾相连,形成一条链。翻译完全部信息后,氨基酸链会依据其序列折叠成独特的形状,成为现今所称的蛋白质。
从头发到激素,人体内几乎所有东西都是由蛋白质构成或制成的。每个蛋白质都是被翻译出来的基因。特别值得一提的是,人体的化学反应被称为酶的蛋白质所催化。甚至连DNA和RNA分子本身的加工,拷贝、纠错和组装(复制和翻译),都是借助蛋白质来完成的。蛋白质还通过将自身附着在基因上游附近的 启动子 和 增强子 序列上,从而调节基因的开关。不同基因在人体的不同部位被开启。
复制基因,有时会出错。有时会漏掉一个字母(碱基)或插入错误的字母。整个句子或段落有时会出现重复,丢失或次序颠倒,这称为 突变 。许多突变既无害也无益,好比,如若将一个密码子更改为具有相同氨基酸“含义”的另一个密码子。要知道,共有64个不同的密码子,但只有20种氨基酸,因此许多DNA“单词”便具有相同的含义。人类的每个世代会累积约100个突变,考虑到人类基因组中有超过100万个密码子,这似乎也并不算多。然而,要是出现在错误的地方,即便只有一个突变,都可能是致命的。
凡事均有例外,人类基因亦如此。并非所有人类基因都能在这23对主要染色体上找到,有少量的基因存在于被称为线粒体的膜囊之中,并且很可能自线粒体还是非寄生的细菌以来,便一直如此;并非所有基因都是由DNA组成的,某些病毒改用的是RNA;并非所有的基因都能生产出蛋白质,一些基因被转录成RNA,但没有被翻译成蛋白质。这些RNA要么作为核糖体的一部分,要么作为转运RNA而直接发挥作用;并非所有的反应都由蛋白质来催化,有少数反应可由RNA催化;并非所有的蛋白质都来自单个基因,有些是由多个基因共同合成的;并非所有的64个三联密码子都能转译为氨基酸,其中有3个负责传达 停止 信号;最后,并非所有的DNA都能形成基因,DNA中的大部分是重复或随机的杂乱序列,很少或从未被转录,是所谓的垃圾DNA。
了解完这些,人类基因组之旅就可以正式开篇了。