导论

前言的第二部分作为本书的导论。在这个部分中，我把与基因和基因作用机制有关的主题以词汇表的形式展现出来，并加以解释。希望读者快速浏览这部分内容，以便在阅读本书的过程中遇到不清楚的术语时，能够返回此部分查询。现代遗传学术语无数，错综复杂。本书力求少用技术术语，但有些还是无法避免的。

人体有大约100万亿个细胞，大多数细胞直径不到1/10毫米。每个细胞内部都有黑色的一团，叫作细胞核。细胞核里有两套完整的人类基因组（卵细胞、精子细胞和血红细胞除外。精子细胞、卵细胞只有一套基因组，血红细胞内没有基因），其中一套来自母亲，另一套来自父亲。从理论上讲，每套基因组都有相同的23对染色体，上面有相同的6万~8万个基因。但实际上，来自父亲和母亲的基因对上常常有着细小的差别，正是这些差别决定了人的眼睛是蓝色还是棕色。人类在生育时，来自父亲和母亲的染色体经过交换和重组，便将一套完整的基因组传给了下一代。

想象一下，“基因组”是这样的一本书：

●全书共23章，每章都是一对染色体。

●每章都包含几千个故事，每个故事都是一个基因。

●每个故事由不同的段落组成，称为外显子。段落之间是广告，名为内含子。

●每个段落由词语组成，叫作密码子。

●每个词语由字母构成，叫作碱基。

如果基因组是一本书，那么这本书有10亿个单词，长度是本书的5000多倍，或者是《圣经》的800倍。如果按照每秒一个词、每天8小时的速度把基因组读给你听，需要100年才能读完。如果把人类基因组写下来，每个字母一毫米，则总长度堪比多瑙河。基因组可以看作巨型的文档、巨大的图书、超长的菜谱，其所有内容都收录在比针尖还小的细胞的细胞核内。

严格来讲，将基因组看作一本书不能算作一个比喻，因为它确实是一本书。一本书即一组数码信息，其内容是线性、一维和单向的。一个个小小的字母符号，按照特定的组合顺序，根据一定的规则，拼合成有意义的词汇，汇集成一本书。基因组也是这样的。不同之处在于，所有的英文书都是从左向右读，而基因组的某些部分从左向右读，某些部分又是从右向左读的，好在这两种情况不会同时出现。

（顺便提一句，这段之后，你将不会在本书中看到“蓝图”这个词了。原因有三。首先，我们读的是书。只有建筑师和工程师才使用蓝图，即便是他们，在计算机时代也开始放弃蓝图。其次，对于基因而言，“蓝图”是个很糟糕的类比。蓝图是二维的图示，而非一维的数字编码。最后，对于基因而言，“蓝图”的定义过于字面化，无法表达基因的内在对应关系。蓝图中的每一部分都对应着机器或建筑上的一个部分，但菜谱里的一句话并不对应蛋糕上要吃的那一口）。

英文书是用英文单词写成的，英文单词长短不一，由26个字母组成。而整个基因组是由三个字母的词写成的，且仅用了4个字母：A、C、G和T（分别代表腺嘌呤——Adenine，胞嘧啶——Cytosine，鸟嘌呤——Guanine和胸腺嘧啶——Thymine）。而且，它们不是写在平面的纸张上，而是写在由糖与磷酸组成的长链上。人们将这条长链称为 DNA分子，碱基就附着在长链的侧面，像螺旋的阶梯一样。每条染色体是一对非常长的DNA分子。

基因组是一本非常聪明的书，它懂得在合适的条件下复印自己、读出自己。复印的过程叫作复制，读出自己的过程称为翻译。基因组之所以能够复制，是因为它的4个碱基拥有一种独特的属性：A总与T配对，G总与C配对。所以，一条单链DNA将所有的T对应所有的A，A对应T，C对应G，G对应C，依此类推，通过A-T、C-G互补配对的方式进行自我复制。实际上，DNA的通常状态即为著名的双螺旋，由原来那条DNA链和与它互补配对的一条缠绕在一起形成。

这样，互补链再次进行复制，就把原来的内容带了回来。在这次复制中，序列ACGT变成了TGCA，在下一次复制中又被转录回原来的ACGT。这使得DNA能够无限制地复制下去，却永远携带同一套信息。

翻译的过程要更加复杂一些。首先，一个基因的内容经过相同的碱基配对程序被转录成一份副本，但这份副本并非由DNA构成，而是由RNA构成。RNA是一种与DNA区别非常细微的化学物质。RNA也携带一个线性密码，与DNA使用同样的字母，不同的是使用U代替DNA中的T，表示尿嘧啶。这个RNA副本被称作“信使RNA”，通过切除所有内含子并连接所有外显子的方式进行编辑。

之后，这个信使RNA与核糖体结合，核糖体是一种微小的结构，其自身的一部分也是由RNA构成的。核糖体沿着RNA移动，依次将由3个字母组成的密码子翻译成另外一个字母表，这个字母表代表着20种不同的氨基酸中的一种，每一种氨基酸由不同的分子带来，这类分子被称为转运RNA 。这些氨基酸首尾相连，形成一条与密码子顺序一致的链条。当全部信息都被翻译之后，氨基酸链将自己折叠成一个特殊的形状（具体形状由其序列决定），便形成了蛋白质。

几乎身体里的所有东西，从头发到激素，不是由蛋白质构成的，就是由蛋白质制造出来的。每个蛋白质都是被翻译出来的基因。需要特别指出的是，一种名为酶的蛋白质对身体里的化学反应起到催化作用。甚至DNA和RNA分子本身的加工、复印、纠错和组装（复制和翻译）也是在蛋白质的帮助下完成的。蛋白质还负责基因功能的开启和关闭，它们将自己附着于基因内容起始处附近的启动子和增强子，从而实现对基因开关的控制。不同的基因在身体不同的部位被开启。

基因在复制时，有时会产生错误。偶尔会丢掉或错误地加上一个字母（碱基）。有时整个句子或段落会重复出现、丢失或次序颠倒。这些被称为突变。许多突变既无害处也无益处，例如，一个密码子被改成另一个拥有相同氨基酸含义的密码子。这是因为，总共有64个不同的密码子，但对应的只有20种氨基酸，这就意味着DNA中许多“词语”（此处指密码子）有着相同的含义。人类的每一代里会积累大约100个突变，因为人类基因组里有100多万个密码子，这看上去并不算多。但是如果突变发生在错误的地方，即使只有一个，也可能是致命的。

凡事皆有例外（也包括人类基因）。并非人类所有的基因都在这23对主要的染色体上——有很少一部分存在于名为线粒体的小球里，并且，很有可能线粒体还是自由存在的细菌时就是如此。并非所有的基因都是由DNA组成——有些病毒由RNA构成。并非所有的基因都能够形成蛋白质，有些基因被转录为RNA，但并不被翻译成蛋白质。这些RNA或者成为核糖体的一部分，或者成为转运RNA，从而直接发挥作用。并非所有的化学反应都由蛋白质来催化，有少量是靠RNA催化的。并非所有的蛋白质都来自某个单独的基因，有些是由不同的基因组合而成的。并非所有的64个由三个字母组成的密码子都能够用来确定一个氨基酸——其中三个用来下达终止指令。最后，并非所有的DNA都能够形成基因，大多数DNA的序列是重复或者随机的，很少或从来不被转录，即所谓的无用DNA。

了解完这些，让我们一起开启人类基因组之旅吧！