购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

导论

前言的第二部分作为本书的导论。在这个部分中,我把与基因和基因作用机制有关的主题以词汇表的形式展现出来,并加以解释。希望读者快速浏览这部分内容,以便在阅读本书的过程中遇到不清楚的术语时,能够返回此部分查询。现代遗传学术语无数,错综复杂。本书力求少用技术术语,但有些还是无法避免的。

人体有大约100万亿个细胞,大多数细胞直径不到1/10毫米。每个细胞内部都有黑色的一团,叫作细胞核。细胞核里有两套完整的人类基因组(卵细胞、精子细胞和血红细胞除外。精子细胞、卵细胞只有一套基因组,血红细胞内没有基因),其中一套来自母亲,另一套来自父亲。从理论上讲,每套基因组都有相同的23对染色体,上面有相同的6万~8万个基因。但实际上,来自父亲和母亲的基因对上常常有着细小的差别,正是这些差别决定了人的眼睛是蓝色还是棕色。人类在生育时,来自父亲和母亲的染色体经过交换和重组,便将一套完整的基因组传给了下一代。

想象一下,“基因组”是这样的一本书:

●全书共23章,每章都是一对 染色体

●每章都包含几千个故事,每个故事都是一个 基因

●每个故事由不同的段落组成,称为 外显子 。段落之间是广告,名为 内含子

●每个段落由词语组成,叫作 密码子

●每个词语由字母构成,叫作 碱基

如果基因组是一本书,那么这本书有10亿个单词,长度是本书的5000多倍,或者是《圣经》的800倍。如果按照每秒一个词、每天8小时的速度把基因组读给你听,需要100年才能读完。如果把人类基因组写下来,每个字母一毫米,则总长度堪比多瑙河。基因组可以看作巨型的文档、巨大的图书、超长的菜谱,其所有内容都收录在比针尖还小的细胞的细胞核内。

严格来讲,将基因组看作一本书不能算作一个比喻,因为它确实是一本书。一本书即一组数码信息,其内容是线性、一维和单向的。一个个小小的字母符号,按照特定的组合顺序,根据一定的规则,拼合成有意义的词汇,汇集成一本书。基因组也是这样的。不同之处在于,所有的英文书都是从左向右读,而基因组的某些部分从左向右读,某些部分又是从右向左读的,好在这两种情况不会同时出现。

(顺便提一句,这段之后,你将不会在本书中看到“蓝图”这个词了。原因有三。首先,我们读的是书。只有建筑师和工程师才使用蓝图,即便是他们,在计算机时代也开始放弃蓝图。其次,对于基因而言,“蓝图”是个很糟糕的类比。蓝图是二维的图示,而非一维的数字编码。最后,对于基因而言,“蓝图”的定义过于字面化,无法表达基因的内在对应关系。蓝图中的每一部分都对应着机器或建筑上的一个部分,但菜谱里的一句话并不对应蛋糕上要吃的那一口)。

英文书是用英文单词写成的,英文单词长短不一,由26个字母组成。而整个基因组是由三个字母的词写成的,且仅用了4个字母:A、C、G和T(分别代表腺嘌呤——Adenine,胞嘧啶——Cytosine,鸟嘌呤——Guanine和胸腺嘧啶——Thymine)。而且,它们不是写在平面的纸张上,而是写在由糖与磷酸组成的长链上。人们将这条长链称为 DNA分子 ,碱基就附着在长链的侧面,像螺旋的阶梯一样。每条染色体是一对非常长的DNA分子。

基因组是一本非常聪明的书,它懂得在合适的条件下复印自己、读出自己。复印的过程叫作 复制 ,读出自己的过程称为 翻译 。基因组之所以能够复制,是因为它的4个碱基拥有一种独特的属性:A总与T配对,G总与C配对。所以,一条单链DNA将所有的T对应所有的A,A对应T,C对应G,G对应C,依此类推,通过A-T、C-G互补配对的方式进行自我复制。实际上,DNA的通常状态即为著名的 双螺旋 ,由原来那条DNA链和与它互补配对的一条缠绕在一起形成。

这样,互补链再次进行复制,就把原来的内容带了回来。在这次复制中,序列ACGT变成了TGCA,在下一次复制中又被转录回原来的ACGT。这使得DNA能够无限制地复制下去,却永远携带同一套信息。

翻译的过程要更加复杂一些。首先,一个基因的内容经过相同的碱基配对程序被 转录 成一份副本,但这份副本并非由DNA构成,而是由RNA构成。RNA是一种与DNA区别非常细微的化学物质。RNA也携带一个线性密码,与DNA使用同样的字母,不同的是使用U代替DNA中的T,表示尿嘧啶。这个RNA副本被称作“信使RNA”,通过切除所有内含子并连接所有外显子的方式进行编辑。

之后,这个信使RNA与 核糖体 结合,核糖体是一种微小的结构,其自身的一部分也是由RNA构成的。核糖体沿着RNA移动,依次将由3个字母组成的密码子翻译成另外一个字母表,这个字母表代表着20种不同的 氨基酸 中的一种,每一种氨基酸由不同的分子带来,这类分子被称为 转运RNA 。这些氨基酸首尾相连,形成一条与密码子顺序一致的链条。当全部信息都被翻译之后,氨基酸链将自己折叠成一个特殊的形状(具体形状由其序列决定),便形成了 蛋白质

几乎身体里的所有东西,从头发到激素,不是由蛋白质构成的,就是由蛋白质制造出来的。每个蛋白质都是被翻译出来的基因。需要特别指出的是,一种名为 的蛋白质对身体里的化学反应起到催化作用。甚至DNA和RNA分子本身的加工、复印、纠错和组装(复制和翻译)也是在蛋白质的帮助下完成的。蛋白质还负责基因功能的开启和关闭,它们将自己附着于基因内容起始处附近的 启动子 增强子 ,从而实现对基因开关的控制。不同的基因在身体不同的部位被开启。

基因在复制时,有时会产生错误。偶尔会丢掉或错误地加上一个字母(碱基)。有时整个句子或段落会重复出现、丢失或次序颠倒。这些被称为 突变 。许多突变既无害处也无益处,例如,一个密码子被改成另一个拥有相同氨基酸含义的密码子。这是因为,总共有64个不同的密码子,但对应的只有20种氨基酸,这就意味着DNA中许多“词语”(此处指密码子)有着相同的含义。人类的每一代里会积累大约100个突变,因为人类基因组里有100多万个密码子,这看上去并不算多。但是如果突变发生在错误的地方,即使只有一个,也可能是致命的。

凡事皆有例外(也包括人类基因)。并非人类所有的基因都在这23对主要的染色体上——有很少一部分存在于名为线粒体的小球里,并且,很有可能线粒体还是自由存在的细菌时就是如此。并非所有的基因都是由DNA组成——有些病毒由RNA构成。并非所有的基因都能够形成蛋白质,有些基因被转录为RNA,但并不被翻译成蛋白质。这些RNA或者成为核糖体的一部分,或者成为转运RNA,从而直接发挥作用。并非所有的化学反应都由蛋白质来催化,有少量是靠RNA催化的。并非所有的蛋白质都来自某个单独的基因,有些是由不同的基因组合而成的。并非所有的64个由三个字母组成的密码子都能够用来确定一个氨基酸——其中三个用来下达 终止 指令。最后,并非所有的DNA都能够形成基因,大多数DNA的序列是重复或者随机的,很少或从来不被转录,即所谓的无用DNA。

了解完这些,让我们一起开启人类基因组之旅吧! 8X68qwOXDob/eEHE+pQRdRofw1KVFWUqJIuj7zRVsFd2QdVBQsEv0bvzJlIv6Qnj

点击中间区域
呼出菜单
上一章
目录
下一章
×