购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

| 第二章 |

分子钟:以DNA计时

自达尔文以“树”的形式表示进化关系后,科学家就致力于构建类似的进化树。不过,在很长时间里,构建进化树以生物的外表特征为依据,而外表特征、生理特征同与不同,学者们结论各异,所绘制的进化树也模样各异。人类进化树也不例外。早期对于人类进化的研究,是以骨骼化石等考古信息作为依据的。后来,出现了以蛋白质差异作为参考。随着遗传学的发展,人们发现,DNA作为遗传物质,能将物种发生的变化一代一代传递下去,正适合用以追溯物种间的亲缘关系、绘制进化树。

DNA、染色体和线粒体

首先我们来简单回顾一下生物学知识。细胞是生命活动的基本单位,细胞中的遗传物质是DNA。1953年,沃森(James Watson)和克里克(Francis Crick)发现了DNA双螺旋结构,这是 20 世纪最伟大的科学发现之一,由此生物学研究进入分子阶段。

图2.1 DNA双螺旋结构示意图。

脱氧核糖核酸,也就是我们常说的DNA,是一种由脱氧核苷酸组成的大分子双螺旋链。每个脱氧核苷酸由磷酸、脱氧核糖和含氮碱基组成,含氮碱基有A、T、C、G四种(因此脱氧核苷酸也对应有A、T、C、G四种)。脱氧核苷酸连接成很长的“单链”,两条单链按碱基互补配对原则,即A与T配对、C与G配对,通过氢键结合成双链,缠绕成螺旋。

碱基/脱氧核苷酸的排列顺序就是DNA所携带的遗传信息。例如,ATGCGT与ATGCAG包含的遗传信息相似,但略有不同,ATGCGT与GTAAGC的差异明显就大了。(DNA有两条链,根据碱基互补配对原则,一条单链的碱基序列确定了,另一条单链的碱基序列也确定了。因此总的来说,我们只要知道其中一条单链的碱基序列就好。)6个字母尚且能构成差异如此大的信息,那如果字母成千上万、上百万甚至上亿呢?看上去简单的排序,却能蕴含海量的信息,这就是DNA的奇妙之处。生物体中的全部DNA(或RNA),我们称为“基因组”,记录着该生物体的所有遗传信息,是生命的“天书”。基因组中的遗传信息经细胞中的“解码”过程,表达出构成身体的蛋白质等物质,释放生命活动相关的所有指令。

DNA序列并非永恒不变,DNA在复制传代过程中会发生随机“突变”,即一种碱基变为另一种碱基。有时DNA突变会导致蛋白质产物变化甚至生物体可见性状发生变化,这些变化会经自然选择,决定其是否因有利于物种生存繁衍而流传下去。DNA不定向的、多种多样的突变,在自然选择压力下经过长时间积累,演化出丰富多彩的生命世界。

对不同物种而言,生命天书有长有短。目前所知,人和黑猩猩基因组有约30亿个字母,即所有DNA共含30亿碱基对;小鼠有约26亿碱基对,酵母有约0.12亿碱基对,大肠杆菌仅有460万,乙肝病毒只有 3200。物种差异越大、亲缘关系越远,DNA序列差异越大。某两个物种由共同祖先进化至今天的过程中,某个基因或某段DNA序列各自积累突变,考察其差异,就可以估算这两个物种分异的时间。这就是以DNA构建进化树的基础。

在真核生物的细胞里,DNA以两种方式存在。

一种叫染色体。染色体的空间结构极其复杂,由DNA长链绕成的双螺旋,是一级缠绕。双螺旋缠绕在组蛋白上,形成第二级缠绕。缠绕完以后,再进行一次螺旋,成为三级缠绕。之后再进行一次螺旋,最后扭曲成一团,形成染色体。所以染色体有着高度缠绕、高度浓缩的复杂的分子结构。在细胞里面,DNA折叠成染色体后,长度被压缩到原来的八千分之一到一万分之一。

图2.2 DNA折叠模式图。

不同物种的染色体数目可能不同,但同一个物种染色体数目是固定的。人以及许多生物的染色体是成对存在的,也就是基本上每个基因、每条DNA序列有2份“拷贝”。人有23对染色体,包括22对常染色体,以及一对性染色体,女性性染色体为XX,男性性染色体为XY。

图2.3 植物细胞(左)和动物细胞(右)中的线粒体模式图。

另外一种DNA存在于线粒体中。线粒体是游离在细胞质中的细胞器,功能是为细胞活动提供能量,它有自己的DNA,它的DNA形成一个环。一个细胞中有多个线粒体,每个线粒体中又有几条甚至多条DNA环,因此线粒体DNA拷贝数非常高。

整个人类基因组有约30亿个碱基对,组合成23对染色体和一个线粒体,线粒体有1.6万个碱基对。人与人之间DNA编码有差异的部分在整个基因组中所占比例非常小,但加起来总量非常大,所以造成了人与人之间的巨大差异,当然人科现存的物种,例如,现代人和黑猩猩,两者之间的差异更大。

“线粒体夏娃”与“Y染色体亚当”

染色体DNA和线粒体DNA都被用于研究人类起源与演化,其原理是,如果某个祖先DNA序列发生突变,例如原先是A的碱基由于某种原因变为其他三种碱基中的一种,其后代中就会保留这一变化,如果能找到一些不同的个体,他们中都有某个相同的突变类型,我们就有理由推测他们有共同的祖先。但由于染色体DNA和线粒体DNA遗传方式不同,应用也不同。

在进行有性生殖过程中,父亲一方贡献精子,母亲一方贡献卵子。形成精子和卵子时,成对的染色体分开,只有一半染色体进入精子或卵子,当精子和卵子结合形成受精卵,染色体数目恢复到跟体细胞相同。对于人而言,精子和卵子中都只有23条染色体,而受精卵和体细胞中有23对染色体,每对染色体中一条来自父亲,一条来自母亲。

对于常染色体来说,它们传给下一代的时候,成对染色体对应的区段会随机地进行交换,造成混血的效应,就是遗传学上说的重组。重组后形成一条新染色体,再传给后代。常染色体DNA是双系遗传的,同时来自父母双方。女性性染色体为XX,也是成对的,分别来自父母双方,所以也不能避免混血的影响。

女性提供的卵子携带的都是X性染色体。男性体内的性染色体,X染色体来自母亲,Y染色体来自父亲,形成的精子有两种类型,一种带X染色体,一种带Y染色体。因此,男性的Y染色体肯定来自父亲,并且只传给儿子。简言之,Y染色体DNA是父系遗传的。

线粒体DNA则是母系遗传的。虽然精子和卵子都有线粒体,但精子的线粒体集中在精子尾部,授精时,精子头部物质进入卵子,尾部被丢弃,于是父亲的线粒体无法进入卵子。因此,后代的线粒体仅来自母亲的卵子,只有极其罕见的情况下,父亲的线粒体才遗传给后代。

如图2.4所示,在一个家系中,由于常染色体以及X染色体的重组,即混血效应,数代之后,某个“祖先”的DNA序列的特色在后代中就消失了,DNA序列在传代过程中发生的突变是无法保存下来的。反过来说,以后代去追溯某个“祖先”就变得不可能。

而Y染色体DNA和线粒体DNA遗传线路稳定,不管多少代,我们都可一直往前推,追溯某位男性的父亲的父亲的父亲的父亲……,或者寻找某位女性的母亲的母亲的母亲……。对两者而言,一代一代发生的突变,能流传下来,成为变迁的证据。

图2.4 DNA遗传方式。某个家系,长棒形表示成对存在的常染色体及X染色体,短棒表示Y染色体,圈表示线粒体DNA。曾祖辈的8个人用8种不同颜色表示。曾祖父母生下的祖父,常染色体一半传自曾祖父,一半传自曾祖母,Y染色体传自曾祖父,线粒体DNA传自曾祖母。外曾祖父母生下的外祖母,常染色体一半传自曾祖父,一半传自曾祖母,线粒体DNA传自曾祖母。在最后这代,常染色体(以及X染色体)花花绿绿,曾祖辈8个人的DNA序列类型都在其中出现;家族中男性Y染色体都来自父系,即曾祖父—祖父—父—子;女性的线粒体都来自母系,即外曾祖母—外祖母—母亲—女儿。

科学家曾对世界不同地区和民族的女性开展线粒体DNA分析,寻找女性先祖。1987年,美国科学家威尔逊(Allan Wilson)等人在《自然》上发表论文,称“所有的线粒体DNA都来自一个女人”。那是大约15万年前来自非洲的某位女性,不妨称之为“夏娃”。

同样,我们也能从Y染色体追溯第一个男性先祖——“亚当”。

当然,所谓“亚当”和“夏娃”,并非特定的某个人,而是共同祖先这一概念。

稳定中变化着的Y染色体

用Y染色体追溯男性先祖,是科学家常用的手段。但这里存在一个问题,Y染色体与X染色体之间是否会发生重组?要回答这个问题,必须先了解Y染色体的结构。人类Y染色体DNA大约包含6000万个碱基对,其中染色体两端的5%为拟常染色体区域,在传代过程中与X染色体相应区段会发生重组,而主干部分的95%为非重组区域,不与任何染色体发生重组(图2.5)。所以,Y染色体主干部分的此特性,保证了子代能完整地继承父代的Y染色体主干而不受混血影响,保证了Y染色体主干的严格父系遗传。这是一条不能篡改的基因家谱。

在一代一代的父子相承的传递过程中,Y染色体也在慢慢地积累着变化。正是因为遗传突变的积累,使得人类父系遗传体系中,亲缘关系距离越远的个体的Y染色体差异也越大。Y染色体上的突变形成的个体差异主要有两大类:单核苷酸多态(SNP)和短串联重复(STR)。

SNP是DNA序列上仅仅一个位置上的碱基类型变化。Y染色体上的同一个SNP位点在人群中一般只有两种类型,要么是A-T,要么是G-C。就像货车,虽然同一个型号的货车长度、形状都一样,但只要在车厢上刷上不同的图案,就能一眼区分开(图 2.6 上图)。STR是指,在染色体的特定区段,几个碱基组成一个单位,该单位重复出现。不同人的Y染色体上的同一个STR位置,某个单位往往有不同的重复次数(称为拷贝数)。就像数列火车,有不同的车皮数,但每节车皮都是一样的。某列火车可以装10节车皮,也可以装12节车皮,这就构成了重复数差异。如图2.6所示,4个核苷酸组成的“gtat”是重复单位,拷贝数因人而异。SNP和STR由于突变性质和突变速度不同,在分析中有着不同的用途。

图2.5 人类Y染色体结构及其遗传模式。

图2.6 单核苷酸多态(SNP)和短串联重复(STR)突变类型区别。

要确立父系遗传体系,最重要的前提是祖先的突变能稳定地保留在后代的Y染色体上。SNP突变因为突变速率极低,可以做到在后代中永久地保留,后代只能在祖先的突变基础上积累新的突变,而不会丢失祖先的突变特征。通过比较人类与黑猩猩的Y染色体的差异,以及大的家系中Y染色体的差异程度,Y染色体上的SNP突变的速率可计算出来。每出生一个男子,一个染色体位置上发生SNP突变的概率大约为三千万分之一。实际上由于Y常染色质区(图2.5)的保守性,以及人类历史上大量男子都没有男性后代保留至今的事实,实际的群体中突变率应该低几个数量级。而我们通常研究的是Y染色体非重组区大约3000万个碱基对的常染色质区,按照每个碱基对三千万分之一的突变率,这个区段内每个男子平均都会有一个新的突变。

图2.7中,这个祖先有个突变,我们画个五角星,一种颜色代表一种类型的突变,那么他所有的后代都会带有这个突变,不会丢失,这是第一种类型。然后,他的某一个后代里面突然出现了第二种类型的突变,这个突变在这个人的后代里面也会永远传下去,永远不会丢,就形成了第二种类型。这个类型在后代中又产生了一个突变的话,就形成了第三种类型,第三种类型是第二种类型的亚型。这种Y染色体型就这样一个一个分下去,形成了不同的型。比如,我们把图2.7中只有绿色突变的类型叫作1型,它下面出现的第二种类型就叫作1a型,即1型的亚型。然后1a又产生了一个亚型 1a1 型,即 1 型中a亚型的第一个小亚型……就不断这样分下去。所以我们知道1a1型是1型的后代型。这是很明确的一个谱系分析。还有1b型,是另外一个完全不同的突变。所以不同的分支上面的后代,他们的突变谱序就完全不同,也形成了完全不同的亚型。亚型与亚型之间又有远近关系,1a与1a1型之间的差距肯定比1a与1b型之间的差距小。这就是后代与祖先的关系:祖先的信息传给后代,接着后代在祖先的信息基础上不断追加新信息。因此,我们可以通过多个分支的后代的类型追溯祖先的类型。

这里存在一个问题:新的突变会随机地出现在Y常染色质区的任意一个位点上(即某个碱基突变),如果这个突变了的位点上再发生一次突变,那么这个突变就在后代中丢失了,我们也就无法通过后代确定其祖先的Y染色体突变谱。理论上虽如此,但同一个位点上先后发生两次突变的概率,按照概率计算方法就是三千万分之一的平方,也就是九百万亿分之一,相对于人类自古以来的人口,这个概率近似于零。因此我们可以说,绝大多数情况下,祖先的Y染色体上出现的SNP突变特征在后代中都能够找到,而后代只能在祖先Y染色体突变谱的基础上增加新的突变(图2.7)。

由多个SNP突变构成的一种突变系列组合被称为一种单倍型。例如图2.7中就有5个SNP突变,陆续构成5种单倍型。其中1型是其他单倍型的祖先型,其他单倍型都是后代型。祖先型与所有后代型合称为一个单倍群。一个家族的所有Y染色体理论上都属于一个单倍群,因为其中所有的男性都应该来自同一个祖先。

图2.7 Y染色体突变谱可以构成单倍型的原理。

当然,单倍群的概念可大可小。大而言之,全世界的Y染色体都属于一种单倍群,都来自 20 多万年前的一个东非晚期智人男子。进而,全世界又可以分为20种主干单倍群,编号从A到T。最古老的A和B单倍群都没有走出非洲;C和D单倍群最早来到了大洋洲和亚洲;E单倍群来到了亚洲又回到非洲,F单倍群衍生出G、H、I、J等单倍群在西方形成欧罗巴人种,衍生出K单倍群并形成N、O、P、Q等单倍群在东方形成蒙古利亚人种,其中O单倍群成了中国人的主流,而Q单倍群成为美洲印第安人的主流。所以Y染色体的谱系构建出了全人类的一部大家谱。

Y染色体上的时钟

利用Y染色体上稳定遗传的SNP,我们可以构建出个体或家族之间明确的遗传渊源。而且,既然SNP有稳定的突变速率,当我们统计出不同人的Y染色体之间的突变差异数,将差异数除以速率,经过换算,就可以估算两条Y染色体之间的分化时间,这就是计量进化时间的“分子钟”。但是,由于SNP的突变速率实在太低,个体之间的突变差异散布在Y染色体的各处,只能使用Y染色体全测序来寻找,而目前全测序的成本太高,尚不能普遍应用。这一缺点被Y染色体上的另一遗传标记STR弥补了。一些STR位点分布在Y染色体上的固定位置,每一个STR位点内部的重复单位在传代过程中拷贝数发生着改变,这种改变也是有着固定的速率的。而STR突变速率要比SNP大得多,在家系中,每出生一个男子,每个STR位点突变概率大约是三百分之一。一般的Y染色体分析中,调查15个STR位点,总体突变率就大约是二十分之一。而Y染色体上以4~6个核苷酸为重复单位的STR位点有150个,如果分析全部这些STR位点,那么总突变率大约就是二分之一。这一高突变率非常有利于估算不同Y染色体之间的分化时间,因此STR位点成了Y染色体上的“时钟”。

STR的突变是双向性的,拷贝数可以增加也可以减少。有共同祖先的不同个体,其同一STR位点可能有不同突变方向和重复数。同SNP一样,数个不同位置上的STR也可以构成单倍型。在群体中分析STR单倍型的多样性程度,可以计算群体的共祖时间。例如,某个群体具有一个相同SNP突变,是从共同祖先处获得的,如何用群体中的STR多样性计算这一SNP发生的时间?假设一个STR每次突变都只增加或者减少一个重复单位,也就是一步(single-step)突变模型,且群体有着恒定的有效群体大小,就可由公式 t =- Ne ×In(1- V/Ne × μ )推算出该特定SNP发生的大致时间。公式中, Ne 是有效群体大小, μ 是突变率,In是自然对数, V 是观察到的群体中的某一STR数值的方差,计算得到的 t 是经历的世代数,再乘以每一世代的年数即可得到时间。

以Y染色体上STR的总突变率二分之一来估算,几乎每个人都可以构成独特的单倍型。但是,由于突变是一步一步发生的,父系亲缘关系越近的个体之间STR单倍型越相似,一个纯粹由父系传递的姓氏应有相近的STR单倍型。但是,由于STR的突变速率的不稳定性,加上回复突变的影响,STR计算时间的误差还是极大的。所以,准确地分析Y染色体单倍群的分化时间,还是要用全Y染色体SNP的突变谱,在这方面,复旦大学的人类学实验室的研究走在了世界最前沿。理论上,有了足够数量的Y染色体SNP和STR后,通过调查一个姓氏宗族内的男性的单倍型,就能够很清楚地构建其家族Y染色体的谱系树,乃至编写一部清晰的基因家谱。

手握DNA分析的利器,再加上其他证据,科学家就可以追溯人类进化、族群演化、家族变迁的历程,解开一个又一个未解之谜。 eQVYAnUWemkXzoQezqD8Qk/LtL3UYcNi1eZbepiqhlrJdvEnyjmEoIbZlesYyNHX

点击中间区域
呼出菜单
上一章
目录
下一章
×