| 第二章 |

分子钟：以DNA计时

自达尔文以“树”的形式表示进化关系后，科学家就致力于构建类似的进化树。不过，在很长时间里，构建进化树以生物的外表特征为依据，而外表特征、生理特征同与不同，学者们结论各异，所绘制的进化树也模样各异。人类进化树也不例外。早期对于人类进化的研究，是以骨骼化石等考古信息作为依据的。后来，出现了以蛋白质差异作为参考。随着遗传学的发展，人们发现，DNA作为遗传物质，能将物种发生的变化一代一代传递下去，正适合用以追溯物种间的亲缘关系、绘制进化树。

DNA、染色体和线粒体

首先我们来简单回顾一下生物学知识。细胞是生命活动的基本单位，细胞中的遗传物质是DNA。1953年，沃森（James Watson）和克里克（Francis Crick）发现了DNA双螺旋结构，这是 20 世纪最伟大的科学发现之一，由此生物学研究进入分子阶段。

图2.1 DNA双螺旋结构示意图。

脱氧核糖核酸，也就是我们常说的DNA，是一种由脱氧核苷酸组成的大分子双螺旋链。每个脱氧核苷酸由磷酸、脱氧核糖和含氮碱基组成，含氮碱基有A、T、C、G四种（因此脱氧核苷酸也对应有A、T、C、G四种）。脱氧核苷酸连接成很长的“单链”，两条单链按碱基互补配对原则，即A与T配对、C与G配对，通过氢键结合成双链，缠绕成螺旋。

碱基/脱氧核苷酸的排列顺序就是DNA所携带的遗传信息。例如，ATGCGT与ATGCAG包含的遗传信息相似，但略有不同，ATGCGT与GTAAGC的差异明显就大了。（DNA有两条链，根据碱基互补配对原则，一条单链的碱基序列确定了，另一条单链的碱基序列也确定了。因此总的来说，我们只要知道其中一条单链的碱基序列就好。）6个字母尚且能构成差异如此大的信息，那如果字母成千上万、上百万甚至上亿呢？看上去简单的排序，却能蕴含海量的信息，这就是DNA的奇妙之处。生物体中的全部DNA（或RNA），我们称为“基因组”，记录着该生物体的所有遗传信息，是生命的“天书”。基因组中的遗传信息经细胞中的“解码”过程，表达出构成身体的蛋白质等物质，释放生命活动相关的所有指令。

DNA序列并非永恒不变，DNA在复制传代过程中会发生随机“突变”，即一种碱基变为另一种碱基。有时DNA突变会导致蛋白质产物变化甚至生物体可见性状发生变化，这些变化会经自然选择，决定其是否因有利于物种生存繁衍而流传下去。DNA不定向的、多种多样的突变，在自然选择压力下经过长时间积累，演化出丰富多彩的生命世界。

对不同物种而言，生命天书有长有短。目前所知，人和黑猩猩基因组有约30亿个字母，即所有DNA共含30亿碱基对；小鼠有约26亿碱基对，酵母有约0.12亿碱基对，大肠杆菌仅有460万，乙肝病毒只有 3200。物种差异越大、亲缘关系越远，DNA序列差异越大。某两个物种由共同祖先进化至今天的过程中，某个基因或某段DNA序列各自积累突变，考察其差异，就可以估算这两个物种分异的时间。这就是以DNA构建进化树的基础。

在真核生物的细胞里，DNA以两种方式存在。

一种叫染色体。染色体的空间结构极其复杂，由DNA长链绕成的双螺旋，是一级缠绕。双螺旋缠绕在组蛋白上，形成第二级缠绕。缠绕完以后，再进行一次螺旋，成为三级缠绕。之后再进行一次螺旋，最后扭曲成一团，形成染色体。所以染色体有着高度缠绕、高度浓缩的复杂的分子结构。在细胞里面，DNA折叠成染色体后，长度被压缩到原来的八千分之一到一万分之一。

图2.2 DNA折叠模式图。

不同物种的染色体数目可能不同，但同一个物种染色体数目是固定的。人以及许多生物的染色体是成对存在的，也就是基本上每个基因、每条DNA序列有2份“拷贝”。人有23对染色体，包括22对常染色体，以及一对性染色体，女性性染色体为XX，男性性染色体为XY。

图2.3 植物细胞（左）和动物细胞（右）中的线粒体模式图。

另外一种DNA存在于线粒体中。线粒体是游离在细胞质中的细胞器，功能是为细胞活动提供能量，它有自己的DNA，它的DNA形成一个环。一个细胞中有多个线粒体，每个线粒体中又有几条甚至多条DNA环，因此线粒体DNA拷贝数非常高。

整个人类基因组有约30亿个碱基对，组合成23对染色体和一个线粒体，线粒体有1.6万个碱基对。人与人之间DNA编码有差异的部分在整个基因组中所占比例非常小，但加起来总量非常大，所以造成了人与人之间的巨大差异，当然人科现存的物种，例如，现代人和黑猩猩，两者之间的差异更大。

“线粒体夏娃”与“Y染色体亚当”

染色体DNA和线粒体DNA都被用于研究人类起源与演化，其原理是，如果某个祖先DNA序列发生突变，例如原先是A的碱基由于某种原因变为其他三种碱基中的一种，其后代中就会保留这一变化，如果能找到一些不同的个体，他们中都有某个相同的突变类型，我们就有理由推测他们有共同的祖先。但由于染色体DNA和线粒体DNA遗传方式不同，应用也不同。

在进行有性生殖过程中，父亲一方贡献精子，母亲一方贡献卵子。形成精子和卵子时，成对的染色体分开，只有一半染色体进入精子或卵子，当精子和卵子结合形成受精卵，染色体数目恢复到跟体细胞相同。对于人而言，精子和卵子中都只有23条染色体，而受精卵和体细胞中有23对染色体，每对染色体中一条来自父亲，一条来自母亲。

对于常染色体来说，它们传给下一代的时候，成对染色体对应的区段会随机地进行交换，造成混血的效应，就是遗传学上说的重组。重组后形成一条新染色体，再传给后代。常染色体DNA是双系遗传的，同时来自父母双方。女性性染色体为XX，也是成对的，分别来自父母双方，所以也不能避免混血的影响。

女性提供的卵子携带的都是X性染色体。男性体内的性染色体，X染色体来自母亲，Y染色体来自父亲，形成的精子有两种类型，一种带X染色体，一种带Y染色体。因此，男性的Y染色体肯定来自父亲，并且只传给儿子。简言之，Y染色体DNA是父系遗传的。

线粒体DNA则是母系遗传的。虽然精子和卵子都有线粒体，但精子的线粒体集中在精子尾部，授精时，精子头部物质进入卵子，尾部被丢弃，于是父亲的线粒体无法进入卵子。因此，后代的线粒体仅来自母亲的卵子，只有极其罕见的情况下，父亲的线粒体才遗传给后代。

如图2.4所示，在一个家系中，由于常染色体以及X染色体的重组，即混血效应，数代之后，某个“祖先”的DNA序列的特色在后代中就消失了，DNA序列在传代过程中发生的突变是无法保存下来的。反过来说，以后代去追溯某个“祖先”就变得不可能。

而Y染色体DNA和线粒体DNA遗传线路稳定，不管多少代，我们都可一直往前推，追溯某位男性的父亲的父亲的父亲的父亲……，或者寻找某位女性的母亲的母亲的母亲……。对两者而言，一代一代发生的突变，能流传下来，成为变迁的证据。

图2.4 DNA遗传方式。某个家系，长棒形表示成对存在的常染色体及X染色体，短棒表示Y染色体，圈表示线粒体DNA。曾祖辈的8个人用8种不同颜色表示。曾祖父母生下的祖父，常染色体一半传自曾祖父，一半传自曾祖母，Y染色体传自曾祖父，线粒体DNA传自曾祖母。外曾祖父母生下的外祖母，常染色体一半传自曾祖父，一半传自曾祖母，线粒体DNA传自曾祖母。在最后这代，常染色体（以及X染色体）花花绿绿，曾祖辈8个人的DNA序列类型都在其中出现；家族中男性Y染色体都来自父系，即曾祖父—祖父—父—子；女性的线粒体都来自母系，即外曾祖母—外祖母—母亲—女儿。

科学家曾对世界不同地区和民族的女性开展线粒体DNA分析，寻找女性先祖。1987年，美国科学家威尔逊（Allan Wilson）等人在《自然》上发表论文，称“所有的线粒体DNA都来自一个女人”。那是大约15万年前来自非洲的某位女性，不妨称之为“夏娃”。

同样，我们也能从Y染色体追溯第一个男性先祖——“亚当”。

当然，所谓“亚当”和“夏娃”，并非特定的某个人，而是共同祖先这一概念。

稳定中变化着的Y染色体

用Y染色体追溯男性先祖，是科学家常用的手段。但这里存在一个问题，Y染色体与X染色体之间是否会发生重组？要回答这个问题，必须先了解Y染色体的结构。人类Y染色体DNA大约包含6000万个碱基对，其中染色体两端的5%为拟常染色体区域，在传代过程中与X染色体相应区段会发生重组，而主干部分的95％为非重组区域，不与任何染色体发生重组（图2.5）。所以，Y染色体主干部分的此特性，保证了子代能完整地继承父代的Y染色体主干而不受混血影响，保证了Y染色体主干的严格父系遗传。这是一条不能篡改的基因家谱。

在一代一代的父子相承的传递过程中，Y染色体也在慢慢地积累着变化。正是因为遗传突变的积累，使得人类父系遗传体系中，亲缘关系距离越远的个体的Y染色体差异也越大。Y染色体上的突变形成的个体差异主要有两大类：单核苷酸多态（SNP）和短串联重复（STR）。

SNP是DNA序列上仅仅一个位置上的碱基类型变化。Y染色体上的同一个SNP位点在人群中一般只有两种类型，要么是A-T，要么是G-C。就像货车，虽然同一个型号的货车长度、形状都一样，但只要在车厢上刷上不同的图案，就能一眼区分开（图 2.6 上图）。STR是指，在染色体的特定区段，几个碱基组成一个单位，该单位重复出现。不同人的Y染色体上的同一个STR位置，某个单位往往有不同的重复次数（称为拷贝数）。就像数列火车，有不同的车皮数，但每节车皮都是一样的。某列火车可以装10节车皮，也可以装12节车皮，这就构成了重复数差异。如图2.6所示，4个核苷酸组成的“gtat”是重复单位，拷贝数因人而异。SNP和STR由于突变性质和突变速度不同，在分析中有着不同的用途。

图2.5 人类Y染色体结构及其遗传模式。

图2.6 单核苷酸多态（SNP）和短串联重复（STR）突变类型区别。

要确立父系遗传体系，最重要的前提是祖先的突变能稳定地保留在后代的Y染色体上。SNP突变因为突变速率极低，可以做到在后代中永久地保留，后代只能在祖先的突变基础上积累新的突变，而不会丢失祖先的突变特征。通过比较人类与黑猩猩的Y染色体的差异，以及大的家系中Y染色体的差异程度，Y染色体上的SNP突变的速率可计算出来。每出生一个男子，一个染色体位置上发生SNP突变的概率大约为三千万分之一。实际上由于Y常染色质区（图2.5）的保守性，以及人类历史上大量男子都没有男性后代保留至今的事实，实际的群体中突变率应该低几个数量级。而我们通常研究的是Y染色体非重组区大约3000万个碱基对的常染色质区，按照每个碱基对三千万分之一的突变率，这个区段内每个男子平均都会有一个新的突变。

图2.7中，这个祖先有个突变，我们画个五角星，一种颜色代表一种类型的突变，那么他所有的后代都会带有这个突变，不会丢失，这是第一种类型。然后，他的某一个后代里面突然出现了第二种类型的突变，这个突变在这个人的后代里面也会永远传下去，永远不会丢，就形成了第二种类型。这个类型在后代中又产生了一个突变的话，就形成了第三种类型，第三种类型是第二种类型的亚型。这种Y染色体型就这样一个一个分下去，形成了不同的型。比如，我们把图2.7中只有绿色突变的类型叫作1型，它下面出现的第二种类型就叫作1a型，即1型的亚型。然后1a又产生了一个亚型 1a1 型，即 1 型中a亚型的第一个小亚型……就不断这样分下去。所以我们知道1a1型是1型的后代型。这是很明确的一个谱系分析。还有1b型，是另外一个完全不同的突变。所以不同的分支上面的后代，他们的突变谱序就完全不同，也形成了完全不同的亚型。亚型与亚型之间又有远近关系，1a与1a1型之间的差距肯定比1a与1b型之间的差距小。这就是后代与祖先的关系：祖先的信息传给后代，接着后代在祖先的信息基础上不断追加新信息。因此，我们可以通过多个分支的后代的类型追溯祖先的类型。

这里存在一个问题：新的突变会随机地出现在Y常染色质区的任意一个位点上（即某个碱基突变），如果这个突变了的位点上再发生一次突变，那么这个突变就在后代中丢失了，我们也就无法通过后代确定其祖先的Y染色体突变谱。理论上虽如此，但同一个位点上先后发生两次突变的概率，按照概率计算方法就是三千万分之一的平方，也就是九百万亿分之一，相对于人类自古以来的人口，这个概率近似于零。因此我们可以说，绝大多数情况下，祖先的Y染色体上出现的SNP突变特征在后代中都能够找到，而后代只能在祖先Y染色体突变谱的基础上增加新的突变（图2.7）。

由多个SNP突变构成的一种突变系列组合被称为一种单倍型。例如图2.7中就有5个SNP突变，陆续构成5种单倍型。其中1型是其他单倍型的祖先型，其他单倍型都是后代型。祖先型与所有后代型合称为一个单倍群。一个家族的所有Y染色体理论上都属于一个单倍群，因为其中所有的男性都应该来自同一个祖先。

图2.7 Y染色体突变谱可以构成单倍型的原理。

当然，单倍群的概念可大可小。大而言之，全世界的Y染色体都属于一种单倍群，都来自 20 多万年前的一个东非晚期智人男子。进而，全世界又可以分为20种主干单倍群，编号从A到T。最古老的A和B单倍群都没有走出非洲；C和D单倍群最早来到了大洋洲和亚洲；E单倍群来到了亚洲又回到非洲，F单倍群衍生出G、H、I、J等单倍群在西方形成欧罗巴人种，衍生出K单倍群并形成N、O、P、Q等单倍群在东方形成蒙古利亚人种，其中O单倍群成了中国人的主流，而Q单倍群成为美洲印第安人的主流。所以Y染色体的谱系构建出了全人类的一部大家谱。

Y染色体上的时钟

利用Y染色体上稳定遗传的SNP，我们可以构建出个体或家族之间明确的遗传渊源。而且，既然SNP有稳定的突变速率，当我们统计出不同人的Y染色体之间的突变差异数，将差异数除以速率，经过换算，就可以估算两条Y染色体之间的分化时间，这就是计量进化时间的“分子钟”。但是，由于SNP的突变速率实在太低，个体之间的突变差异散布在Y染色体的各处，只能使用Y染色体全测序来寻找，而目前全测序的成本太高，尚不能普遍应用。这一缺点被Y染色体上的另一遗传标记STR弥补了。一些STR位点分布在Y染色体上的固定位置，每一个STR位点内部的重复单位在传代过程中拷贝数发生着改变，这种改变也是有着固定的速率的。而STR突变速率要比SNP大得多，在家系中，每出生一个男子，每个STR位点突变概率大约是三百分之一。一般的Y染色体分析中，调查15个STR位点，总体突变率就大约是二十分之一。而Y染色体上以4~6个核苷酸为重复单位的STR位点有150个，如果分析全部这些STR位点，那么总突变率大约就是二分之一。这一高突变率非常有利于估算不同Y染色体之间的分化时间，因此STR位点成了Y染色体上的“时钟”。

STR的突变是双向性的，拷贝数可以增加也可以减少。有共同祖先的不同个体，其同一STR位点可能有不同突变方向和重复数。同SNP一样，数个不同位置上的STR也可以构成单倍型。在群体中分析STR单倍型的多样性程度，可以计算群体的共祖时间。例如，某个群体具有一个相同SNP突变，是从共同祖先处获得的，如何用群体中的STR多样性计算这一SNP发生的时间？假设一个STR每次突变都只增加或者减少一个重复单位，也就是一步（single-step）突变模型，且群体有着恒定的有效群体大小，就可由公式 t =- Ne ×In（1- V/Ne × μ ）推算出该特定SNP发生的大致时间。公式中， Ne 是有效群体大小， μ 是突变率，In是自然对数， V 是观察到的群体中的某一STR数值的方差，计算得到的 t 是经历的世代数，再乘以每一世代的年数即可得到时间。

以Y染色体上STR的总突变率二分之一来估算，几乎每个人都可以构成独特的单倍型。但是，由于突变是一步一步发生的，父系亲缘关系越近的个体之间STR单倍型越相似，一个纯粹由父系传递的姓氏应有相近的STR单倍型。但是，由于STR的突变速率的不稳定性，加上回复突变的影响，STR计算时间的误差还是极大的。所以，准确地分析Y染色体单倍群的分化时间，还是要用全Y染色体SNP的突变谱，在这方面，复旦大学的人类学实验室的研究走在了世界最前沿。理论上，有了足够数量的Y染色体SNP和STR后，通过调查一个姓氏宗族内的男性的单倍型，就能够很清楚地构建其家族Y染色体的谱系树，乃至编写一部清晰的基因家谱。

手握DNA分析的利器，再加上其他证据，科学家就可以追溯人类进化、族群演化、家族变迁的历程，解开一个又一个未解之谜。