中国姓氏本质上来说是一种跟随父系传递的标识,这也是全世界使用姓氏的大多数国家的共同特征。这可能和古代多数文化中男尊女卑的观念,和以父系家族为主的社会结构有关。少数国家如西班牙则略有不同,西班牙人会继承父母双方的姓,不过在向下一代传递时,往往只取父姓,而把母姓忽略。因此长期来看,这实际上仍然是一种父系传递的标识。
由于姓氏沿着父系传递,理论上讲,在传统中国宗族社会里的大家族中,每个成员都可以追溯到古时共同的父系祖先,因此自古以来就有同姓“五百年前是一家”的说法。在历史长河中,未必每个小家庭都能保存自己的家谱、清楚地说出自己几十代的祖源,但是姓则容易保留得多,因此姓氏就成为中国人最有效的攀亲方法,即所谓“同姓三分亲”。
在现代之前,姓氏可以说是建立血缘关系最为有效的手段。然而随着时代的推移和科学的发展,尤其是分子生物学的进展,我们发现实际上还存在一个比姓氏更有效、更可靠的工具,这种判断血缘的利器就是Y染色体。
学过一点生物学的人都会知道人类的性别是由染色体决定的。女性的性染色体为XX,男性则为XY,人体有23对染色体。我们的各种遗传特征就以基因编码的形式储存在这23对染色体中,其中22对是常染色体,并无性别差异,还有一对染色体,则男女大不相同。这对染色体起着决定性别的重要作用,它们被称作性染色体。女性的这对染色体两条基本一致,就称XX;男性则明显一大一小,就称XY。生物学上性别的起源很早,不同生物也有不同的性别决定方式。有些生物如乌龟和鳄鱼,性别纯粹是由孵化时的温度决定的,两性染色体基本一致。有些生物如大多数鸟类则和人类相反,雄鸟的性染色体是一对同态的,称为ZZ染色体;雌鸟的性染色体则一大一小,称为ZW染色体。大多数哺乳动物则和人类一样,性染色体为XY性别决定系统。
和其他XY性别决定系统的哺乳动物一样,人类的繁衍也是采用有性生殖的方式。原始的单细胞生物繁殖时一般直接采用细胞分裂的形式,一个母细胞分裂成两个子细胞。在人体中,很多细胞在需要增殖时也是采用这样的策略。不难想象,在这个过程中,如果染色体不加以处理,每个子细胞就只能分到母细胞一半的染色体,长此下去肯定会功能严重失调的。因此体细胞正常分裂产生新细胞时,母细胞会复制染色体,来让子代细胞的染色体数量和母细胞一致。
但是在生殖细胞,即精子和卵子形成时,会经过一次减数分裂。简而言之,细胞分裂时每对染色体随机抽取一条,最后形成的精细胞和卵细胞就只有23条染色体。当精细胞和卵细胞结合后,两个细胞的各23条染色体又凑成了23对染色体。这就是有性生殖。由于男性的性染色体为XY型,在减数分裂过程中,有些精细胞分到了X染色体,有些分到了Y染色体。女性的卵细胞则只会有X染色体,精细胞和卵细胞结合后的胚胎的性别,就由精细胞提供了哪种染色体来决定。
这样的有性生殖方式可以让子代相比父代更多地发生基因上的改变,增加族群的基因多样性,有利于适应环境选择的进化。相对来说,采取无性生殖的生物,子代和父代的基因几乎完全一样,只有偶然发生的突变才会造成基因改变,当环境发生变化时,就很容易因为基因多样性不足导致难以适应,甚至全军覆没。
不难想象,我们细胞中的每对染色体都有一条来自父亲,一条来自母亲。但是如果再向上追溯,事情就不仅仅那么简单了。由于减数分裂时的随机性,我们继承自母亲的染色体有的会来自外祖父,有的会来自外祖母;同理,继承自父亲的染色体则有的会来自祖父,有的会来自祖母。至于四位祖辈各自贡献了多少条染色体,则并无定数。让事情更加复杂的是,为了能够获得更高的基因多样性,有性生殖的过程中还会发生基因重组。即我们生殖细胞的减数分裂过程中,某条染色体并不是完全来自父亲或是母亲,这一条染色体在减数分裂完成前会发生基因重组,即和与它配对的另外一条染色体交换部分基因,最后进入生殖细胞的染色体中会有部分基因来自父亲,部分基因来自母亲。
我们可以看出,减数分裂的机制决定了虽然一个人的基因一定是一半来自父亲、一半来自母亲,但是这一半来自父亲的基因,并不是四分之一来自祖父、四分之一来自祖母,而母系也同理。按照统计学的理论,甚至有可能发生这种事件:在一个人的基因当中,来自父亲的基因全部来自祖父,祖母的基因则完全没有遗传到,尽管事实上发生这种事的概率几乎为零。
经过世代传承,一个人本来的染色体在遗传过程中就会散得七零八落。虽然在一般情况下,仍然可以通过常染色体的基因追溯一个人的祖源,但其结果就往往有一定的模糊性。
Y染色体则是一个突出的例外。由于Y染色体在进化过程中不断丢失基因,现今的Y染色体除了决定男性的性别,已经丧失绝大部分的基因功能。Y染色体除两端的片段,主体部分已经无法和X染色体进行基因重组。在减数分裂的过程中,Y染色体的核心部分因此就只能以完整的形态传递到精细胞。因此,粗略地说,男性的Y染色体只能来自父亲,而父亲的Y染色体又只能来自祖父。现今所有男性的Y染色体都是来自生物学上的直系男性远祖。如果拓展一下思维,就会发现其实Y染色体的这种标识和通过父系传递的姓氏的功能非常类似。
相反,在卵细胞生成过程中,既可以传递来自父亲的染色体,也可以传递来自母亲的染色体。此外,女性的两条性染色体仍然能够顺利配对并进行基因重组,就和其他22对常染色体一样。男女的性染色体的不同,导致女性在基因上比男性有更高的冗余。这可以在一定程度上弥补细胞分裂时有时会出现的涉及整条染色体的重大错误。这些错误源自染色体没有正常分离到子代细胞中,有的生殖细胞可能会较少分到染色体。如果X染色体不幸出现了缺失,由于缺乏备份,只有Y染色体的男性胚胎会在胚胎阶段就直接死亡,女性则由于有另一套X染色体,在缺失一条X染色体的情况下仍然能够长大成人,只是会有种种遗传病表现,称为“特纳综合征”。反过来说,生殖细胞也可能会多出额外的染色体,臭名昭著的常见遗传病唐氏综合征,就是第21对染色体有三条,导致患者出现各种严重生理失常。这种由于染色体不正确分离导致卵细胞为非整倍体的现象,在人类女性的卵细胞中其实颇为常见,女性卵子中有25%—50%会发生这样的问题。幸运的是,多数情况下这种极端严重的基因错误会导致胚胎无法成活。
相对来说,男性精细胞虽然也会出现非整倍体的现象,但是概率要小得多。然而这并不意味着精细胞就不会出现错误。恰恰相反,相对于出现基因复制,精子形成甚至是一个“错误”的过程,它是一个不断缺失的过程。
我们的基因由一个个碱基对排列组成,这些碱基分为四种,即腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)和胞嘧啶(C),正常情况下这样的碱基对遵循非常严格的配对规则,即腺嘌呤一定和胸腺嘧啶配对,鸟嘌呤一定和胞嘧啶配对。这些碱基对会排列组成一个双螺旋结构。细胞分裂时,这种双螺旋结构拆开变成两条单螺旋序列。当基因复制的时候,这两条拆开的单螺旋上的每一个碱基再和新的碱基按照固有规则配对,这样本来的一套双螺旋就变成了两套双螺旋。
这种配对一般来说是比较精准的。但是就如人在工作中偶尔会出现疏失,机器运转过程中会出现bug,负责复制基因的DNA聚合酶有时候也会出现配对错误。这种错误大约在每复制10000—100000个碱基时出现一次,算得上是个小概率事件。不过人体仍然有其他方式让复制错误问题的影响更小。比如,有些DNA聚合酶有复查能力,假如不慎出现配对错误,DNA聚合酶会在复查过程中发现问题,随即回退一步,并把配好的错误核酸切走。在DNA聚合酶自查后,新生成的DNA还会被另外的酶再次检查,如果发现了未被检查出来的复制错误,则会在适当位置切掉含有错误核酸的一段DNA, DNA聚合酶会再次复制新的DNA。
在诸多检查机制下,人类的基因复制是个相当精确的过程。维持基因复制的准确性很重要,我们遭遇的一些疾病,如癌症正是由于基因出错造成的。基因是编译蛋白质的编码,在一段基因激活之后,就会通过生化过程最终合成身体所需要的蛋白质。在很多时候,这样的小错误对于合成的蛋白质的功能不会产生明显的影响。但是假如基因的改变造成蛋白质合成的失常,产生功能不正常的蛋白质,则就会给人的健康带来重大问题。在尽量确保复制不出错的同时,人类的免疫系统也会在出错的情况下予以补救,譬如出现基因复制错误的细胞就有可能被免疫系统识别并扼杀。
全基因组复制时大约会产生0.3—3个没有被抓到的错误。从受精卵到成为成年人会经历大约47次基因组复制,共有14—140个基因发生突变。一个生殖细胞的基因组平均大约会含有30个突变。当然,不难想见随着年龄增长和细胞的持续分裂,基因突变也会逐渐累积。
很多情况下,这样的基因突变也未必会传到下一代。假如突变没有涉及生殖细胞,则下一代并不会继承到这样的突变。要影响到生殖细胞,不但突变的发生要相对早,而且在基因重组以及减数分裂等过程中也不能被筛除。同时这个突变也不能有严重到会导致胚胎死亡的负面影响。
Y染色体就是这样一个基因突变的温床。人类女性一生所有的卵细胞早在胚胎时期就已经形成。正常女性一生大约只会有400多个有效的卵细胞最终参与繁殖过程。与之相反,一个正常男性每天都会产生1亿个精细胞。这些精细胞都是由一种干细胞,即精原细胞分裂得来。在最终产生精子前,精原细胞会进行多次的有丝分裂以满足数量庞大的产精需求。精原细胞单次复制基因时出错概率比其他细胞还要低一些,这大概是由于精子形成过程中需要不断多次复制产生的对冲机制。尽管如此,在概率累加的作用下,人类从父亲那里遗传到突变基因的概率还是比母亲大得多(高出4—6倍)。
Y染色体是一条很小的染色体,基因突变的概率事件未必会落到这条染色体上。假如Y染色体发生了基因突变。生物进化已经让人类在内的大多数雄性哺乳动物适应第23对染色体上的大部分功能性基因只存在于X染色体。Y染色体上的DNA除了控制性别和雄性生育能力的基因,充斥着大量重复而且功能不明的“垃圾序列”。因此Y染色体上的碱基对突变以后造成的影响一般很有限,多数情况下不会因为造成携带者死亡或者无法繁殖自动从人类基因组中清除。严格来说,由于概率问题,大多数突变发生的位置都在这些“垃圾序列”上,并非“基因突变”,但是就父系溯源来说,这些垃圾序列上的随机突变却有非常大的价值。
Y染色体拥有一个非常重要的特质,其他的染色体可以通过基因重组把突变的碱基对置换掉,而Y染色体不能轻松地和X染色体交换序列。由于X染色体和Y染色体胡乱重组会导致诸多不良后果,进化使得X-Y基因重组会被抑制,Y染色体只有首尾大约5%的区域可以进行基因重组。因此Y染色体大部分区域会存留着已经发生的突变。今天的Y染色体之所以比X染色体短了那么多,其原因就在于历史上发生过一些删除突变的过程,导致基因丢失。在漫长的进化过程中,Y染色体已经丢了本有的1438个基因中的1393个。
因此,作为突变温床的Y染色体,就会忠实地记录一个男性从父系祖先到自己所经历的所有突变。这样的突变以大体一致的速率进行。至于这些突变能不能被检测到,就得看测序技术水平,通过确定的亲属关系反向推算。当前一般技术条件下,Y染色体大约每五六代人,即140年左右会出现一次可检测到的SNP突变。通过检测男性Y染色体上的突变次数,我们就可以推测两个男性的共祖关系。
这种分析听起来可能很复杂,其实只需要遵照简单的逻辑关系对发生突变的碱基对进行分析即可。Y染色体上的碱基对突变可以分为上游和下游。在搜集了足够多的样本之后,我们可能发现一批沾亲带故的男性全部共享某个Y染色体上的甲突变,但是其中只有一部分会有乙突变。属于乙突变的那部分人有一部分又会有丙突变。然而没有乙突变的人,虽然可能会有其他突变,但是不会有丙突变。
这样一来,这批男性的共同祖先在某一代(A)发生了甲突变,这就是上游的突变。发生了甲突变之后这个家族的某个男性后代(B)发生了乙突变,但是他的兄弟们并没有发生乙突变。因此只有B的后代才会有乙突变。B的后代中C又发生了丙突变。甲、乙、丙三个突变就是上下游的关系,只有拥有上游突变的人才会拥有下游的突变。B的兄弟们的后代并无B身上发生的突变,因此更不可能有B的后代才会有的新突变了。由于Y染色体突变的速率较为恒定,甚至还可以根据二者Y染色体上的突变情况和这些突变之间的关系判断出两个男性的共祖大概距今多少年。
单个碱基对在一代男性的Y染色体上出现突变的概率大约为3000万分之一。尽管理论上存在某个碱基发生两次独立突变或者凑巧变回原来的可能性,但是这样的事件出现概率极低(大约九百万亿分之一),而且也可能通过分析其他突变予以排除。毫无疑问,研究Y染色体上的突变是一种极其可靠的确定父系血缘关系亲疏的工具,甚至可能比自古以来的姓氏更加可靠。
那么,这种21世纪的新工具又会给中国人的姓氏问题带来哪些新的视角呢?
近年的研究使得我们已经把全世界的Y染色体出现的突变予以归类总结,判断各种突变的上下游关系,从而形成一个树形结构的Y染色体单倍型进化树。
在一个理想世界里,Y染色体单倍型和姓氏传承上有高度相似性。假如同姓五百年前是一家确为事实,则同姓的Y染色体单倍型应该较为相似,至少应该比异姓的更相似。
在实际生活中,同姓到底是不是一家,这是很难保证的。一般来说,如果是居住地接近的同姓乡里乡亲,则可能会清楚记得两人在若干代前是一个老祖宗,但是如果碰上远方来的同姓,在没有宗谱的情况下,就很难确认双方是不是同宗同源,如果是同宗,又是多久之前分化的呢?在这点上,中国姓氏的发源古老反倒未必对溯源有帮助,而是制造了诸多困难。反例则是泰国的姓氏。泰国姓氏普及于20世纪初,1913年,泰国要求全体国民采用姓氏。当时造姓的要求是长度不得超过十个泰文字母,以及不得和已有姓氏重复。以20世纪初期的科技水平,这个要求可能有些过于超前了。在计算机未普及的年代,让全国人民造姓不重复是个难以完成的任务。不过至少从原理上来说,假设这样的要求得到良好贯彻,泰国的所有姓氏都应该有且只有一个来源。从今天的情况看,目前姓氏完全一样的两个泰国人确实很少不沾亲带故,因此假如有人根据姓氏大规模测试泰国男性的Y染色体序列,由于从取姓发展到现在刚刚过百年,绝大多数同姓男性Y染色体单倍型之间应该几乎一致或者只有极少数突变。