2022年3月31日,《科学》连发6篇论文,公布全球第一个完整、无间隙的人类基因组序列(T2T CHM13),首次揭示高度相同的节段重复基因组区域及其在人类基因组中的变异。与过去20年的任何基因组参考版本相比,T2T-CHM13增加了5个完整的染色体臂和更多的额外序列。这是对2013年发布的人类参考基因组序列(GRCh38)的重大升级,在过去的基础上增加了近两亿碱基的遗传信息(相当于一条人类染色体包含的信息),并且纠正了过往基因组序列上的许多错误,解锁了人类基因组中结构最为复杂的一些区域。
图2-16 人类染色体
这项成果由美国国家人类基因组研究所、加利福尼亚大学圣克鲁斯分校、华盛顿大学等机构研究人员领衔的国际科研团队“端粒到端粒”(Telomere-to-Telomere, T2T)联盟完成。论文共同通讯作者、华盛顿大学研究员埃文·埃奇勒(Evan Eichler)称:“那些使我们成为人类的基因,实际上存在于基因组的暗物质中,以至于被完全遗漏。我们花了20多年时间,总算完成了。”
人类基因组计划(Human Genome Project, HGP)是一项规模宏大、跨国跨学科的科学探索巨型工程,其宗旨在于测定组成人类染色体的30亿个碱基对的核苷酸序列,从而绘制人类基因组图谱,并辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。
1986年,美国生物学家、诺贝尔奖获得者杜尔贝科(Dulbecco)在《科学》杂志发表文章指出,包括癌症在内的人类疾病都与基因直接或间接相关,人类对疾病的研究有两种选择:要么各自独立寻找感兴趣的基因进行研究;要么齐心协力从整体上研究和分析人类基因组,并测定基因组中碱基对的排列顺序。实施计划必将消耗大量人力、物力、财力,影响整个生命科学的研究水平,因此受到很大争议。1990年10月,美国政府正式启动人类基因组计划(耗资30亿美元,为期15年),在2005年完成人类基因组全部序列的测定。该计划还包括对一系列模式生物体基因组的全测序(如大肠杆菌、酵母、拟南芥、线虫、果蝇和小鼠等),对这些处于生物演化不同阶段生物体的研究,是认识人类基因结构与功能不可缺少的过程。
来自美国、英国、法国、德国、日本、中国的2000多名科学家共同参与了人类基因组计划,于2001年发布人类基因组草图及初步分析,这张草图是人类基因组计划实施中取得的重要成果,相关研究发表于《自然》杂志。由于当时的测序技术所限,这份人类基因组草图中留有许多空白。人类遗传密码中有大量重复序列,其中一类是像糖葫芦一样串联的重复序列,另一类则是散在重复序列。人类23对染色体的DNA碱基对太长,测序时总要切割,切割后因太过相似而无法准确拼接,有人将这部分难测的基因形容为“隐蔽基因”。2003年,人类基因组计划宣告完成,遗传学家继续对这部分隐蔽基因进行改进,取得了非常大的成就,但仍有约8%的序列存在缺失或错误。随后20年,人类参考基因组不断更新版本。2013年12月,基因组参考联合会(Genome Reference Consortium)发布GRCh38(Genome Research Consortium human build 38),被认为是最精确和完整的人类基因组。
图2-17 GRCh38.p7的染色体图
然而,GRCh38仍然不是完美的人类基因组,还有许多未解的问题(包括分段重复、基因家族、卫星阵列、着丝粒和rDNA,以及人群中未被鉴定的序列变异)和缺口(近端着丝点染色体,也就是第13、14、15、21、22号染色体,这5个染色体的整个短臂序列在GRCh38中通通缺失)。
为了填补最后8%的空白,2019年,来自几十个研究机构的近百名科学家组成了大型研究团队——T2T联盟,对每条染色体从一端的端粒到另一端的端粒进行测序。科学家用拼图来形容基因组的分析,绝大多数细胞内包含两套基因组(分别来自父亲和母亲),这就好比把两套相似的拼图混在一起。研究人员找到了一种特殊细胞系,作为样本来消除两套拼图的问题。CHM13hTERT是一种源自人类完全性葡萄胎的细胞株,染色体核型为22对体染色体加上1对X染色体。由于它的染色体全部由精子的单套染色体复制而来,因此可视为近乎完全的纯合基因组。
突破性的进展离不开技术的飞跃,最后的8%中有很多片段是重复的,好比拼图里好多小板块很相似,就更难找到正确的位置。T2T联盟将读长长(一次读取100万个DNA碱基)但精度不高的牛津纳米孔DNA测序技术和读长短(一次读取大约2万个碱基)但精度近乎完美的太平洋生物科学公司的测序技术叠加,可以一次处理更长的DNA片段。就好像拼图板块变大,板块的数量变少了,从而生成了完整的人类基因组序列。
此次人类基因组约90%的新序列来自染色体的着丝粒,着丝粒内部及周围的新DNA序列约占整个基因组的6.2%。着丝粒是成对染色体在分裂过程中分离时附着的地方,这个区域结构独特,包含长段重复序列,而且着丝粒的大型蛋白质复合物牢牢抓住了染色体。在T2T提供完整序列后,人类第一次有机会对着丝粒及其周围序列的作用一探究竟。其中一项研究比较了全世界1600人的着丝粒序列,发现着丝粒的重复序列在不同人之间同样会存在差异,着丝粒序列或许可以用来追溯人类谱系。