基因组和表观基因组中蕴含着包括疾病在内的信息,通过解读人的基因组和表观基因组,我们尝试使用遗传学知识对疾病的发生进行解释,以推动疾病诊断和疾病治疗。从 30年前的人类基因组计划到目前后基因组时代的表观基因组计划,研究人员克服了一个个困难,但时至今日基因组学研究仍是一项艰巨的任务。在本节中,我们将追溯基因组学的起源和发展,走入基因组和后基因组研究这个不断发展的空间。
20世纪 50年代,研究人员开始了解到不同生物之间基因组大小差异很大,同时也惊讶于不可以通过进化的复杂性来预测基因组的大小:虽然高等生物基因组大小整体上高于低等生物,但物种的C值(一个基因组中的DNA量)与其进化复杂性之间无严格对应关系,即C值悖论。
1977 年,桑格(Frederick Sanger)完成了噬菌体ΦX174 的全基因组测序,这也是人类第一次完成基因组测序。到了1985年,世界范围内不仅开展了对几种其他病毒的全基因组测序,还对大肠埃希菌、秀丽隐杆线虫等模式生物开展了部分基因组序列的测序与分析。在所有测序工作中,毫无疑问人类基因组计划是一项壮举。这不仅因为人类基因组测序工作量大——约有30亿碱基对,研究结果与人类息息相关,更因为人类基因组计划成了后续医学研究、生物学研究和一系列相关技术发展的枢纽。
1990年正式启动的人类基因组计划掀起了生物学研究的新浪潮,人类基因组计划的确建立在对DNA功能的好奇之上,但基因组学研究的结论并没有将一切人类疾病归因于基因,而是更多地将研究结果用于提供精确干预治疗的可能性。不仅如此,随着基因组学研究的进展,人们得到了很多意想不到的收获,比如通过基因组序列更精确地阐明物种进化、极大助力法医鉴定等。
提到人类基因组计划的成果,人们往往想到的是“一个人的基因组序列”,然而实际上,人类基因组计划给出的序列范例是基于多个个体测序结果整合而来的,并希望以此反映整个人类物种基因组情况。人类基因组计划有三个最重要的成果。
首先,人类基因组计划揭示了一系列非人物种的测序结果,这方面的成果往往被人们忽略。人类基因组计划不仅提供了智人( Homo sapiens )的第一个参考基因组,还提供了第一个完整的细菌基因组——流感嗜血杆菌( Haemophilus in fluenzae )的基因组,第一个真核基因组——酿酒酵母( Saccharomyces cerevisiae )的基因组,以及几种模式生物——大肠埃希菌( Escherichia Coli )、秀丽隐杆线虫( Caenorhabditis elegans )、拟南芥( Arabidopsis thaliana )和黑腹果蝇( Drosophila me lanogaster )等的基因组。
人类基因组计划带来的另一项成果是加速了相关技术的开发:带动了新一代测序技术的发展,降低了测序成本;能够采用不同的方式对不同来源的DNA进行采样;更快地处理更多的DNA物质;所需要的样本更少;推动其他学科如宏基因组研究的发展。
除此之外,人类基因组计划让科研工作者更深入地了解基因结构,包括人类基因组的精细结构、动力学和功能等。人们惊奇地发现,人类基因组比预期小得多,但也复杂得多,基因组中存在很多重复序列和转座因子 [6] ,其功能也有待进一步研究。
我国的遗传学随着人类基因组计划的进行于20世纪90年代有了突飞猛进的发展。1998年,中国科学院遗传研究所成立,次年,我国正式注册参与国际人类基因组计划,完成人类3号染色体短臂上一个约30 Mb区域的测序任务,该区域约占人类整个基因组的 1%。我国因此成为参加这项研究计划的 6个国家中唯一的发展中国家。
人类基因组计划的早期工作让人们认识到,基因组中存在非编码DNA。最初研究人员认为这些DNA是“垃圾DNA”,对此,2001 年的基因组序列草案和2003年发表的工作中并没有提出明确的见解。但是在人类基因组计划后期,研究人员以测序数据为基础开展研究,逐渐解析了超越单纯的序列信息的更多遗传密码,对基因组工作原理有更深入的了解。
国际人类基因组单体型图计划于2002—2005年开展,该计划绘制了人类基因组中常见的遗传变异图谱。作为频率高于 1%的常见DNA变异,理论上每个个体约携带 300 万个SNP,人群中共携带超过 1000 万个SNP。但这些SNP在减数分裂过程中并不是随机分配的,而是根据其物理距离存在一定的连锁不平衡(linkage disequilibrium)特性,组成单体型。同一个单体型中的等位基因在遗传过程中同时出现在一条染色体上的概率高于随机出现在两条染色体上的概率,而其连锁的紧密程度可以根据遗传图距进行计算。单体型图谱是寻找遗传变异的重要资源,能从中找到参与物种驯化和地理差异的基因。2005 年公布的第一张单体型图谱报道了来自 4 个不同群体的 269 个样本数据。5 年后,后续研究报道了从 11 个不同种族人群中抽样的 1184 个个体数据,丰富了人类基因组信息。
由于连锁程度高的等位基因组成特定的单倍域(haplotype block)共同遗传,因此,在每个单倍域中选择几个标签SNP(tag-SNP)就可以验证整体上是否存在突变。由于当时全基因组测序太过昂贵,因此基于单体型图谱进行的全基因组关联分析(GWAS)使大样本量的全基因组水平遗传变异分析成为可能。
单体型研究的意义在于探索可以对不同表型人群进行筛选和区分的SNP标记,比如,患有高血压病的人群和正常人群可以根据一组特定的SNP来区分,某些癌症的易感患病风险可以由另一组SNP区分。一旦某些SNP与特定疾病关联,那么就可以有针对性地进行人群筛查,评估患病风险。除此之外,相关的单体型还可以为研究人员提供线索,揭示基因与疾病发生的因果关系;单体型图还定义了常见变异和罕见变异,粗略解释了常见变异与常见疾病之间的关系。可以说,从单体型图开始,基因组学才真正开始在生物医学中产生举足轻重的影响,帮助我们理解疾病,并推动现代精准医学的进展 [6] 。
随着测序成本的逐步降低,“千人基因组计划”于2008年1月正式启动,该计划第一阶段目标针对世界上14个种族共1000个人进行全基因组测序,绘制更加详尽和具有应用价值的人类基因组遗传多态性图谱。美国人类基因组研究所所长科林斯指出:“这一新计划可以使人类在基因组内发现疾病诱因的可能性增加5倍,在整个基因领域发现疾病的可能性增加至少 10倍。”我国华大基因研究院作为联合发起单位,承担了400个黄种人样本的全基因组测序和分析工作,而且帮助完成了非洲人群的全部测序和分析任务。2012年11月,千人基因组计划发布了第一阶段 1092人的基因数据,2015年 10月发布了第二阶段累计 2500人的基因数据。结合全基因组测序、外显子目标序列捕获和SNP分型等技术构建了变异图谱,最终绘制出了高分辨率和高精度的单体型图谱,其中包括 3800万个单核苷酸变异位点、140 万个插入或缺失位点,以及超过 1.4 万个大片段缺失。这些数据资源涵盖了不同种族人群基因组中携带率 1%以上的突变,其中覆盖度达 98%以上。千人基因组计划为未来个体化医疗时代的到来奠定了坚实的科学基础。
DNA元件百科全书计划(Encyclopedia of DNA Elements,ENCODE)是后基因组计划时期的另一项重要研究,它于 2003 年启动,其目的就是解码非基因区DNA的功能,鉴定人类基因组在多个物种中序列保守的功能元件,包括启动子、增强子、抑制子或沉默子、内含子、复制原点等功能已知和功能未知的序列。ENCODE计划在 2012 年圆满结束,共鉴定出对 2 万余个基因起到调控作用的400万个调控元件,及其在不同时空中的功能和产生差异表型的基础。ENCODE的公开发表使人类基因组“不再是一个空壳”,而是成为研究遗传发育、生理功能和发病机制的科学基础。