对人类基因组的研究,是人类从本质上对自身进行认识的需要,旨在研究人类基因组的结构,因此称之为“基因组学”(genomics)。1986年3月7日,诺贝尔奖获得者Dulbecco在《科学》杂志上发表了题为“肿瘤研究的转折点——人类基因组的全序列分析”的短文,率先提出了人类基因组计划(human genome project,HGP),并认为这是加快癌症研究进程的有效途径。美国政府于1990年10月正式启动了这项耗资达30亿美元,时间约15年的计划。除美国以外,英国、日本、法国、德国和中国的科学家相继参加了国际人类基因组计划。包括中国在内的一些国家还提出了各自的基因组研究内容。
经过全世界科学家的共同努力,2000年6月26日,美国、英国、日本、法国、德国和中国的科学家同时宣布已基本完成了人类基因组工作草图。2001年2月11日,参加人类基因组计划的六国科学家、美国塞莱拉公司、美国《科学》杂志和英国《自然》杂志联合宣布,它们绘制出了更加准确、清晰、完整的人类基因组图谱,对人类基因的面貌有了新的发现。经过分析,表明人类基因组由31.647亿个碱基对组成,共有3万~3.5万个基因,远少于原来估计的10万个基因。2003年4月14日,科学家们在华盛顿宣布,通过美国、英国、日本、法国、德国和中国科学家13年的共同努力,人类基因组的排序工作已经基本完成。其标志着现代生命科学的发展已逐渐进入了基因组学时代。
人类基因组计划的总体目标是在2005年之前完成人类24条染色体(22+X+Y)上的人类基因组DNA中约3×109的碱基对排列顺序的测定,并在此基础上进行人类基因的定位和分离,破译人类全部的遗传信息,以建立人类遗传物质的全套信息数据库,为从整体上揭示人类出生、发育、衰老、疾病和死亡的奥秘提供最基本的数据。研究内容主要包括:
(一)人类基因组作图
人类基因组的DNA序列分布于24条染色体上。而以染色体直接进行DNA序列测定是不可能的,故首先必须将基因组这一巨大的研究对象进行分解,使之成为较易操作的小的结构区域,这个过程简称为作图(mapping)。根据使用的标志和手段不同,人类基因组的核心内容需要绘制4张图谱,即遗传图谱、物理图谱、转录图谱和序列图谱。HGP完成的这“4张图”被誉为人类“分子水平上的解剖图”,或被更形象地称为人类“生命元素周期表”。将依赖这张“生命元素周期表”彻底解开人类进化和生命之谜,并为疾病的诊断、治疗及预防奠定基础,预示着人类健康的历史将翻开全新的一页。
1. 遗传图(genetic map)又称为连锁图(linkage map),它是以具有遗传多态性的标记为“路标”,以遗传学距离为“图距”的基因组图。连锁的遗传标志之间的遗传学距离是通过计算它们的重组频率来确定的,一般用厘摩(cM)表示,即在每次减数分裂过程中重组率为1%,称为1厘摩。绘制遗传图需要应用多态性标志,最早应用的标志是限制性酶切片段长度多态性(restriction fragment length polymorphism,RFLP);以后又应用短串联重复序列(short tandem repeat,STR)或微卫星序列。20世纪90年代,发展到单核苷酸多态性(single nucleotide polymorphism,SNP)的大量使用。SNP直接以序列的变异作为标记。随着人类基因组计划的进展,人们愈来愈相信基因组中这类多态性有助于解释个体的表型差异及不同群体和个体对各种药物的耐受性差异、对环境因子的反应差异以及对疾病的易感性差异。SNP的应用意义已超出遗传作图的范围,成为研究基因组多样性、定位疾病相关基因的新手段。
2. 物理图(physical map)是描述基因组内特定生物学界标或特定序列的确定位置及它们之间实际距离的图谱,即以一段已知核苷酸序列的DNA片段为“位标”,以DNA实际长度(Mb或kb)作为图距的基因组图。其意义一是获得分布于整个基因组的序列标签位点(sequence tagged site,STS)。二是在此基础上构建能覆盖每条染色体的大片段DNA的克隆重叠群(contig),以确定两个相邻STS间的物理联系。
3. 转录图(transcriptional map)是以表达序列标签(expressed sequence tag,EST)作为位标,实际上就是人类“基因图”的雏形。它包括了基因的cDNA片段,即EST,又称cDNA图或表达序列图。转录图谱的目的是要鉴定出基因组中所有的功能基因以及它们在基因组中的位置。转录图谱具有特定的生物学意义,由于cDNA具有组织特异性与时间特异性,cDNA的测定将直接导致基因的发现,从而获得基因组中对医学和生物制药产业关系最密切的信息。
4. 序列图(sequence map)也就是分子水平上最高层次、最详尽的物理图。遗传图谱、物理图谱、转录图谱等都可以在序列图的水平上得到整合。测定人类基因组的核苷酸顺序是人类基因组计划中最为明确、最为艰苦的定时、定量、定质的任务。
(二)基因鉴定
上述的4张图还不是真正的“基因图”,所以需要在进行全基因组分析的基础上,分离和鉴定具有重要功能的基因,绘制出人类的基因图。在遗传图、物理图、转录图和序列图完成后,数目达4万之巨的人类基因鉴定还将是长期、艰巨的任务。而就表现型而言,基因鉴定又面临着从单基因经典性状到多基因复杂性状的转折和进一步的深入研究。
(三)后基因组时代
人类基因组计划完成后,即进入了后基因组时代。基因研究的重心转向基因功能,即由测定基因的DNA序列、解释生命的遗传信息转移到这些遗传信息的生物学功能上。在2016年,有科学家们提出人类基因组计划应扩展到包括构建一个合成的人类基因组,并且在当年6月2日正式启动了为期10年的人类基因组延伸计划——合成人类基因组。该项目由一个新的非营利组织、生物工程卓越中心(Center of Excellence for Bioengineering)主持。科学家们希望将合成人类基因组的成果用于自然科学及医学领域的研究。同时,人类基因组计划极大地推动了测序技术的进步,催生了人类第二基因组——人体微生物菌群的研究。
人类基因组计划既是挑战,又是机遇。在人类基因组计划的测序中,我国科学家虽然在该计划的最后阶段才正式加入,但却承担了1%的工作,现今的测序能力已排名世界前列。在国家自然科学基金委员会、国家“863”高科技生物技术基金的支持下,1994年被正式列为国家自然科学基金重大项目之一的“中华民族基因组中若干位点基因结构的研究”,已于1997年9月通过了验收总结,科研人员在3年半的时间里建立了南、北方两个汉族人群和西南、东北地区12个少数民族人群共733个永生细胞系,为中华民族基因组的研究保存了宝贵资源。在致病基因的分离和结构、功能研究方面,克隆出了定位于11号染色体上的遗传性、多发性、外生性骨疣的致病基因;获得了一批食管癌特异缺失的DNA片段;发现了若干肝癌相关基因的cDNA,并确定了17号染色体短臂上肝癌相关缺失区域的范围;克隆出了若干白血病致病基因并展开了对其结构、功能的研究;定位了X染色体上视网膜色素变性的相关区域。此外,还在肝豆状核变性综合征(Wilson病)、β珠蛋白、血友病A和Marfan综合征等相关基因突变与疾病的关系以及血管紧张素转换酶(angiotensin converting enzyme,ACE)基因、脂蛋白脂肪酶(lipoprotein lipase,LPL)基因和载脂蛋白E(apolipo-protein E,ApoE)基因与2型糖尿病并发症易感性的关系方面有所发现。
根据我国的国情和国际HGP对中国科学界的期望,我国HGP的初期目标主要是保存各民族的基因组。我国有56个民族,还有若干遗传隔离群。研究我国包括汉族在内的不同民族间的基因组结构差异,并与世界上其他人种的基因组进行比较,不仅对于人类学和社会学的研究具有重大意义,而且对重要致病基因和疾病易感基因分离、鉴定及其在基因诊断和治疗中的应用也具有特殊意义。由此所获得的资料将成为国际人类基因组计划的重要组成部分。
思考题
1. 人类基因组中有哪些功能序列?
2. 请解释遗传信息传递的“中心法则”。
3. 真核细胞的基因结构有何特点?
4. 简述人类基因组计划的研究目标和内容。