现代遗传学开山鼻祖孟德尔,早在19世纪中叶就提出了“基因”的理念。他在豌豆杂交实验中,假设花的颜色是由一对遗传因子控制,这一对遗传因子在形成配子时彼此分开,在配子结合或受精时又自由组合成双。孟德尔所假设的遗传因子与染色体在减数分裂及配子结合过程中的行为有许多平行之处。有科学家指出孟德尔所假设的遗传因子可能就是位于染色体上。而现代遗传学的另一位泰斗摩尔根通过果蝇的杂交实验,将果蝇眼睛颜色与某一性别组联系在一起(伴性遗传),最后证明孟德尔所假设的遗传因子确实是位于染色体上,并成直线排列。同时,科学家也把遗传因子改称为基因。1928年摩尔根在《基因论》一书最后部分也预言,所谓的基因可能是由一些有机小分子重复排列所构成的。随后科学家通过实验证明了连接亲代和子代的遗传物质是DNA;而在RNA病毒中,RNA也是连接亲代和子代的遗传物质。因此人们在叙述基因本质时说,具有生物学功能的(主要是)DNA片段就是基因。而分子生物学对基因下的定义是,基因是产生一条多肽链或功能RNA所必需的全部核苷酸序列。
基因组是指单倍性细胞(精子、卵子)中所含的全部遗传信息,它是维持细胞生存所需要的最低限量的遗传信息。人类基因组测序,测的是从1号到22号常染色体和X、Y两条性染色体上的碱基序列,然后在这基础上再找出在染色体上的基因位置。
1984年在美国犹他州举行的“环境诱变和致癌防护”会议上,怀特(R.White)和门德尔松(M.Mendelson)提出只有测定人类基因组的完整序列,通过比较分析查出所有突变位点,才能精确测定致癌物所引发突变频率。1985年罗伯特·辛夏默正式提出应着手实施人类基因组计划。1986年诺贝尔奖获得者里内托·杜贝科在《科学》杂志上撰写了一篇题为“癌症研究的转折点:人类基因组测序”的短文。认为要弄清癌症的发生、演进、侵袭和转移的机制,必须对人体细胞的基因组进行全序列测定;认为这项工作对于认识人的生理、病理、发育、神经系统组成,以及其他严重疾病和疾病易感性等均具有重大意义;并认为这样大的项目必须通过国际协作来共同完成。基于杜贝科的见识和声誉,他的建议很快就得到科学界赞同和美国有关部门大力支持。1987年美国能源部健康和环境研究顾问委员会写出了“人类基因组创意”报告。1988年2月,美国科学院生物科学部基础生物学委员会指定15名科学家组成的“国家科学研究委员会(NRC)”综合各方面意见写成了“人类基因组的作图与测序”报告。经过反复论证,在1988年财政年度会议上,美国国会终于批准拨出专款实施人类基因组计划。
人类基因组计划(HGP),与曼哈顿原子弹计划和阿波罗登月计划一样,是经过美国总统批准的、具有同等重要战略意义的20世纪三大工程计划之一。人类基因组计划从1990年开始实施,预计用15年时间,于2005年完成。当时估计人类基因组共有约30亿个碱基对,按每个碱基对测序花费1美元计算,因此计划拨款30亿美元。人类基因组计划是20世纪最后一项宏伟的生命科学工程,它的拨款虽然比原子弹计划和登月计划少得多,但它对人类未来的影响要比后两项计划大得多。20世纪80年代末,美国成立了“国家人类基因组研究中心”,由诺贝尔奖获得者沃森(J.Watson)担任主任。
人类基因组计划自1990年启动以来,研究工作进展迅速。到1991年6月,美国“国家基因组研究中心”所识别的人类基因数量就已增加到347个。在这个研究中心工作的克雷格·文特尔(Craig Venter)和他的夫人弗雷泽都是工作狂,他们当时不仅觉得研究工作进展缓慢,而且要为他们所发现的基因或DNA序列申报专利。当时的研究中心主任沃森对此感到非常生气,斥责文特尔的行为“纯粹是发疯”,因为该项目启动时,就宣布它的宗旨是“国际参与,免费分享”。这是一种多么高尚的科学情操啊!因为“上天只给我们人类一个基因组”,而这一宗旨既能让某些发展中国家参与该项目研究,又使那些连资金和人才都没有的贫穷国家可以享用这一重大研究成果。由于意见分歧,文特尔和他的夫人弗雷泽就从研究中心分离出来成立了自己的基因公司,开展人类基因组测序工作。这样就形成了文特尔的公司,与由公共资金支持的、由6个国家科学家组成的联合体之间竞争的局面。正是由于有了这种竞争机制,从而使计划提前了2年,于2003年4月完成了人类基因组测序。
联合体中各个国家根据各自财力、物力和人力承担的基因组测序量分别是:美国54%、英国33%、日本7%、法国3%、德国2%、中国1%。中国科学家承担了人类第3号染色体上3千万对碱基测序,虽然我们于1999年才正式参与了人类基因组计划研究,但靠中国科学家的勤奋和智慧,却很好地按计划完成了任务,完整地掌握了测序技术。多国科学家联合体为了反对文特尔把测序结果据为己有,规定各个实验室所测得序列必须在24小时内上网,向全世界公开。1998年文特尔发现,美国“应用生物系统公司”发明的新的基因测序仪比当时其他测序仪工作效率要高5倍,于是文特尔立即决定与这家公司合并成立了“塞莱拉基因组(Celera Genomics)数据公司”,“塞莱拉”即快捷之意。这样,多国科学家联合体与塞莱拉公司之间的竞争就变得更加激烈,竞争终于结出了硕果。2000年6月人类基因组计划完成了人类基因组序列的“工作框架图”,它覆盖率为90%,准确率达99%。2001年2月15日,由弗朗西斯·科林斯(Francis Collins)带领的国际人类基因组研究联合体的科学家在《自然》杂志上发表了人类基因组测序的结果,即“精细图”,它覆盖率为98%,准确率达99.99%;2001年2月16日以文特尔率领的塞莱拉基因组数据公司在《科学》杂志上也发表了人类基因组测序结果。科学家普遍对这种竞争表示欢迎,他们认为“两个序列比一个好;能够有数据比较,并使其具有趋于一致的机会,这是极为宝贵的。”文特尔在研究报告中指出:人类基因组测试样品采自2男3女,其中1位是非洲人(黑人),1位是亚洲人(中国人),1位是西班牙裔墨西哥人,2位是高加索人(白人)。他们每人要被抽取血液130毫升,男性要采集精液。人类基因组中能翻译成蛋白质的基因有26 588个,另有12 000个基因尚待确定。在人类基因组中,外显子只占1.1%,内含子占24%,另外75%是基因之间的间隔序列。根据测定的结果估计人类基因也就3~3.5万个,比原先估计的8~10万个要少得多。人们通过测序结果比较,发现每个人之间的序列差异仅千分之一;各种肤色人之间差异也很小;差异最大是非洲黑色人种之间。2003年4月15日中国、美国、英国、日本、法国、德国六国首脑联名发表了《六国政府首脑关于完成人类基因组序列图的联合声明》,宣布科学家已完成了人类基因组“完成图”。已完成的序列覆盖率为99%;准确率达99.999%。该计划完成之后,科学家又进入了“国际单体型图计划”,它将以欧、亚、非裔三大族群为研究对象,建立人类基因组单体型图。中国承担“中华人类基因组单体型图计划”的绘制工作,其工作量为国际单体型图计划的10%。此外,中国还将投入6亿元人民币开展重大疾病、重要生理功能相关功能基因、中华民族单核苷酸多态性的开发和应用研究,以及与人类重大疾病及重要生理功能相关的蛋白质、重要病源真菌功能基因组等的研究与开发。
人类基因组测序也带动了其他重要生物测序工作的开展。对处于不同进化阶段具有代表性生物(模式生物)的基因组测序,通过对它们的基因信息了解、比较,将会对人类基因组研究提供非常有价值的信息,更有利于加深对人类基因组结构和功能的了解,同时也有利于对各物种之间进化关系的研究。
1.小鼠(mouse)。2002年12月15日美、英、德等国家科学家在《自然》杂志上宣布,绘出了小鼠的基因组草图。发现人类与小鼠共享有80%遗传物质和99%基因。小鼠每个基因组有20条染色体,约包含25亿个碱基对,基因总数大约是3万个,这些数字与人都很接近。人与小鼠基因仅有几百个不一样。而人的基因的确定也往往是通过与小鼠基因相比较而得到的,在研究小鼠基因组过程中,科学家就发现了人类基因约1 200个,其中许多与癌等常见疾病相关。
2.拟南荠。种子植物是当今地球上主要植物类型,而拟南荠又是其中一个成员,它生长周期短(6周),每个基因组中只含有5条染色体;同时,它又是重要经济作物油菜、卷心菜、甘蓝等多种蔬菜和油料作物的近亲,因此拟南荠是理想的模式植物。2000年科学家完成了拟南荠基因组测序工作,发现每个基因组包含有约1.2亿个碱基对,编码约2.57万个基因。
3.果蝇。从摩尔根开始至今,果蝇一直是遗传学和发育生物学重要的研究材料;果蝇每个基因组只有4条染色体。2000年科学家完成了果蝇基因组测序工作,它的每个基因组约由1.6亿个碱基对构成,编码约1.4万个基因。
4.线虫。身长仅1毫米左右,整个透明的身体也仅由1090个细胞构成,它的每个基因组中含有6条染色体。1997年科学家完成了线虫基因组测序工作,发现每个基因组仅有1亿个碱基对构成,编码约1.9万个基因。
5.斑马鱼。每个基因组包含有25条染色体,约含有17亿个碱基对。预计2004年完成斑马鱼基因组测序。
6.啤酒酵母。1996年就完成了啤酒酵母基因组测序,这也是最早完成的一种简单真核生物基因组测序。每个啤酒酵母基因组含有17条染色体,约由0.12亿个碱基对构成,编码约6 000个基因。
此外,科学家还对一些对人体或经济动物有严重危害的微生物基因组进行测序,以便能根据它们的基因组构成,有针对性地开发治疗性药物或治疗办法。比如,2002年10月,国际科学家小组报告,他们已经绘出了传播疟疾的冈比亚按蚊以及恶性疟原虫基因组草图;目前每年全球有5亿人感染疟病,近300万人因此死亡,这些基因组信息有利于科学开发出防治疟疾的药物和疫苗。2002年9月,美国科学家宣布,他们已经绘出了猪布鲁氏杆菌基因组图谱。2001年位于美国马里兰州罗克维尔市的美国基因组研究所完成了有高度致病力的肺炎双球菌完整的基因组测序。已知肺炎双球菌是一种化脓性革兰氏阳性菌,可引起人的肺炎、脑膜炎等疾病,据报道全世界每年有300万以上儿童死于肺炎双球菌感染。
中国科学家也同样对某些微生物基因组测序做出了卓越的贡献,已自主完成了人钩端螺旋体、痢疾杆菌福氏2A株、黄单孢菌和对虾白斑杆状病毒基因组全序列测定工作。
水稻是世界上近一半人口的食粮。水稻每个基因组有12条染色体,其基因组是禾谷类作物中压缩量最小的,但是水稻又是人类至今对植物基因组测序规模最大的一个,水稻基因组大小约是人类基因组的1/7,大约由4.3亿个碱基对构成。基因组测序既可揭示水稻遗传信息和遗传机理,又可获得对改良水稻有用的基因。因此水稻基因组测序成了由中、美、日、德等10个国家和地区科学家联合攻关的、有特殊意义的项目——国际水稻基因组计划。
2002年4月5日《科学》杂志报道了中国科学家率先完成了“水稻(籼稻)基因组的工作框架序列图”,其错误率为1%,覆盖染色体全长序列90%区域,这是水稻研究领域的重大突破。水稻遗传密码的破解不仅对植物学研究有重要意义,而且让人们看到了培育更高产、更优质品种的希望。水稻基因组是继人类基因组之后,所完成的最大基因组测序。
2002年11月25日《科学》杂志又报道了中国科学家独立地完成了水稻第4号染色体全长序列的精确测序,拼接后总长为3 500万碱基对,精确度为99.99%,即错误率仅万分之一,覆盖了染色体全长序列98%区域,达到国际公认的基因组测序图的标准。由于这一成就,使中国科学家对“国际水稻基因组计划”的贡献率达到10%。中国科学家计划在5年内发现和鉴定1 000个与水稻性状改良相关的基因或蛋白质。2002年12月18日,国际水稻基因组测序计划宣告圆满完成,各国科学家共测定碱基对3亿6 600万个,精确度达到99.99%,并预测遗传基因62435个。