载有人类庞大遗传信息的基因组,是一部由30亿个碱基对排列组合而成的“天书”。里面有我们的“自传”,更蕴含着生命延续进化的密码。
人类基因组是人类所有基因(遗传单位)的总和。而人类基因组学是研究人类基因组的科学。基因组学有两个最主要的理念;
(1)生命是序列的。
这个理念源自沃森(Watson)和克里克(Crick)1953年的一个论点:“碱基序列是携带遗传信息的密码”。前面我们介绍,DNA的信息是由ATCG四种碱基书写的。由于DNA的双链结构,每个碱基都以A-T、G-C的配对方式和对应的碱基形成一个碱基对,即1个bp(base pair),1bp可以理解为DNA天书上的一个字节。在不同的基因中,碱基排列的顺序不同,所产生的蛋白质也不同。这些蛋白质有的作用细胞的结构成分,有的参与调节细胞的代谢功能。
(2)生命是数字的。
这个理念来自苏尔斯顿(Sulston)和费里(Ferry)2002年的描述:“代代相传的生命指令不是模拟的,而是数字的。”
基于这两个理念,现阶段的基因组学有两项主要的核心技术:
①序列分析:即测序(sequencing),指分析特定基因片段的碱基序列排列方式。
②信息学分析:即生物信息学(Bioinformatics),也称计算基因组学(Computational Genomics),是运用计算机技术和信息技术对基因组研究数据进行计算分析和建模的学科。
可以说,基因组学就是把生命“序列化”和“数字化”,序列分析(包括DNA、RNA、甲基化组等测序)旨在“拿到”生命这本天书,信息学分析就是要借助计算机和相关软件来“读懂”这本“天书”。
人类单倍体核基因组的大小,根据欧洲分子生物学实验室生物信息学中心(European Molecular Biology Laboratory-European Bioinformatics Institute,EMBL-EBI)和Sanger中心(Wellcome Trust Sanger Institute,WTSI)共同开发的软件Ensembl数据库2012年7月发表的数据,女性为3036303846bp,男性为2940406852bp,接近3000Mb或3Gb。人类单倍体核基因组由24个DNA分子组成(22条常染色体和X染色体、Y染色体,1条染色体为1个DNA分子)。最大的1号染色体DNA,长约250Mb,约占全基因组的8%,最小的21号染色体DNA,长约48Mb,只占全基因组的1.5%左右。
人类基因组单倍体
编码蛋白的基因
人类基因组可以分为基因序列(编码蛋白的基因序列)和基因间序列(intergenic sequences)。编码蛋白的基因,即通常所说的基因,是人类基因组中最具生物学功能意义的部分。根据2003年发表的人类基因组精细图,估计人类基因组含有2万~2.5万个编码蛋白的基因。编码蛋白基因的识别,是由计算机相关识别软件进行的。
事实上,一般一个完整的人类编码蛋白基因,总长度应该包括以下部分:
上游基因与基因表达调控相关的序列(TATA框,CAAT框,启动子以及CpG岛等);转录起始位点(transcription start site,TSS);5′非翻译区(5′-untranslated region,5′-UTR);起始密码子ATG;外显子;内含子;3′-UTR;转录终止子(transcription termination site,TTS);加尾信号(polyadenylation signal)。
编码蛋白基因结构
人类基因组中的编码蛋白序列的总长度约为35Mb,只有人类基因组的1%左右。
基因在人类基因组中并不是均匀分布的,其中约20%的人类基因组是几乎没有基因的“沙漠”地区(通常指长度超过500kb而不含基因的区域),当然,也有很多基因密集区。其中人类的第17号染色体基因密度最高,达12.6个基因/Mb;而Y染色体基因密度特别低,只有0.9个基因/Mb。
人类染色体大小和基因密度
自Vega(VEGA48)。其染色体大小不包括MHC及LRC区域,基因数目统计中也不包括IG和TR基因。
资料来源:《医学遗传学》
假基因
顾名思义,这是一类和真基因很相似但是没有可检出生物学功能的基因。假基因可能是基因进化过程中的副产物。假基因的存在是真核生物组的重要特征之一,根据Ensembl数据库(2013年1月)的统计,人类基因组中的假基因总数为13430个,几乎为真基因的2/3。
非编码RNA
在人类的基因组中有很多区域能够进行转录,但却并不翻译成蛋白质。不过这些转录的非编码RNA(non-coding RNA,ncRNA)并不是毫无用处,事实上它们的作用非常大。它们中含有很多功能因子,在精确控制基因的表达、细胞的增殖和分化、个体的生长和发育尤其在进化上都具有重要意义。
CpG岛(CpG islands)
指基因组的一些区域,一般位于基因的5′端,含有大量以磷酸二酯键p紧密相连的胞嘧啶(C)和鸟嘌呤(G)。CpG岛具有多方面的重要意义,与基因组序列甲基化及基因表达有关(DNA甲基化在调节基因转录表达、调控细胞正常分化与发育以及癌症发生的调控等多方面都有重要作用)。
重复序列
人类基因组中存在着大量的重复序列,这也是高等真核生物基因组的最重要特征之一,因此也是基因组分析的最重要内容之一。其中各类重复序列占人类基因组的50%以上。
基因变异是指基因的DNA序列发生改变,小至单个核苷酸的变化,大至几百万个核苷酸的变化。引起变异的因素有生物因素、化学因素和物理因素。对于一个物种或者群体而言,变异带来了物种的多样性,正是由于种种变异,才让地球拥有了如今这样多的生命种类。
基因变异是基因组学中最重要的研究内容之一。对变异的鉴定和分析,可以作为研究基因组进化、物种的起源和演变、基因与表型的相关性等所有生物学问题的基础,也是基因组概貌分析的主要内容。基因组变异的主要类型有以下几种:
(1)单核苷酸多态性(Single nucleotide polymorphism,SNP)。
指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。我们可以简单得理解为,在基因组这本书里发生了某个字的改变。有时是一个字变成了另外一个字,如A变成了C,或G变成了T;有时是遗漏了某个字或是插入了某个字等。
SNP
(2)拷贝数变异(Copy number variation,CNV)。
拷贝数变异是指基因组区段的插入、缺失或重复。一般指长度为1kb以上的基因组大片段的拷贝数增加或者减少,主要表现为亚显微水平的缺失和重复。与SNP相比,它更像是基因天书中某个段落,甚至章节的缺失或重复。
拷贝数变异是基因组结构变异(Structural variation,SV)的重要组成部分。它主要造成基因的缺失和重复。CNV位点的突变率远高于SNP,是人类疾病的重要致病因素之一。
CNV
(3)其他基因组结构变异。
除了能够造成基因缺失或重复的拷贝数变异外,在基因组的变异类型中还有两种主要的类型——易位和倒位,即某一个基因组区域的位置和方向变了,但不涉及DNA拷贝数目的变化。
基因组结构变异
小知识
单倍体:染色体倍性是指细胞内同源染色体的数目,其中只有一组的称为“单套”或“单倍体”。需要注意的是,单倍体与一倍体(体细胞含一个染色体组的个体)有区别。有的单倍体生物的体细胞中不只含有一个染色体组。绝大多数生物为二倍体生物,其单倍体的体细胞中含一个染色体组,如果原物种本身为多倍体,那么它的单倍体的体细胞中含有的染色体组数一定多于一个。如四倍体水稻的单倍体含两个染色体组,六倍体小麦的单倍体含三个染色体组。
拷贝数(copy number):是指某基因(可以是质粒)在某一生物的基因组中的个数,单拷贝就是该基因在该生物基因组中只有一个,多则指有多个。
拷贝数变异(CNV):是由基因组发生重排而导致的,一般指长度为1kb以上的基因组大片段的拷贝数增加或者减少,主要表现为亚显微水平的缺失和重复。
碱基对(base pair,bp):碱基对是形成DNA、RNA单体以及编码遗传信息的化学结构。组成碱基对的碱基包括A、G、T、C、U。严格地说,碱基对是一对相互匹配的碱基(即A—T,G—C,A—U相互作用)被氢键连接起来。然而,它常被用来衡量DNA和RNA的长度(尽管RNA是单链)。
转录的起点:是指与新生RNA链第一个核苷酸相对应的DNA链上的碱基,研究表明通常为一个嘌呤(A或G),即5′UTR的上游第一个碱基。
TATA框(TATA box/Hogness box):是构成真核生物启动子的元件之一。其一致顺序为TATAATAAT(非模板链序列)。它约在多数真核生物基因转录起始点上游约-30bp(-25~-32bp)处,基本上由A-T碱基对组成,是决定基因转录始的选择,为RNA聚合酶的结合处之一,RNA聚合酶与TATA框牢固结合之后才能开始转录。
CAAT框(CAAT box):其一致顺序为GGCTCAATCT,是真核生物基因常有的调节区,位于转录起始点上游约-80bp处,可能也是RNA聚合酶的一个结合处,控制着转录起始的频率。
启动子(promoters):RNA聚合酶特异性识别和结合的DNA序列。启动子是基因(gene)的一个组成部分,控制基因表达(转录)的起始时间和表达的程度。启动子就像“开关”,决定基因的活动。
终止子(terminator):是给予RNA聚合酶转录终止信号的DNA序列。在一个操纵元中至少在构基因群最后一个基因的后面有一个终止子。
5′非翻译区(5′UTR):5′非翻译区是指成熟mRNA位于编码区(CDS)上游不被翻译为蛋白质的区域。
5′非翻译区从转录起始位点开始,在起始密码子的前一个核苷酸处结束,可以包含通过调控元件控制基因表达的元件。在原核生物中,5′非翻译区通常含有核糖体结合位点(RBS),即夏因—达尔加诺序列(AGGAGGU)。
真核生物5′非翻译区的中位数长度一般约为150核苷酸(nt),但有些可长达数千碱基。
3′非翻译区(3′UTR):成熟的信使核糖核酸(mRNA)编码区下游一段不被翻译的序列。在真核生物中它含有在mRNA 3′端添加多腺苷酸的信号。这个序列在mRNA转运、稳定性和翻译调节中起重要作用。
加尾信号(polyadenylation signal):真核生物mRNA的3′端都有一段尾巴,这种尾巴不由基因编码,而是在转录后加到mRNA上的。加尾过程受位于终止密码3′端的加尾信号序列所控制。在结构基因的最后一个外显子中有一个保守的AATAAA序列,此位点下游有一段GT丰富区或T丰富区,这两部分序列共同构成poly(A)加尾信号。