广义的人类基因组(human genome),是指包含在人类细胞DNA中的全部遗传信息,它包括核基因组和线粒体基因组。其中,线粒体基因组(mitochondrial genome)是指线粒体内的环状双链DNA所包含的遗传信息,线粒体DNA长16.6kb,含有37个基因。
狭义的人类基因组,即通常所说的人类基因组,是指核基因组。核基因组(nuclear genome)是指细胞核中一套染色体,通常是指一套常染色体(22条)和两种性染色体(X染色体和Y染色体)共24条染色体所含的完整DNA序列。
大多数真核生物包括人类的基因,其编码序列在DAN分子上是不连续的,被非编码序列间隔开,称为断裂基因(split gene)(图2-1);这是真核生物结构基因的组成特点。断裂基因主要由转录区和侧翼序列构成。
图2-1 断裂基因的结构
(一)转录区
转录起始点到转录终止点的区域。包括前导区、编码区和尾部区。
1. 前导区(leader region)真核基因的5′端转录起始点与翻译起始点之间的核苷酸序列是不编码蛋白质的,称为前导区或5′非翻译区(5′untranslated region,5′UTR),该区序列对起始AUG的选择有一定的影响,也对mRNA的翻译起着重要的调控作用。
2. 编码区(coding region)是自起始密码至终止密码的一段DNA序列。包括外显子与内含子。外显子(exon)是基因内的编码序列,两个外显子之间的无编码作用的间隔序列称为内含子(intron)。内含子只转录,在转录后的RNA加工过程中被剪切掉,成熟的mRNA中无内含子序列。每个外显子和内含子的接头区都有一段高度保守的序列,一般内含子的5′端起始处有GT序列,3′端尾部有AG序列,称为GT-AG法则,它是真核基因转录后RNA加工过程中内含子剪切与外显子拼接的识别信号。
3. 尾部区(tailer sequence)3′端翻译终止点到转录终止点之间的序列称为尾部区或3′非翻译区(3′untranslated region,3′UTR),3′UTR主要含有终止信号及加尾信号。
(二)侧翼序列
真核基因转录区的两侧5′端和3′端都有一段不被转录的序列,称为侧翼序列(fianking sequence),主要有启动子和增强子,对基因的转录起调控作用。
1. 启动子(promoter)一般位于基因转录起始点上游的100bp范围内,是RNA聚合酶结合的部位,能促进转录过程,它包括以下几种不同序列:
(1)TATA框(TATA box):位于转录起始点上游20~30个bp处,其一致序列为TATAA/TAA/T,其中有两个碱基(A/T,T/A)可以变化,RNA聚合酶Ⅱ能准确识别此序列,并与之结合形成启动复合物,从而准确地识别转录的起始位点,启动基因转录。
(2)CAAT框(CAAT box):位于转录起始点上游70~80个bp处,其一致序列为GGC/TCAATCT,其中有一个碱基(C/T)可以变化,是真核生物基因常有的调节区,可能与转录因子CTF结合,具有促进转录的作用。
(3)GC框(GC box):位于CAAT框的两侧,其共有序列为GGCGGG,有两个拷贝,是一个转录调节区,与转录因子SP1结合,有激活转录的功能,能够促进转录的进程。
此外,负责转录tRNA的基因和5S rDNA,其启动子位于转录的DNA序列中,称为下游启动子。
2. 增强子(enhancer)位于启动子上游或下游的一段DNA序列,能够起增强转录的作用。它不能启动一个基因的转录,但能明显地提高基因转录的效率。增强子有时也会出现在基因内部(内含子中),在距启动子几至几十kb处也可发挥作用。
此外,增强子序列可与特异性细胞因子结合从而表现出组织特异性,对基因表达有组织、器官、时间等不同方面特异性的调节作用。
(一)人类的基因或人类基因组中的功能序列
人类的基因或人类基因组中的功能序列可分为四大类,即单一基因、基因家族、假基因和串联重复基因。
1. 单一基因 人类基因组中,25%~50%的蛋白质基因在单倍体基因组中只有一份或少数几份,故又称之为单一基因(solitary gene),也称为不重复序列。在单倍体基因组中,这些序列包括编码蛋白质和酶的结构基因以及基因的间隔序列。
2. 基因家族 有许多基因不完全是单拷贝,而是重复的多拷贝,但不同拷贝之间还略有差异,这一部分基因属于两个或更多个相似基因的家族。在脊椎动物中,这类成倍基因约占编码蛋白质基因的一半。它们编码的蛋白质相似,但其氨基酸顺序不完全相同,称之为基因家族(gene family)。
3. 假基因 在各基因家族中,某些与正常功能基因在核苷酸序列上相似,但不能转录或转录后生成无功能基因产物的DNA序列,被称为假基因(pseudogene)。假基因常用符号Ψ来表示。如人β珠蛋白基因家族中的Ψβ 1 和Ψβ 2 与有功能的β珠蛋白基因相似,但是没有相应的蛋白质产生,所以叫作假基因。
4. 串联重复基因45S rRNA、5S rRNA、各种tRNA基因以及蛋白质家族中的组蛋白基因是呈串联重复排列的,这类基因叫作串联重复基因(tandemly repeated genes)。它们不同于成倍基因,编码了同一种或近乎同一种的RNA或蛋白质,rRNA基因的每个拷贝完全或几乎完全相同,但是在基因间的间隔DNA(linker DNA)序列上相差很大,组蛋白基因家族较复杂,但每种组蛋白基因的拷贝也完全相同。
(二)人类基因组DNA的单拷贝序列和多拷贝序列
1. 单拷贝序列 在基因组中仅有单个或少数几个拷贝,其序列的长度在800~1000bp之间,大多数单拷贝序列是编码细胞中各种蛋白质和酶的结构基因。单拷贝序列可占到人类基因组的60%~70%。
2. 重复多拷贝序列 在一个基因组中有多个拷贝的DNA序列。根据拷贝数可分为高度重复序列和中度重复序列。
(1)高度重复序列(highly repetitive sequence):其长度为2~200bp,重复次数一般为106~108,占整个基因组的10%~15%。存在于染色体着丝粒、端粒等部位,可能与染色体结构的维持及同源染色体配对有关。
(2)中度重复序列(moderately repetitive sequence):中度重复序列是以不同的量分散地分布于整个基因组的不同部位,占整个基因组的25%~40%。重复次数10 5 以上,长度为300~500bp的称为短散在重复序列(short interspersed repeated sequences),如Alu家族,是人类基因组中含量最丰富的中度重复序列,在DNA复制、基因转录的调节及hnRNA的加工中起重要作用;重复次数为10 2 ~104,长度5000~6000bp的称为长散在重复序列(long interspersed repeated sequences),如KpnI家族。