医学遗传学最新章节_吴勃岩著

第二节
人类基因组

广义的人类基因组（human genome），是指包含在人类细胞DNA中的全部遗传信息，它包括核基因组和线粒体基因组。其中，线粒体基因组（mitochondrial genome）是指线粒体内的环状双链DNA所包含的遗传信息，线粒体DNA长16.6kb，含有37个基因。

狭义的人类基因组，即通常所说的人类基因组，是指核基因组。核基因组（nuclear genome）是指细胞核中一套染色体，通常是指一套常染色体（22条）和两种性染色体（X染色体和Y染色体）共24条染色体所含的完整DNA序列。

一、基因的结构

大多数真核生物包括人类的基因，其编码序列在DAN分子上是不连续的，被非编码序列间隔开，称为断裂基因（split gene）（图2-1）；这是真核生物结构基因的组成特点。断裂基因主要由转录区和侧翼序列构成。

图2-1 断裂基因的结构

（一）转录区

转录起始点到转录终止点的区域。包括前导区、编码区和尾部区。

1. 前导区（leader region）真核基因的5′端转录起始点与翻译起始点之间的核苷酸序列是不编码蛋白质的，称为前导区或5′非翻译区（5′untranslated region，5′UTR），该区序列对起始AUG的选择有一定的影响，也对mRNA的翻译起着重要的调控作用。

2. 编码区（coding region）是自起始密码至终止密码的一段DNA序列。包括外显子与内含子。外显子（exon）是基因内的编码序列，两个外显子之间的无编码作用的间隔序列称为内含子（intron）。内含子只转录，在转录后的RNA加工过程中被剪切掉，成熟的mRNA中无内含子序列。每个外显子和内含子的接头区都有一段高度保守的序列，一般内含子的5′端起始处有GT序列，3′端尾部有AG序列，称为GT-AG法则，它是真核基因转录后RNA加工过程中内含子剪切与外显子拼接的识别信号。

3. 尾部区（tailer sequence）3′端翻译终止点到转录终止点之间的序列称为尾部区或3′非翻译区（3′untranslated region，3′UTR），3′UTR主要含有终止信号及加尾信号。

（二）侧翼序列

真核基因转录区的两侧5′端和3′端都有一段不被转录的序列，称为侧翼序列（fianking sequence），主要有启动子和增强子，对基因的转录起调控作用。

1. 启动子（promoter）一般位于基因转录起始点上游的100bp范围内，是RNA聚合酶结合的部位，能促进转录过程，它包括以下几种不同序列：

（1）TATA框（TATA box）：位于转录起始点上游20～30个bp处，其一致序列为TATAA/TAA/T，其中有两个碱基（A/T，T/A）可以变化，RNA聚合酶Ⅱ能准确识别此序列，并与之结合形成启动复合物，从而准确地识别转录的起始位点，启动基因转录。

（2）CAAT框（CAAT box）：位于转录起始点上游70～80个bp处，其一致序列为GGC/TCAATCT，其中有一个碱基（C/T）可以变化，是真核生物基因常有的调节区，可能与转录因子CTF结合，具有促进转录的作用。

（3）GC框（GC box）：位于CAAT框的两侧，其共有序列为GGCGGG，有两个拷贝，是一个转录调节区，与转录因子SP1结合，有激活转录的功能，能够促进转录的进程。

此外，负责转录tRNA的基因和5S rDNA，其启动子位于转录的DNA序列中，称为下游启动子。

2. 增强子（enhancer）位于启动子上游或下游的一段DNA序列，能够起增强转录的作用。它不能启动一个基因的转录，但能明显地提高基因转录的效率。增强子有时也会出现在基因内部（内含子中），在距启动子几至几十kb处也可发挥作用。

此外，增强子序列可与特异性细胞因子结合从而表现出组织特异性，对基因表达有组织、器官、时间等不同方面特异性的调节作用。

二、基因的分类

（一）人类的基因或人类基因组中的功能序列

人类的基因或人类基因组中的功能序列可分为四大类，即单一基因、基因家族、假基因和串联重复基因。

1. 单一基因人类基因组中，25％～50％的蛋白质基因在单倍体基因组中只有一份或少数几份，故又称之为单一基因（solitary gene），也称为不重复序列。在单倍体基因组中，这些序列包括编码蛋白质和酶的结构基因以及基因的间隔序列。

2. 基因家族有许多基因不完全是单拷贝，而是重复的多拷贝，但不同拷贝之间还略有差异，这一部分基因属于两个或更多个相似基因的家族。在脊椎动物中，这类成倍基因约占编码蛋白质基因的一半。它们编码的蛋白质相似，但其氨基酸顺序不完全相同，称之为基因家族（gene family）。

3. 假基因在各基因家族中，某些与正常功能基因在核苷酸序列上相似，但不能转录或转录后生成无功能基因产物的DNA序列，被称为假基因（pseudogene）。假基因常用符号Ψ来表示。如人β珠蛋白基因家族中的Ψβ ₁ 和Ψβ ₂ 与有功能的β珠蛋白基因相似，但是没有相应的蛋白质产生，所以叫作假基因。

4. 串联重复基因45S rRNA、5S rRNA、各种tRNA基因以及蛋白质家族中的组蛋白基因是呈串联重复排列的，这类基因叫作串联重复基因（tandemly repeated genes）。它们不同于成倍基因，编码了同一种或近乎同一种的RNA或蛋白质，rRNA基因的每个拷贝完全或几乎完全相同，但是在基因间的间隔DNA（linker DNA）序列上相差很大，组蛋白基因家族较复杂，但每种组蛋白基因的拷贝也完全相同。

（二）人类基因组DNA的单拷贝序列和多拷贝序列

1. 单拷贝序列在基因组中仅有单个或少数几个拷贝，其序列的长度在800～1000bp之间，大多数单拷贝序列是编码细胞中各种蛋白质和酶的结构基因。单拷贝序列可占到人类基因组的60%～70%。

2. 重复多拷贝序列在一个基因组中有多个拷贝的DNA序列。根据拷贝数可分为高度重复序列和中度重复序列。

（1）高度重复序列（highly repetitive sequence）：其长度为2～200bp，重复次数一般为106～108，占整个基因组的10％～15％。存在于染色体着丝粒、端粒等部位，可能与染色体结构的维持及同源染色体配对有关。

（2）中度重复序列（moderately repetitive sequence）：中度重复序列是以不同的量分散地分布于整个基因组的不同部位，占整个基因组的25％～40％。重复次数10 ⁵ 以上，长度为300～500bp的称为短散在重复序列（short interspersed repeated sequences），如Alu家族，是人类基因组中含量最丰富的中度重复序列，在DNA复制、基因转录的调节及hnRNA的加工中起重要作用；重复次数为10 ² ～104，长度5000～6000bp的称为长散在重复序列（long interspersed repeated sequences），如KpnI家族。

第二节 人类基因组

一、基因的结构

二、基因的分类

第二节
人类基因组