分子生物学最新章节_王继峰著

第四节
基因组

每一种生物都有自己的基因组。不同生物的基因组从结构、大小到所携带的遗传信息量都不相同。基因组决定着一种生物个体的全部遗传性状。一个物种基因组的DNA含量和基因数目是恒定的，该恒定值分别称为 C值（C-value）和 G值（G-value）。物种的C值和G值与其遗传和形态复杂程度之间并无严格的对应关系，这种现象称为 C值矛盾 （C-value paradox）、 G值矛盾 （G-value paradox）。

一、病毒基因组

病毒（virus）是一类以感染细胞为最重要特征的微生物。完整的病毒粒子由核酸和蛋白质构成。核酸包裹于内部，蛋白质则形成病毒衣壳和包膜，作用是保护核酸并协助其感染细胞。 噬菌体 （phage）也是病毒，是以细菌为宿主的病毒。

病毒没有独立的代谢系统，其唯一的生命活动是在感染细胞后可利用细胞代谢系统进行复制，形成新的病毒粒子。与其他生物相比，病毒基因组最小，并有以下基本特征。

1.所含核酸的种类、结构、数目不同 可能是DNA（如痘病毒）或RNA（如逆转录病毒），单链分子（如冠状病毒）或双链分子（如腺病毒），共价闭合环状结构（如T4噬菌体）或线性结构（如疱疹病毒）。DNA病毒基因组均为单一DNA分子。RNA病毒基因组多数为单一RNA分子，部分有多个不同的RNA分子，例如流感病毒有8个单链RNA分子，呼肠孤病毒有10个双链RNA分子。逆转录病毒例外，有两个相同的单链RNA 分子。

2.基因组小 含3～250个单拷贝基因（逆转录病毒例外）。RNA病毒的基因组都特别小，而DNA病毒的基因组大小差异较大。例如，乙型肝炎病毒基因组DNA长3182～3248bp，含4个基因（ C 、 X 、 P 、 S ）；痘病毒基因组DNA长130～230kb，约含250个基因。病毒基因数目比宿主少得多，几乎没有任何独立的生命活动，甚至依靠宿主细胞的代谢系统才能完成复制。

3.基因组基本上都是编码序列 编码序列长度占病毒基因组的95%，且编码产物均为蛋白质。

4.基因连续性不同 病毒基因的连续性与其宿主基因一致，即原核病毒（噬菌体）基因与原核基因一致，是连续的；真核病毒基因与真核基因一致，有些基因是断裂基因。

5.相关基因串联成一个转录单位 ①ΦX174噬菌体的11个基因只有3个启动子（ P _A 、 P _B 、 P _D ）和4个终止子（ T _J 、 T _F 、 T _G 、 T _H ）（图1-13）。②腺病毒的5个晚期基因（late gene， L1 ～ L5 ）由同一个启动子启动转录，指导合成1种mRNA前体，再通过选择性剪接（第二章，87页）加工成5种成熟mRNA，指导合成5种蛋白质（图3-1，74页）。

二、原核生物基因组

原核生物（细菌、支原体、衣原体、立克次体、螺旋体、放线菌）有完整的代谢系统，并且可调节代谢以适应营养状况和环境因素的变化，因此其基因组所含基因数目多于病毒，但少于真核生物，并有以下基本特征。

1.单一共价闭合环状双链DNA 原核生物的DNA虽然结合有少量蛋白质，但并未形成典型的染色体结构，只是习惯上称为染色体。原核生物染色体在细胞内形成一个致密区域，称为原核或类核。原核无核膜，其核心部分（20%）由RNA和支架蛋白构成，外周（80%）是基因组DNA。耐辐射球菌例外，有4～10个DNA拷贝。

2.只有一个复制起点 相比之下，真核生物基因组DNA有多个复制起点。

3.基因组序列以编码序列为主 占85%～90%，非编码序列几乎都是调控序列，几乎不含重复序列。

4.几乎所有基因都是单拷贝 个别例外，如大肠杆菌rRNA基因有7个拷贝。

5.基因组所含基因数比病毒多 细菌有1700～7500个，较小的支原体也有近500个基因。

三、真核生物基因组

真核生物基因组最大，结构最复杂（表1-5），并有以下基本特征。

表1-5　原核生物基因组和真核生物基因组对比

1.染色体DNA是线性分子 含三种特殊序列。

（1） 复制起点 ：功能是启动DNA复制。每个染色体DNA分子都有多个复制起点，例如酵母每个染色体DNA分子平均有25个复制起点。

（2） 着丝粒DNA ：为真核生物所特有，是动粒结合位点，几乎不含蛋白基因，功能是参与染色体分配，即将姐妹染色单体均分给子细胞。酿酒酵母着丝粒DNA是约125bp的单一序列，而大多数真核生物着丝粒DNA是＞40kb的高度重复序列（含一种或几种5～10bp重复单位）。人着丝粒DNA又称α卫星DNA。

（3）端粒：为真核生物所特有，是染色体DNA的末端序列，功能是维持染色体DNA结构的独立性和稳定性，参与DNA复制完成。端粒位于染色体DNA两端，是一种富含T/G的 短串联重复序列 ，不含蛋白基因。不同真核细胞端粒长短差异悬殊，某些纤毛原生动物端粒只有几十个碱基对，哺乳动物端粒则长达数万碱基对。例如，哺乳动物和其他脊椎动物端粒以TTAGGG为重复单位，串联重复500～5000次（人800～2400次），长度为3～30kb（人3～20kb），末端有几百个核苷酸的黏性末端，形成5～10kb的t环（第二章，48页）。

2.染色体DNA形成染色体结构 染色体数目一定，除了配子是单倍体外，体细胞绝大多数是二倍体。

3.基因组序列中仅有不到10%是蛋白质编码序列 人类基因组蛋白质编码序列甚至不到2%（图1-15）。编码序列在基因组序列中的比例是真核生物、原核生物和病毒基因组的重要区别，并且在一定程度上是衡量生物进化程度的标尺。

图1-15　人类基因组序列分析

4.基因在基因组中散在分布 相邻基因被称为 基因间区 （intergenic region，基因间序列，intergenic sequence）的非编码序列隔开。曾认为基因间区占人类基因组的2/3，现在发现这部分可能不到10%。许多基因间区的功能已经或正在阐明。

5.基因组序列中包含大量重复序列 每一种 重复序列 （repetitive sequence，重复DNA，repetitive DNA）都是一定拷贝数的某种核苷酸序列（称为 重复单位 ）的集合。重复序列可根据重复单位的连续性分为 串联重复序列 （tandem repeat）和 散在重复序列 （interspersed repeat sequence），也可根据重复程度分为高度重复序列、中度重复序列和单一序列。

●拷贝数（copy number） 一个细胞内所含某种基因或DNA 分子、序列的数目，范围2～10 ⁷ 。

（1） 高度重复序列 ：又称高等重复DNA，重复单位长度不到100bp（多数不到10bp），拷贝数可达10 ⁷ 个，在哺乳动物基因组序列中占比不到10%（人类3%），在基因组中呈串联重复或反向重复排列，且大部分位于异染色质区，特别是端粒和着丝粒区（酵母例外）。高度重复序列不编码蛋白质或RNA，其功能是参与DNA复制、DNA转座、基因表达调控和细胞分裂时的染色体配对，例如着丝粒DNA是富含A-T的高度重复序列。

（2） 中度重复序列 ：又称中等重复DNA，重复单位长度可达10 ² ～10 ³ bp，拷贝数可达10 ³ 个，占哺乳动物基因组序列的25%～50%（人类约50%），多数散在分布于基因组中，包括转座子、基因间区、串联重复序列、蛋白基因内含子，也包括rRNA基因（100～5000个拷贝，例如人类基因组约有200个，分布在5条染色体上；爪蟾基因组约有600个，集中在1条染色体上）、tRNA基因（如人类基因组有497个）、5S rRNA基因（如人类基因组约有2000个）和个别蛋白基因（如组蛋白、肌动蛋白、角蛋白等）。

（3） 单一序列 ：又称单拷贝序列、单一DNA，在整个基因组中只有一个或几个拷贝，占哺乳动物基因组序列的50%～60%。蛋白基因大部分属于单一序列，但只占其一小部分。

不同真核生物基因组中重复序列占比差异极大。大多数单细胞真核生物基因组中重复序列占比不到20%，动物基因组中重复序列占比可达50%，植物和两栖动物基因组中重复序列占比可达80%。

6.基因组中存在各种基因家族 基因家族成员有的形成基因簇，有的散在分布。

●基因簇（gene cluster） 又称基因复合物（gene complex），是指基因组中高度丛集甚至串联的两个或多个基因的总称，所含基因多为结构基因，编码产物的功能相互联系，例如可能是催化同一代谢途径不同反应步骤的酶。

7.基因组中含大量转座子 人类基因组序列中45%为转座子序列，不过其中绝大多数已因突变而失活，丧失转座能力。

第五节
DNA多态性和遗传标记

同一物种不同个体的基因产物虽然绝大多数一致，但还是存在遗传差异。这种遗传差异的物质基础是DNA多态性。 DNA多态性 （DNA polymorphism，遗传多态性，genetic polymorphism）是DNA分子的一种序列特征，是指染色体DNA的某个基因座（称为 多态性位点 ）存在两个或多个等位基因（源于插入缺失、重排、置换），且其中至少有两个等位基因在种群内的存在频率＞1%（＜1%称为罕见突变），造成同种DNA分子在同一群体（或家族）的个体间或同一物种（或种族）的群体间的多样性。DNA多态性表现为核苷酸序列差异或重复单位 拷贝数变异 （copy number variation，CNV），这些差异在种群中稳定存在，遗传方式符合孟德尔遗传规律。

遗传标记 （genetic marker，遗传标志）是染色体上的一个位点，有可鉴定的表型，可作为同一染色体上其他位点、连锁群或重组事件的鉴定标记。随着分子生物学技术的发展，以DNA多态性为基础的遗传标记已广泛应用于遗传分析，如基因诊断。

一、DNA多态性种类

DNA多态性包括反映限制性酶切位点变化的限制性片段长度多态性、反映重复单位拷贝数差异的串联重复序列多态性、反映点突变的单核苷酸多态性。此外还有一些衍生的多态性和多态性分析，例如单链构象多态性（SSCP）、扩增片段长度多态性（AFLP）、随机扩增多态性DNA（RAPD）等。

（一）限制性片段长度多态性

1970年，H. Smith、K. Wilcox和T. Kelley从流感嗜血杆菌中分离到一种核酸内切酶（内切核酸酶） Hin dⅡ，它识别并切割GTY-RAC序列（Y表示嘧啶，R表示嘌呤，连字符表示水解的磷酸酯键）。这类能通过识别特定DNA序列切割DNA的酶统称 限制性内切酶 ，限制性内切酶识别的DNA序列称为 限制性酶切位点 （第十五章，329页）。

DNA序列中存在着各种限制性酶切位点，用识别这些位点的限制性内切酶消化DNA可以得到一组DNA片段，称为 限制性片段 （restriction fragment）。对于一个个体而言，其DNA序列中限制性酶切位点的数目和分布是确定的，因而其限制性片段的种类和长度也是确定的。限制性片段可以反映该个体DNA分子的某些序列特征。另一方面，同一物种不同个体基因组存在DNA多态性，且约10%多态性位点导致限制性酶切位点的形成或消失，因而所含限制性酶切位点的数目和分布不同（限制性酶切位点多态性），其限制性片段的种类和长度也就不同。因此，限制性片段具有多态性，这种多态性称为 限制性片段长度多态性 （restriction fragment length polymorphism，RFLP）。RFLP存在广泛，是人类基因组计划用于绘制基因图谱的第一代遗传标记。

（二）串联重复序列多态性

串联重复序列多态性 （tandem repeat polymorphism）是指不同个体同一多态性位点所含某种重复单位的拷贝数具有多态性。

1.串联重复序列与卫星DNA 人类基因组序列中有10%～15%是串联重复序列，重复单位长2～171bp。这些串联重复序列可根据密度梯度离心特点分为两类。

（1） 卫星DNA ：G-C碱基对占比不同于主体DNA，因而浮力密度也不同于主体DNA，进行密度梯度离心分析时会形成与主体DNA（主带，main band）分离的“卫星”带（图1-16）。

图1-16　DNA浮力密度曲线

（2）隐蔽卫星DNA：G-C碱基对占比及浮力密度与主体DNA没有明显差别，进行密度梯度离心分析时不会形成“卫星”带。

广义卫星DNA（satellite DNA）包括隐蔽卫星DNA，因而串联重复序列即指卫星DNA。

2.可变数目串联重复序列与小卫星DNA、微卫星DNA 可变数目串联重复序列 （variable number of tandem repeat，VNTR）是指同一重复单位在不同个体基因组中形成的重复次数不同，因而长度不同的串联重复序列，包括小卫星DNA和微卫星DNA，属于卫星DNA。

（1）小卫星DNA：重复单位长10～100bp，串联重复20～50次，是一种信息量很大的遗传标记，可用印迹杂交（第十二章，300页）或聚合酶链反应（PCR，第十三章，318页）检测。目前在人类基因组中已经鉴定到1000多种 小卫星DNA （minisatellite DNA）。

（2）微卫星DNA：又称短串联重复序列（STR）、简单重复序列（SSR），重复单位长度2～7bp（多数4bp），串联重复4～50次。 微卫星DNA （microsatellite DNA）在染色体DNA中分布广（一般位于结构基因侧翼序列或非编码序列中），密度高，但功能未知，是人类基因组计划的第二代遗传标记，可用PCR检测。目前在人类基因组中已经鉴定到10 ⁶ 种微卫星DNA（约占人类基因组序列的3%），其中4bp STR就有20000多种。

法医学用于基因型分析的STR较短，重复4～50次（对应4bp重复单位重复长度16～ 200bp）。

源于微卫星DNA的多态性称为 微卫星多态性 （短串联重复序列多态性、简单序列长度多态性、简单重复序列多态性）。

VNTR的重复单位种类繁多，在基因组中分布广泛，大多数位于非编码序列中，其多态性信息量也极为理想，并且可用PCR进行检测。VNTR的主要缺点是需利用凝胶电泳对多态性位点进行分型，不利于开展高通量、自动化分析。

（三）单核苷酸多态性

单核苷酸多态性 （single-nucleotide polymorphism，SNP）是指在基因组水平上由单核苷酸置换或插入缺失产生的DNA多态性，因有以下特点而成为人类基因组计划的第三代遗传标记，成为研究复杂疾病、药物敏感性及人类进化、人类家系、动植物品系遗传变异的重要标记。

1. SNP数目巨大 是人类基因组中最基本、最常见、最广泛的多态性，已经鉴定的有1.5×10 ⁷ 个，平均每200bp就有一个，占全部DNA多态性的90%以上。

2. SNP具有二等位基因性 因而可以分析其等位基因频率。

3.大多数SNP未引起蛋白质改变 仅有5000～10000个引起错义突变（第二章，53页）。这部分虽然较少，但却是疾病发生发展的根本内因，因而更受关注。

4.部分SNP可指导靶点确证 位于基因序列内的SNP直接影响产物结构或水平，因而可指导靶点确证。

●靶点确证 又称靶标确证，是指确定某种生命物质（核酸序列、蛋白质、代谢物等）是某种疾病发生的关键点，进而可以开发能特异性作用于该物质（靶点）并影响其活性的药物来治疗该疾病。

5.检测方便 二等位基因性使SNP分析易于自动化、规模化。用基因芯片直接分析序列变异，可同时对上千个SNP位点进行分型。

（四）单倍型

单倍型 （ 单体型 ，haplotype）是指同一染色体上一组特定的SNP、等位基因、限制位点等遗传标记的组合，它们紧密连锁（相邻标记间隔10 ¹ ～10 ³ bp），极少因发生重组而分离，因而多整体遗传给子代。每个个体通常拥有两套单倍型，分别来自父系和母系。

例如4个人类个体同一染色体的一段6kb DNA中的一种单倍型（图1-17）：①示意3个SNP位点。②示意这段DNA中由20个SNP位点组成的一种单倍型，包括①示意的3个SNP位点（折线箭头所指）。③示意该单倍型的3个 标签SNP （tag SNP，可以作为单倍型标记的一组SNP，人类基因组有20万～100万个），只要鉴定这3个标签SNP，就可以确定该单倍型。例如，如果鉴定某个个体的3个标签SNP是A…T…C，就可以确定其该单倍型与个体1相同。

图1-17　单倍型示意图

单倍型可作为人类族群或族群内某个个体的遗传标记、致病基因的定位标记。对于某种单倍型而言，只需几个位点作为其标签，便可鉴定该单倍型。因此，人类基因组单体型图的绘制可以有效地简化多态性研究（第十六章，378页）。

二、DNA多态性意义

通过DNA多态性分析可以揭示人类个体的表型差异，例如环境反应性、疾病易感性和药物耐受性的差异，进而从根本上推动疾病预防、诊断、治疗的发展：①研究物种进化。②用作基因图谱的位标（第十六章，375页）。③用于家系分析、亲权鉴定、间接诊断、刑事鉴定等。④揭示常见多基因遗传病（如糖尿病、心脏病）的病因。⑤疾病的连锁分析及关联分析，用于疾病相关基因定位。⑥通过SNP检测揭示产生药物敏感性个体差异的根本原因，指导药物设计及个体化治疗（药物基因组学，第十六章，381页）。⑦指导和评价器官移植。

三、DNA多态性分析

限制性片段长度多态性和串联重复序列多态性常用DNA印迹分析，单核苷酸多态性常用PCR-RFLP、PCR-SSCP、毛细管电泳、DNA测序、基因芯片、Taqman技术分析。

1.限制性片段长度多态性分析 1980年，D. Bostein建立了RFLP分析技术，即通过限制性内切酶消化联合DNA印迹法（第十二章，308页）进行分析。该技术操作简单、成本低廉，从而使RFLP被选为人类基因组计划的第一代遗传标记，用于基因图谱绘制、DNA指纹分析、疾病易感性分析、基因诊断、亲权鉴定等。

2.串联重复序列多态性分析 串联重复序列两翼的序列高度保守，因而就同一物种不同个体而言，同一串联重复序列多态性位点两翼的序列相同且为单一序列，据此可以设计相应的引物，通过PCR扩增，然后通过平板电泳、毛细管电泳（第十一章，290页）或基质辅助激光解吸飞行时间质谱（第十六章，392页）分析扩增产物的长度，鉴定其多态性。

3.单核苷酸多态性分析 ①SNP的传统分析技术有RFLP（第十三章，326页）、毛细管电泳（第十一章，290页）、变性高效液相色谱（第十五章，360页）等，但这些技术只能判断是否存在SNP，不能鉴定SNP类型，且通量受限。②5'-核酸酶等位基因鉴别法、DNA测序（第十一章，291页）、等位基因特异性寡核苷酸杂交法（第十二章，310页）、基因芯片（第十三章，313页）可以鉴定SNP类型，其中基因芯片可以在基因组范围内高通量分析SNP。

四、DNA指纹

DNA多态性是具有高度个体特异性的遗传标记，应用限制性内切酶消化联合凝胶电泳分析DNA多态性，得到的电泳图谱也具有绝对的个体特异性，恰似人类指纹的个体特异性，因而称为 DNA指纹 （DNA fingerprint，DNA分型）。

DNA多态性是DNA指纹的内在基础，DNA指纹是DNA多态性的外在表现。地球上没有DNA序列完全相同的两个人，也就没有DNA指纹完全相同的两个人。因此，DNA指纹具有绝对的个体特异性，有着广泛的应用意义。

第四节 基因组