购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

一、基因组学概述

1990 年,人类基因组计划(Human Genome Project,HGP)启动,经过 13 年的探索完成了人类基因组的30亿个碱基对(base pair,bp)的测序,绘制了人类基因组图谱。这一系列成果在人类科学史上留下了浓墨重彩的一笔,它与曼哈顿原子弹计划、阿波罗计划并称为三大科学计划。美国国家人类基因组研究所(the National Human Genome Research Institute,NHGRI)所长科林斯(Francis Collins)指出,人类基因组是一本历史书,叙述了人类历久弥新的旅程;它是一本“商品目录”,详细构建了每个人体细胞的蓝图;它还是一本具有变革意义的医学教科书,将用深刻的见解为医疗卫生人员提供强大的诊疗、预防和治愈疾病的新能力。那么,人的基因组到底是什么,又蕴含了哪些信息?基因组学如何推动精准医学的进步?在本节中,我们将介绍基因组和表观基因组的相关信息。

1.1 细胞中的遗传物质——DNA

细胞(cell)是构成生物体(除病毒以外)结构和功能的基本单位,主要由细胞核和细胞质构成,细胞质中还有细胞器(如线粒体、高尔基体、核糖体等)。细胞的分类方式有很多,根据有无核膜可分为原核细胞和真核细胞两类,两者遗传物质的表现形式也略有不同。人体细胞属于真核细胞,大部分遗传物质被核膜包裹在细胞核内,这些遗传物质有一个更耳熟能详的名字——脱氧核糖核酸(DNA)。

DNA是具有双螺旋结构的生物大分子,它的基本单位是脱氧核苷酸。脱氧核苷酸由三部分构成:碱基、脱氧核糖和磷酸。脱氧核糖与磷酸之间形成化学键,构成了DNA双螺旋分子的两条骨架;朝向内部的碱基,两个一组在两条链之间形成氢键,稳定双螺旋分子的结构。在复制的过程中,DNA采取的方式是半保留复制,每条旧链既是新链的模板,也是新链不可或缺的一部分,因此保证了它稳定地传递。

DNA是基因的载体,储存着重要的遗传信息。这些信息具体表现为碱基的排列顺序。参与组成DNA的碱基一共有 4 种,组合千变万化,碱基所排列出的顺序后来被验证包含着信息,蕴含了遗传密码,这些序列信息可以分为基因序列和间隔序列。得益于DNA半保留复制的特性,这些遗传信息可以被精准地保留下来。

根据中心法则(genetic central dogma),这种信息沿着DNA—RNA—蛋白质的方向流通,继而影响细胞、器官、个体、群体。遗传信息影响着高矮胖瘦、肤色深浅、头发卷直等表型,甚至影响着疾病的发生、进展等各个方面。

在真核生物中,DNA分子通常缠绕在组蛋白上构成核小体,形成染色质。据估算,人体细胞中的46条DNA分子若首尾相接,总长度可以达到2米 [1] 。在细胞分裂过程中,染色质高度固化形成染色体。染色体结构有助于DNA分子的有序排列,保持细胞分离中DNA的正确分配,同时实现DNA的高度压缩,从而防止DNA分子相互纠缠。

1.2 基因组

基因组(genome)是指包含在DNA中的所有遗传信息,包括基因信息和间隔序列。“基因组”一词,最早是由温克勒(Hans Winkler)教授在1920年提出:“我用‘基因组’来表示一组单倍染色体组,基因组和细胞质组成了物种的物质基础。”但事实上,没有任何一组单倍体可以定义一个物种的DNA,因为每个群体携带的等位基因种类繁多,每个人的基因不完全相同,因此单倍染色体组展示的应该是物种遗传的多样性。

现在我们所说的基因组是一个比温克勒教授所定义的更宽泛的概念,它既可以专门用来表示细胞核内的核基因组DNA,也可以用来表示包含细胞器DNA(如线粒体DNA或叶绿体DNA)在内的基因组。

人类的基因组被储存在细胞核中的23对染色体和线粒体中的DNA上,随着对DNA了解的不断加深,DNA的实际作用也渐渐为人所知。人类基因组计划完成后,我们获得了在世界范围内可以使用的基因参考序列。人们发现,人的基因组 30亿个碱基对中,只有 1.5%的蛋白质编码序列,约编码 2万个基因,这些“编码基因”比例远远低于预期。然而单个基因可以通过可变剪接产生多种mRNA,编码不同长度或组成的蛋白质,因此人体中包含的蛋白质数量远远高于编码基因的数量。具体来看,人体中 2万个基因可以编码出超过百万种蛋白质。更加值得注意的是,虽然大多数基因不编码蛋白质,但并不代表这些就是“垃圾序列”。目前,有部分区段被发现可以转录为起到调控功能的非编码RNA(non coding RNA),这些非编码基因被称为基因组的“暗物质”,能调控编码基因的表达,从而影响人类健康和疾病进程。当然,基因组中还有许多序列具体功能尚不完全明确 [2]

1.3 基因组的研究对象

基因组的研究对象主要涉及DNA序列的变异,包括位点变异和染色体异常。

单核苷酸变异(single-nucleotide variant,SNV)可能源于DNA复制过程中发生的自发突变。某些诱变因素可增加突变率,这些因素可能是物理因素,例如紫外线、X射线或极热的辐射,也可能是化学因素,例如破坏DNA螺旋形状的化学分子。如果某种变异在群体中足够常见(超过1%),那么称这个位置具有单核苷酸多态性(single nucleotide polymorphism,SNP),该位置的不同碱基被称为特定位置的等位基因(allele)。研究表明,许多SNP可以作为人类对疾病易感性预测的生物标志物,也与一些药物治疗效果、不良反应发生相关。

染色体异常包括染色体数目异常和结构异常,如整个染色体组或单条染色体的数目增减,或染色体片段的插入、缺失、易位、倒位等,通常涉及的区域大、包含的基因多。精准医学中常提到的拷贝数变异(copy number variation,CNV)通常就是指代长度在 4 Mb(1 Mb为 1 000 000 bp,即一百万碱基对)以下的DNA片段的插入或缺失。整个人类基因组中大约2/3可能由重复序列组成 [3] ,人类基因组的4.8%~9.5%的区域可能存在拷贝数变异。

整体来看,多数的DNA变异是无害的。在哺乳动物中,SNP和CNV导致群体表型的多样化。另外,疾病表型的发生、不同个体的易感性也与一些DNA突变有关 [4] 。例如,一些有害突变在生殖细胞中的积累导致人类遗传病的发生,如血友病、地中海贫血等。此外,一些体细胞中发生的突变不断积累,也可能导致正常细胞向癌细胞发生恶性转化。

1.4 表观基因组

表观基因组(epigenome)指不涉及DNA序列改变的一系列可遗传的基因修饰。表观基因组通常研究和记录的是DNA和组蛋白的一系列化学变化,包括DNA甲基化、组蛋白乙酰化等。这些变化可能是由外部或环境因素引起的,也可能是正常发育的一部分 [5] 。与基因组不同,表观基因组可以反映不同环境条件下的动态变化,具有时空特异性,且生殖细胞中的表观修饰水平及基因组中调控表观修饰基因模式具有遗传性,因此我们将表观基因组称为可遗传的基因标记。基因表观调控参与基因表达、组织分化、个体发展等多种生物过程,对人类生命活动起到重要调节作用。

国际上众多组织和机构开展了人类表观基因组的图谱绘制,包括由人类表观基因组协会(the Human Epigenome Consortium)实施的人类表观基因组计划(Human Epigenome Pilot Project),国际化人类表观遗传学联盟(International Human Epigenome Consortium)发起的绘制1000个表观参考基因组等。这些计划都是基于健康个体多器官来源的细胞和组织,绘制了人类的参考表观基因组图谱,目前图谱也得到了广泛的应用。

1.5 表观基因组的研究对象

人类表观学图谱中表观基因组的状态分为5种:

组蛋白修饰( histone modifications) 组蛋白经历翻译后修饰可以影响其与DNA的相互作用,在转录调控中发挥功能。组蛋白修饰通常包括甲基化、乙酰化、磷酸化、泛素化等。

DNA 甲基化( DNA methylation) DNA甲基化通常发生在CpG位点,指胞嘧啶(C)向5-甲基胞嘧啶(5-methylcytosine,5-mC)转化。DNA甲基化通常可以影响转录活性,例如,基因启动子中的DNA高甲基化通常起到抑制基因转录的作用。

染色质可及性( chromatin accessibility) 这取决于染色体的结构,染色质结合不紧密的地方更利于DNA聚合酶和RNA聚合酶的结合,从而发生DNA的复制和基因的表达,而染色质致密的地方基因往往是不表达的。

基因表达( gene expression) 指将基因信息转化成功能基因产物的过程。包括mRNA的转录、RNA剪接、翻译和翻译后修饰等。基因表达的调节可控制细胞中蛋白质或非编码RNA的表达时间、位置和数量,并可对细胞结构和功能产生深远影响。

小分子 RNA small RNA) 指一类长度为 20~30 nt的RNA分子,包括microRNA、非编码RNA、siRNA、piRNA、核仁小分子RNA(snoRNA)等,它们在RNA沉默和转录后基因表达的调节上发挥重要作用。

表观基因组在疾病研究中将环境因素纳入考虑,如研究癌症发生发展过程中的环境-基因交互作用,是当前热门的话题。在人类肿瘤中,DNA甲基化和组蛋白修饰模式与正常细胞相比都发生了明显的改变。癌细胞的表观遗传学异常表现在整体基因组低甲基化,肿瘤抑制基因的CpG岛启动子超甲基化,关键基因组蛋白编码改变,以及组蛋白H4单乙酰化和三甲基化的总体丧失。 hnf4S3doPGE+0/9TJ+Cmk9U3ak5eqiwPbpYN/meTrwAwHW/AzQ0D77HM0JrUzrVx

点击中间区域
呼出菜单
上一章
目录
下一章
×