购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第一节
表观遗传学基础

在多细胞组织中,细胞类型取决于特定的基因表达模式。细胞类型必须通过表观遗传机制来记忆并传递到子代细胞,这种机制是不涉及DNA序列改变的可遗传变化。表观基因组(epigenome)是某一类型的细胞中包括DNA甲基化和组蛋白翻译后修饰在内的所有染色质修饰的集合。因此,复杂生物并没有单一的表观基因组,而是拥有取决于组织类型、发育阶段和疾病状态的多重表观基因组。

DNA和组蛋白的结合变得松弛,能够促进基因转录;而DNA与组蛋白结合更加紧密,会抑制基因转录。表观遗传调控通过改变染色质结构,影响基因转录活性,从而确保细胞内各种生物学过程的正确运行,是生命现象中普遍存在的基因表达调控方式。本节将综述DNA甲基化、组蛋白修饰、染色体重塑、ncRNA等表观遗传机制。

一、DNA甲基化

DNA甲基化是DNA序列的一种共价修饰,普遍存在于所有的脊椎动物中。DNA甲基转移酶(DNA methyltransferase,DNMT)催化甲基从SAM转移到胞嘧啶的第5位碳原子上,形成5mC。DNA甲基化通过召集参与基因表达的蛋白质或者通过阻止转录因子与DNA的结合,调控基因的表达。在发育过程中,基因组中DNA甲基化模式的改变是一个动态过程的结果,这个过程包括甲基化和去甲基化。因此,不同的细胞具有不同的稳定且独特的DNA甲基化模式,用以调控组织特异的基因转录。

在所有的核苷酸中,胞嘧啶易被甲基化,特别是被称为CpG岛(CpG island)的二聚核苷酸簇中的胞嘧啶更易被甲基化。在正常人类细胞的基因组中,只有3%~6%的胞嘧啶被甲基化,也就是说,CpG岛大多是未被甲基化的,其相关基因仍具有被转录因子激活的潜力。CpG岛是包含有高频CpG位点的基因组区域,即C和G被发现位于同一DNA链,并通过磷酸二酯键连接。在至少200bp的区域中具有55%以上CG比例的DNA即可被定义为CpG岛。但是人类基因组中,CpG岛长度一般为300~3 000bp。在人类细胞中,大约60%的核心启动子表现出高GC含量和CpG比例,即它们是CpG岛的一部分,或位于CpG岛附近。因此,相对于“低CpG含量的启动子”而言,它们被称为“高CpG含量的启动子”。

(一)DNA甲基转移酶

实现DNA甲基化的DNMT主要包括三种:DNMT1、DNMT3A和DNMT3B。DNMT3A和DNMT3B具有相似的结构,二者可以在未修饰的DNA上建立新的甲基化模式,所以被称作从头甲基转移酶。而DNMT1是第一个被发现的哺乳动物DNMT,在DNA复制时将DNA甲基化的模式从亲代DNA链中复制到新合成的子代DNA链中。DNMT1通过在细胞分裂过程中以含有半甲基化CpG位点的双链DNA为底物进行甲基化反应,从而在维持DNA甲基化过程中起主要作用。在DNA复制过程中,DNMT1处于复制叉的位置,新合成的半甲基化的DNA就在这里形成。DNMT1与新合成的半甲基化的DNA结合,使其精确地模拟DNA复制前的甲基化模式进行甲基化。此外,DNMT1还能修复DNA甲基化。因此,DNMT1被称作维持性甲基转移酶,因为它能够在一个细胞谱系中维持原本的甲基化模式。这三种DNMT都广泛地参与胚胎发育过程。当细胞到达终末分化期时,DNMT的表达大大减少。除去以上三种主要的DNMT外,DNMT3L作为DNMT3家族的另一个成员,刺激DNMT3A和DNMT3B的催化活性,参与维持DNMT3A的稳定性。最初命名为DNMT2的另一个蛋白质,包含DNMT的催化基序,但在从头DNA甲基化或维持DNA甲基化过程中都不发挥作用。

(二)DNA去甲基化

DNA甲基化通常在细胞中稳定存在,但是在发育、细胞分化、衰老和癌细胞中会发生DNA去甲基化。DNA去甲基化过程分为被动去甲基化(passive demethylation)和主动去甲基化(active demethylation)。被动DNA去甲基化在分裂的细胞中出现。因为DNMT1在细胞复制的时候主动保持DNA的甲基化状态,所以抑制或失活DNMT1使得新合成的胞嘧啶是未甲基化的,从而在每次细胞分裂时降低整体的甲基化水平。主动DNA去甲基化在分裂或者不分裂的细胞中都会出现,但是需要酶催化5mC变回未被甲基化的状态。

理论上来讲,DNA主动去甲基化存在多种发生机制,可通过间接和直接两种方式完成。间接的方式包括:①通过糖苷酶切除5mC,激活碱基切除修复(BER)途径,完成胞嘧啶对5mC的替换;②通过NER途径切除包含5mC的短的DNA片段,之后以互补链为模板进行修复;③5mC脱氨形成胸腺嘧啶,之后再通过BER途径修复G/T错配。直接移除甲基或甲基的修饰产物,是真正意义上的去甲基化,包括:①通过胞苷脱氨酶基因AID(activation-induced cytidine deaminase),直接打断第5位碳原子与甲基基团之间的C-C键;②甲基基团由α-酮戊二酸(α-ketoglutaric acid)和Fe 2+ 依赖的双加氧酶TET(ten-eleven translocation)催化发生氧化性修饰,自发从胞嘧啶环上脱离。

(三)读取DNA甲基化

DNA甲基化可以被三类蛋白质识别:甲基化CpG结合域(methyl-CpG-binding domain,MBD)蛋白、泛素样含植物同源域(plant homeodomain,PHD)和环指域蛋白(ubiquitin-like with PHD and ring finger domains,UHRF)和锌指蛋白(zinc finger protein)。MBD蛋白包含一个保守的甲基CpG结合域,保证了对单个甲基化CpG位点的高亲和性。此类蛋白家族包括第一个被发现的甲基结合蛋白——甲基化CpG结合蛋白2(methyl CpG binding protein 2,MeCP2),还包括MBD1、MBD2、MBD3和MBD4。MBD蛋白的表达在大脑中多于在其他组织中,许多MBD蛋白在正常的神经发育和功能中起重要作用。在MBD家族中,MBD3和MBD4与其他成员的DNA结合活性不同。例如,MBD3不能直接与DNA结合,因为它的MBD结构域有突变。虽然MBD4能够正常地与DNA相结合,但是它选择性地识别与胸腺嘧啶、尿嘧啶和5-氟尿嘧啶结合的鸟嘌呤,并且与参与DNA错配修复的蛋白质相结合。UHRF蛋白家族包括UHRF1和UHRF2,是一种多结构域的蛋白质。在DNA复制期间,UHRF蛋白家族首先结合DNMT1,然后使其靶定半甲基化的DNA来维持DNA的甲基化。锌指蛋白家族通过锌指结构域与甲基化的DNA结合,包括Kaiso、ZBTB4和ZBTB38蛋白。尽管有区别,含有锌指结构域的蛋白质也像MBD蛋白家族一样,通过一种DNA甲基化依赖的方式抑制基因的转录。

二、组蛋白修饰

核心组蛋白存在甲基化、乙酰化、磷酸化、泛素化等多种翻译后修饰的位点,组蛋白的翻译后修饰在很大程度上控制了DNA的可及性,影响核小体构象,参与基因转录;组蛋白的翻译后修饰产生新的蛋白质-蛋白质相互作用接口,调节蛋白质识别从而参与基因转录等过程;组蛋白修饰与DNA修饰之间也存在着密切的交叉对话,因此,组蛋白修饰在许多细胞事件中具有重要作用。丰富多样的组蛋白修饰被认为构成一类超越基因序列的“组蛋白密码”,调控着细胞内遗传信息的组织层次。这类“组蛋白密码”的产生、维持与识别在基因调控和细胞命运决定等生命过程中发挥着至关重要的作用。为了精确调控“组蛋白密码”,细胞采用了一系列酶或结合蛋白来产生、消除或识别这些翻译后修饰:负责产生各类组蛋白修饰的酶通常被称作“书写器(writer)”;负责消除各类组蛋白修饰的酶通常被称作“擦除器(eraser)”;而负责识别这些修饰并介导下游生物学事件的蛋白质或结构域被称作“阅读器(reader)”。这些组蛋白的“书写器”和“擦除器”往往具有修饰位点、修饰类型乃至修饰程度的特异性,而“阅读器”对于组蛋白修饰的识别也往往有着同样的精度和特异性。这些复杂且精确的酶促调控和修饰识别构成了组蛋白修饰介导的表观遗传调控的分子基础。

(一)组蛋白乙酰化

乙酰化是最常见的酰化修饰,组蛋白乙酰化修饰主要发生在赖氨酸残基上,由组蛋白乙酰转移酶(histone acetyltransferase,HAT)催化介导;同时组蛋白H2A和H4的N端也可以发生乙酰化修饰,组蛋白N端乙酰化修饰主要由N端乙酰转移酶(N-terminal acetyltransferase,NAT)家族成员NATD催化完成。下面将主要介绍组蛋白赖氨酸乙酰化。

组蛋白赖氨酸乙酰化中和组蛋白尾部赖氨酸上的正电荷,并降低它们对DNA的亲和力,使染色质结构松散,因此,组蛋白赖氨酸乙酰化改变了核小体构象,这可以增加转录调节蛋白与染色质的可及性,通常被认为是促进基因转录的标志。

组蛋白赖氨酸乙酰化是高度可逆的。三类蛋白质参与了组蛋白赖氨酸乙酰化修饰调节:HAT作为“书写器”负责将乙酰基团共价连接到赖氨酸残基上;组蛋白脱乙酰酶(histone deacetylase,HDAC)作为“擦除器”介导乙酰基团从赖氨酸残基上移除;识别赖氨酸乙酰化修饰并介导下游生物学事件的蛋白质作为“阅读器”发挥作用。过去认为HAT和HDAC只能在组蛋白上发挥作用,而现在研究表明它们也可以在非组蛋白上发挥调控乙酰化作用。

1.HAT

HAT家族主要有三类:p300/CREB结合蛋白(CREB-binding protein,CBP),成员均为转录辅助因子;MYST(Moz、Ybf2、Sas2和Tip60家族),该家族在结构上均包含一个MYST结构域;Gcn5相关N-乙酰转移酶(Gcn5-related N-acetyltransferase,GNAT)超家族,该家族拥有HAT结构域和溴结构域。

(1)p300/CBP:

p300由位于22q13染色体上的基因编码;CBP由位于16p13.3染色体上的基因编码;两者具有约75%的序列相似性和63%的同源性;由于二者的结构相似性和功能冗余,常统称为p300/CBP。大多数已知的p300/CBP功能域位于高度保守区,包括四个公认的反式激活结构域(transactivation domains):①转录接头锌指1(transcriptional adapter zinc finger 1,TAZ1)富含半胱氨酸-组氨酸域1(cysteinehistidine-rich domain 1,CH1);②KIX(kinase-inducible domain interacting)结构域,与转录因子cAMP反应元件结合蛋白(cAMP response element binding protein,CREB)结合,同时CREB又作为其他几种转录因子(TF)的锚定位点;③富含半胱氨酸-组氨酸域3(cysteine-histidine-rich domain 3,CH3),其中包含转录接头锌指2(transcriptional adapter zinc finger 2,TAZ2)域和ZZ型锌指结构域;④核受体辅激活蛋白结合结构域(nuclear receptor coactivator binding domain),也称为干扰素结合结构域(interferon-binding domain)。这些反式激活结构域介导蛋白质-蛋白质与DNA结合转录因子和其他辅激活因子的相互作用。p300/CBP在胚胎发生、造血和肌肉发生中起主要作用。p300/CBP的转录整合和调控是通过两种不同的细胞功能实现的:蛋白质和组蛋白赖氨酸乙酰转移酶活性和分子支架功能。

(2)MYST:

MYST家族包括MOF(males absent on the first)、TIP60(tat interacting protein 60kD)、结合ORC1的组蛋白乙酰转移酶(histone acetyltransferase binding to ORC1,HBO1)、单核细胞白血病锌指蛋白(monocytic leukemia zinc finger protein,MOZ)和MOZ相关蛋白(MOZ related factor,MORF)等,均具有典型的MYST结构域。MYST结构域一般包含一个HAT功能域、一个锌指结构和一个乙酰辅酶A结合位点。MYST家族在真核生物中高度保守,并负责大部分乙酰化。MYST家族催化的底物包括组蛋白和非组蛋白,目前研究最清楚的是组蛋白H3、H4、H2A和H2B变体。

(3)GNAT超家族:

GNAT超家族包括组蛋白乙酰转移酶Gcn5,还有与Gcn5序列接近的至少三个组蛋白乙酰转移酶Hat1、Hpa2和Elp3。该类家族也包含了各种能够乙酰化不同底物的其他真核和原核乙酰转移酶,表明这种类型乙酰转移酶的酰化机制在进化方面具有保守性。

2.HDAC

哺乳动物HDAC的18个成员被分为Ⅰ类、Ⅱa类、Ⅱb类、Ⅲ类和Ⅳ类,具有不同的结构、酶功能、亚细胞定位和表达模式以及生物学作用。根据催化机制不同又可以分为两类:Zn 2+ 依赖的HDAC家族,包括Ⅰ、Ⅱ和Ⅳ类HDAC,这三类之间呈现序列相似性;烟酰胺腺嘌呤二核苷酸(NAD + )依赖的沉默信息调节因子(sirtuin,SIRT)家族是Ⅲ类HDAC,与其他分类没有同源性,发挥去乙酰基作用,需要NAD +

Ⅰ类、Ⅱ类和Ⅳ类HDAC是根据其发现的时间顺序来进行编号的:Ⅰ类Rpd3类蛋白(HDAC1、HDAC2、HDAC3和HDAC8);Ⅱ类Hda1类蛋白(HDAC4、HDAC5、HDAC6、HDAC7、HDAC9和HDAC10);Ⅳ类蛋白(HDAC11)。其中Ⅰ类、Ⅱ类HDAC具有保守的去乙酰基酶结构域。

Ⅰ类HDAC位于细胞核中,并且在许多不同种类的细胞中表达。HDAC1、HDAC2和HDAC3均抑制转录,与转录因子结合并被转录因子招募。如HDAC2作为辅阻遏物被招募到DNA中发挥负调控转录作用。

Ⅱ类HDAC分为Ⅱa类和Ⅱb类。Ⅱa类占48%~57%,包括HDAC4、HDAC5、HDAC7和HDAC9。它们各自起源于不同的基因,并不是彼此的异构体。Ⅱa类HDAC N端可与DNA的转录调节因子结合发挥抑制作用,羧基端包含去乙酰化活性区域,可募集包括HDAC3在内的共阻遏复合物,发挥调节基因转录的作用。HDAC4和HDAC5可在细胞核与细胞质之间穿梭,影响组蛋白与染色质结合,调控基因表达。HDAC7与视黄酸(retinoic acid,RA)或甲状腺激素受体的沉默介质相互作用。HDAC9具有多个交替剪接的异构体。HDAC9截短变体HDRP或心肌细胞增强子MEF-2相互作用转录抑制蛋白(MEF-2 interacting transcription repressor,MITR)是这些异构体之一。

HDAC11是Ⅳ类HDAC的唯一成员。HDAC11参与调节DNA复制因子CDT1的蛋白质稳定性和白介素-10的表达。

Ⅲ类SIRT家族(SIRT1、SIRT2、SIRT3、SIRT4、SIRT5、SIRT6和SIRT7)NAD + 作为反应物去乙酰化底物蛋白质的乙酰赖氨酸残基,形成烟酰胺、去乙酰化产物和代谢物2’-O-乙酰基ADP核糖。在结构上SIRT家族与其他三类HDAC完全不同,包含一个大的由罗斯曼折叠(Rossman fold)构成的结构域和一个小的锌指结构域,NAD + 结合在两个结构域之间的口袋里。人体内的SIRT家族通过把乙酰基从赖氨酸转移到NAD + 的糖环上实现乙酰基的去除。SIRT家族对NAD + 的严格依赖性揭示了能量代谢和基因调控的密切联系。此外,大量研究提示SIRT家族成员在饮食热量限制和长寿的关联上扮演着重要角色。

(二)组蛋白甲基化

组蛋白甲基化发生在精氨酸、赖氨酸和组氨酸残基上。赖氨酸ε氨基可被单甲基化(me1)、二甲基化(me2)或三甲基化(me3),精氨酸可以被对称二甲基化或不对称二甲基化。研究最广泛的组蛋白甲基化位点包括组蛋白H3赖氨酸4(histone 3 lysine 4,H3K4)、H3K9、H3K27、H3K36、H3K79和H4K20。组蛋白甲基化位点和甲基化程度的不同增加了组蛋白修饰和调控基因表达的复杂性,可以产生促进或抑制效果。但是同组蛋白乙酰化一样的是,甲基化也是可逆的。组蛋白甲基转移酶和去甲基化酶,介导组蛋白上不同氨基酸上甲基的添加和去除,充当“书写器”和“擦除器”的作用。参与组蛋白甲基化修饰识别的蛋白则充当“阅读器”的角色。

1.组蛋白甲基转移酶

主要包括组蛋白赖氨酸甲基转移酶(histone lysine methyltransferase,HKMT)和蛋白质精氨酸甲基转移酶(protein arginine methyltransferase,PRMT)家族。

(1)组蛋白赖氨酸甲基转移酶:

一般都包含SET结构域来行使催化功能,例外的是H3K79的甲基化由非SET结构域的类端粒沉默干扰体1(disruptor of telomeric silencing 1-like,DOT1L)产生。SET结构域由最早发现表达这个结构域的三个基因来命名,分别为Su(var)3-9、zeste增强子(enhancer of zeste,Ez)和trithorax(Trx)。SET结构域高度保守,约含110个氨基酸。被催化位点的特异性往往是由催化位点周围氨基酸残基的共识别所决定的。例如,对于H3K4的甲基转移酶SET7/9来说,它可以和组蛋白H3的R2、T3和Q5形成氢键网络介导H3K4的特异性识别。HKMT可以将SAM的甲基转移至赖氨酸残基的ε-氨基上,产生赖氨酸残基的单甲基化、二甲基化或三甲基化修饰。HKMT主要包括6个家族,即KMT1~KMT6家族。其中,KMT1家族催化产生H3K9me3;KMT2家族催化产生H3K4me3;KMT3家族催化产生H3K36me3;KMT4家族催化产生H3K79me3;KMT5家族催化产生H4K20me3;KMT6家族催化产生H3K27me3。

(2)蛋白质精氨酸甲基转移酶:

催化组蛋白精氨酸残基的甲基化。PRMT蛋白分为两大类,其中Ⅰ型的PRMT催化精氨酸残基的单甲基化和非对称二甲基化修饰;Ⅱ型的PRMT则催化精氨酸残基的单甲基化和对称二甲基化修饰。PRMT往往包含两个结构域,一个为SAM结合结构域,另一个为羧基端的桶状结构域。其催化口袋位于两个结构域的中间,并且参与催化的关键残基在PRMT家族中高度保守。由于精氨酸甲基化是一种高丰度修饰方式,因此PRMT涉及很多细胞过程,包括信号转导、转录调控、RNA加工、DNA修复和细胞凋亡以及疾病相关的表观遗传学调控等。

2.组蛋白去甲基化酶

根据去甲基化酶的结构和不同的催化机制,可以将去甲基化酶分为两类:一类是黄素腺嘌呤二核苷酸(flavin adenine dinucleotide,FAD)依赖性去甲基化酶;另一类是依赖于Fe 2+ 和共同作用因子α-酮戊二酸,并含有Jumonji结构域的去甲基化酶。KDM1A/LSD1(lysine specific demethylase 1)是第一个被发现的去甲基化酶,属于FAD依赖性去甲基化酶。LSD1能够特异性脱去H3K4和H3K9位点上的单甲基和二甲基基团,调节基因的转录活性。

3.组蛋白甲基化识别结构域

甲基化组蛋白的识别是通过具有甲基结合域的蛋白来实现的。组蛋白甲基化修饰的“阅读器”主要包括“皇室家族”和PHD锌指等。其中,“皇室家族”主要包括chromo结构域、Tudor结构域、PWWP结构域、MBT结构域等。“皇室家族”拥有3或4个反平行β折叠片组成的β桶状核心,被认为从同一个祖先蛋白结构域进化而来。异染色质蛋白1(heterochromatin protein 1,HP1)的chromo结构域是最早被鉴定出来的组蛋白甲基化识别结构域,可特异性地识别H3K9me3修饰。三甲基化的赖氨酸残基与chromo结构域中三个芳香族残基之间的阳离子-π相互作用介导了识别过程。对于chromo结构域蛋白的系统研究表明,人体内大量的chromo结构域蛋白参与了对于H3K9me3和H3K27me3修饰的识别。因此,chromo结构域是体内一类数量很多的“阅读器”蛋白。Tudor结构域和类Tudor结构域是“皇室家族”中唯一对于甲基化赖氨酸残基和甲基化精氨酸残基都有识别的结构域。除此之外,Tudor结构域还对piRNA通路中一些调控蛋白的甲基化修饰有识别和调控作用。PWWP的特点在于除了可以识别组蛋白之外还具有识别DNA的能力。例如,PWWP结构域蛋白MSH6和BRPF对于DNA都有一定的识别能力。另外,PWWP结构域对于H3K36me3修饰有一定的偏好性。而MBT结构域识别PHD锌指结构域,是不同于“皇室家族”蛋白的一类全新的组蛋白甲基化“阅读器”,并且在人体内广泛存在,人类基因组中编码了200余个PHD锌指结构域,隶属于90多种蛋白,其中多数与基因转录及染色质状态的调控有关。作为对多种转录事件产生广泛影响的一大类“阅读器”,PHD锌指识别的组蛋白修饰类型也最为多样,包括非修饰的组蛋白、高甲基化状态修饰的赖氨酸残基和酰基化修饰的赖氨酸残基。对于不同的组蛋白肽段和修饰类型,其结合到PHD锌指的表面也不一样,如α表面、β1表面、β2表面和氨基端表面。PHD锌指蛋白识别甲基化修饰的分子机制是通过芳香笼产生阳离子-π相互作用。

(三)组蛋白磷酸化

组蛋白磷酸化修饰大部分发生在丝氨酸和苏氨酸残基上,也可发生在酪氨酸残基上。组蛋白磷酸化与组蛋白去磷酸化过程处于动态平衡,由蛋白激酶(protein kinase,PK)和蛋白磷酸酶(protein phosphatase,PP)共同调控。蛋白激酶催化组蛋白尾端的氨基酸残基与磷酸基团结合,与基因转录活化有关;而蛋白磷酸酶的作用则相反,脱去氨基酸残基上的磷酸基团,与基因转录抑制有关。

和其他表观遗传修饰一样,磷酸化修饰也可能是通过两种机制影响染色体的结构与功能:修饰改变了组蛋白的电荷,因而改变了组蛋白与DNA结合的特性,即磷酸基团携带的负电荷中和了组蛋白上的正电荷,造成组蛋白与DNA之间亲和力的下降;修饰能够产生蛋白识别模块(protein recognition modules)的结合表面,与特异的蛋白复合物相互作用。另外,组蛋白H3第10位丝氨酸(H3S10)的磷酸化增强了几种乙酰转移酶的催化活性,通过增强乙酰化活性提高基因的转录活性,在H3S10缺失的突变体中,基因的转录活性大大下降。

(四)组蛋白泛素化

泛素(ubiquitin)是一个由76个氨基酸残基组成的小肽,因其广泛存在于真核细胞而得名。泛素与底物蛋白质的共价连接是非特异性的,连接即使底物蛋白质带上了泛素标记,称为泛素化。泛素化是通过三个酶促反应而完成的:第一个反应是泛素C端的羧基与泛素活化酶(ubiquitin-activating enzyme,E1)的半胱氨酸通过硫酯键结合,这是一个需要ATP的反应,此反应将泛素分子激活;在第二个反应中,泛素被转移至泛素缀合酶(ubiquitin-conjugating enzyme,E2)的巯基上;在第三个反应中,由泛素-蛋白质连接酶(ubiquitin-protein ligase,E3)识别待降解蛋白质,并将活化的泛素转移至蛋白质的赖氨酸的ε-氨基,形成异肽键(isopeptide bond)。而此泛素中赖氨酸的ε-氨基又可被连接下一个泛素,如此重复反应,可连接多个泛素,形成泛素链(ubiquitin chain)。

组蛋白泛素化水平也是动态变化的,泛素化是可逆的。泛素通过肽键连接到赖氨酸残基上,这些肽键可以被去泛素化酶切断。它包括五种主要成员:①泛素羧基端水解酶家族(ubiquitin C-terminal hydrolase,UCH),通过水解泛素羧基端的甘氨酸将泛素从底物中释放,UCHL1、UCHL2、UCHL3、UCHL4、UCHL5是其主要代表;②泛素特异性加工酶(ubiquitin-specific processing enzyme,UBP)或泛素特异性蛋白酶(ubiquitinspecific protease,USP)家族,通过半胱氨酸、组氨酸、天冬氨酸/天冬酰胺三联残基发挥酶活性,包括UBP-M、UBP4、HAUSP等;③卵巢肿瘤(ovarian tumor)相关蛋白酶家族,该家族与UBP家族有较高的相似性,也具备三联催化活性位点;④脊髓小脑共济失调蛋白ataxin-3,含有Josephin结构域,可水解泛素化溶菌酶和泛素-7-氨基-4-甲基香豆素;⑤Jab1/MPN域相关金属异肽酶(Jab1/MPN domain-associated metalloisopeptidase,JAMM),属于锌指金属蛋白酶家族,其催化中心含有Zn 2+ 、两个组氨酸和一个天冬氨酸残基。

泛素化可用于多种过程中,例如蛋白质降解、信号传导、DNA修复和细胞周期控制。细胞内大量的结构和调节性蛋白经泛素化修饰起到靶信号的作用,可将修饰的底物蛋白分配到细胞的不同部位、改变其活性、改变大分子间的相互作用及蛋白的半衰期。底物蛋白的单泛素化往往以非水解的方式调节底物蛋白的生物学活性,如参与底物蛋白的稳定性,使底物蛋白重折叠及易位。染色质组蛋白泛素化而发生的构型改变参与基因的修复、复制及表达的调节等。

(五)组蛋白变体

大部分组蛋白具有相对保守的氨基酸序列和空间结构,但也存在少量的核心组蛋白的变体,这些组蛋白变体与普通组蛋白具有高度相似的序列,仅在少量氨基酸残基上存在差异。这些组蛋白变体分布在染色质的特定区域上,通过形成特定的核小体构象,进而构建不同的染色质高级结构,使染色体表现出不同的功能特点。与普通的组蛋白严格限制于S期不同的是,组蛋白变体可以在有丝分裂多个时期进行复制合成。但组蛋白变体的合成量相对于普通组蛋白少,一般认为这一现象是由于普通组蛋白的基因往往成簇出现且不含内含子,而组蛋白变体的基因多为单拷贝或仅有少数几个拷贝且像普通基因一样包含内含子,这些原因共同导致了组蛋白变体的合成量低于普通组蛋白。

但是,并不是每种组蛋白都拥有数量相当的变体。在真核生物的全部五种组蛋白中,组蛋白H2A是最不保守的,拥有最多的变体,主要包括H2A.1、H2A.2、H2A.X、H2A.Z、macroH2A1、macroH2A2和H2A.Bbd(barr body deficient)七种,它们在氨基端的异质性决定了它们具有不同的功能。组蛋白H3的变体主要包括转录激活的H3.3以及着丝粒特异性变体。组蛋白H2B的变体则仅见于精细胞,包括H2BFWT、TSH2B和TH2B。组蛋白H1的变体具有发育时期特异性或组织特异性。虽然最保守的组蛋白H4是进化最慢的蛋白质之一,但在人的脂肪细胞中,发现了组蛋白H4变体。

目前的研究表明,组蛋白在多个生物过程发挥重要的作用(表5-1)。得益于技术的进步,极大地促进组蛋白变体在多个方面的功能被发现。但是,组蛋白变体研究作为一个新兴的课题方向,依然存在很多问题等待澄清和解释。

表5-1 部分组蛋白变体在多个生物过程中发挥的作用

三、染色质三维结构及重塑

真核生物的染色质在细胞核内被折叠形成了复杂的三维结构,包括染色质区域(territories)、染色质隔间(compartment)、染色质环(loop)以及拓扑相关结构域(topological associated domains,TAD)。染色质隔间包括基因表达活跃、染色质开放的常染色区域即compartment A以及基因表达贫瘠转录沉默的异染色质区域即compartment B。染色质环使基因启动子和较远的增强子发生相互作用从而影响基因表达。TAD作为基因复制和调控的单位具有一定的保守性,TAD的边界主要为CTCF的结构域,和大量的管家基因、tRNA、SINE反转录转座子等DNA原件。

染色质结构的高度动态变化在基因转录沉默和激活过程中起重要作用,为表观遗传提供一个重要的信息整合平台。一方面,核小体折叠形成结构紧密的高级结构,即30nm染色质纤维,导致基因沉默;另一方面,基因激活过程中的关键步骤是30nm染色质纤维的解聚和重塑,从而使各种转录因子及转录机器可以接近DNA。30nm染色质纤维结构的动态变化,受各种表观遗传机制的调控,包括连接组蛋白H1、组蛋白变体、组蛋白/DNA化学修饰和各种染色质结合蛋白的作用等。

在真核细胞中,大量组蛋白规律性地结合遗传物质,形成以核小体为基本单位的染色质。核小体在进化中出现的机制还没有阐明,但可以明确的是,真核细胞的遗传物质因为组蛋白参与形成染色质结构而变得更加稳定。在染色质的基础上,真核细胞选择了以激活为基本方式的调节。这使得细胞基因表达最经济,也为细胞功能的分化提供了基础。在以染色质为基础的遗传物质中,组蛋白和核小体为一种抑制性结构成分。在基因表达的复制和重组等过程中,对应基因尤其是基因的调控区染色质的包装状态,核小体和组蛋白及对应的DNA分子会发生一系列的改变,这些改变就是所谓染色质重塑(chromatin remodeling)。染色质重塑对于多种细胞活动具有重要意义,包括DNA复制和修复、染色体分离、细胞发育和分化、干细胞多能性和细胞凋亡等。染色质重塑的过程可在三个方面调节:组蛋白八聚体的固有序列偏好决定核小体沿DNA的定位;染色质重塑复合物识别或选择核小体底物;染色质重塑复合物影响核小体的运动。

核小体的位置在不同的细胞周期和生命活动过程中是不同的,处于动态变化的过程中。核小体定位指全基因组染色质上核小体的精确位置。核小体是染色质的基本结构,其沿DNA的排列具有间接的序列依赖性这一点已经得到广泛的认可。例如,核小体高亲和力位置处的GC二核苷酸的发生率增加,实际上,核小体的序列偏好产生两种类型的位置偏好:旋转定位和翻译定位。旋转定位是由于DNA通过其小沟附着到八聚体所致。而翻译定位,反映了核小体的整体偏好,即它位于高GC含量的DNA片段上,并避免某些基序,例如多聚(dA:dT)片段。

染色质重塑复合物执行重塑功能所需的能量通过ATP水解来提供,因此ATPase催化亚基为其核心亚基。通过对催化亚基ATPase的结构特征归类,将已知的重塑复合物大致划分为以下四类:SWI/SNF(switching defective/sucrose non-fermenting)、ISWI(imitation switch)、CHD(chromodomain-helicase DNA-banding protein)和INO80(inositol requiring80)。这些重塑复合物的催化亚基ATPase功能结构域存在相似之处,又有特异的结构域。除了CHD1和CHD2染色质重塑酶具有单独发挥重塑功能的特点外,其余多数重塑酶以组成多亚基复合物的形式在体内行使重塑功能,形成通常所说的“染色质重塑复合物”。此类重塑复合物由几个(ISWI家族)到十几个不等(INO80家族)的亚基组成。虽然我们目前暂未清楚认识大多数亚基在DNA重塑过程中的具体作用,但是可据理推测它们发挥重要作用的环节包括识别特定位点、与特异蛋白结合、维持复合物结构稳定和调节酶活性等。通过这些亚基,染色质重塑复合物有序地参与细胞内的各种生物学过程。一些具有保守序列的亚基常常出现在不同种属的同源染色质重塑复合物中。

重塑复合物具有类似DNA移位酶的作用,即在不解开DNA双链下使核小体沿DNA滑动。同时,一些染色质重塑复合物可以介导组蛋白变体从核小体中进出。大部分染色质中的核小体由四种常见组蛋白(H2A/H2B/H3/H4)构成,但部分核小体中的常见组蛋白可替换为组蛋白变体。含有这种组蛋白变体的核小体通过特殊标记在染色体上显示出来,同时不同变异体的特殊结构会导致染色质结构不同程度和形式的改变,进而介导相应细胞功能的实现、增强或抑制,包括调控基因转录和修复损伤的DNA等。

染色质重塑因子影响细胞功能主要通过两种途径:调控基因的转录以及改变染色质的结构稳定性。一个广为接受的观点是:前文已述,细胞中的染色质结构并非恒定的,而是处于动态变化中,致密的染色质结构会抑制转录起始因子和RNA pol在特定的DNA上形成转录起始复合物,从而影响转录的起始和进行;同理,疏松的染色质结构通常意味着相应区域基因的转录激活。在真核细胞中,染色质结构改变的工作主要由染色质重塑复合物来完成,在这一过程中重塑复合物常在调控基因转录激活或抑制时表现出单方面倾向性,且多数重塑因子表现出激活基因转录的特点。重塑因子对于染色质结构稳定性的影响主要表现在核小体构建的过程中。DNA的复制必然伴随双链的解离及核小体结构的消失,子链上的核小体结构必须在复制完成后被迅速重新组装形成,这一过程需要众多辅助蛋白的作用,这其中就有染色质重塑因子,例如ISWI家族成员ACF就具有促进DNA缠绕到组蛋白八聚体上的功能;DNA损伤修复过程中的核小体组装同样有染色质重塑因子的作用。

四、非编码RNA

ncRNA是一类不编码功能蛋白的RNA,其中包括我们所熟知的在所有细胞中普遍表达的“管家”RNA(rRNA和tRNA),还包括一大批发挥不同作用的ncRNA,也就是我们在表观遗传学中通常所指的ncRNA。这些不直接参与蛋白质翻译的分子最初被认为仅在转录后水平上调节基因表达。但是,近来大量研究结果表明,ncRNA在表观遗传控制的多个环节中起重要作用。通常,我们根据一个ncRNA分子的长度是否达到200nt人为地将其分为小非编码RNA(sncRNA)和长非编码RNA(lncRNA),每一种ncRNA都可以根据合成途径、结构特点、作用方式和主要生理作用等再细分为若干种。其中得到广泛研究的调节性sncRNA主要可以分为三类:干扰小RNA(siRNA)、miRNA和piRNA。

(一)非编码RNA的作用机制

各种ncRNA以不同的机制和原理参与细胞内各种生命活动的调节。这些数量众多的ncRNA行使功能的部位主要是细胞核内和细胞质中。细胞质中的ncRNA,研究较为透彻的主要为miRNA对于mRNA所进行的转录后调控,其中,miRNA通过与Ago2结合实现调节功能的作用机制已经得到了多方论证。除了sncRNA,还存在一部分lncRNA同样具备在细胞质中发挥调节作用的能力,主要通过作为竞争性内源RNA,通过与相应的miRNA结合从而拮抗miRNA对其靶基因的抑制作用。同时需要注意的是,转录生成的RNA如果滞留在细胞核内,绝大多数都不会承担翻译模板的功能,而这些滞留在细胞核内的RNA广泛地参与并调控目前几乎所有的已知细胞核内调控过程。这些ncRNA通过RNA-DNA、RNA-蛋白质和RNARNA相互作用实现其调控功能,例如参与异染色质形成、mRNA降解过程及组蛋白修饰的调控等。当然,对于数量众多的ncRNA,以上内容并不能完整概括其作用机制,只是对其中研究较为透彻的部分过程进行举例。总而言之,ncRNA的作用机制,不管是在细胞核内还是在细胞质中的作用机制,都还有无数的未知领域等待揭晓。

(二)小非编码RNA
1.siRNA

siRNA是一种合成的双链RNA分子,长度大约为22nt。它们可以被转染进特定的靶细胞,并且像miRNA一样,siRNA的一条链可以与RISC结合,从而引起“干扰”。不管是在细胞培养方面还是在活体内,siRNA已经成为一种非常有效的研究工具,用于在一个细胞或生物体内系统地敲低每个基因表达的大规模筛选。siRNA干扰内源性mRNA的行为,并且能够选择性地强烈诱导特定基因的抑制,有助于鉴定特定过程的必需基因。

2.miRNA

miRNA是长约19~24nt的单链RNA,约50%位于容易发生结构变化的染色体区域。最初,人们认为miRNA和siRNA作为ncRNA,存在两个主要区别:一是miRNA是内源性的,是生物基因的表达产物,而siRNA是外源性的;另一个不同点是miRNA由不完整的发夹状双链RNA组成,而siRNA是完全互补的长双链RNA的产物。不过尽管存在这些差异,由于miRNA和siRNA之间的密切关系,miRNA和siRNA在介导转录基因沉默中具有相似的作用机制。miRNA通过与靶mRNA互补而发挥作用,但只有极少数的miRNA与其mRNA靶标完全互补,在这种情况下,可以直接切割和降解目标mRNA,绝大多数的miRNA与其靶mRNA部分互补,这一互补区间的长度可仅有6~7个核苷酸,但这也赋予了一些miRNA调控多个不同基因的能力。虽然目前没有报道miRNA在哺乳动物细胞中直接参与表观遗传调控,但一些学者们发现miRNA的异常表达可改变重塑染色质酶活性,同时miRNA可能也通过调节组蛋白修饰来诱导染色质重塑。

3.piRNA

piRNA是一类长度约为26~31nt的RNA分子,其名称反映了在生理条件下piRNA结合Piwi蛋白。Piwi为表观遗传学调控因子,能与PcG蛋白共同结合于基因组PcG反应元件上,协助PcG沉默同源异型基因。因此,推测与Piwi蛋白相关的piRNA在表观遗传调控中也起重要作用。piRNA生物合成和作用机制目前仍不清楚。

(三)长非编码RNA

lncRNA代表另一类非编码调控RNA。lncRNA长度通常大于200个核苷酸,位于细胞核或细胞质,很少编码蛋白质。lncRNA的来源包括:蛋白质编码基因的翻译阅读框被破坏;染色体重组产生的结果;通过逆转录复制非编码基因而产生;通过部分串联复制机制产生包含相邻重复的ncRNA;通过将可转座元件插入基因中而产生功能性、转录ncRNA。基因组印记和X染色体失活的研究首次揭示了lncRNA在表观遗传调控中的作用,并分别确定了两种lncRNA,即H19 RNA和Xist RNA的作用。H19 RNA是一种基因组印记lncRNA,可被转运到细胞质并达到很高的胞质浓度。H19 RNA是第一个证明与基因组印记紧密相关的基因,但其作用机制尚不清楚。Xist RNA是一个17kb长的ncRNA,对于X染色体失活非常重要。Xist RNA与X染色体发生物理相互作用,通过“覆盖”失活的X染色体表面来沉默顺式基因。

lncRNA的功能包括:①蛋白质编码基因上游的启动子区转录生成的lncRNA通过抑制RNA polⅡ聚集和/或介导染色质重塑抑制或者促进下游基因的表达;②lncRNA可以与pre-mRNA杂交,干扰mRNA的剪接,从而产生不同的剪接形式;③通过与mRNA形成互补双链,在Dicer酶的作用下形成内源性siRNA;④lncRNA与miRNA结合使miRNA丧失功能;⑤lncRNA可以与特定的蛋白质结合,改变蛋白质活性,作为细胞重要的结构和功能组分形成核酸蛋白质复合体,改变与之结合后的蛋白质在细胞中的定位,影响表观遗传过程;⑥lncRNA可以产生一些小的ncRNA。

除了上述的ncRNA,还存在一种可以调节真核生物中的基因表达共价封闭的circRNA,它在结构上不同于线性RNA,对核糖核酸酶不敏感,并且比线性RNA的半衰期更长。有证据表明,许多circRNA具有细胞类型的表达特异性,并与生理发育和各种疾病有关。

ncRNA已成为现代遗传学研究中的一个“热点”问题,尤其是作为表观遗传调控的新机制。但是,到目前为止,科学家对ncRNA调控基因表达的机制了解甚少。目前,一个关键问题是这个庞大而复杂的RNA调控网络与蛋白质调控网络的各自作用和相互关系。目前,对ncRNA调控网络进行分析是非常困难的,需要逐步改进基因组扫描技术来揭示ncRNA的所有信息和功能。最终目标是阐明ncRNA的调控机制及其作用。

五、RNA甲基化

N 6 -甲基腺嘌呤(m 6 A)是真核生物中最常见的一种RNA甲基化修饰,占到RNA甲基化修饰的80%。早在20世纪70年代,就已经在真核生物的mRNA和lncRNA中发现了m 6 A修饰。已知绝大部分真核生物中,mRNA 5’-UTR区域发生的甲基化修饰,在mRNA剪接、编辑、稳定性、降解、多腺苷酸化等方面发挥重要功能;而3’-UTR区域发生的甲基化修饰有助于mRNA的出核转运、翻译起始以及与poly(A)结合蛋白一起维持mRNA的结构稳定。目前,在全转录组范围检测m 6 A修饰的主流技术是MeRIP-seq(m 6 A-seq),该技术使用N 6 -甲基腺嘌呤抗体富集高甲基化的RNA片段,然后结合高通量测序,在全转录组范围检测m 6 A修饰。m 6 A甲基化修饰被证明是可逆的,由“书写器”甲基化转移酶、“擦除器”去甲基化酶和“阅读器”甲基化阅读蛋白等共同参与。

六、基因组印记

基因组印记(genomic imprinting)指因为不同亲本基因之间的差异性甲基化,导致了亲本中的其中一个等位基因保持活性,而另一个等位基因遭到沉默的表观遗传学调节形式。这表明尽管遗传上相同,但从母亲那里继承的染色体组在功能上与从父亲那里继承的染色体组不尽相同。胚胎要正常发育,需要从每个亲本获得一组染色体,这是由于一种称为“基因组印记”的过程,该过程在配子中起作用。所有细胞都包含每个基因的两个副本(男性中单个Y染色体上发现的那些基因除外)。通常基因的两个拷贝都被表达,然而细胞仅表达一个印记基因的拷贝——从父亲继承的拷贝或从母亲继承的拷贝。

基因组印记涉及从配子到后代的DNA甲基化标记形式的表观遗传信息的传递。DNA甲基化在印记中的基本作用通过DNA甲基转移酶中突变的遗传来显示,这些DNA甲基化标记提供了一个印记,该印记受转录和染色质状态层次的作用,包括两个亲本染色体上的不同组蛋白修饰,从而导致印记基因的单等位基因表达。

印记基因并不是在整个基因组中均匀分布,而是位于特定的基因组区域中,印记基因通常聚集在影响整个簇的单等位基因表达的单个印记控制区(imprinting control region,ICR)周围。实际上,ICR是控制序列的调控序列,该序列控制编码蛋白质的基因或控制顺式簇活性的lncRNA的基因。在某些簇中,一种称为CTCF的转录因子也起着重要的作用,以亲本起源特异性的方式调节印记基因表达的调控。 kR2UlxItsoBlPohUkCP9KKohxkyvwyf7kB5CthTAeY5hqi5fDDFCkS/HmVywRQHG

点击中间区域
呼出菜单
上一章
目录
下一章
×