传统的研究方法可以获得局部表观遗传修饰的变化信息,而各种高通量技术如基因芯片技术、第二代测序技术、质谱技术等,能够从全基因组水平扫描表观遗传修饰的变化情况,从而积累更多精准而丰富的认识。和人类基因组图谱的产生类似,表观基因组有助于解读遗传信息,可以发现和注释基因组中的功能调控元件,勾勒出关键的基因调控区域;此外,表观基因组学的发展大大丰富了对疾病的认知。全表观基因组关联研究(epigenome-wide association studies,EWAS)可以精细分析与疾病相关的调节元件,寻找预测性的生物标志物;由于DNA甲基化、组蛋白修饰或染色质重塑均可能引起和疾病相关的基因表达调控异常或信号通路变化,从而影响疾病的发生发展进程,因此,表观基因组学也为药物研发提供了新的靶标。例如,DNA甲基转移酶和组蛋白脱乙酰酶(HDAC)抑制剂已进入临床前或临床试验(clinical trial)阶段,有望成为新的抗肿瘤药物。
意识到表观基因组学的重要性,各国均投入大量的基金支持相关科学研究,最具代表性的包括美国国立卫生研究院发起的表观基因组学路线图项目(roadmap epigenomics project)和美国国家人类基因组研究所(National Human Genome Research Institute Home,NHGRI)资助的DNA元件百科全书(encyclopedia of DNA elements,ENCODE)计划;表观基因组学研究得以迅速发展,各种技术革新不断涌现。例如,单细胞水平的甲基化分析的分辨率更高,推动了人们对疾病等的认识;联合使用多种组学平台如表观基因组、基因组、转录组、蛋白质组、代谢组的分析,可以更加精准和全面地认识疾病,能够更有针对性地使用靶向药物或药物组合,对疾病进行精准和个性化的治疗。
本节将对常用的表观遗传实验方法进行概述,尤其是组学水平的研究方法,并对这些方法所产生海量数据的生物信息学处理方法进行总结,同时简要介绍表观基因组学研究方法的前沿进展。
表观遗传相关的实验方法很多,主要可以分为DNA甲基化、组蛋白修饰、染色质可接近性(chromatin accessibility)、染色质构象等几个方面的内容。除了对局部位点的分析,组学水平的研究方法可以从全基因组水平扫描表观遗传修饰的变化,获得海量信息。
在哺乳动物中,DNA甲基化是由DNMT催化将甲基基团(-CH3)加到CpG岛上。这种共价修饰在基因表达调控、维持染色质稳定性等方面起重要作用。DNA甲基化的研究可以从DNA甲基转移酶或者DNA甲基化水平的角度来进行,包括总体基因甲基化水平、特异基因序列DNA甲基化水平和全基因组DNA甲基化水平的检测,下面将分别进行介绍。
DNMT主要有两大类,包括维持甲基化的DNMT1与从头甲基化(de novo methylation)的DNMT3A和DNMT3B。不同DNA甲基转移酶表达水平的差异在一定程度上可以反映DNA甲基化活动的变化。因此,实时荧光定量PCR(real-time quantitative PCR,RT-qPCR)、蛋白质印迹法(Western blotting)、RNA印迹法(Northern blotting)等常用实验技术可以对DNMT的转录物以及蛋白质进行定性和定量分析。很多商业化的试剂盒可以用来检测DNMT的活性。DNMT的体外活性可以通过细胞提取物中的甲基转移活性来检测:通用的DNMT底物稳定地包被在孔板里,DNMT把甲硫氨酸的甲基集团转移给胞嘧啶,甲基化DNA底物;甲基化的DNA能被抗5-甲基胞嘧啶的抗体所识别,甲基化的DNA量与DNMT的活性成比例。
目前有以下几种主要用于临床应用的检测DNA甲基化状态的技术:使用亚硫酸氢盐将未甲基化的胞嘧啶转化为尿嘧啶后通过二代测序进行检测,对甲基化或未甲基化的胞嘧啶具有特异性的限制酶,对甲基化的胞嘧啶具有特异性的抗体,基于纳米孔的单DNA分子测序。尽管几种方法均准确且结论可重复,但在综合考虑成本和推广难度之后,亚硫酸氢盐测序(bisulfite sequencing,BS-seq)效果最好。此外,纳米孔测序(nanopore sequencing)技术的电信号对碱基修饰比较敏感,通过碱基附近的电信号会发生变化,检测DNA修饰。而且其测序成本低廉,因此纳米孔测序检测表观修饰或将成为未来主流方向,可以在临床环境中以低成本快速检测特定位点的DNA甲基化。
(1)总体基因甲基化:
用来确定基因组整体的DNA甲基化水平,而不考虑局部DNA甲基化水平的变化。其分析方法主要包括:①实时荧光定量PCR(RT-qPCR)法,特异性胞嘧啶甲基化抗体的免疫沉淀可以用来富集甲基化的DNA,RT-qPCR法可以检测其甲基化水平;②高效液相色谱结合紫外检测或串联质谱方法,用于测定甲基化的胞嘧啶;③酶联免疫吸附试验(enzyme-linked immunoadsordent assay,ELISA)。
(2)局部基因甲基化:
指特异基因的甲基化分析。利用甲基化敏感性差异的限制性内切酶进行酶切,可以分析局部DNA的甲基化状态。 Hpa Ⅱ和其同裂酶(同裂酶指来源不同,但识别相同靶序列的核酸内切酶,进行同样的切割,产生同样的末端) Msp Ⅰ是最常用的一对限制性内切酶,两者对甲基化的敏感程度存在差异;当这两个酶的识别位点发生甲基化时, Hpa Ⅱ不能切开,而 Msp Ⅰ是甲基化不敏感的,无论识别位点是否发生甲基化,均可以切开。
亚硫酸氢盐处理是最常用的检测CpG位点DNA甲基化的实验方法。亚硫酸氢盐处理不影响甲基化的胞嘧啶,但是能将非甲基化的胞嘧啶(C)转换成尿嘧啶(U),经过PCR扩增之后,尿嘧啶变成胸腺嘧啶(T)。缺点是转化效率受限以及短片段读取测序对于基因组重复区域不能准确鉴定。检测亚硫酸氢盐处理后甲基化状态的实验技术包括克隆测序法、直接测序法、焦磷酸测序法等。另外,关于甲基化特异性引物的设计,科学家们建立了方便快捷的网站。例如,MethPrimer网站可以帮助研究人员进行甲基化特异性引物的设计。
甲基化间区位点扩增(amplification of inter-methylated sites)技术是研究特定基因或者特异区域DNA甲基化的方法。此技术应用甲基化敏感差异的限制性内切酶 Sma Ⅰ和其同裂酶 PspA Ⅰ( Sma Ⅰ是甲基化敏感的,而 PspA Ⅰ是甲基化不敏感的),切割基因组DNA,最后在全基因组水平上进行PCR反应,进而确定DNA甲基化状态的变化。
(3)全基因组DNA甲基化:
甲基化DNA免疫沉淀(methylated DNA immunoprecipitation,MeDIP)是最常用的在全基因组水平上分析DNA甲基化的方法之一。MeDIP技术通过5-甲基胞嘧啶(5mC)的特异性抗体进行免疫沉淀进而富集甲基化的DNA片段,通常和芯片(MeDIP-chip)或者第二代测序技术(MeDIP-seq)相结合。MeDIP技术的主要优点是在全基因组水平上的甲基化位点捕获不具有偏向性,并且不限于酶切位点或者CpG岛区域;缺点是达不到单碱基分辨率。
简化代表性亚硫酸氢盐测序(reduced representation bisulfite sequencing,RRBS)技术可以有效地检测CpG区域的DNA甲基化水平,并且其分辨率能达到单个碱基水平。为了降低亚硫酸氢盐测序的成本,RRBS技术使用甲基化不敏感的限制性内切酶 Msp Ⅰ处理基因组,从而富集出富含CpG区域的DNA,大大降低了测序量,减少了测序成本。由于RRBS技术富集富含CpG的DNA区域,因此相对于MeDIP,RRBS很难检测到CpG含量低的区域的DNA甲基化水平,但是这种方法相比于MeDIP技术能检测出更多的差异甲基化DNA区域。
甲基化DNA捕获测序(methylated-DNA capture sequencing,MethylCap-Seq)技术的原理是利用甲基化CpG结合蛋白2(MeCP2)和第二代测序技术来确定DNA甲基化,同MeDIP和RRBS技术一样,都能获得DNA甲基化的精确数据。相比于RRBS技术,MethylCap-Seq可以检测出更多的差异甲基化区域(differentially methylated region,DMR)。
将样品用亚硫酸氢盐处理之后进行全基因组深度测序,可以获得分辨率达CpG水平的全基因组DNA甲基化信息,对于研究全基因组水平DNA甲基化具有很大优势。
在哺乳动物体内,DNA的去甲基化包括5mC氧化成5-羟甲基胞嘧啶(5-hydroxymethylcytosine,5hmC)、5-甲酰胞嘧啶(5-formylcytosine,5fC)和5-羧基胞嘧啶(5-carboxylcytosine,5caC)。这一生物学过程是由TET家族蛋白所介导的。由于5hmC在细胞内的丰度比较低,使其相对于5mC更难被检测到。5hmC和5mC都对亚硫酸氢盐不敏感,因此亚硫酸氢盐测序对5hmC和5mC的检测并不适用。羟甲基化DNA免疫沉淀(hydroxymethylated DNA immunoprecipitation,hMeDIP)技术能够检测特定位点或整个基因组中5hmC的相对丰度。hMeDIP是从MeDIP技术衍生而来,通过5hmC特异性抗体的免疫沉淀捕获DNA片段,后续进行定量PCR或二代测序。全基因组水平5fC的检测不依赖于亚硫酸氢盐处理。在PCR过程中化学标记的5fC转变成胸腺嘧啶,通过生物素偶联而被富集之后,进行二代测序以检测基因组中的5fC。甲基转移酶辅助的亚硫酸氢盐测序法(methylase-assisted bisulfite sequencing,MAB-seq)可以检测5fC和5caC,这种检测是在单碱基水平上进行的。简化有代表性的MAB-seq(reduced representation MAB-seq,RRMAB-seq)是一种改进的方法,在降低成本的同时,这种方法也可以检测到更多CpG区域的甲基化变化。
Aba-Seq(AbaSI coupled with sequencing)是基于限制性内切酶 Aba SI的测序技术,限制性内切酶 Aba SI能非常特异地识别葡萄糖基化5-羟甲基胞嘧啶(5-glucosylhydroxymethylcytosine,5ghmC),并且在结合位点的3’端产生双链断裂, Aba SI不切割5mC或没有任何修饰的胞嘧啶。5hmC通过T4β-葡萄糖基转移酶转化成5ghmC, Aba SI切割产生双链断裂之后,进行生物素修饰,最后进行高通量测序。在此基础上,继续开发了单细胞水平上检测全基因组5hmC的方法。
利用这些高精度全基因组甲基化检测手段,可以对大量疾病样本进行检测。例如,肿瘤细胞呈现总体低甲基化水平的特征,而在许多基因启动子区域存在着甲基化异常增高的现象。利用全基因组测序技术对基因组序列和甲基化情况进行分析,许多新的癌症相关基因被发现。这些基因参与了染色体组装、DNA甲基化和去甲基化、组蛋白修饰和染色体重塑等许多过程。例如,在急性髓细胞性白血病中研究人员发现了 IDH1 和 DNMT3A 的突变,在非小细胞肺癌(NSCLC)中发现了 ARID1A 的突变,在小细胞肺癌中发现了 CBP、EP300、MLL 基因的突变等。这些新突变揭示了以前未知的信号通路,它们可以导致肿瘤基因组表观遗传修饰的变化。表观基因组学的发展拓展了我们对癌症的认识。现在对癌症的分析,不只停留在基因突变的层面,还包括拷贝数变异结构变异、表观遗传修饰、mRNA和ncRNA等多个层面综合考虑;而且表观基因组学也有利于发现新的肿瘤生物标志物和开发新的抗肿瘤药物。目前,已有一些针对表观基因组学元件的药物进入临床前或临床试验,如DNMT抑制剂SGI-110、HDAC抑制剂Pivanex、溴结构域和超末端结构域(bromodomain and extra-terminal domain,BET)抑制剂JQ1等。
DNA结合蛋白在基因表达调控等许多生物学过程中发挥至关重要的作用。这些蛋白包括与特定DNA结合的转录因子(TF)、组蛋白等。组蛋白的修饰包括甲基化、乙酰化、泛素化、磷酸化等。DNA结合蛋白为细胞的表观遗传提供了重要信息,因此研究DNA结合蛋白有助于更好地了解表观遗传机制。
染色质免疫沉淀(chromatin immunoprecipitation,ChIP)技术是研究体内DNA与蛋白质(包括组蛋白、染色质调控因子、转录因子或其他DNA结合蛋白)相互作用最直接的方法。
ENCODE计划及模式生物ENCODE计划(model organism ENCODE,modENCODE)中的实验室进行了数百种ChIP实验,并且发展了一套标准化的实验流程。一般来说,首先用甲醛处理细胞,通过可逆的共价交联固定蛋白质-DNA复合物,随后将其随机碎片化为一定长度范围内的染色质小片段。通常有两种方式可以将染色质打断成小片段:一种是通过超声打断,另一种是通过微球菌核酸酶(micrococcal nuclease,MNase)将染色质消化成单个核小体。蛋白质-DNA复合物通过靶蛋白特异性抗体的免疫沉淀而被富集,之后复合物通过解交联释放DNA,对纯化后的目的DNA片段进行测序,通过生物信息学分析,即可获得蛋白质与DNA相互作用的信息。
ChIP实验技术的标准化流程已被广泛应用和发展,但是由于细胞类型、研究的蛋白因子或者组蛋白修饰等条件不同,标准化流程并不适合所有的实验者。所以,为了获得蛋白质-DNA相互作用的准确信息,实验者必须对实验中的关键步骤进行优化。通常情况下,细胞或组织在1%的甲醛溶液中室温孵育10~15min,或者在4℃孵育更长的时间。较长的交联时间对于微弱或者瞬时的蛋白质-DNA相互作用是必需的,但是长时间的交联会使染色质更不易被打断。超声打断是ChIP实验的关键步骤,实验前须对超声条件进行优化。除了甲醛交联时间以及超声条件外,抗体的亲和性和特异性也是ChIP实验成功的关键因素。ENCODE和modENCODE计划评估了超过200种人类、果蝇和线虫的抗体。分析结果显示,即使是用同一抗体做独立的实验,抗体质量也存在较大差异。而且,并不是所有的抗体都可以有效地免疫沉淀出蛋白质-DNA复合物这可能是由于甲醛交联使得蛋白质的抗原表位(epitope)被隐藏,导致抗体无法识别。值得注意的是,要确定某个抗体是否适合做ChIP实验,需要通过实际的ChIP实验来检测。蛋白质印迹法等传统方法无法确定一个抗体是否适合ChIP实验。许多研究者尝试使用抗原表位标记的方法,但是在哺乳动物细胞中,这种方法的应用有其局限性。染色质免疫沉淀反应通常需要已经与抗体连接的磁珠或者琼脂糖珠和染色质孵育,进而通过几步洗脱将非特异性结合的DNA去除,在洗脱过程中,磁珠相对于琼脂糖珠更方便,非特异性结合的DNA更少。
对于通过ChIP实验获得的与特定蛋白质相互作用的DNA,大致可以用以下3种方法分析其序列和富集程度:染色质免疫沉淀PCR(ChIP-PCR);染色质免疫沉淀芯片法(ChIP-chip);染色质免疫沉淀测序(chromatin immunoprecipitation sequencing,ChIP-seq)。
实时荧光定量PCR技术可以用来分析某些特定位点DNA片段与蛋白质相互作用的信息。简单来说,通过对特定位点进行引物设计,将免疫沉淀样本、阴性对照样本、阳性对照样本分别用引物进行PCR,计算ChIP富集的倍数。
ChIP-chip是早期使用的在全基因组水平上研究蛋白质和DNA相互作用的技术,通过将ChIP和DNA芯片相结合获取蛋白质与DNA相互作用的信息。近年来,ChIP-chip技术逐渐被ChIP-seq技术所取代。
随着第二代测序技术的发展,ChIP-seq广泛应用于在全基因水平上检测组蛋白修饰、组蛋白、组蛋白变体、组蛋白伴侣分子、染色质调控因子、核小体、转录因子、转录辅助因子和其他DNA结合蛋白。ChIP实验获得的纯化后的DNA样品需要经过接头连接、PCR扩增等建库过程方可进行单端或双端测序。近些年来,ChIP-seq广泛应用,已成为多种大规模表观遗传计划中产生表观遗传图谱的关键技术之一。第二代测序技术的核心思想是边合成边测序。目前已经发表的关于ChIP-seq的研究大多数是通过第二代测序技术完成的。
细胞特异性的转录程序是通过转录因子结合在染色质特定区域实现的,结合位点的可接近性是通过DNA甲基化和组蛋白修饰等一系列过程调控的。通常情况下,基因表达活跃的区域,染色体的结构相对比较疏松,“裸露”的DNA为基因转录等基本生物学过程提供了可能。目前,染色质可接近性的研究技术包括DNA酶Ⅰ超敏感部位测序技术(DNaseⅠhypersensitive sites sequencing,DNase-seq)、甲醛辅助分离调控元件测序(formaldehyde-assisted isolation of regulatory elements followed by sequencing,FAIRE-seq)、利用转座酶研究染色质可接近性的高通量测序技术(assay for transposase-accessible chromatin with high-throughput sequencing,ATAC-seq)和MNase-seq等。其中,MNase-seq与DNase-seq在多方面具有较高相似性,因此下面将以前三者为例进行简述。
DNase-seq正式实验前需要摸索和优化细胞裂解的过程和DNA酶Ⅰ(DNaseⅠ)的浓度。DNase可以非特异性地切割DNA,但是在正常细胞内,DNase优先切割“开放”的染色质区段。大多数DNA被核小体包裹。DNA酶Ⅰ超敏感部位(DNaseⅠhypersensitive sites,DHS)大多数是没有核小体包裹的DNA区段,并且这些位点基本都具有基因表达调控的功能。这些功能元件包括启动子、增强子、沉默子、绝缘子(insulator)等。DNase-seq结合了传统的DHS实验和高通量技术,能够分析全基因组水平中不同类型的调控元件。DNase-seq测序产生的DNA读长的5’端代表了DNaseⅠ的切割位点,并且DNase-seq富集的区域有多种蛋白因子结合位点。相比于ChIP-seq,DNase-seq能捕获更多蛋白因子结合位点。
FAIRE-seq的实验操作步骤较为简单。第一步与ChIP实验类似,也是甲醛交联不同细胞类型的交联时间同样需要优化。但是与ChIP实验用特异性抗体免疫沉淀蛋白不同,在FAIRE-seq实验中,DNA在被超声打断之后直接经酚-氯仿抽提,没有被核小体占位的DNA片段优先富集到水相。DNase-seq和FAIRE-seq两种方法获得的调控序列信息相似,但并不完全一样,这两种方法和ChIP-seq得到的结果具有很好的一致性。大多数转录因子的结合位点用这两种方法可以找到,但是每种方法又可以找到各自独有的调控元件。某些转录因子(如FOXA1、FOXA3、GATA1)的DNA结合位点用FAIRE-seq可以被富集出来,而另一些转录因子[如锌指蛋白ZNF263(zinc finger protein 263)、CTCF]的DNA结合位点在DNase-seq数据中常见。只在DNase-seq中发现的位点通常富集在启动子区域,或者是与启动子相关的H3K4me3和H3K9ac组蛋白修饰的区域,而只在FAIRE-seq中发现的位点通常富集在内含子、外显子、基因间区域和H3K4me1修饰的区域。与FAIRE-seq相比,DNase-seq技术获得的数据具有更高的信噪比(signal-noise ratio),得到的DNA结合位点信息会更加准确。与ChIP-seq相比,DNase-seq和FAIRE-seq两种方法的优越性在于它们能够检测到无法用抗体识别的转录因子的结合位点。
Buenrostro等在2013年提出了ATAC-seq方法,用以研究染色质的可接近性。Tn5转座酶能够切割和标记基因组,转座子优先整合到活跃的调控区域。转座子本质上是一段可移动的DNA片段;Tn5是一种最早在大肠杆菌中发现的细菌转座子,是一段含有若干抗性基因和编码转座酶基因的DNA片段,属于复合转座子的一种。在ATAC-seq中,500~50 000个未固定的细胞核被Tn5转座酶标记上测序接头。由于核小体的空间位阻效应,Tn5转座酶携带测序接头主要插入整合到染色质的开放区域,经PCR扩增后,进行二代测序。ATAC-seq建库过程简单快捷,所需细胞数目少,而且可以在很高的分辨率下解释染色质结构。同时,建库过程也不包含任何的片段长度筛选,可以同时检测开放的DNA区域和被核小体占据的区域。与DNase-seq实验相比,ATAC-seq技术需要的细胞量更少,步骤较更简单。在无法获得大量细胞的情况下,可以优先考虑ATAC-seq技术。
近年来,越来越多的研究表明,基因并不是以线性的形式简单存在于细胞核中。细胞核的组织结构(nuclear organization)即染色质区域之间的相互作用在基因表达过程中起了非常重要的调控作用。因此,仅有相互作用的位点信息并不能深度解释细胞内的调控机制及其他的生物学过程。而上述组学实验技术手段如ChIP-seq、DNase-seq、FAIRE-seq和ATAC-seq等,可以提供序列信息;但并不能给出细胞核内不同染色质区域之间相互作用,进而形成高级三维结构的信息。
2002年,Dekker等发展了染色体构象捕获(chromosome conformation capture,3C)技术,用于研究细胞内染色质之间的“一对一”相互作用。近些年,科学家们基于3C技术发展出了其他研究核内染色质长距离相互作用的技术,这些技术包括“一对多”的环状染色体构象捕获(circular chromosome conformation capture,4C)技术、“多对多”染色体构象捕获碳拷贝(chromosome conformation capture carbon copy,5C)技术和ChIP-loop实验技术等。另外,基于高通量染色体构象捕获(high-throughput chromosome conformation capture,Hi-C)技术和基于配对末端标签测序的染色质交互作用分析(chromatin interaction analysis with pairedend tag sequencing,ChIA-PET)技术从全基因组的角度反映细胞核内相互作用染色质的空间构象情况,ChIA-PET技术也反映出蛋白质与染色质之间相互作用的关系。
3C技术是用于检测基因组上两个染色质片段是否存在相互作用的实验技术(“一对一”)。3C及3C的衍生基因组学技术,其起始步骤都是要建立细胞核内染色质的三维结构。因此,3C技术的第一步就是用交联试剂固定染色质,通常所用的交联试剂是甲醛,接下来用 Hin dⅢ、BglⅡ、BamhⅠ或 Dpn Ⅱ等限制性内切酶切割蛋白质-DNA交联产物。交联的染色质片段的黏性末端在浓度极低的情况下用连接酶连接,以促进交联的DNA片段间的连接,此时所用的连接酶浓度要非常高以提高连接效率,减少非特异性连接;将蛋白-DNA复合物解交联及纯化后获得DNA,然后用特异引物进行普通PCR或定量PCR,用于PCR的引物设计在预测有相互作用的DNA片段处,最后根据PCR产物的丰度推测两个染色质片段之间在核内是否存在相互作用。对于3C实验,需要十分谨慎地设计每一步的对照试验,确定每一步的效率,使得定量PCR的结果更加准确,最终确定DNA片段之间的相互作用。另外,3C对于相互作用的两个染色质片段之间的距离有要求,一般在5 000至数十万个碱基之间,对于几十万个碱基以上距离的相互作用的染色质特异性的连接产物很难获得,因此,难以用3C技术精准定量。
4C技术是在3C技术基础上发展而来的。3C实验的前提是必须知道可能存在相互作用的染色质片段的序列信息,这阻碍了3C对全基因组的研究,而4C可以克服这一缺点。4C用来分析基因组上感兴趣的某一位点与整个基因组其他位置相互作用的信息(“一对多”)。类似于3C技术,4C实验首先也是用新配置的甲醛溶液交联染色质,使其固定,裂解细胞取得细胞核之后,进行第一次酶切,用过量的六碱基的限制性内切酶酶切蛋白质-DNA复合物, Hin dⅢ、EcoRⅠ、 Bgl Ⅱ等都是4C实验中常用的效率较高的六碱基限制性内切酶;酶切之后将蛋白质-DNA复合物的浓度稀释到极低,然后用高浓度的连接酶连接消化产物以保证酶切片段的高效率连接,同时又减少非特异性连接。第一次酶切和连接的产物要经过二次酶切和连接,经过二次酶切连接之后形成小的DNA环,通过感兴趣位点两端特异引物进行反向PCR之后,将PCR产物进行二代测序,对测序得到的数据进行生物信息分析,即可获得跟感兴趣位点相互作用的染色质的信息。在4C实验中,酶切所用的限制性内切酶对最终获得的数据质量至关重要,因此要谨慎选择内切酶,酶切之后可以通过琼脂糖凝胶电泳大致判断酶切效率。另外,两个酶切位点之间的距离最好不要低于500bp,否则会导致连接效率比较低。
5C技术也是基于3C技术发展而来的技术。相对于3C技术,5C技术提高了实验检测的通量,可以同时检测细胞核内上百个染色质片段之间的相互作用(“多对多”)。在5C实验中,将3C获得的酶切连接后的模板杂交到一组寡聚核苷酸上,每条寡聚核苷酸与感兴趣的基因组区域的不同限制性酶切位点有部分重合,与相互作用片段对应的每对寡聚核苷酸可以被连接在一起。由于所有5C实验的寡聚核苷酸在5’端都带有一个通用引物,因此所有的连接产物都可以同时被扩增,之后将产物进行二代高通量测序。5C实验中的引物决定了检测结果的灵敏度和特异性,因此引物设计对于5C实验的成功至关重要。目前,已有专业网站(如my5C)帮助设计5C实验所用的引物。
ChIP-loop技术是ChIP与3C或4C等技术相结合发展而来的,称为ChIP3C或ChIP4C技术。通过结合ChIP与3C这两个实验,可以研究介导两个染色质片段之间相互作用的蛋白质。4C实验中,第一步也是通过甲醛瞬时交联细胞核内的染色质。交联的染色质复合物被纯化之后,再用限制性内切酶进行酶切,得到的酶切产物通过蛋白A/G(protein A/G)免疫沉淀磁珠和特异性抗体进行免疫沉淀。免疫沉淀得到的染色质通过连接之后就可以进行定量PCR反应或者高通量测序,后续过程基本和3C或4C实验相同。ChIP-loop得到的实验结果有可能是假阳性,因为靶蛋白有可能并不介导目的染色质片段之间的相互作用,而是作用于目的染色质附近,通过特异性的抗体被沉淀下来;另外,由于DNA在连接之前未被浓缩,磁珠相连的DNA片段之间可能成环。因此,利用ChIP-loop技术获得靶蛋白及其介导的染色质相互作用信息之后,要验证两个染色质之间的相互作用是否是真实的,可以将靶蛋白敲低或敲除来验证。
ChIA-PET技术是基于3C和配对末端标签(paired-end tag,PET)发展而来的技术,是ChIP-loop实验在全基因组水平上的扩展,为DNA结合蛋白所处基因组位置的染色质片段之间相互作用的高通量信息分析提供了可能。在ChIA-PET实验中,首先是用新配置的甲醛溶液交联细胞核内的染色质,使其瞬时固定。酶切基因组DNA之后,蛋白质-DNA复合物可以通过靶蛋白特异性抗体免疫沉淀下来。给酶切DNA片段加上接头(此接头带有特殊的酶切位点),然后进行二次连接反应,再使用针对接头的酶进行酶切,所得产物再加上接头,进行高通量测序。ChIA-PET测序得到的数据信噪比较低,仅有一小部分PET能揭示染色质相互作用。并且,ChIA-PET技术所得的数据依赖于通过靶蛋白免疫沉淀下来的DNA,靶蛋白被敲低或敲除的样本并不适用于这项技术,因此,ChIA-PET实验并不能确认测序分析所得到的环是否依赖于靶蛋白。
Hi-C技术又称为全基因组水平的染色体构象捕获。Hi-C技术也是基于3C原理发展而来。其主要步骤为:将细胞用甲醛交联,用限制性内切酶或DNaseⅠ对基因组DNA进行酶切消化,对酶切造成的缺口进行补平,同时用dCTP进行生物素标记,用连接酶对交联的DNA片段进行连接,随后将样本进行超声打断,用链霉抗生物素蛋白包被的磁珠将片段进行沉淀富集,加上测序接头进行深度测序,最后将测序得到的数据进行分析拼接,继而构建出相邻染色质三维空间结构图。Hi-C可以对整个染色质进行解析。对于基因组较大的物种如人和小鼠,Hi-C的分辨率通常在40kb~1Mb,而最近的研究改进了Hi-C的实验步骤从而实现了kb级别的分辨率。Hi-C技术已被用于解析酿酒酵母的完整基因组结构,然而要实现高分辨率的Hi-C对费用的要求仍然极高。Hi-C技术改进后出现了限制构象捕获(tethered conformation capture,TCC)技术,能够对信噪比进行提升。这项技术认为,非交联的DNA片段之间的随机连接是Hi-C技术中最大的噪声,因此这项技术的主要改进在于先将交联的蛋白质-DNA复合物固定在链霉抗生物素蛋白包被的磁珠上,再进行连接。因此,可以改善交联的DNA片段的连接效率,提高信噪比。
如前所述,目前有许多可覆盖全基因组表观遗传信息的实验技术已发展起来,这些方法几乎都涉及3个基本步骤:①均通过生物化学方法将表观遗传的信息转化为遗传层面的信息,如通过富集基因组区域中含特异化学修饰的DNA文库;②都是通过标准的高通量技术,如芯片和二代测序等进行测定;③都是通过生物信息分析从芯片或测序输出数据中提取表观遗传的信息。所有这些实验技术都将产生大量的数据,也都需要有效的生物信息学方法来实现数据的初级处理和质量控制。下面将重点介绍几种常用技术对应的数据分析方法及常用的生物信息分析数据库。
对于ChIP-on-chip的数据分析,最大的生物信息分析挑战是要从原始探针信号中生成一个基因组中高度富集区域的排序列表。虽然这与转录组的芯片分析有相似之处,但ChIP-on-chip数据处理中有许多算法是针对测序峰值识别(peak calling)设计的,对于ChIP-on-chip数据,通用的分析流程包括以下3步:①芯片信号归一化(normalization);②利用威尔科克森秩和检验(Wilcoxon rank sum test)进行移动窗口(sliding window)式差异杂交的检验,进而对每个探针生成一个Z分数(Z-score,也叫标准分数);③合并彼此邻近的探针作为一个富集区,利用合并的Z分数对这些区域进行排序。为提高检测的准确性,工具如HMMTiling等引入了隐马尔可夫模型(hidden Markov models,HMM)。另外,在探针特异性差异的控制中,还引入了线性模型。另外,为了远程操作ChIP-on-chip数据集,也有许多相应的测序峰值识别工具包。例如,ChIPOTle是一个整合到excel中的测序峰值识别宏,该宏不用考虑平台特异的信息;Tilescope是一个整合完全的分析流程,该流程对于Affymetrix和NimbleGen平台的数据都适用。尽管近些年发表的算法已有很多,ChIP-on-chip数据的测序峰值识别问题还是未得到完全解决。例如,现有的测序峰值识别工具对超过规定的基因组区域的组蛋白修饰都会损失掉大量信号较弱的结合位点。因此,选择可区分显著信号峰(peak)和随机波动的具生物学意义的信号峰的合适临界值(cutoff),以及实验验证一定数量的预测的信号峰非常关键,关于ChIP-on-chip数据分析更细致的描述,请参考文献。
对于ChIP-seq数据的生物信息分析,最关键的步骤是如何快速、准确地将短的测序读长(read)比对到参考基因组上。原则上,任何基于种子(seed-based)的比对软件如BLAST都适用于该步骤。但针对不同平台来源的数据进行过优化的策略可大大提高比对速度和覆盖率。常用的比对软件包括ELAND等。不像ChIP-on-chip的数据是一种相对的探针信号,ChIP-seq实验的每一个测序读长都可直接指向一个在免疫沉淀中与抗体结合的染色体片段。因此,一般认为ChIP-seq数据不需要进行归一化,并且数据的分析可直接基于读长数或移动窗口化的读长数。
ChIP-seq数据分析的工具还有用于测序峰值识别的CisGenome、ERANGE、FindPeaks等,以及基于模型的工具如MACS、PeakSeq、SICER、SISSRs等。
ChIP-seq分析流程主要包括:
(1)质量控制:
有许多工具可以完成测序序列的质量评估,其中最受欢迎的是FastQC与PiCard。质量控制关注的问题主要有:①重复序列的百分比,DNA序列中不唯一的序列的比例,较高的重复序列水平可能说明有PCR引入人造的结果或DNA污染;②每条序列的GC含量,正常情况的GC含量应当和整个基因组的GC含量相似;③所有碱基的质量分数,一般情况下最后几个碱基的质量分数会下降,但当碱基的质量分数的下四分位数降低到Q20以下时,测序数据质量便存在问题;④kmer含量:查看有无类似接头序列等短序列多次出现,若存在,需要进行数据修剪。
(2)比对到参考基因组:
该流程有许多上述提到的软件,其中最常用的是Bowtie 2。基本上大多数比对软件都可输出每个读长比对到特定的基因组位置上的信息,以及相应的比对质量;比对后,可利用UCSC基因组浏览器(UCSC Genome browser)和整合基因组浏览器(Integrative Genomics Viewer,IGV进行结果的可视化;也可以利用生物信息学开源工具库Bioconductor包的trackable生成用户友好的可视化和动态的IGV报告。
(3)测序峰值识别:
基因组上的组蛋白修饰会以信号峰的形式被找出来,科研工作者们对一些连续的显示重要信号富集的碱基感兴趣。目前,有许多测序峰值识别的软件可从测序数据中获取富集区域即信号峰。例如:①一般的测序峰值识别工具,其中最成功的是基于模型的MACS,该工具继承了一些ChIP-on-chip数据分析的算法。②组蛋白特异的测序峰值识别工具,许多分析方法认为感兴趣的信号峰都是窄的,如在大量转录因子ChIP-seq数据中使用的方法。然而,就组蛋白标记而言(如组蛋白修饰酶、染色质重塑酶等),人们期望获得较宽区域的信号。因此,像SICER等方法便以发现宽泛的统计上显著的信号为主。当然,也有针对混合来源的宽和窄的信号峰都可进行获取的方法。
(4)信号峰分析:
基序(motif)发现即在信号峰中发现转录因子的结合位点。对转录因子的ChIP-seq数据,通过该步分析便可找到相关的转录因子基序;当进行组蛋白标记分析时,利用TRANSFAC或JASPAR可发现组蛋白相关的转录因子的基序并可对其特征进行分析。其他工具还有Homer、MEME软件系列及CisFinder等。通路富集分析:与基因表达分析类似,该步是为了揭露来源于信号峰的信号是否与特异的通路、疾病和基因功能等相关。其中一种方法是将信号峰比对到基因上,再进行传统的富集分析。ChIP富集可纠正基因长度,基因组区域富集注释工具(Genomic Regions Enrichment of Annotations Tool,GREAT)通过定义不同基因区域更正不确定的基因信号峰。
(5)比对到基因:
由于不同的组蛋白标记可能有不同的基因组定位,如信号峰可能和基因间区、启动子、基因区、内含子、外显子以及基因的起始位置相关。因此,将信号峰定位的具体位置可提供相关的机制。
DNA甲基化的测定方法有MRE、CHARM、MBD、MeDIP、WGBS、RRBS,以及如TCGA使用的基于芯片的Illumina甲基化450k芯片(human methylation 450 bead chip,HM450K)等。基本的DNA甲基化数据处理流程包括数据前处理、DNA甲基化水平的定量、常规分析、差异甲基化位点鉴定以及对甲基化组进行可视化。基于芯片的数据是利用荧光信号定量甲基化和未甲基化的相对含量。而来自于其他非亚硫酸氢盐转化方法的数据(如MRE-seq、MeDIP-seq),通常的分析是比较片段的相对含量。而对来自亚硫酸氢盐转化方法的数据(如WGBS和RRBS的数据),需要在单个胞嘧啶上获得甲基化情况,并且还需通过相应的统计检验获得不同样本甲基化的差异。因此,分析流程相对复杂。下面将以WGBS和RRBS数据分析为例重点介绍亚硫酸氢盐转化方法的数据。
亚硫酸氢盐测序数据的处理通常分为以下步骤,包括接头切割、读长的质量评估、将读长比对到参考基因组以及甲基化位点获取。其中,将亚硫酸氢盐转化读长进行比对最具挑战性。原因之一是转化降低了序列的复杂性,对称的C到T的比对较难;原因之二是亚硫酸氢盐转化只发生在碱基C上而不会在碱基G上,使得转化的两条链不再彼此互补。因此,为了解决该问题,开发出一系列比对及比对后分析工具。亚硫酸氢盐测序的比对工具大多基于以下两个算法中的一个:wild cards和three-letter wildcards。three-letter wildcards比对软件是在参考基因组中将所有的碱基C替换成T,这样含有碱基C和碱基T的读长都可以比对到参考基因组上;这种方法具有较高的基因组覆盖率,同时也会产生较高偏差的甲基化水平。然而,基于three-letter的比对软件将参考基因组中所有的碱基C转化成T,由于这样降低了序列的复杂度,标准的具有较低比对能力的比对软件也可以用于比对。BSSeeker2是一个基于three-letter的比对软件,它可以支持局部比对和移除可能未转化成功的读长。比对的结果也可以通过UCSC基因组浏览器、WBSA、IGV以及Methylation plotter进行分辨率达到单个碱基的全基因组的可视化。
以上比对软件会输出比对上的读长以及具有序列信息的每个碱基C的甲基化信息。例如,BS-Seeker2中的CGmap文件就含有该信息,用户可以根据覆盖率对输出位点进行过滤,以获得平均的甲基化水平用于一些常规的甲基化相关图表的制作;SAAP-RRBS可以提取每个碱基C的注释情况;MethGO可以将序列中的甲基化水平转化成平均甲基化水平,用于全基因组范围的图表制作,还可以提取单核苷酸多态性(single-nucleotide polymorphism,SNP)和拷贝数变异(copy number variation,CNV)。
WGBS和RRBS在每个碱基C上产生甲基化信号,因此可用于细胞中甲基化比例的评估。在比较分析中,可以利用统计检验发现差异甲基化位点(differentially methylated loci,DML)和差异甲基化区域(DMR)。对于无重复的试验,组内的偏差很难被去除,这将会对差异过度估计,从而产生较高的假阳性。
DMR是在两组样本中展示不同甲基化状态的基因组区域。DMR的鉴定主要依赖全基因组范围的扫描和统计检验。一般地,DMR检测的算法都是采用前述提到的在全基因组上进行窗口移动鉴定可能存在的DMR。最常用的检验方法是以CpG为单位进行Fisher精确检验。在DMR的鉴定中,由于每个样本覆盖率不一致,只有所有样本都有的位点才具有可比性。对于样本的比较,可以利用常规 t 检验的t分数(t-score)和 P 值( P value)进行甲基化的差异检验。BSmooth使用了β-二项模型分析具有重复样本的亚硫酸氢盐测序数据。在该模型里,观察组假设服从二项分布,而特异位点的甲基化比例可在样本间有所变动。对于某个位点,其差异可以很小,但只有存在且在一个区域间可延伸的位点方可作为潜在的DMR。因此,DMR具有更显著的统计结果和更多的信息。当弱的差异甲基化组进行比较时,检验范围可以从一个碱基C延伸至邻近的一簇碱基C,从而减少假设检验的个数,提高统计能力。另外,较弱的DNA甲基化差异最好通过评估生物学重复的标准差获得更有效的 P 值。
全基因组范围内检测开放染色质的方法有MNase-seq、DNase-seq、FAIRE-seq、ATAC-seq等。这些方法都是通过文库构建及二代测序得以实现。测序可产生大量的数据,许多分析工具可用于这些类型数据的分析。
下面将对各种方法统一分步骤进行描述。
整体上以上描述的所有检测开放染色质方法的分析步骤比较相似。简单来讲,具体的分析步骤包括:提取原始测序数据,将读长比对到参考基因组上,片段过滤及根据具体实验的测序数据进行质量控制。这一步骤的目的就是确定测序是否满足一定的覆盖率,准备比对好的BAM文件供下游分析使用。常规的比对工具如Maq、RMAP、Cloudburst、SOAP、BWA和Bowtie均适用于这些类型数据的比对。比对后,还需移除由于实验误差等导致的基因组中过度出现的区域。这一步骤可以使用SAMtools或Picard。值得说明的是,对于ATAC-seq数据,因为转座元件由于位阻(steric hindrance)而具有最小38bp的空间,所以还需要移除低于38bp的比对片段。对于ATAC-seq数据,还须去除比对到线粒体基因组上的读长。测序表现的质量控制在比对过程中便可进行,因为比对的结果对每个样本均可输出成功比对率、唯一比对率及多重比对率。
本步骤的目的是确定具体的检测试验是否成功,具体可通过可视化、复合图(composite plot)等实现。复合图可使用ArchTEx、DANPOS-profile和CEAS制作。ArchTEx可用于评估MNase-seq实验交联的正确度,成功的实验应具有同核小体片段长度一致的条带。ATAC-seq的质量控制可以进一步通过计算比对到线粒体基因组上的读长比例来评估。高质量的ATAC-seq数据应当具有较低的线粒体基因组比对率。原始片段及富集基因组区域的可视化也可利用UCSC基因组浏览器和IGV工具。UCSC基因组浏览器可提供大量的全基因组和外显子组测序数据、表观遗传相关的数据、基因表达数据、SNP数据、重复元件以及来自于ENCODE和其他研究项目的功能信息。UCSC基因组浏览器可以支持用户个人的整合数据,可支持的数据格式有BED、GFF及BAM等,因此,用户可以直接将自己的实验数据和公共数据进行比较。而IGV则更加高效,可在本地电子计算机上处理大容量的、多样的数据集。
(1)MNase-seq数据:
对于经典的MNase-seq实验,染色质开放性检测是通过非直接的方法进行的,即通过识别不受核小体保护的区域。目前流行的核小体鉴定方法有GeneTrack、模板过滤(template filtering)算法及DANPOS等。GeneTrack整合了高斯平滑和平均(Gaussian smoothing and averaging)的方法将每个基因组方向的检测结果转化成一个连续的概率分布。模板过滤算法利用一系列可以在MNase产生的核小体末端频繁匹配找到的序列分布,直接从比对数据中提取核小体位置、长度、占据率等信息。然而,目前的模板过滤算法由于内存限制只适用于最大12Mb的小型基因组。DANPOS与以上的方法都不同,它可以进行不同MNase-seq数据集间的比较,可根据占据改变和位置切换来发现动态的核小体。
(2)DNase-seq数据:
目前,应用最广泛的DNase-seq数据测序峰值识别工具有F-seq、Hotspot、ZINBA及MACS等。F-seq和Hotspot是专门为DNase-seq开发的。ZINBA可用于许多二代测序数据的测序峰值识别,ChIP-seq中使用的MACS在DNase-seq的测序峰值识别中也适用。
(3)FAIRE-seq数据:
对于FAIRE-seq数据,是将MACS扩展到了MACS2,MACS2可以很好地鉴定开放染色质的基因组区域。FAIRE-seq富集区域也可利用ZINBA进行检测。ZINBA可在较复杂的数据集中或在信噪比较低时提高检测准确度。对于信噪比较高的数据集,MACS和ZINBA表现一样良好。对于邻近的FAIRE-seq富集区域,通常会利用Bedtools将它们合并起来形成开放调节元件簇(clusters of open regulatory element,CORE)。形成开放调节元件簇有利于鉴定染色质的开放性及基因调节模式,因此有利于鉴别基因组范围内不易发现的区域。
(4)ATAC-seq数据:
ATAC-seq数据的测序峰值识别也可以用ZINBA。
(1)MNase-seq数据:
核小体定位可显示一群核DNA相关的核小体的位置。核小体占据可测试核小体群体的密度,可以通过群体定位曲线的下方面积反映出来。核小体占据和染色质开放程度紧密相关,并且依赖于一个基因组位点被所有基因组元件中的核小体占据的程度。利用MNase-seq数据,通过计算从每个bp起始的读长数,许多可用于测量核小体定位和占据的方法被开发出来。
(2)DNase-seq数据:
在DHS附近稳定结合的转录因子可以保护DNA免受核酸酶的切割,因此通过DNaseⅠ产生印记可用来揭露稳定结合的转录因子。因此,高覆盖的DNase-seq数据可通过检测转录因子结合的算法进行分析。之前的算法通过比较转录因子结合位点和邻近开放染色质的DNaseⅠ降解深度,已经找到了几百个转录因子结合位点。然而其中一些算法对哺乳动物基因组不够有效。最近发表的印记算法DNase2TF,可以更快地在大基因组中进行转录因子结合的评估,并且相对之前的算法具有更好、更有可比性的检测准确度。
(3)ATAC-seq数据:
分析ATAC-seq双末端数据可用DNase-FLASH在基因组分辨率下同时揭示核小体组装核定位的信息、核小体-转录因子的空间作用模式以及转录因子占据。
染色体构象捕获,由最初的单个位点水平的3C、4C到多个位点的5C、ChIA-PET及全基因组范围的Hi-C,将基因组结构与基因表达、SNP等关联起来。这里主要介绍Hi-C和ChIA-PET的数据分析。
随着测序深度的提高,为了检测整个基因组的茎-环结构及提高Hi-C分辨率,产生了大量的数据集。如其他全基因组测序数据一样,根据不同大小的基因组和分辨率Hi-C通常可产生数百万到数十亿的双末端测序读长。总的Hi-C数据分析流程包括:读长比对、片段分配、片段过滤、窗口分配、窗口水平过滤、权衡以及最后的数据解释利用和与其他数据的整合。目前已有许多稳定有效的、整合好的流程用于处理以上步骤,如HOMER、HiCUP及HiCdat等均可用于Hi-C数据的处理。HOMER提供了许多分析Hi-C数据的程序包和命令行。HiCUP也提供了一个完整的分析流程,以及可以最终获得验证的相互作用产物。利用HiCUP和SNPsplit程序可以提取等位基因特异的相互作用产物,而其他软件无法实现这一点。目前,利用最多的Hi-C数据处理包是基于Python库的hiclib包。
ChIA-PET产生的双末端测序数据可以利用ChIA-PET工具或统计模型进行分析。一般地,ChIA-PET数据处理包括7个步骤:①接头过滤;②PET比对;③冗余去除;④自连接的PET与相互连接的PET分类;⑤自连的PET结合位点分析;⑥相互连接的PET染色质间相互作用分析;⑦染色质相互作用数据可视化。第一步,接头序列将被比对到参考半-接头的核酸序列(half linker nucleotide sequences)上。半-接头可分为两类,分别称作A和B,除了测序标签(barcode)不一样外,A、B具有相同的序列。因此,根据接头的组成不同,可以将PET分成两类:相同接头的(AA或BB)和不同接头的(AB或BA)。之后,接头被从原始读长中移除,留下相应的DNA片段供后续分析。过滤掉接头后,短的DNA序列便可用BWA、Bowtie、Batmis或其他比对软件比对到基因组上。利用SAMtools和BEDrolls可以将冗余的和低质量的比对序列过滤掉。接下来,PET可以被分成自连接的与相互连接的两类。自连接的PET指的是来源于单个DNA的两个末端、形成环状的读长,它们可以被比对到同一条染色体上,且距离较短。而相互连接的PET指的是来自于不同DNA片段的读长,它们通常是两个配对读长被比对到不同的染色体上或同一条染色体上距离非常远的位置。自连接的PET可用来揭示基因组上的蛋白质结合位点,而相互连接的PET可以用来预测通过聚簇形成的染色体的相互作用。为了验证相互作用簇的存在,Li等人用基于超几何分布定量相互作用频率的Fisher精确检验进行了验证。Paulsen等人提出了一个基于无偏超几何分布的统计模型,该模型可以在估算 P 值时将基因组距离间有依赖关系的因素考虑在内。最后,Chia-Pet browser可以生成报告数据,将结合位点和相互作用簇进行可视化。
有许多生物信息学方法可以通过基因组序列的特征预测表观遗传信息。这种预测具有双重目的:首先,准确的表观基因组预测可以在某种程度上替代实验数据,可以和新发现的表观机制以及除了人和老鼠的其他物种关联起来;其次,预测算法通过训练集数据获得表观信息,建立统计模型。
活跃的启动子被定义为开放和活跃转录的染色质结构,并且展示了特异的表观遗传特性,如缺少DNA甲基化及富集组蛋白乙酰化等。在过去20年里,有许多启动子预测的方法被开发出来,大多数是利用DNA序列特征和机器学习的方法发现可能的启动子。
CpG岛预测和启动子预测具有一定的相似之处,因为在哺乳动物基因组中大多数启动子和CpG岛可共定位。然而,CpG岛作为开放染色质结构的调节子发挥着更加普通的功能。CpG岛预测比其他表观状态的预测容易,因为甲基化模式具有相对低的组织特异性。预测方式大多是利用机器学习的方法,建立一个分类器来区分给定区域出现或不出现甲基化的DNA,预测准确率较高。大多预测属性包括CpG富集的序列模式、特异的DNA结构特性和重复的DNA元件以及确定的转录因子结合位点等。
核小体的位置是根据DNA分子的序列组成会影响它们对核小体的亲和力来进行预测的。
此外,表观遗传信息预测还包括其他的一些预测。首先,利用支持向量机(support vector machine,SVM)以定长核苷酸串(k-mer)序列基序作预测属性,可以把DNase高度敏感的位点从随机控制数据集里识别出来。其次,可利用序列模式在果蝇体内预测多梳蛋白/果蝇胸板(polycomb/trithorax)反应元件。但该方法很难引入人类中,因为哺乳动物的多梳蛋白反应元件具有较少的序列模式。再次,许多基因组特性如序列基序、CpG岛、重复序列、预测的转录因子结合位点都可以作为预测属性,加上目前常用的基于支持向量机的数据挖掘流程,便可很方便地预测印记基因。最后,逃离X染色体失活的基因可以利用支持向量机进行预测,预测结果发现它们富集Alu重复序列和CpG序列基序。总之,大量的基因组区域都在其DNA序列上留下了明显的可以检测的表观遗传印记,因此可以很方便地利用机器学习等方法进行预测。
表观遗传组学研究有很多共同点,基本上是广泛描述性的研究居多,也有很多需要进行大规模扫描的研究领域。在此现状和需求的基础上,很多实验室甚至国家之间进行了大范围的合作,避免了重复研究,节约了人力、物力,提高了全世界范围内的研究效率。表观基因组的未来潜力是巨大的。除了推进基础研究之外,表观基因组还可以立即应用于诊断,而且由于表观基因的改变可能是可逆的,因此它也有可能应用于治疗。以下所列举的是几个具有较大影响的研究计划。
DNA元件百科全书(ENCODE)计划,于2003年由美国国家人类基因组研究所启动,旨在描述人类细胞的DNA调控元件和培养细胞系的表观遗传学特征。ENCODE计划的主要目标是:全面注释人类基因组中的所有功能序列。ENCODE已经发布了超过5 000个实验,涵盖近300种细胞和组织类型,包括人类、小鼠、果蝇和蠕虫的基因组数据。该项目的关键优势源于众多实验室在基因组专家协调下的协作,根据标准化协议大规模并行测序并利用尖端计算技术简化数据生产、处理和分析,并且使用一系列质量控制标准确保数据严谨,在数据协调中心的共同努力下免费公布。研究者可以通过Ensembl和UCSC基因组浏览器访问查询。ENCODE计划包含的子项目有:modENCODE、modERN、REMC和GGR项目。modENCODE项目定义了线虫和果蝇全基因组的功能序列元件,其数据库包含了基因结构域、mRNA和ncRNA的表达、转录因子结合位点、组蛋白修饰、染色质结构等内容;modERN是描述线虫和果蝇转录因子网络调控的百科全书项目;REMC是表观路线图谱绘图联盟,是发布NIH路线图的原始及可视化数据的组织;GGR是NIH新发起的项目,网站存放基因调控的基因组学数据元和原始数据。
ENCODE计划利用高通量测序技术,对人类基因组上所有具有调控功能的元件进行详尽注释,为科学界提供了丰富的资源。相关研究结果可参考ENCODE publications收集的文献。ENCODE对基因的注释包括了编码基因、假基因和转录因子结合位点。同时ENCODE也对转录物信息进行了注释,如转录起始位点(transcription initiation site)、可变剪接位点、poly(A)位点以及编码蛋白的基因序列转录方向等。ENCODE对顺式作用元件的注释包括启动子、增强子、沉默子和绝缘子等。这些调控元件调控了与分化、时间节律和特异性相关的基因表达。染色质解聚后顺式作用元件区域增加了对核酸酶的敏感性和可溶解性。ENCODE用DHS测序技术定义染色质的可访问区域,用转录因子和组蛋白修饰的ChIP-seq描述基因组转录的调控过程。这些可访问的开放位点、转录因子、组蛋白修饰与维持染色体的结构和染色体的完整性密切关联,不同细胞系中的调控和基因表达量具有特异性。其中,DHS是一段约200bp、甲基化程度较低的染色质开放区域,可以露出转录因子和重要蛋白质的结合位点调控基因转录。ENCODE计划共对人类125种细胞进行了全基因组数据分析,发现了近290万个DHS。约75%的DHS存在于内含子和基因间,提示这些“垃圾”序列是有功能的DHS,具有显著的细胞特异性,约1/3的DHS仅在一种细胞类型中存在,只有3 700个DHS是所有细胞类型共有的。调控元件数据库是依据DHS数据,预测目标基因DHS区域的调控因子。在SNP位点的非编码序列有多个重叠的功能注释,这些重叠的功能注释不能精细地反映这些序列和疾病的因果关系。因此,2015年ENCODE发布了基因组注释移位器工具软件(genomic annotation shifter,GoShifter)。这是一种新的统计方法,可以优化重叠的功能注释在疾病因果关系中的权重。例如,某疾病关键基因的SNP位点有组蛋白修饰、转录因子结合位点、DHS等多个重叠注释。GoShifter可以通过计算SNP和多个注释之间的相关性强弱,预测最重要的功能注释。
ENCODE在对DNA序列甲基化的研究中发现它可以改变染色质构象,影响转录因子和相关调控元件与目的基因的结合。组蛋白修饰也可以改变染色质结构,使远距离(1万到几十万个碱基)的增强子可以和启动子共同调节基因表达,ENCODE用5C技术定义了空间上相邻的启动子和远程调控元件之间的相互关联,并且绘制了干细胞分化时染色质的三维结构图。ENCODE数据拓展了人们对特定细胞中基因调控的认识和基因表达远距离调控的理解。此外,ENCODE利用免疫沉淀的技术研究RNA结合蛋白的结合位点,RNA结合蛋白在调控基因表达过程中调节mRNA转录,保持其稳定性及定位,起到重要作用。
2008年,美国国立卫生研究院将2.4亿美元用于表观基因组学路线图计划(roadmap epigenomics project,REP),以促进人类对重大疾病的了解。REP是表观遗传学研究的里程碑之一,可以用于发现新的药物靶点及新药研发。REP绘制了111个不同人类细胞和组织来源的表观遗传参考图谱,包括正常的干细胞和原代细胞,也包括重大疾病如肿瘤细胞系的表观遗传学图谱,在网络平台上提供了共享研究工具。REP计划完成人体所有细胞类型的表观遗传组学数据。这些数据可以分析不同个体的细胞特异性表观基因组的遗传变异,评价年龄和环境如营养、代谢对表观遗传调控的影响。REP中包含染色质免疫沉淀(ChIP)、DNA酶Ⅰ消化DNA(DNA digestion by DnaseⅠ)、亚硫酸氢盐处理(bisulfite treatment)、甲基化DNA免疫沉淀(MeDIP)、甲基化敏感的限制性内切酶法(methylation-sensitive restriction ndonuclease,MSRE)、RNA分析(RNA profiling)等数据。该数据库包含不同组织和分化细胞类型的表观注释(组蛋白修饰、DNA甲基化、DNA可访问性和RNA表达)、表观调控因子等信息。数据也关联了表观遗传学注释和基因多态性,可以帮助研究者了解疾病发生发展的基因调控关系。REP未来会提供更多细胞和组织表观参考图谱并提供高效的技术平台,用以研究生理、病理和环境的相互关系,推动生物医学研究,推动表观遗传学研究的组学化和高通量化发展。
1998年,欧洲的表观遗传学研究学者启动了绘制人类基因组启动子区域DNA甲基化图谱计划;1999年,人类表观基因组联盟(Human Epigenome Consortium,HEC)成立,开始了表观遗传基因组学的研究。人类表观基因组计划(human epigenome project,HEP)为人类组织和细胞系提供染色体DNA甲基化参考图谱的表观遗传资源。HEP绘制出人类基因组甲基化可变位点(methylation variable positions,MVP)图谱。MVP是指在不同组织类型或疾病状态下,基因组序列中甲基胞嘧啶的分布和发生的概率,反映了基因活性、组织类型和疾病状态,是揭示基因组动态状态的有用的表观遗传标记。与SNP类似,MVP为更好地理解复杂的人类疾病奠定基础。同样的科学计划还有BLUEPRINT Epigenome计划。
国际人类表观基因组联盟(International Human Epigenome Consortium,IHEC)主要提供人类健康和疾病相关的重要细胞类型表观组的高分辨率参考注释。2010年1月在法国巴黎召开的会议最终促成了IHEC的成立。IHEC主要研究人类复杂疾病相关的表观遗传调控,包括非编码DNA的遗传变异、信号通路,协调生物信息学标准、数据模型和开发分析工具,并组织、整合和发布所产生的表观基因组数据。其主要研究内容参见 Cell 出版社的IHEC门户网站。近年来表观遗传在癌症和炎症等重大疾病领域有很多令人兴奋的新发现。表观基因组结合其他生命组学方法(如蛋白质组学、代谢组学、转录组学和微生物组学)的分析数据有助于揭示疾病发生发展的规律。表观遗传学的变化也可以成为疾病的生物标志物为表观遗传治疗提供新靶点。这些生物标志物也可以应用到疾病诊断和个体化治疗领域。IHEC目前产出了一定数量的高质量参考表观基因组数据,未来还会将环境和老化的信息整合到细胞数据库中,目标是改善人类健康。中国科学院也启动了重点部署项目“中国人群精准医学研究计划”,而表观基因组的研究正是该计划重要的一环。经过科学家们的不懈努力,目前已经取得大量成果。大量研究数据表明,疾病和与性状相关的遗传变异体富含组织特异性表观基因组标记,揭示了与人类多种性状有关的生物学相关细胞类型,并提供了解释人类疾病分子基础的资源,证明了表观基因组信息对于理解基因调控、细胞分化和人类疾病的重要作用。