购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

第二节
转录组分析方法以及数据分析策略

目前进行转录组学数据分析研究时,一般应用两种技术:一种是芯片技术;另一种是高通量测序技术。

一、基于基因生物芯片技术的转录组学分析

基因芯片(gene chip)的原型在20世纪80年代中期提出,是测量基因表达水平的技术手段之一。利用类似于计算机集成芯片的特点,在一块基片表面固定大量序列已知的DNA或寡核苷酸探针,形成密集排列的探针阵列,应用碱基互补配对基本原理,当检测液体中带有荧光标记的核酸序列与基片上对应位置的核酸探针产生互补配对时,用特殊扫描仪检测信号强度确定荧光强度最强的探针位置,检测到一组序列完全互补的探针序列,据此可重组出靶核酸的序列。根据固定核酸探针的基片和方法不同,大体有三种主要类型:①固定在聚合物基片尼龙膜或硝酸纤维膜等表面上的核酸探针或cDNA片段,通常用同位素标记的靶基因与其杂交,通过放射显影技术进行检测;②用点样法固定在玻璃板上的DNA探针阵列,通过与荧光标记的靶基因杂交进行检测;③在玻璃等硬质表面上直接合成的寡核苷酸探针阵列,通过与荧光标记的靶基因杂交进行检测。

经20多年的发展,目前常见和广泛使用的基因芯片有cDNA微阵列和Affymetrix公司生产的基因芯片。cDNA微阵列在1995年由斯坦福大学(Stanford University)研究成功。它的方法如下:①提取生物细胞、组织或血液中的mRNA;②质检合格的mRNA逆转录成cDNA,用荧光素进行标记;③标记过的cDNA与芯片中的探针进行杂交,杂交结束后进行洗脱染色;④最后用激光显微镜检查杂交后的芯片,扫描取得荧光图形,进而得到cDNA芯片上每一点的荧光强度值,利用荧光的信号强度值分析样本中mRNA的表达水平。早期,因为该技术与过去传统的检测RNA表达水平的方法相比较,具有高通量的独特优势,被广泛使用在基因表达和基因功能检测等方面,但由于这种芯片上探针长度不等,点样量不好控制等原因,逐渐被更先进的基因芯片(Affymetrix公司)所取代。

2004年Affymetrix公司基于原位光刻合成技术推出了基因芯片。Affymetrix原位光刻合成技术的原理:①先将基片支持物羟基化,并用对光敏感的保护基团将羟基基团保护起来;②选取特制的光刻掩膜覆盖在基片上,遮挡不需要合成的部位,暴露需合成部位;③当光通过蔽光膜照射到基片上,需要合成探针的部位透光,受光照射部位的羟基脱保护而活化;④加入3’端活化(5’羟基末端连接光敏保护基团)的单一一种核苷酸单体底物后,发生偶联反应;⑤在一轮反应之后更换另一张蔽光膜控制活化区域,并换另一种核苷酸单体实现在待定位点合成预定序列寡聚体。通过以上技术可以达到在每平方厘米基片上合成超过400万的探针,且具有特异性极高、重复性好、灵敏度高等特点,广泛应用于DNA或RNA转录组高通量分析。

人类全转录组芯片2.0(human transcriptome array 2.0,HTA2.0)芯片是Affymetrix公司2013年5月研发出来的全转录组芯片,此芯片包含700多万条探针,28万条全转录物,包括24万条编码转录物和超过4万条非编码转录物,其中70%的探针覆盖于编码转录物的外显子,30%的探针覆盖于外显子与外显子之间的剪接位点连接和非编码转录物,可用于基因表达、可变剪接检测。另外,该芯片还收录了大量ncRNA片段,可用于ncRNA转录物的检测。后续Affymetrix公司推出了专门分析miRNA转录组的Affymetrix miRNA 4.0基因芯片和组合分析mRNA、lncRNA和circRNA的Affymetrix Clariom D基因芯片,极大地推进了高通量、高效和精确分析全转录组的基因芯片技术的发展。除Affymetrix基因芯片外,其他主流的基因芯片品牌还有Illumina芯片、Agilent芯片和Roche NimbleGen芯片。

经30多年的发展,基因芯片检测技术和后期分析方法成熟,在一张芯片上可以分析mRNA、lncRNA和circRNA等不同种类RNA分子表达情况,实现了快速获得准确的高通量大样本数据信息。但由于基因芯片技术是基于以已知序列信息设计探针,以碱基互补杂交,通过荧光表达来进行序列分析和丰度评判,因此该技术只能检测已知的且丰度较高的RNA,对未知的、新的RNA进行检测时只能选用高通量测序分析技术。一般情况下芯片和测序技术的检测效果类似,具有很高的一致性和可重复性,但随着技术和设备等多方面不断优化以及生物信息学的不断发展,涌现出一系列更先进的测序平台,高通量测序技术愈加广泛地应用于高通量转录组分析领域。

二、基于RNA测序技术及转录组学分析

高通量测序技术又称下一代测序技术(next-generation sequencing,NGS),属大规模平行测序,它是将DNA或者cDNA随机片段化、加接头、制备测序文库、通过对文库中克隆进行延伸反应、检测对应的信号,最终获取核苷酸碱基序列信息的技术。此技术与之前的基因芯片等技术不同,具有通量高、成本低、灵敏度高的特点,可以获得低表达丰度且不局限于已知的基因组序列信息,适用于未知基因组序列的物种,不需要克隆的步骤,操作简单和应用领域更广。

应用高通量测序技术研究细胞和组织中转录物的种类和表达量的研究统称为RNA-seq,此技术经10多年发展,已成为研究分子生物学的普遍工具,快速推动了包括基因组和转录组学研究的发展。

(一)高通量测序平台的发展历史

高通量测序技术的发展已经历3代。20世纪70年代,出现的第一代测序技术(first generation sequencing techniques)实现了对核酸序列进行测序,有读长(reads)长和精度高的优点。目前,在序列的重测序、突变位点的检测等相关研究当中仍在应用。但是,第一代测序方法由于通量小、成本高,不能应用于深度、高通量测序、基因组测序等大规模的测序,使其应用前景受到了明显的制约。随着研究方法技术的改进,2005年454生命科学公司(之后被Roche公司收购)首先推出了第二代测序平台Genome Sequencer 20,它是基于焦磷酸测序的,并测定了支原体的基因组序列,打开了第二代测序技术(second generation sequencing techniques)的序幕,同时加速了转录组学研究的发展。相比第一代测序技术,该技术测序时间和成本大幅下降、测序通量大幅提高。二代测序平台主要包括454生命科学公司推出的454测序技术、Illumina公司和美国应用生物系统公司(Applied Biosystems,ABI)公司相继推出的Solexa和Solid测序技术等。其中Illumina公司的Solexa技术,即边合成边测序(sequencing by synthesis,SBS)技术发展迅速,HiSeq系列的测序平台逐渐成为第二代测序技术中最被广泛应用的平台。SBS的方法,是将提取的核酸片段切断为几百bp大小后,加上接头和测序引物等序列,经聚合酶链式反应(polymerase chain reaction,PCR)扩增后建成文库,在含有接头序列的芯片上对文库进行反应。每个反应循环中,标记4种荧光染料的碱基通过互补碱基配对加入到单分子的合成中,通过电荷耦合器件(charge coupled device,CCD)集序列上的荧光信号,读取测序片段的碱基序列。

第三代测序技术(third generation sequencing techniques)也叫单分子测序技术(single molecule sequencing),具有超长读长(平均读长10~15kb,最长读长可达60kb),PCR扩增偏向性及GC偏好性的特点,被认为是进行全基因组从头拼接(de novo assembly)、全长转录物测序及表观遗传学测序的理想测序平台。由于第三代测序技术在测序时没有经过模板扩增,测序信号荧光信号较弱,所以具有在碱基识别时产生随机错误,单碱基检测的准确率也较低等缺点。目前第三代测序技术主要有Helico BioScience公司的HeliS-cope技术和Pacific Biosciences(PacBio)公司的单分子实时测序(single-molecule sequencing in real time,SMRT)技术等。目前高通量测序平台以第二代测序平台为主,第三代测序技术初具雏形,第四代测序技术处在探索开发阶段,从标准的RNA-seq衍生出来的RNA-seq已达到100多种。

高通量测序分析原理上可以对已知和未知核酸序列建库来测序分析,因此在挖掘样品中新的RNA和新的RNA突变或间接转录物时,建议使用高通量测序技术。由于高通量测序技术是序列测序后进行拼接比对分析,才能获得RNA的信息,因此在探测获得低丰度和稀有突变的RNA时可能导致信息丢失和不准确的问题,准确度不如芯片技术高。

(二)不同种类RNA的高通量测序

如前所述,RNA包括mRNA、rRNA、tRNA及其他的ncRNA,不同种类RNA之间特别是ncRNA与mRNA结构不同,因此对mRNA和ncRNA进行RNA-seq分析时,具体方法上有所不同。但大致都包括三步标准流程,即提取RNA构建测序文库,在高通量测序平台对文库进行测序和数据分析。

以mRNA、miRNA、lncRNA和circRNA为例简单介绍它们RNA-seq的测序步骤。

1.mRNA高通量测序

mRNA的共同特点是在3’端均具有多腺苷酸poly(A)的结构。利用mRNA的这一特点,带有多聚胸腺嘧啶[poly(T)]的磁珠能够选择性地纯化、富集出特定组织或细胞在特定时空条件下转录出来的全部mRNA,mRNA被随机打断并反转录成cDNA或者先进行反转录后再随机打断,之后在文库各片段两端加上测序接头,进行高通量测序。根据测序得到的mRNA序列,可以精确地比对至参考基因组序列上,从而判断外显子与内含子的边界。对于无参考基因组的物种,通过对序列进行从头拼接,得到转录物具体的序列信息。通过对不同物种、不同发育阶段的不同组织中的转录组进行研究,可以发现基因转录的物种特异性和时空差异,为深入理解物种及其性状的分子机制提供转录组水平的线索。

mRNA的RNA-seq技术的测序流程大致包括以下步骤:①提取总RNA及poly(T)小磁珠纯化mRNA;②筛选RNA测序片段,采用超声波或者酶切等技术将纯化的mRNA链随机打断为测序片段,通过特定技术筛选特定长度范围的RNA测序片段;③RNA测序片段反转录为cDNA;④末端修饰及加低聚腺嘌呤核苷酸接头连接;⑤纯化连接产物及分选片段大小;⑥上机进行高通量测序分析。

2.miRNA高通量测序

小RNA是指长度在20~50nt的RNA分子,包括miRNA、siRNA、snoRNA和piRNA等,这些RNA通过参与mRNA降解、抑制翻译、促进异染色质形成和DNA表观修饰等多种途径来调控生物学过程。其中miRNA的高通量分析研究得最多。miRNA是一类由内源基因编码的长度约为22nt的非编码单链RNA分子,它与靶基因的3’非翻译区(3’-untranslated region,3’-UTR)部位结合位点结合,通过降解靶基因mRNA或抑制mRNA的蛋白翻译,在转录后翻译水平抑制靶基因的蛋白表达。每种mRNA的3’端有数个不同种类miRNA的结合位点,并且每种miRNA可作用于数种靶基因mRNA。根据这些miRNA 3’端均无poly(A),5’端磷酸基和3’端羟基的结构不同特点,连接测序接头并筛选miRNA测序文库进行测序。进行miRNA测序时,通常将miRNA进行分离,单独建立小片段文库后再进行单向测序。

miRNA的RNA-seq技术的测序流程大致包括以下步骤:①提取总RNA及去除rRNA以纯化RNA;②取总RNA,制备RNA混合物,加热打开RNA二级结构;③3’端接头连接,逆转录引物杂交;④5’端接头连接;⑤逆转录为cDNA,PCR扩增文库;⑥回收140~150bp大小PCR产物,上机进行高通量测序分析。

3.lncRNA测序

lncRNA是一类长度在200nt以上,具有mRNA样结构,通常在5’端有一个7-甲基鸟苷(m7G)的帽子,3’端可能携带poly(A)的尾巴,但无编码蛋白质功能的RNA分子。lncRNA可以通过染色质重塑(chromatin remodeling)、转录调控及转录后加工等多种层面实现对基因和蛋白的表达的调控。由于部分lncRNA含有poly(A)尾结构,因而在mRNA的测序结果中往往包含部分lncRNA序列信息。

lncRNA的RNA-seq技术的测序流程大致包括以下步骤:①提取总RNA及去除rRNA纯化RNA;②RNA片段化处理并反转录为cDNA;③cDNA的末端低聚腺嘌呤核苷酸加尾,并进行与RNA接头连接;④纯化连接产物及分选片段;⑤PCR文库扩增和纯化;⑥上机进行高通量测序分析。

4.circRNA测序

circRNA是一类由mRNA前体(pre-mRNA)经反向剪切形成的、具有闭合环状结构的内源性ncRNA。circRNA与线性RNA不同,形成不具有典型的5’帽子和3’端poly(A)尾巴的头尾相接的共价闭环结构,不容易被RNA酶降解,比线性RNA更稳定,具有高度保守性和稳定性。circRNA大致可分为外显子来源circRNA和内含子来源circRNA。由于大多数circRNA位于蛋白编码基因序列内,主要由外显子组成,一种理论认为circRNA主要是由RNA聚合酶Ⅱ(RNA polⅡ)转录,并通过不同的剪切方式形成。其中,外显子来源circRNA可由pre-mRNA通过套索驱动环化(外显子跳跃及内含子互补驱动环化)的方式剪切形成。以外显子跳跃的方式所形成的circRNA可由单个或多个外显子组成。内含子circRNA,通过内含子直接剪切成环或者通过RNA结合蛋白和反式作用因子驱动的方式环化形成。目前研究认为,外显子circRNA主要在细胞质中充当miRNA海绵作用,调节miRNA下游的靶基因表达水平,内含子circRNA则主要在细胞核内促进母基因的表达。

circRNA的RNA-seq技术的测序流程大致包括以下步骤:①提取总RNA,去除rRNA以纯化RNA;②核糖核酸酶R(RNase R)等处理去除线性RNA;③RNA片段化处理并反转录为cDNA;④cDNA进行末端修复、接头连接,进行片段大小选择;⑤特异性降解cDNA第二链,PCR文库扩增和纯化;⑥上机进行高通量测序分析。

5.全转录组高通量测序

细胞和组织中的mRNA的表达和翻译受miRNA、lncRNA和circRNA的协同调控,定量分析某时间或空间状态中特定细胞或组织中生物分子和信号之间复杂的网络和调控关系时,需要对整个转录组中全部的RNA分子进行定量和定性分析研究。全转录组测序能够测定特定样品中全部完整的转录信息,包括mRNA和ncRNA(miRNA、lncRNA和circRNA等)。根据RNA结构和特点,全转录组测序时从标本中将总RNA提取后去除rRNA和DNA污染,然后将纯化的RNA分为2部分或3部分,如前所述的方法分别建立2个文库(mRNA+lncRNA+circRNA的文库和miRNA文库)或3个文库(mRNA+lncRNA文库、circRNA文库和miRNA文库)。

通过全转录组测序数据,不仅能获得所分析的不同种类RNA的转录物表达谱,对差异表达的不同RNA分子进行鉴定和注释,还可以通过对RNA分子之间的互作调控网络的生物信息学分析,从整体上全面分析特定时间和空间状态下细胞或组织的生物学特征。

(三)高通量测序数据分析及分析流程

通过高通量测序获得数据后,接着对原始数据进行预处理、读长比对、过滤、归一化(normalization)、转录物组装和转录物的预测等数据处理流程,才能进行后续的数据分析。

虽然每种RNA高通量测序后都将进行相关的测序数据的评估和质控,但由于每种RNA的结构和生物学作用方式和特点不同,因此评估和质控后每种RNA相关的数据分析内容有很大差异(表4-1)。却也都涉及相关种类RNA的表达水平、表达差异、基因富集分析。

表4-1 不同RNA高通量测序数据分析流程

在这里对每种RNA高通量测序数据的分析中常用的分析结果展示方式进行简单介绍,包括:重复相关性检查、样本间距离层次聚类分析、样本间聚类热图、表达差异可视化分析、差异表达基因聚类热图、差异基因表达聚类分析、差异基因功能注释、差异表达基因京都基因和基因组数据库(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路图。

1.重复相关性检查

生物学重复是任何生物学实验所必需的,高通量测序技术也不例外。生物学重复主要有两个用途:一个是证明所涉及的生物学实验操作是可以重复的且差异不大;另一个是为了确保后续的差异基因分析得到更可靠的结果。样品间基因表达水平相关性是检验实验可靠性和样本选择是否合理的重要指标。相关系数越接近1,表明样品之间表达模式的相似度越高。

2.样本间距离层次聚类分析

使用统计算法Bray curtis,计算样本间距离,距离反映样本间总体特征分布上的差异。然后进行层次聚类(hierarchical clustering)分析,构建树状结构,得到树状关系形式用于可视化分析。

3.样本间聚类热图

样本间聚类热图能通过颜色直观地展现样本与样本之间的距离关系,即样本与样本之间的相似程度。

4.表达差异可视化分析

表达差异分析可以通过多种表现形式呈现,主要有:散点图、火山图和MA(M-versus-A plot)图。这几种呈现形式都能从宏观上展示组间差异基因的多少与上调基因和下调基因的个数。

散点图可以直观地反映出两个测量值之间的关系,基因在两个组中的测量值用点表示在坐标系中,通过散点图可以观察到基因在两个样品中是否有差异,以及差异的明显程度(图4-1)。

图4-1 差异表达基因散点图
纵轴和横轴表示各组样本基因的每千个碱基的转录每百万映射读取的片段数(fragments per kilobase of exon model per million mapped fragments,FPKM)值(log2转化),红点代表396个表达上调基因(up regulated genes),绿点代表658个表达下调基因(down regulated genes),灰点代表12 191个无差异(not differential expressed)基因。两条斜虚线划分出上、下调基因(1.5倍差异)和无差异基因的界限。(Test3,实验组;Control2,对照组)

图4-2为火山图,图中显示两组样本数据的显著性差异,由在分析中常用得到的 P 值(统计学差异显著性检验指标)以及基因在两组样本中的倍数差异值(基因在两组样本间的表达差异倍数,正负能够反映该基因在两组样本间的上下调)共同绘制,展示了基因和转录物在不同比较组间表达量的变化倍数情况,可宏观展示两组样本间基因变化情况。

图4-2 差异表达基因火山图
横轴表示log2倍数变化值,纵轴表示对 P 值进行-log10的转化的值。纵向2条绿线分别为上调基因(右侧)和下调基因(左侧),绿色平行线对应 P 阈值。绿点代表差异显著的下调基因,红点代表差异显著的上调基因,灰点代表非显著差异基因。

MA图用于展示标准化的好坏,高表达的基因和低表达的基因分布趋势应相同,样本间表达差异趋势不随基因本身表达量大小而发生偏向。

5.差异基因聚类热图

可以衡量样本或基因之间表达的相似性(图4-3)。聚类图中,横坐标代表样本聚类,一列代表一个样本,聚类基于样本间基因表达的相似性,样本间基因表达越接近,靠得越近,以此类推。纵坐标代表基因聚类,一行代表一个基因,聚类基于基因在样本中表达的相似性,基因在样本中表达越接近,靠得越近,以此类推。色阶代表基因表达丰度,红色代表该基因表达上调,绿色代表该基因表达下调。

6.差异基因表达聚类分析

将有显著差异的基因进行表达模式聚类分析,可以有效地发现不同基因间表达上的共同点,可以根据表达上的相似性推测基因功能的相似性。

7.差异基因功能注释

基因本体论(gene ontology,GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表来全面描述生物体中基因和基因产物的属性。GO总共有三个方面,分别描述基因的分子功能(molecular function,MF)、细胞组分(cellular component,CC)、参与的生物过程(biological process,BP)。如图4-4所示GO的基本单位是项(term),每个条目有一个唯一的标示符,由GO加上7个数字组成(例如GO:0072669);每类ontology的条目通过它们之间的联系构成一个有向无环的拓扑结构。

图4-3 差异基因表达量聚类热图
图中每行代表一个基因,每列代表一个样本,颜色表示基因在样本中相对表达量的大小,红色代表该基因表达上调,绿色代表该基因表达下调(A1、B1和C1是一个组3个样本;A3、B3和C3是另一个组3个样本)。

图4-4 差异基因GO注释分类柱状图
GO分析(BP、CC、MF)结果中差异最显著的前10个GO条目条形图。按照 P 值从低到高排列,纵坐标表示对 P 值进行-log10的转化的值。[特别兴趣组Go项的差异表达基因(Special Interest Gorup GO terms of differental expressed gene,sig Go terms of DE gene);富集分数(Enrichment Score)]

京都基因和基因组数据库(Kyoto Encyclopedia of Genes and Genomes,KEGG)是一个生物系统较完善的数据库,整合了基因组、化学物质和系统功能信息。其中的KEGG GENES数据库搜集了所有已知的完整的基因组的基因序列和蛋白序列,包含每个基因的最低限度信息。KO(KEGG ORTHOLOG)系统将各个KEGG注释系统联系在一起,KEGG已建立了一套完整KO注释的系统,可完成新测序物种的基因组或转录组的功能注释。

蛋白相邻类的聚簇(clusters of orthologous groups of proteins,COG)和真核直系同源组(EuKaryotic Rrthologous Groups,KOG)是NCBI的基于基因直系同源关系注释系统,其中COG针对原核生物,KOG针对真核生物。COG/KOG结合进化关系将来自不同物种的同源基因分为不同的直系同源簇,目前COG有4 873个分类,KOG有4 852个分类。来自同一直系同源簇的基因具有相同的功能,这样就可以将功能注释直接继承给同COG/KOG簇的其他成员。

选出差异基因后,研究差异基因在注释功能中的分布状况,并将在基因功能上阐明样本差异。

8.差异基因KEGG通路图

KEGG通路图利用图形将代谢途径以及各种途径之间的关系展示出来,可以使研究者对其所要研究的代谢途径有一个直观全面的了解。将差异基因在对应的通路上进行标注可以直观地反映基因表达差异在代谢通路中所产生的影响。

(四)长读长cDNA的RNA-seq

一般以常用的RNA-seq进行高通量测序分析时,将转录物打断成较小的片段,将其重新组装合成的cDNA长度小于200bp,每个样本会检测到平均2×10 7 ~3×10 7 条读长,数据经过处理后,使用这些读长对每个转录物进行定量,最后用统计学方法来统计基因的差异及进行相关的信息学分析。因此以上介绍的RNA-seq是属于短读长RNA-seq。短读长RNA-seq的技术方法很成熟,已成为基础的RNA-seq技术。人类转录物的长度范围为109~186kb,其中50%转录物长度大于2 500bp。应用短读长cDNA的RNA-seq通过打断成较小的片段、合成cDNA、测序和重新组装等一系列步骤,可以对超过200bp、高度可变的转录异构RNA进行全长分析,但由于组装错误的存在,RNA-seq很可能无法获得完整的转录物,因而难以准确表征异构体的多样性,同时也存在分析数据偏倚、准确性低等问题。现在的长读长RNA-seq技术解决了短读长RNA-seq的缺点。

目前,长读长RNA-seq技术包括PacBio公司的Iso-seq(isoform sequencing)技术和Oxford Nanopore-Technologies(ONT)公司的RNA-seq技术。以PacBio的Iso-seq技术为例,它可以读取最高达15kb的转录物的全长cDNA。在标准的Iso-seq分析中,提取RNA后无需打断RNA分子,将提取的RNA被模板转换逆转录酶(template-switching reverse transcriptase)反转录为全长的cDNA,再经过PCR扩增,构建单分子实时文库进行后续的测序。对PacBio Iso-seq和ONT的RNA-seq技术进行比较发现,无论是在基因表达水平还是剪切水平分析上,前者有更好的重复性、更多的转录物检出量和更少的非全长转录物检出量,且对新转录物的发现有更好的检出效果。除依赖RNA合成为cDNA进行长读长RNA测序外,ONT还开发了不经cDNA合成直接对RNA进行测序的纳米孔测序技术。这种技术成为直接测序技术(direct RNA sequencing,dRNA-seq),不仅避免了在常规建文库中出现的偏倚问题,还能保留表观遗传学信息。研究表明,dRNA-seq的测序长度在1~10kb范围,并提高了对异构体的检测,有利于对可变poly(A)进行分析。因此dRNA-seq的技术越来越受重视。

长读长RNA-seq技术还不完善,存在通量相对低、错误率高以及更长转录物的覆盖率低等问题。这些不足可以通过与短读长RNA-seq联合应用的方法予以弥补,以获得更全面、准确的转录组分析结果。随着技术和方法的成熟,长读长RNA-seq可以更准确地分析全长转录物,在转录物新异构体、融合转录物以及在其他复杂的转录物分析中发挥重要的作用。

三、单细胞转录组测序

在过去,错误地认为细胞个体特征与群体特征是一致的,在这一观点的引导下,学者们一直关注于特定正常或病变组织宏观水平的研究而非构成组织的细胞。随着LCM、荧光激活细胞分选法(fluorescenceactivated cell sorting,FACS)和单细胞转录组测序(single-cell RNA-sequencing,scRNA-seq)等技术的发展,已有足够的证据证明,细胞的异质性是生物组织的普遍特征。20世纪70年代就已发现,肿瘤中存在的细胞亚群具有异质性。肿瘤细胞的异质性是指构成实体肿瘤的不同细胞之间具有不同的基因型和表现型,这种差异决定了肿瘤增殖能力、侵袭能力和药物敏感性的不同,最终会影响到肿瘤患者的诊断、治疗以及病情进展。这一发现极大地推动了肿瘤学研究的进展。正常组织即使是相同类型的细胞受到周围微环境的影响也会存在基因表达的差异,并且细胞的发育是一个动态过程,处于不同阶段的同一细胞基因表达也不尽相同。以大脑星形胶质细胞为例,之前一直认为占大脑细胞20%~40%的星形胶质细胞虽然在细胞形态和功能上有所差异,但归类为同质的细胞群。可是scRNA-seq结果发现,整个大脑不同区域的星形胶质细胞在细胞形态、功能、生理学特点、来源以及对疾病的反应并不一样,显示出细胞异质性。因此,scRNA-seq技术的发展以及此技术在分子病理学中的研究必将越来越受关注。

scRNA-seq文库构建流程主要包括单细胞提取、细胞裂解、mRNA反转录、cDNA扩增及文库构建等。

(一)单细胞分离

scRNA-seq是利用优化后的高通量测序技术在单细胞水平对全转录组进行扩增与测序的一项新技术。自2009年,首次应用scRNA-seq以来,这项技术已发展成为研究复杂生物体系细胞异质性的有效方法。其原理是将分离的单个细胞的微量的全转录组RNA进行扩增后进行高通量测序。其中单细胞的提取和获得是关键的第一步。在组织中分离细胞进行scRNA-seq时,首先结合机械分离和胶原酶联合DNase消化的方法制备有大量单细胞的悬液,然后应用FACS和微流控等技术分离单细胞。先用显微操作在高倍显微镜下观察细胞的形态和颜色特征,人工操作挑取单个细胞的方法分离获得单个细胞,常用于从培养的细胞系、早期的胚胎细胞和固定组织切片中提取单个细胞。此方法有难度较大、耗时较长和产出率较低等缺点。FACS具有全自动和高通量的特点,适合用于初始细胞量较大样品,并不适用一些稀有细胞群体中细胞的分离。微流控技术是在微米级通道中分离、捕获单个细胞,可以用于稀有细胞的筛选,该方法反应体系小、样本需求量小、节约试剂、减少污染,因此,微流控技术被认为是目前单细胞分离的最好方法。还可以应用LCM通过调整激光光斑的大小从活细胞培养物和新鲜冷冻组织中分离单细胞进行scRNA-seq。

(二)建立cDNA文库及测序

获得单个细胞后,全基因组扩增是scRNA-seq的关键步骤。由于单细胞裂解后用于扩增的起始RNA量通常只有10pg左右,因此最大的难点在于如何尽可能完全地捕获起始样本中的目标RNA,将微量的由RNA反转录的cDNA扩增到测序仪所要求的最低量,且在经过多个循环后仍具有高度保真性。为此不同的scRNA-seq技术采用不同的cDNA扩增方法:mRNA-seq方法采用通过末端DNA转移酶在新合成的cDNA的3’末端加上一串A或G,然后用多聚寡核苷酸T或C做引物合成其互补链;Smart-seq、Smart-seq2和单细胞标记反转录测序(Single-Cell Tagged Reverse Transcription,STRT-seq)等方法采用模板转换的方式合成互补cDNA链;细胞表达线性扩增测序法(Cell Expression by Linear Amplification and Sequencing,CEL-seq)法在合成第一链之后,通过引入RNA pol合成互补cDNA链;SMA法用随机的寡核苷酸引物合成互补cDNA链。通过上述方法扩增建立的cDNA文库可以用于下一步高通量测序。以下简单介绍Smart-seq2步骤:①单细胞裂解后,通过ploy(T)抓取细胞mRNA;②加入逆转录酶反转录PCR(Reverse Transcription PCR,RT-PCR)合成第1链;③SMARTerⅡA引物结合到逆转录出来的第1链上,SMARTscribe RT逆转录酶催化作用下继续转录反应,得到5'端与SMARTⅡA扩增引物序列互补的延伸序列;④加入常规PCR引物,进行常规PCR扩增,建立cDNA文库;⑤测序。Smart-seq2技术测全长的转录物,分析更详细的RNA-seq数据时,建议使用Smart-seq2技术建立文库进行分析。

2015年诞生液滴测序(Dropret-sequenceing,Drop-seq)和索引液滴测序(indexing droplets for sequencing,inDrops)新技术,两者除生成微珠方式和一些技术细节外,其他步骤基本一样。以Drop-seq为例大体步骤是:①利用微流体装置依次将带有DNA条形码(barcode)的单个微珠与单个细胞悬液共同封装在一个水凝胶球中;②细胞裂解,释放的mRNA与引物杂交被液滴中微珠上的条形码标记;③打破液滴,PCR扩增附着于微珠的单细胞转录组;④高通量测序分析,通过条形码来推断每个转录物的原始细胞;⑤测序。Drop-seq和inDrops技术极大地降低了单细胞测序的成本并提高了测序效率,据报道Drop-seq在7min内能完成100~80 000个细胞的捕获。研究人员以Smart-seq、CEl-seq、单细胞RNA条形码测序(Single-cell RNA barcoding and sequencing,SCRB-seq)和Drop-seq分别对479个小鼠胚胎干细胞(ESCs)进行了scRNA-seq分析比较,结果发现Smart-seq灵敏度最高,CEL-seq最精确,SCRB-seq和Drop-seq最为高效。

目前,常用的scRNA-seq商业化的测序平台有10X Genomics和BD Rhapsody平台。10X Genomics采用的是Drop-Seq技术,Chromium单细胞3’解决方案(Chromium Single Cell 3’Solution)是基于10X Genomics平台,能够一次性分离、并标记500~10 000个单细胞,在单细胞水平进行基因表达检测。BD Rhapsody则采用独创的单细胞测序(Cyto sequencing,Cyto-seq)蜂窝板技术,该技术需使用20万以上的微孔,该数量级远大于输入细胞数量,以保证单孔中的单细胞捕获,细胞捕获完成后进行细胞裂解,后续进行用RNA的poly(A)序列抓取细胞中的mRNA以及进行文库的建立和测序。

目前,开发应用的SMAR-seq和Drop-seq技术合成得到是mRNA信息,缺失ncRNA如lncRNA和miRNA等信息,因此,以此技术开发的scRNA-seq分析仅限于mRNA转录组的高通量分析。应用scRNA-seq分析ncRNA的技术的开发有待深入和优化,不久的将来,scRNA-seq分析有望覆盖包括mRNA、lncRNA和miRNA等全转录组。 hq5L+INXyD1IFklnsBCMSvLplb6sjX56s228Hj5THiaoSyAiHn+UzWPw0hFaMcp2

点击中间区域
呼出菜单
上一章
目录
下一章
×