DNA测序是指分析特定DNA片段的碱基序列,即腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)的排列。DNA测序促进了生物医学的研究和开发,特别是在肿瘤的准确诊断和治疗方面。
1977年,Sanger等人发明了双脱氧链终止法,将有限量的不同双脱氧核苷三磷酸(ddNTP)加入反应体系中,并且由于不存在ddNTP延伸所需的3-OH基团而终止反应,可以调节每种单脱氧核苷三磷酸(dNTP)和ddNTP的相对浓度,以提供长度为几百至几千碱基的一组链终止产物。它们具有共同的起始点,但终止于不同的核苷酸,并且可以通过尿素变性的PAGE凝胶上的电泳检测不同大小的片段。Maxam和Gilbert放射性标记DNA片段的5'末端磷酸,使用不同的化学方法修饰和切割特定的碱基,产生不同长度的5'末端放射性标记的DNA片段,并通过凝胶电泳分离这些终止于特定碱基的DNA片段并进行放射照相显影,确定每个片段的碱基以确定目标DNA的序列。
1981年,日本日立集团开发了一种高通量自动测序仪。该设备整合应用了双脱氧终止法原理、荧光代替核素和计算机图像识别技术。从那时起,DNA测序技术经历了三次变化,产生了第二代到第四代高通量DNA测序技术,统称为新一代测序技术。
第一代测序技术主要是指传统双脱氧链终止法的DNA测序技术。原理是当核酸模板在DNA聚合酶、引物和四种dNTP存在下复制时,在四管反应系统中按比例引入四种ddNTP。由于双脱氧核苷不具有3'OH,只要双脱氧核苷结合到链的末端,链就会停止延伸,并且如果链端与单脱氧核苷结合,则链可以延伸。因此,在每个反应系统中合成一系列不同长度的核酸片段,每个核酸片段具有双脱氧基的3'末端。反应终止后,在4个泳道中进行凝胶电泳以分离不同长度的核酸片段,并且一个长度的相邻片段相差一个碱基。放射自显影后,可以基于片段3'末端的双脱氧核苷酸依次读取合成片段的碱基序列。
ABI基因分析仪使用毛细管电泳代替聚丙烯酰胺平板电泳。使用四色荧光染料标记的ddNTP,通过单引物PCR扩增的产物是在3'末端的4种不同荧光染料的单链DNA混合物,其相差1个碱基。这些PCR产物可以在单个毛细管中进行电泳,并且泳道之间的迁移率差异提高了测序的准确性。最后,激光探测器窗口中的摄像头可以逐个检测荧光分子,激发的荧光被光栅分开,以区分基底的不同颜色荧光。分析软件自动将不同的荧光转换为DNA序列。但是DNA样品中混杂的突变分子会形成碱基套峰,或者无法检测到,可以应用数字PCR扩增后进行测序确定。
焦磷酸测序技术是一种新型酶联级联测序技术,适用于已知短序列的测序和分析。该方法的主要特征在于引物与模板DNA退火后,在DNA聚合酶、ATP硫酸化酶、荧光素酶和腺苷三磷酸酶的协同作用下,通过检测荧光的释放和强度,将引物上每种dNTP的聚合与单一荧光信号的释放相结合,达到实时测定DNA序列的目的。焦磷酸测序反应过程在每轮测序反应中,仅向反应系统中加入一种dNTP。如果它恰好与DNA模板的下一个碱基配对,它将在DNA聚合酶的作用下添加到测序引物的3'末端,同时释放一分子焦磷酸(PPi)。在ATP硫酸化酶的作用下,PPi可与APS结合形成ATP,荧光素酶产生的ATP可与荧光素结合形成氧化荧光素,同时产生可见光。弱光检测装置和处理软件可以获得特定的检测峰值,峰值水平与匹配碱基的数量成比例。利用焦磷酸法设计的PyroMark Q24主要以24孔板形式进行定量甲基化和突变分析。
连接酶测序方法不使用DNA聚合酶,而是使用连接酶3'-XXnnnzzz-5'。在连接反应中,根据碱基互补规则,这些探针与单链DNA模板链配对。探针的5'末端用四种颜色的荧光染料CY5、Texas Red、CY3和6-FAM标记。在该8碱基单链荧光探针中,测定碱基1和2(XX)的碱基,根据类型,将不同的荧光标签添加到6~8的位置(zzz)。两个碱基决定荧光信号,相当于一次测定两个碱基,因此称为双碱基测序。当荧光探针能够与DNA模板链配对时,发射代表第一和第二碱基的荧光信号。碱基1和2的不同组合具有不同的荧光颜色。在记录荧光信号后,进行碱基5和6之间的化学切割,从而可以去除荧光信号以在下一个位置进行测序。
第二代测序技术(next generation sequencing,NGS)包括Roche的454焦磷酸测序技术、Illumina的Solexa聚合酶合成技术和ABI的SOLiD连接酶测序技术。NGS具有许多优点,例如通量高、测序时间短和成本低。
该技术使用焦磷酸测序原理将PCR反应的碱基(dNTP)的延伸与荧光信号的释放偶联,通过记录荧光信号的存在和强度来实现实时确定DNA序列的目的。在DNA文库的制备中,454焦磷酸测序系统使用喷雾法将待测DNA转化为300~800bp长的小片段,并在片段的两端添加不同的接头,或待测DNA的变性,然后使用杂交引物进行PCR扩增,从而连接载体,构建单链DNA文库。DNA扩增技术采用乳液PCR将这些单链DNA结合到直径约28μm的水-油包被的磁珠上,并在其上温育和退火。乳液PCR的最大特点是它可以形成大量独立的DNA扩增反应空间。与磁珠表面互补的DNA序列确保这些单链DNA序列可以特异性结合磁珠。在测序之前用聚合酶和单链结合蛋白处理具有DNA的磁珠,然后将磁珠置于PTP板上。板的44μm孔径只能容纳一个磁珠。将直径小于PTP板上的小孔的磁珠置于孔中以引发焦磷酸测序反应。释放的焦磷酸基团与反应体系中的ATP硫酸化学酶反应形成ATP,产生的ATP和荧光素酶在测序反应中共氧化以使荧光素分子发荧光,同时通过PTP板另一侧的CCD(charge coupled device)照相机记录。最后,计算机处理光信号并获得测序结果。
该技术的基本原理是将基因组DNA片段化,回收片段DNA并连接通用接头,将其加工成单链状态,然后通过补充芯片表面上单链引物的碱基固定到芯片上,另一端与附近的另一引物随机互补以形成“桥”,并且单个分子被重复扩增成单克隆DNA簇,扩增碱基的信号强度以实现测序所需的信号要求。在随后的测序反应中,同时添加接头引物,利用修饰的DNA聚合酶和具有特异性荧光标记的dNTP实现DNA合成和测序同时完成。在合成过程中,每个碱基的引入平行释放焦磷酸盐并发光作为提供给生物体的发光蛋白。基于不同碱基产生的不同荧光分析每个模板DNA片段的序列。
首先,待测DNA样品被超声波中断成200~500bp长的序列片段。通过向这些小片段的两端添加不同的接头构建单链DNA文库。当通过Flowcell时,文库DNA被随机附着到Flowcell表面的每个通道上,并具有许多连接器。桥式PCR使用固定在Flowcell表面上的接头作为模板,并扩增以形成浓缩的DNA束。
将DNA聚合酶、接头引物和具有碱基特异性荧光标记的四种dNTP同时添加到反应系统中。这些dNTP的3'-OH受到化学保护,因此一次只能加入一种dNTP。将dNTP加入合成链后,将洗脱所有未使用的游离dNTP和DNA聚合酶。然后,添加激发荧光所需的缓冲液,激光激发荧光信号,并由光学装置记录光信号。最后,计算机分析用于将光学信号转换为测序碱基。
该技术使用DNA连接酶在连接过程中读取序列,并使用双碱基编码技术将每个碱基批读两次,从而减少原始数据错误,提供内在的校对功能,该技术准确性高,原始碱基数据的准确性大于99.94%,在15X覆盖率时准确性可以达到99.999%,是第二代测序中最准确的技术。首先,破坏DNA并在片段的两端加入测序接头,连接载体以构建单链DNA文库;其次,与454焦磷酸测序技术类似地进行液滴PCR,但是这些磁珠比454系统小得多,仅1μm。PCR产物的3'末端在扩增时被修饰,并且3'修饰的珠子沉积在载玻片上。当珠子被加载时,沉积室将每个载玻片分成高通量测序区域。最后,使用8碱基单链荧光探针的混合物进行连接酶测序。在该8碱基单链荧光探针中,测定碱基1和2(XX)的碱基,根据类型,将不同的荧光标签添加到6~8的位置(zzz)。
第三代测序是一种单分子合成测序技术,不需要PCR扩增即可对每个DNA分子进行单独测序。第三代测序代表测序平台包括Helico BioScience单分子测序技术和PacBio的SMRT技术。
Helico BioScience单分子测序技术随机将待检测的序列分解为小分子片段,并在末端转移酶的3'末端添加polyA。在polyA的末端进行荧光标记和阻断,并将这些小片段与携带polyT的板杂交以获得模板已经杂交的位置,将合成时测序的位点添加到聚合酶中,并通过Cy3荧光标记的脱氧核苷酸进行DNA合成,并且一次仅添加一个脱氧核苷酸。然后,洗脱未参与合成的dNTP和DNA聚合酶,并直接成像Cy3以观察模板位点是否存在荧光信号。然后化学裂解核苷酸上的燃料,释放下一个脱氧核苷酸和聚合酶的混合物用于下一轮反应。
PacBio的SMRT技术使用SMRT芯片作为测序载体,主要原理是使用DNA聚合酶和模板结合,四种dNTP用四种颜色荧光标记。输入的碱基类型可以根据光的波长和峰值来判断。同时,这种DNA聚合酶是实现超长读取的关键之一。SMRT技术的测序速度非常快,每秒约10dNTP,测序读取长度可达10kb,但错误率达到15%,可通过多次测序进行校正。PacBio SMRT的单分子测序和超长读取是在零模式波导(ZMW)和核苷酸焦磷酸链上的荧光标记上实现的。SMRT细胞包含纳米级零模式波导孔,每个孔都可以包含DNA聚合酶和用于单分子测序的DNA样品链。并实时检测插入碱基的荧光信号。ZMW是一个直径仅为10~50nm的孔,仅在该区域中,碱基携带的荧光团被激活已被检测,极大地减少了背景荧光干扰。荧光染料在核苷酸的磷酸链上而不是碱基上标记。它减少了DNA合成的空间位阻,维持了DNA链的连续合成,并延长了测序阅读长度。
第四代测序技术,也称为纳米孔测序技术,A、T、C和G通过电泳逐个驱动单个分子通过纳米孔,四种不同的碱基存在电化学性质的差异导致其穿越纳米孔时所引起的电化学参数的变化量也不同。Oxford Nanopore Technologies的纳米孔测序技术的基本原理是在通过DNA分子或其组成碱基中的孔时检测受影响的电流或光学信号,使用α-溶血素构建生物纳米孔,并且外切核酸酶附着于孔的一侧的外表面。合成的环糊精充当共价键合到纳米孔内表面的传感器。该系统嵌入脂质双层中。在合适的电压下,外切核酸酶消化单链DNA,单个碱基落入孔中,并与孔中的环糊精短暂相互作用。影响流过纳米孔的电流,腺嘌呤和胸腺嘧啶的电信号非常相似。然而,胸腺嘧啶在环糊精中的停留时间比其他核苷酸长2~3倍。因此,每个基站的特征在于当前干扰幅度是唯一的。
基因组从头测序是没有或没有关于基因组序列的基因组信息的物种,对基因组DNA片段及其不同长度的文库进行测序,通过生物信息学方法进行剪接、组装和注释,从而获得物种的完整基因组序列图谱。以前,de novo测序主要使用毛细管电泳测序仪进行,该测序仪具有序列读取长和高准确性的特点。因此毛细管电泳测序和重叠一致拼接方法是从头测序项目的“金标准”技术规范。现在,de novo测序基于新一代测序技术,如454焦磷酸测序技术、Solexa聚合酶合成技术和SOLiD连接酶测序技术。这些不同测序平台产生的序列读取长度各异,通过一定的方法可以将这些数据组合起来从而经济、有效地完成复杂基因组的测序。从头测序的主要应用范围包括:①未参考基因组的未知基因组或物种的1个测序;②样本有可预期的、大的结构变异(癌细胞);③微生物测序(实验菌株,基因组的高可塑性)。
基因组重测序用于具有已知基因组序列的物种,并且重新测序的物体是在物种中具有不同性状的个体。通过个体或群体重测序和差异比较,可以建立物种变异数据库,探索驱动疾病发展的关键候选基因,探索疾病遗传进化等科学问题。重测序可分为全基因组测序(WGS)和简化的基因组测序。全基因组测序可以检测与全基因组水平扫描中的癌症性状等疾病相关的突变位点,其信息全面而准确,目前广泛使用的测序技术。基于消化的简化基因组测序,可以显著降低基因组的复杂性,降低测试成本并适用于大样本量的研究。该技术还可对没有参考基因组的样品进行测序,这可以为全基因组重测序技术进行深度信息挖掘奠定基础。
基因组的遗传变异主要包括染色体倒置(inversion)、单核苷酸多态性(single nucleotide polymorphisms,SNP)、小片段插入和缺失(insertion and deletion,InDel)、结构变异(structural variation,SV)、拷贝数变异(copy number variation,CNV)和转座子变异(transposon variation,TV)等。使用高通量测序技术对肿瘤基因组进行测序和分析,可以有效和准确地获得测试样品的全基因组遗传变异信息(图3-5-1)。
WGS使用鸟枪法建立一个文库,即通过Covaris超声波破碎器将DNA随机分解成350bp的片段,DNA片段经过修复、添加polyA尾部和测序接头、纯化和PCR扩增等步骤完成整个文库制备。使用IIIumina HiSeq测序平台对构建的文库进行Paired-End PE150测序。使用全基因组重测序技术进行突变检测,样本需要具有参考基因组,并且可以检测各种遗传变异信息。GBS是将基因组DNA进行酶切后加上带有标签序列的接头,对每个样品进行扩增,然后进行样品混合,选择所需片段进行文库构建。使用Illumina HiSeq测序平台进行双端PE150测序,通常捕获整个基因组序列的约1%,并且通过获得SNP信息分析基因分型。
图3-5-1 全基因组遗传信息
BSA为簇分离分析方法或混合组分析方法,是用于检测位于特定染色体区段上标记的方法,将群体(或家族群)与父母分离,在研究的目标性状中具有显著的表型差异,然后从分离的群体中选择具有目标性状表型极端的一定数量的个体,混合构建两个DNA“池”(DNA pools)。两个库之间的DNA差异片段是候选区域,并且感兴趣的基因或数量性状基因座(QTL)可以位于候选区域中。原理主要是与性状相关的遗传标记将显示两个库之间的多态性,并且具有远距离或未连接的靶基因的标记将在两个库之间显示随机杂合性。该技术允许更快地分子标记与性状相关,适合于优质性状基因或通过QTL对照的少数(2~3)主要性状基因座(图3-5-2)。当比较两个DNA库之间的差异时,通常应将父母的DNA作为对照以促进对实验结果的正确分析和判断。BSA-Seq是指从绘图群体中选择极端个体,然后是等量的混合样本,以形成两个DNA池,用于父母和子代的高通量测序。确定在父母和两个库中共享的SNP,计算两个混合DNA库中相同变异位点的基因型频率及差异,池之间标记的多态性由差异表示,从而实现候选基因定位。
遗传连锁图谱(genetic linkage map)是指同染色体上不同基因或特定多态性标记之间排列顺序的线图及其相对距离。它通常表示为在染色体交换过程中分离的基因或DNA片段的频率离心(cM)。1cM表示每次减数分裂的重组频率为1%。cM值越高,两点之间的遗传距离越远,越低说明两点之间的遗传距离越近。遗传图谱常用于QTL(quantitative trait locus)定位;获得与感兴趣的性状连锁的基因组片段,并进行基因的图谱克隆;或协助基因组装配以改善复杂基因组样本的从头全基因组精细图谱完整性;通过地图比较,还可以提供基因组进化信息,以探索待测样品的遗传进化过程。构建遗传图谱的三个主要步骤包括:①图群体构建;②多态性鉴定;③标记的连锁分析。
图3-5-2 BSA分析的遗传基础
全基因组关联分析(genome-wide association study,GWAS)是发现与人类复杂疾病相关遗传变异最有效的方法。将人类复杂疾病的研究从候选基因转向全基因组水平,以期用更大规模的检测获得与疾病相关的每一个基因。全基因组重测序是基因组测序和已知基因组序列种群的个体或群体差异分析的方法。基于全基因组测序的GWAS是研究疾病复杂性状的重要技术方法。GWAS具有两方面优势:①基因组内的多个性状定位。②定位精度高。GWAS定位精度可以达到单个基因水平,可以直接获得与目标性状相关的功能标记,然后直接使用功能标记筛选目标性状。
基于全基因组重测序技术的群体进化研究具有优势。首先,使用全基因组重测序技术可获得待测样品的基因组信息,并获得大量的变异信息,如SNP、InDel、SV和CNV。然后,基于SNP讨论种群遗传结构、基因交流、物种形成机制和种群演化动态的生物学问题。群体遗传多样性分析通过系统发育树,主成分分析和种群结构分析等各种分析方法相互验证。准确地对各亚群的亲缘关系及分化情况进行分析,为研究群体的进化历史提供科学依据。基因交流情况分析是通过研究各亚群遗传物质的来源及比重,对各亚群的基因交流情况进行探讨,并对各亚群可能的迁移路线进行推测,为揭示群体的表型多样性提供科学依据。功能基因挖掘是通过群体选择分析能够探究各亚群的多态性和分化程度,并挖掘到与重要性状相关的功能基因。群体进化动态分析是根据基因组变异信息,推测不同亚群的分化时间,估计有效群体大小在进化过程中的变化情况,为探讨各亚群的形成和进化规律提供科学依据。
转录组测序(RNA-Seq)是来自总RNA的单链mRNA和非编码RNA反转录获得双链cDNA,然后对其进行高通量测序分析,可应用于RNA测序、基因表达分析和小RNA测序识别。转录组测序可以从整体水平研究基因表达水平和基因结构,揭示特定生物过程中的分子机制;已广泛应用于基础研究、无创产前诊断和分子育种等领域。技术优势包括信号数字化、高敏感性,适用于任何物种的全基因组分析及具有检测范围广泛的特点。
对于甲基化DNA,通过亚硫酸氢盐处理将甲基化胞嘧啶转化为尿嘧啶,然后进行甲基化特异性PCR(MS-PCR)或PCR组合测序,也可以进行高通量的DNA测序分析。
基于新一代高通量测序平台,进行了全基因组DNA甲基化检测,检测具有低成本、高效率和高精度定位的特点。对特定物种的高精度甲基化修饰模式的分析必将成为表观遗传研究的里程碑。它还为研究细胞分化和组织发育、动植物育种及人类健康和疾病研究等基本机制奠定了基础。技术优势包括:①基因组范围内甲基化位点的定量分析;②单碱基分辨率高;③Bisulfite的转化效率达99%以上。
简并代表性亚硫酸氢盐测序(reduced representation bisulfite sequencing,RRBS)是一种准确、高效、经济的DNA甲基化研究方法,通过酶消化富集启动子和CpG岛区,并进行亚硫酸氢盐测序以实现DNA甲基化状态检测的高分辨率和测序数据的高利用率。DNA甲基化研究一直是疾病研究的热点,与基因表达和表型特征密切相关。其技术优势包括:酶促富集启动子区和CpG岛区的直接甲基化研究;高分辨率的DNA甲基化状态检测和高效的测序数据,有效增加测序深度;细胞RRBS测序可以与单细胞测序技术结合进行。
MeDIP甲基化测序(methylated DNA immunoprecipitation sequencing,MeDIPSeq)是基于抗体富集原理进行测序的全基因组甲基化检测技术,甲基化DNA共免疫沉淀用于通过5'-甲基胞嘧啶(5mC)抗体特异性富集基因组上的甲基化DNA片段。然后可以通过高通量测序在全基因组水平上研究高通量CpG密集的高甲基化区域。hMeDIP-Seq(hydroxymethylcytosine DNA immunoprecipitation sequencing)测序原理同MeDIP-Seq,使用5'-羟甲基胞嘧啶(5hmC)抗体特异性富集基因组上的甲基化DNA片段。5hmC是由10/11易位(TET)家族的酶氧化5mC产生的新发现的修饰碱基。5mC不仅降低了MeCP蛋白甲基化结合域(MBD)对甲基化DNA的亲和力,而且具有参与基因表达调控的潜在转录调节功能,并参与DNA去甲基化过程。
甲基化DNA富集并结合高通量测序(methylated DNA binding domain-sequencing,MBD-Seq)通过用MBD2b或特异性结合甲基化DNA的5'-甲基胞嘧啶抗体富集高度甲基化的DNA片段起作用。结合第二代高通量测序,对富集的DNA片段进行测序以检测全基因组甲基化位点。技术优势包括:①基于抗体富集方法,利用抗体的高敏感性和高特异性;②可用于富集与甲基化相关的蛋白抗体,进一步研究甲基化变化的具体机制;③最接近ChIP-Seq甲基化研究方案的原理,便于用ChIP-Seq进行整合分析。
研究发现,信使RNA上的腺嘌呤存在甲基化修饰(m6A)。这种m6A修饰非常常见,并且以每个mRNA 3~5个残基的频率发生。m6A的甲基化和去甲基化由甲基化酶复合物METLE3、METLE14、WTAP和去甲基化酶FTO调节。对于mRNA甲基化的检测主要采用甲基化mRNA富集并结合高通量测序(m6 A-specificmethylated RNA immunoprecipitation with next generation sequencing,MeRIP-Seq)方法。哺乳动物中的mRNA甲基化通常发生在腺嘌呤的第6个氮原子上,因此,可以通过特异性结合m6A抗体富集高甲基化mRNA片段并结合第二代高通量测序来对富集的mRNA片段进行测序。由此,检测整个转录组范围内的甲基化位点。
ChIP-Seq技术将染色质免疫沉淀(ChIP)与NGS相结合,原理是:首先,通过ChIP特异性富集靶蛋白结合的DNA片段,并纯化和构建文库;其次,将富集的DNA片段进行高通量测序。通过精确地将获得的数百万个序列标签映射到基因组,研究人员获得了与整个基因组中的组蛋白,转录因子等相互作用的DNA片段信息。技术优势包括:①结合第二代测序,在全基因组范围内在基因组上搜索转录因子,表观修饰酶或DNA结合蛋白的结合位;②研究生物原位状态下蛋白质-DNA相互作用的技术;③广泛用于表观遗传学,转录调控和癌症研究。
是一种研究RNA和蛋白质在细胞中结合的技术。它是了解转录后调控网络动态过程的有力工具,可帮助我们发现miRNA的调控目标。RNA免疫沉淀(RPI)-Seq技术将RIP与NGS相结合,可全面了解癌症和其他疾病中RNA的变化。RIP-Seq技术的原理:通过抗体沉淀相应的RNA-蛋白质复合物,分离并纯化,然后对与复合物结合的RNA进行高通量测序。技术优势包括:①研究整个转录组基因组内的RNA结合蛋白和RNA相互作用网络;②利用抗体的敏感性;③原位研究活细胞的RNA结合蛋白和RNA相互作用。
紫外交联免疫沉淀(crosslinking-immunoprecipitation,Clip)结合高通量测序,即CLIPSeq,又称为HITS-CLIP。它是一种革命性的技术,揭示了RNA分子与全基因组水平的RNA结合蛋白的相互作用。主要原理是基于RNA分子和RNA结合蛋白在UV照射下的偶联,并且RNA-蛋白质复合物通过针对RNA结合蛋白的特异性抗体沉淀,回收RNA片段,通过添加接头和RT-PCR进行这些分子的高通量测序。经过生物信息学分析和处理,总结和挖掘其具体规律,揭示了RNA结合蛋白和RNA分子的调控及其对生命的意义。技术优势包括:①研究整个转录组基因组内的RNA结合蛋白和RNA相互作用网络;②活细胞原位研究RNA结合蛋白和RNA相互作用;③通过UV交联可以增强UV结合强度,从而可以识别实际结合的短序列。
根据富集策略,NGS可分为靶向扩增子测序(targeted amplicon sequencing,TAS)和目标序列捕获测序(target capture sequencing,TCS)。TAS技术旨在使用多重PCR扩增和富集为靶基因设计数十对甚至数百对PCR引物。代表性的方法有标记扩增深度测序(tagged-amplicon deep sequencing,TAM-Seq)。TAM-Seq是预先扩增为靶区设计的引物,产生覆盖整个区域的扩增子,末端重叠,同时扩增突变DNA片段和野生型片段;然后,通过单重PCR选择性扩增具有突变的扩增子区域以排除非特异性产物;最后,在扩增产物两端加上测序接头及特异性的标签序列(barcodes)进行单端测序。TCS技术专为目标基因而设计,并通过混合捕获进行丰富(CAPP-Seq)。CAPP-Seq主要利用现有肿瘤基因突变数据库,设计特异的探针,利用该探针构建ctDNA文库并进行深度测序,分析测序结果以分析ctDNA基因变异。
为了提高ctDNA检测的敏感性和特异性,研究人员开发了Duplex UMI-ctDNA测序技术。分子条形码,也称为独特分子指数(UMI),在文库构建和PCR扩增后一起进行测序。根据不同的标签序列,可以区分来自不同来源的DNA模板以区分真正的遗传突变和由PCR扩增和测序中的随机错误引起的假阳性突变。基于以上原理,将独特的标签序列添加到每个原始DNA片段中,从而提高检测敏感性和特异性。
双链双标签双重纠错技术(DSDC)又称mi-Seq技术,是通过对DNA双链体的两条链进行双标签独立标记和测序。在双重测序中,双链DNA片段的两端侧接随机但互补的双链核苷酸标签序列。通过比较通过对两条链中的每条链进行双重测序而获得的序列,可以将测序错误与真实突变区分开。DNA双链体的两条链是互补的,因此真正的突变位于两条链中的相同位置。相反,PCR或测序错误仅在一条链上引起突变,因此可被认为是技术错误。从而mi-Seq能大大提高现有测序技术的准确率和敏感性(图3-5-3)。
图3-5-3 DSDC检测技术原理
2009年开发了单细胞转录组测序技术,随后于2011年开发了单细胞基因组测序技术。2013年,开发了单细胞全基因组DNA甲基化检测技术。2017年,美国俄勒冈的研究人员开发出一种单细胞组合标记测序技术(single-cell combinatorial indexed sequencing,SCI-Seq),多次对细胞进行条形码编码标记后对它们进行测序,可以同时构建上千个单细胞文库,检测体细胞拷贝数的变异。同年,北京大学开发一种新型的单细胞全基因组线性扩增的方法(LIANTI),将基因组经含有T7启动子的Tn5转座子随机片段化,T7启动子允许线性扩增,进而实现转座子插入进行线性放大。此外,单细胞多组学测序技术(sc-COOL-Seq)可以实现单细胞同时染色质状态/核小体定位、DNA甲基化、基因组拷贝数变异的分析。
(郑华川,凌志强)