CRISPR可编码CRISPR来源的RNA(CRISPR-derived RNA,precrRNA)和反式激活crRNA(trans-activating CRISPR RNA,tracrRNA),prerRNA序列的重复区域,其与tracrRNA序列互补结合,从而介导prerRNA加工和释放成熟crRNA。成熟的crRNA与tracrRNA结合形成单一的指导RNA(sgRNA),sgRNA序列中20bp序列可以在基因组中找到所需的靶序列。靶序列与sgRNA互补配对成功则可激活Cas9蛋白识别靶基因上游的PAM(protospacer-adjacent motifs),从而导致蛋白构象发生改变,发生靶DNA的双链断裂,并且通过非同源末端连接修复或同源重组来编辑基因。
CRISPR/Cas系统首先在细菌的天然免疫系统中被发现,主要用于抵抗入侵病毒或外源DNA。1987年,当日本学者研究大肠埃希菌编码的碱性磷酸酶基因的编码区时,在下游区域发现29bp重复片段和32~33bp间隔片段连接的重复序列。即所谓的“成簇的规律间隔的回文重复序列”。2002年,该序列正式被命名为CRISPR。
CRISPR/Cas系统由CRISPR(包括前导序列、重复序列、间隔序列和回文重复序列)、Cas蛋白和一些非编码RNA组成。前导序列是与转录相关的保守序列,位于CRISPR的上游。原始间隔区位于原型间隔区相邻基序的两侧,并在细菌免疫的第一阶段产生间隔序列。间隔序列由病毒或质粒的核酸衍生而来,常被作为识别元件去寻找与之相匹配的序列并摧毁它。回文重复序列对于间隔序列在基因座的位置和方向起决定性作用。tracrRNA位于CRISPR相关基因Cas和前导-重复-间隔区阵列链的相反方向,介导prerRNA的成熟以获得crRNA。
Cas蛋白质复合物是由CRISPR基因附近的基因簇编码的结构域,有核酸酶、解旋酶、整合酶、聚合酶等,以及各种RNA结合蛋白质特性的结构域。由于Cas蛋白复合物与CRISPR序列共同进化和相互作用,因此将其命名为CRISPR相关基因。在原核基因组中,目前有超过40个Cas蛋白家族,它们在外源DNA的crRNA形成、整合和切除中起重要作用。
依据CRISPR/Cas系统中Cas蛋白的种类和同源性,该系统被分为Ⅰ~Ⅴ型,后两型为新引入的类型。此外,可根据Cas编码的效应子复合物,将其分为“1”类和“2”类。1类系统具有多个crRNA复合物亚基,而2类系统效应复合物均为Cas9。根据Cas蛋白操纵子基因的组成和结构,三种类型的CRISPR系统进一步分类为Ⅰ-A、Ⅰ-B、Ⅰ-C、Ⅰ-D、Ⅰ-E、Ⅰ-F、Ⅰ-U型;Ⅱ-A、Ⅱ-B、Ⅱ-C型和Ⅲ-A、Ⅲ-B、Ⅲ-C、Ⅲ-D型。
当病毒侵入时,CRISPR/Cas系统Cas1和Cas2编码的蛋白质扫描外源DNA并识别病毒的原始间隔区(PAM,由NGG的三个碱基组成并找到原始的间隔序列),然后截取原间隔序列,并且在其他酶的帮助下,将原始间隔序列插入相邻CRISPR序列的前导区域的下游。DNA修复后,将打开的双链缺口闭合。通过这种方式,新的区间序列被添加到基因组的CRISPR序列中(图3-8-1)。
图3-8-1 外源DNA的俘获
目前的研究发现,CRISPR/Cas系统有三种方式(Ⅰ型、Ⅱ型、Ⅲ型)识别外源DNA的切除。TypeⅠ、Ⅲ由于参与的蛋白众多,需要几个复合物共同作用才能发挥作用,它们不宜操作和改造。CRISPR/Cas9系统是Ⅱ型,是最成熟和最广泛使用的类型。当病毒侵入时,CRISPR序列在引导者的控制下转录两个RNA:pre-crRNA和tracrRNA。其中,pre-crRNA是从整个CRISPR序列转录的大RNA分子,tracrRNA是从重复区域转录的发夹样RNA。随后,pre-crRNA、tracrRNA及Cas9蛋白将会进行组装。它将根据病毒DNA选择相应的间隔RNA,并在RNase Ⅲ的帮助下切割,最终形成短的成熟crRNA(含有单一类型的间隔RNA和部分重复区域);然后,crRNA、Cas9及tracrRNA组成复合物(图3-8-2)。
图3-8-2 crRNA合成
Cas9是一种核酸酶,可在组装Cas9/tracrRNA/crRNA复合物后精确切除外源DNA。该复合物将扫描整个外源DNA序列并识别与crRNA互补的原始间隔序列。此时,复合物将定位于PAM/原始间隔区序列,并且DNA双链体将被展开以形成R-Loop。crRNA将与互补链杂交,而另一条链保持游离。随后,Cas9蛋白的HNH结构域核酸酶活性将切割与crRNA互补的DNA链,而其RuvC结构域活性位点将切割非互补链。最终,外源DNA双链断裂(DNA double strand break,DSB),病毒被排除(图3-8-3)。
图3-8-3 Cas9蛋白的HNH酶活性剪切
最新的CRISPR/Cas9系统由两部分组成,一部分是核酸酶Cas9,可以切割基因,另一部分是精确定位的sgRNA。sgRNA将CRISPR/Cas复合物引导至靶基因的位点,并且Cas9蛋白切割靶基因。当CRISPR系统引发双螺旋DNA断裂后,可通过非同源末端连接(non-homologous end joining,NHEJ)或同源定向修复(homology directed repair,HDR)两种修复方式来实现基因编辑(图3-8-4)。
图3-8-4 CRISPR/Cas的剪切与修复
Cas13(C2c2)于2016年由张峰实验室发现,该实验室不仅在单一crRNA的指导下切割ssRNA或mRNA,而且还具有非特异性的ssRNA的切割功能,使用Cas13和可猝灭的ssRNA报道基团的混合RNase活性,通过重组酶聚合酶扩增(RPA)步骤快速检测单个DNA或RNA分子。在crRNA的指导下,Cas13识别并结合靶RNA序列,刺激其对周围ssRNA分子的非特异性切割。活化的Cas13切割可猝灭的荧光RNA,产生指示靶RNA存在的可量化信号。为了提高分析的敏感性,样品的DNA或RNA首先经过RPA或RT-RPA扩增。RPA与T7转录结合并直接将扩增的DNA转化为RNA,用于随后的Cas13检测。它检测血清、尿液和唾液中的低浓度病毒,并确定病毒载量以区分不同菌株;还对人类DNA进行基因分型,并识别游离DNA中的低频癌症突变。此法被命名为SHERLOCK(specific high-sensitivity enzymatic reporter unlocking)法(图3-8-5)。
SHERLOCK也存在一些限制。第一个限制是量化,因为系统依赖于DNA的预扩增,这导致报告基团饱和。SHERLOCK v2在预扩增步骤中使用较少的引物,以在不影响敏感性的情况下实现更好地定量。SHERLOCK的第二个限制是它依赖于荧光,这需要额外的设备来获取数据。因此,研究人员改进了SHERLOCK v2,以便切割报告组可以被测试条检测到。通过测试条上的条带数,可以确定目标DNA或RNA是否存在于特定样品中。SHERLOCK v2是一种具有高敏感性和高特异性的核酸检测方法,并且快速、便携、易于使用。未来具有广阔的应用前景,包括临床诊断(如病原体或病毒检测)、治疗和基因分型。
图3-8-5 SHERLOCK法原理
Cas12a(Cpf1)是CRISPR/Cas核酸酶的一种变体,与Cas9一样能够切割dsDNA。然而,Cas12 a识别不同的PAM位点,催化其自身指导RNA的成熟,并在dsDNA切割后产生5'和3'交错末端,使其特别适合于基因编辑。在crRNA靶向靶dsDNA后,Cas12a也以非特异性方式切割ssDNA。这种非特异性的转换显示了多次周转事件(每秒约1250次)。于是,Doudna实验室便利用Cas12a的DNA酶活性开发出高度灵敏的DNA检测平台DETECTR(DNA endonuclease-targeted CRISPR trans reporter)。
DETECTR通过crRNA靶向特定DNA序列,例如人乳头瘤病毒(HPV)基因组。同时,加入ssDNA-荧光猝灭(FQ)报告基团,其在ssDNA降解时产生信号。为了提高敏感性,首先通过RPA扩增DNA。当Cas12a-crRNA与目标dsDNA配对时,Cas12a的DNase活性启动。随后,周围的ssDNA被降解,包括ssDNA-FQ报道基团,并且荧光信号的释放表明存在或不存在感兴趣的DNA。
研究人员已利用DETECTR方法来检测HPV。DETECTR可在一小时内准确区分人类细胞中两种相似的HPV亚型,如HPV 16和HPV 18(图3-8-6)。
图3-8-6 DETECTR法原理
研究人员建立了一种鉴定CRISPR/Cas9构建的突变细胞株的方法——基于竞争的PCR(cbPCR)原理。首先设计3条引物,一对引物分别结合于突变位点的上下游,称之为“外引物”,所扩增产物称之为“外扩增子”。第三条引物覆盖了Cas9剪切位点,称之为“内引物”,与下游“外引物”共同扩增产物称之为“内扩增子”,使其能够鉴定纯合突变克隆。内引物Tm值不超过60℃,3’端自剪切位点延伸3个碱基。当3条引物共同进行PCR反应时,内外引物互相竞争底物(dNTPs),当一条模板链同时结合了上游外引物和内引物时,内引物会阻止外引物延伸,外扩增子还可以作为内扩增子的模板,反之则不可。当gDNA来自突变型时,内引物结合效率低下,竞争平衡向外引物倾斜,所得外扩增子比例远高于内扩增子。PCR产物电泳可见一条清晰的较长的外扩增子片段。而当gDNA来自野生型时,内扩增子比例增高,PCR所得产物电泳,可见一长一短两条信号都略弱的内外扩增子片段。该技术可用于鉴定基因序列中的点突变。
通过CRISPR/Cas9方法建立的模式动物的等位基因突变无法通过传统的PCR方法鉴定,为确切鉴定小的插入缺失突变,人们开发了PCR连接检测反应技术。设计用于小插入缺失的引物和由CRISPR/Cas9方法编辑的已知等位基因的单核苷酸突变序列,包括:5’端磷酸化的普通引物,结合于待测等位基因下游,5’端磷酸化为进一步的连接做准备;等位基因特异性序列探针,在25’末端具有荧光基团。
当待测位点为野生型时扩增产物可以通过LDR反应与下游普通引物的扩增产物连接,形成长片段扩增产物,而发生突变时荧光引物无法向下游扩增,其产物则无法与下游普通引物的扩增产物连接,最终产生一种带有荧光的短片段产物和不带荧光的短片段产物。野生型与纯合敲除型各自获得一长、一短的荧光扩增产物,而杂合型产生不同长短的两种荧光产物。在电泳后获得不同长度的、有荧光的条带,从而鉴定基因型。
研究人员通过这种方法成功鉴定了Asxl3敲除小鼠和斑马鱼的基因型。相较Sanger法测序、T7内源性核酸酶I(T7EI)、HRMA、等位特异性PCR(ASPCR)、限制性片段长度多态性(RFLP)和Surveyor法(Cel1)等方法,该方法允许更快和更容易地鉴定由CRISPR/Cas9方法建立的模型小动物中的插入或缺失突变。
检测突变DNA是精准医学的关键,但是低频DNA突变是很难检测到的。有学者研发的CRISPR/Cas9结合阻断PCR技术,精准度与T7EI检测类似。该方法首先以PCR扩增目的DNA,利用体外转录获取Cas9蛋白和sgRNA对PCR产物进行切割,设计阻断引物以阻断PCR,并最终计算靶片段的突变率。笔者利用此方法检测EGFR和HBB体细胞突变,基于CRISPR/Cas9断裂PCR方法的突变检测率为1%~10%,结合阻断PCR的突变检测率可达0.1%。
基于Cas9核酸酶,Cas9/sgRNA用于切割目的DNA,反向PCR用于检测靶DNA,称为CRISPR/Cas9结合反向PCR技术(CRISPR-or Cas9/sgRNAs-associated reverse PCR)。该方法利用设计特异性的sgRNAs靶向识别目的DNA,引导Cas9截取目的片段,待Cas9失活后利用T4连接酶使目的片段首尾连接,分子内或分子间连接,反向PCR引物的设计和目标片段的PCR扩增。该方法已用于宫颈癌细胞中HPV16和HPV18的DNA检测。
基于Cas9核酸酶对靶向DNA进行简单、特异、敏感的检测和分型的PCR技术,称为Cas9-sgRNA/CRISPR分型PCR(ctPCR,Cas9-sgRNA-or CRISPR-typing PCR)。该方法首先使用通用引物PCR(用于检测靶DNA的PCR1)来扩增DNA片段,然后特异性sgRNA/Cas9切割扩增的DNA片段。将切割后的DNA片段两端添加polyA尾,最后利用特异性的引物(general-specific primers,gs primer,PCR2),进行分型扩增目的片段。使用ctPCR检测和分类13种高危HPV中的HPV16和HPV18 L1基因。还检查宫颈癌细胞和组织HPV16和HPV18中的L1和E6-E7基因。
CRISPR多态性与肠出血性大肠埃希菌的血清亚型相关。因此,研究者利用rfbEO157、stx1、stx2和eae建立四联CRISPR阵列并进行实时PCR检测,该方法检测E.coli O157:H7的阳性率为97.2%,而stx和/或eae的阳性率为78.2%。
基于dCas9/sgRNA的DNA-FISH系统可快速诊断耐甲氧西林金黄色葡萄球菌(MRSA)。首先将Ecoli BL21 Rosetta 2(DE3)转化带有Cas9基因质粒,扩增并诱导其表达Cas9蛋白,提取纯化后得到Cas9蛋白,合成靶向特异性序列,在T7启动子序列和支架模板特定序列之间整合约20bp长的sgRNA的DNA模板,通过PCR扩增sgRNA编码模板并在体外转录成RNA。切割MRSA菌株,提取基因组DNA,并将靶向Cas9-sgRNA的基因组DNA复合物与Ni-NTA磁珠一起温育。行Pull-Down实验,洗脱后加入SYBR Green I(SGI,DNA荧光染料)进行定量检测。由此方法衍生出的改良Microarray方法可以获得同样的检测结果,具体如下:His标签Cas9-sgRNA复合物被预制在Ni-NTA处理后的环氧功能化载玻片上,将MRSA基因组DNA滴在载玻片上孵育后加入SG I后检测荧光信号。该方法更简便、快速和高度敏感。
固体纳米孔是用于疾病检测的潜在生物传感器平台,通过dCas9介导的纳米电流体动力学实现靶基因的液体活检。具体原理如下:dCas9复合体中含有sgRNA可与靶基因的原间隔相邻的PAM附近DNA结合,dCas9复合体一旦结合PAM附近的DNA链,根据纳米电流体动力学则会降低其流动速度造成堆积现象。但当DNA序列与sgRNA出现不匹配时,dCas9复合体则不会结合DNA,游离的DNA泳动速度则要快于dCas9复合体结合的靶基因。将待测体液与含有dCas9复合物的纳米颗粒一起温育。将孵育好的混合液体滴加到纳米电泳装置的阳极区,电泳后经过显色装置显色1~10分钟,即可判断体液中的靶基因含量。
(郑华川)