合成生物学智能化设计与应用最新章节_滕越著

1.4 主要技术方法

合成生物学的主要技术方法包括DNA合成、DNA测序、DNA组装、基因编辑、密码子扩展、非细胞合成以及定向进化等。本节将重点介绍DNA合成、DNA测序、DNA组装、基因编辑和定向进化。

1.4.1 DNA合成

DNA 合成（DNA synthesis）技术是指按照预定的核苷酸序列，将脱氧核苷酸逐个进行人工链接合成DNA的方法，使人们可以从信息和原始化学物质出发，在不依赖DNA模板的情况下直接构建遗传物质。高通量、快速、低成本的DNA合成是合成生物学领域的核心技术。

DNA合成一般采用固相亚磷酰胺三酯法，这种方法具有高效、快速偶联等优点，已在DNA化学合成中得到广泛应用。其反应过程主要是单个碱基经过保护基（deblocking）、活化（activation）、连接（coupling）、封闭（capping）和氧化（oxidation）5个步骤连接到位于固相载体的DNA片段上，重复上述步骤可获得DNA粗片段，对粗片段再进行切割、脱保护基、纯化，即可得到目标DNA片段。合成的DNA片段构建到质粒中，并转入细胞进行复制。

除此之外，DNA合成的方法还有柱式合成和酶促合成。柱式合成方法具有可合成任意序列、准确性高等优势，但其通量较低，无法满足未来DNA合成需求；酶促合成方法具有低成本、高保真、高效率等优势，但相关技术尚未成熟，其发展存在一定的不确定性。

近年来，DNA微阵列原位化学合成法得到了飞速发展和广泛应用。这种方法是在固相亚磷酰胺三酯法的基础上，整合分子生物学、微电子学、光电化学等学科的相关技术，实现DNA序列的并行高通量合成。DNA合成技术使研究人员可以在缺少DNA模板的情况下“从头开始”设计与合成DNA分子，进而在不同维度上实现基因元件、基因线路、信号通路及复杂生命体的设计与构造。

1.4.2 DNA测序

测序是重建DNA样本中核苷酸原始顺序的过程。DNA 测序（DNA sequencing）技术分为一代Sanger测序、二代以Illumina测序平台为代表的高通量测序和三代单分子测序。1977年，Maxam和Gilbert等发明的化学降解法与Sanger等发明的双脱氧核苷酸末端终止法，标志着一代测序技术的诞生。Sanger测序技术是通过核酸模板在核酸聚合酶、引物、4种单脱氧核苷酸存在的条件下，在4管反应体系中分别按比例引入4种脱氧核苷酸，反应终止后用凝胶电泳分离大小不同的片段。其技术流程为文库制备、测序反应、测序示踪和计算机分析。

目前普遍使用的是二代测序技术，即以大规模并行方式读取相对较短的序列（片段），其步骤如下。

（1）将长序列切割为片段并使用聚合酶链反应（polymerase chain reaction，PCR）扩增。

（2）将DNA接头序列连接到扩增完成后的各条DNA链的两端。

（3）将双链DNA分离成单链并加入玻璃流动池，接头序列与流动池表面上的互补片段结合，并局部复制以产生相同DNA克隆簇。

（4）将被荧光标记的互补核苷酸加到每个克隆簇中的单链DNA末端，记录荧光颜色对每个克隆簇中的DNA进行测序。

（5）被荧光识别到的碱基结果会以文本格式存储。

二代测序技术具有成本低廉、快速和准确等特点，但其使用的短读长测序方式对片段长度具有严格限制。

以Oxford Nanopore Technologies公司的纳米孔单分子测序技术和Pacific Biosciences公司的single molecule real-time（SMRT）测序技术为代表的三代单分子测序技术近年来受到了学术界的广泛关注。与前两代测序技术相比，三代测序技术的特点是通过单分子测序实现长片段测序，从根本上改变测序数据的结构，提高测序能力。其中，SMRT测序技术利用荧光信号进行测序，而纳米孔单分子测序技术则利用不同碱基产生的电信号进行测序。纳米孔单分子测序技术的仪器小巧便携、成本较低且无须复杂的建库过程，使其可应用于快速、实时的基因测序中，在科学研究和临床应用中都有着非常重要的意义，具有广阔的应用前景。

1.4.3 DNA组装

DNA组装（DNA assembly）是指通过特定技术实现DNA序列的“切”和“连”，其是合成生物学的基础技术之一。在合成生物学和生物工程领域，遗传元件无缝拼接以及重复DNA序列串联，都需要用到高效的 DNA 组装技术，只有这样，才能满足发展迅速的基因组设计合成领域的需求。

基于酶切连接策略的DNA组装方法广泛应用于迭代DNA组装，主要有寡核苷酸组装方法、BioBrick方法、Golden Gate方法、Gibson方法以及TPA方法。现有的DNA合成方法较为有限，无法直接准确合成长片段DNA。对此，我们可以采用分级的体外与体内组装技术，将分段合成的寡核苷酸片段组配成长片段DNA，进而实现长片段基因甚至基因组的合成。

（1）寡核苷酸组装方法。寡核苷酸组装方法主要应用于长片段基因或基因组的合成。目前应用得较为广泛的寡核苷酸组装方法有连接酶组装法（ligase chain reaction，LCR）和聚合酶组装法（polymerase cycling assembly，PCA）两种。LCR通过DNA连接酶将首尾相连、重叠杂交的5′磷酸化寡核苷酸片段连接成双链DNA；PCA则利用DNA聚合酶延伸杂交的重叠寡核苷酸片段获得不同长度的混合物，最后用引物扩增出成功组装的基因全长片段。PCA具有良好的兼容性，也被应用于芯片合成的寡核苷酸组装。

（2）BioBrick 方法。双链 DNA的拼接是依靠限制性内切酶产生的黏性末端来串联DNA片段。基于这一方法发展而来的BioBrick技术由Knight研究组于2003年提出。该方法通过一对同尾酶和两个非同尾酶将载体和DNA元件标准化并形成元件库，随后标准化的元件通过DNA连接酶作用根据顺序依次组装起来。基于作用位点的不同，BioBrick技术可以使用不同的同尾酶发挥不同的作用。虽然该方法实现了元件的标准化和DNA组装的便捷化，但由于两个DNA元件之间有6个碱基对的残痕，元件组装通量较低。之后出现的BglBrick方法和ePathBrick方法通过将残痕转化为融合蛋白的连接肽，成功解决了这个问题，推动了组装技术的发展。

（3）Golden Gate 方法。Golden Gate 方法采用IIS型限制性内切酶切割产生的黏性末端来实现组装，由于IIS型限制性内切酶识别位点与切割位点有所不同，Golden Gate 技术可以自由地设计黏性末端，从而实现同时组装多个DNA片段，大大提高了DNA组装的效率。例如，Engler 等人用Golden Gate方法进行一步酶切连接，结合基因改组（gene shuffling）技术，一次性完成了3个片段与载体的拼接，构建了理论上可达19683种不同的重组胰蛋白酶原基因，得以筛选高效表达的胰蛋白酶突变体。

（4）Gibson 方法。Gibson方法由Gibson于2009 年开发，是一种简单、快速、高效的DNA定向无缝克隆技术，可将插入片段（PCR产物）定向克隆至任意载体的任意位点。Gibson方法的原理可以概括为三步反应：首先，T5核酸外切酶从DNA片段的5′端切割一条链，产生的单链DNA末端（overhang）两两配对，形成一个有间隙（gap）的环状DNA；其次，Phusion DNA聚合酶通过DNA合成填补间隙，产生一个只有缺刻（nick）的环状DNA；最后，Taq DNA连接酶通过形成磷酸二酯键修复缺刻，得到一个完整的双链DNA或质粒。相比其他DNA组装方法，Gibson方法连接利用的是片段间的长重叠区域，更特异性地确保了连接顺序，同时做到了无缝拼接，使得组装尺度扩大到了百kb级左右。

（5）TPA （ Twin-Primer Assembly ）方法。与上述几种酶依赖性DNA组装方法不同，TPA方法不需要酶的参与。TPA方法是由赵惠民团队于2017年提出的一项双引物非酶促DNA组装的高效准确的多片段DNA组装方法。其原理可分为两步：首先，设计出长短、上下不同的4种引物，并利用聚合酶链式反应，分别对设计的片段进行扩增；其次，将得到的正确的扩增片段通过退火组装成一个质粒，验证正确后转化到菌内即可。TPA方法在不使用酶的条件下，将聚合酶链式反应扩增的片段组装成质粒，具有广阔的应用前景。

1.4.4 基因编辑

基因编辑技术（gene editing technology）又称为基因组编辑（genome editing），是一种以特异性改变遗传物质靶向序列为目标基因，通过删除、替换、插入等操作，获得新的功能或表型，甚至创造新的物种。

从最初的基因打靶技术到锌指核酸酶（zinc finger nuclease，ZFN）、类转录激活因子效应核酸酶（transcription activator-like effector nuclease，TALEN）以及CRISPR（clustered regularly interspaced short palindromic repeats）/Cas9系统，再到以碱基编辑技术为代表的新兴技术的出现，基因编辑技术经过不断的发展和完善，变得更加灵活、高效。基因编辑技术的发展和应用在农业育种和作物改良以及人类疾病的基因治疗方面展现出巨大的潜力，开创了全球生命科学研究的新时代。

（1）ZFN 。作为第一代基因编辑技术，ZFN使用同时包含DNA识别结合域（锌指蛋白结构域）和DNA裂解域的核酸酶（限制性核酸内切酶FokⅠ的核酸酶切活性区域）形成的能够产生位点特异性DSB的系统来执行基因编辑功能。ZFN由Chandrasegaran团队于1996年提出。ZFN的α螺旋中的1、3、6位的氨基酸分别特异性地识别并结合DNA序列中的3个连续的碱基，这也使得锌指核酸酶能定位于复杂基因组内的独特的靶向序列。利用内源DNA修复机制，锌指核酸酶可用于精确修饰高等生物的基因组。然而，ZFN的序列特异性也使得其具有目标识别率低、成本高等特点，限制了它的大范围应用。

（2）TALEN。TALEN同样使用同时包含DNA识别结合域和DNA裂解域的核酸酶。与ZFN不同的是，TALEN将TALE蛋白与FokⅠ内切酶区域加以结合。由于4种碱基都有各自对应的TALE模块，因此TALEN可以通过目标序列的不同组装不同的TALE识别模块，加强了其设计的简便性。但其目标识别率低、成本高、脱靶概率高、结构复杂等问题仍未得到解决。

（3）CRISPR/Cas9 系统。学术界对于便捷、识别率高的基因编辑技术的渴望推动了新一代基因编辑技术的发展，CRISPR/Cas9系统源于细菌中的适应性免疫系统，可直接用于基因突变或基因敲除。CRISPR/Cas9的基本原理是利用向导 RNA介导 Cas 蛋白在特定的靶标序列处引起 dsDNA的断裂，然后利用同源重组方法进行精准的 DNA序列替换或利用非同源末端连接方法进行靶标基因的中断。CRISPR/Cas9系统通过CRISPR RNA（crRNA）和trans-activating crRNA（tracrRNA）以及Cas9蛋白组成的复合体抵御外源性DNA的入侵。Cas9是一种与sgRNA结合的核酸酶，通过sgRNA中存在的一个20 bp的核苷酸序列，将Cas9激活并靶向到一个特定的基因组位点（称为原间隔子邻近基序或PAM位点）。Cas9随后催化一个靠近PAM位点的DSB，NHEJ修复低保真度的DSB将在酶切位点形成一个小的插入/删除，从而在目标位点内进行突变。与ZFN和TALENs相比，CRISPR/Cas9系统具有操作简单、成本低、编辑位点精确、脱靶率低等特点，其基因编辑效率超过30%，大大降低了基因编辑的时间成本和经济成本。其在抗生素耐药菌、COVID-19检测、癌症治疗、高产水稻品种的生产等方面皆有大量的应用。

（4）碱基编辑器。单碱基编辑技术可以实现对单碱基的精准编辑，大大降低了编辑过程中对靶基因功能的影响。2016年，美国哈佛大学David Liu的实验室使用专门设计的Cas9融合蛋白开发了一个单碱基编辑器，即胞嘧啶碱基编辑器（cytosine base editor，CBE）。2017年，David Liu还公布了其开发的腺嘌呤碱基编辑器（adenine base editor，ABE），该编辑器通过使用腺嘌呤脱氨酶促进腺嘌呤（A）突变为鸟嘌呤（G）。当含有腺嘌呤脱氨酶的Cas9融合蛋白被sgRNA靶向到基因组DNA时，腺嘌呤脱氨酶催化腺嘌呤脱氨生成肌苷（I），肌苷被读取并复制为鸟嘌呤残基。因此，在DNA复制后，A-T碱基对直接取代了G-C碱基对。目前，单碱基编辑器已应用于基因编辑、基因治疗、生成相关动物模型和功能基因筛选。

2020年，Dali Li团队通过融合激活诱导的人胞嘧啶脱氨酶、腺嘌呤脱氨酶和nCas9，开发了一种新型的双功能、高活性碱基编辑器，并将其命名为A&C-BEmax。A&C-BEmax可以有效地转化同一等位基因内目标序列上的C > T和A > G，双碱基编辑技术由此应运而生。同时，中国科学院遗传学研究所的Caixia Gao和Jiayang Li在nCas9的N端融合了胞嘧啶脱氨酶APOBEC3A和腺嘌呤脱氨酶ABE7.10，并通过此种方法成功构建了4种新型的饱和靶向内源性基因突变编辑器（saturated targeted endogenous mutagenesis editor，STEME），依次将其命名为STEME-1～STEME-4。这些碱基编辑器具有在单一sgRNA的引导下诱导C > T和A > G靶位点同时突变的明显优势，还显著提高了靶基因的饱和度和突变类型的多样性。

单碱基编辑器只能催化单一碱基类型的转换，限制了其广泛的应用。使用双碱基编辑技术可以同时有效地产生两种不同的碱基突变，极大地丰富了碱基编辑的手段，使得基因编辑过程在不失精准性的条件下更加快捷。

（5）转座子类编辑技术。一般来讲，基因编辑技术依赖于DNA断裂，这通常会导致错误被放置在链断裂修复部位的DNA中，同时会触发DNA损伤反应，从而导致其他不良的细胞反应。因此，研究人员试图利用转位现象，在不破坏目标位点的情况下插入所需的DNA序列，而不破坏细胞。转座子可以整合到细菌基因组的特定位点，而不需要消化DNA。重要的是，整合酶插入DNA的位点完全由它们相关的CRISPR系统控制。采用转座子类编辑技术，可以将任何DNA序列插入细菌基因组中的任何位置。对编辑后的细菌进行测序，在非目标位置没有额外的拷贝的条件下，证实了整合可以实现精确的插入。2019年6月，张锋的团队从一种蓝细菌——贺氏伪枝藻（ Scytonema hofmanni ）中获得了与CRISPR效应蛋白Cas12k相关的转座酶，并构建了名为CAST的系统，该系统将nCas9与单链DNA转座子TNPA偶联，然后检测大肠杆菌基因组中的蛋白复合物，促进了外源DNA的位点特异性整合。

1.4.5 定向进化

从生物化学和分子生物学的角度来讲，定向进化（directed evolution）是指模仿自然进化过程，通过基因多样化和突变库筛选的迭代循环，加速实现在胞内或胞外进行的自然进化过程。定向进化可以在不了解蛋白质的结构和作用机制的前提下，获得期望功能或全新功能的蛋白质。“定向进化”这一概念于20世纪90年代由生物工程学家Frances Arnold教授提出，在酶工程领域中发挥着重要作用。

近年来，包括高效构建基因突变库的方法、高通量筛选突变库的方法、连续定向进化策略、自动化生物合成平台助力定向进化在内的策略，提升了定向进化的效率，使得突变库的筛选速率提高了百倍以上。

（1）高效基因突变库构建方法。构建高效、多样化的基因突变库是定向进化的基础。目前主要的构建方法有体外突变法和体内突变法。体外突变法主要包括可以产生随机突变的易错PCR、DNA改组等。通过将这些传统方法与基因高通量合成技术及 DNA 测序技术相结合，传统的体外突变法存在的共有缺陷（如密码子缺乏控制、具有序列偏好性等）在一定程度上得到了改善。例如，通过采用半理性设计突变氨基酸的方法，将PCR 反扩载体与 T5 介导的克隆方法联用，构建了突变效率高达81.25%的柠檬烯环氧水解酶4个位点组合突变体库，成功实现了对定点饱和突变库构建方法的改进。体内突变法则通过基于CRISPR-Cas 系统的高效胞内蛋白质定向进化工具，对参与同一代谢途径的多个蛋白进行定向进化。

（2）新型高通量筛选技术。开发更快速、灵敏、准确的高通量筛选技术，可以最大程度地创建序列覆盖率高、多样性强的突变库，同时能最大程度地发掘不同氨基酸序列与其对应表型之间的关系。例如，利用文库展示技术进行突变库的高通量筛选，在蛋白质工程中得到了广泛的应用，包括噬菌体展示技术、细胞表面展示技术、核糖体展示技术以及mRNA展示技术。

文库展示技术（library-based display）将突变的目标蛋白展示于不同的生物体表面，并对蛋白质进行直接干扰，使蛋白质与外部环境接触，从而影响蛋白质的降解程度和折叠状态，之后通过一定的方法富集、筛选蛋白质检测出相关的基因信息。其中，噬菌体展示技术有力地促进了蛋白质工程的发展，其将蛋白基因插入噬菌体外壳蛋白结构基因的适当位置，随着噬菌体的传代，融合蛋白会展示在噬菌体的表面，对应的编码基因则位于病毒颗粒内，大量蛋白由此与其 DNA编码序列建立了直接联系，使各种靶分子（抗体、酶等）的配体通过“吸附、洗脱、扩增”得到快速鉴定。除此之外，细胞表面展示技术、核糖体展示技术以及mRNA展示技术也可应用于突变库的筛选。一些微型化、自动化和集成化的新型技术体系也为一些代谢途径关键酶、优势菌株、催化元件在定向进化过程中的高通量筛选和选择提供了优良的解决方案。

（3）连续定向进化。连续定向进化旨在无人为干预的情况下完成基因突变、蛋白表达、表型选择与筛选的迭代实验，其通过缩短每轮的进化时间来增加迭代次数，利用可自我复制的生物体，提高获得目标性状突变体的概率，在其基因组复制过程引入突变并利用突变后该生物体复制扩增能力的差异性变化来实现建库与筛选这两个步骤的自动连接和迭代循环，从而减少人力劳动，使定向进化快速进行。例如，David Liu团队开发了噬菌体辅助的连续进化系统（phage-assisted continuous evolution，PACE），通过设计特定的基因回路，将 pⅢ的表达与目标蛋白的活性相偶联，再通过控制系统使得含有目标活性突变体的噬菌体迭代富集，从而实现进化与筛选自动循环——可以在24h内完成30轮以上的蛋白质进化。

（4）计算机辅助定向进化。如果说定向进化的关键在于对突变库的高效筛选，那么计算机辅助定向进化（主要是采用机器学习技术）可以通过构建输入数据到输出数据的复杂函数关系，并通过相关训练模型对训练集以外的序列空间进行探索，因此在筛选和收集正向突变方面有着巨大的优势。不同的算法及软件，如Modeller、Rosetta以及AlphaFold 2等在内的多种方法已广泛用于蛋白质结构的预测。其中，AlphaFold 2采用了生物信息学和物理方法相结合的双重预测方法。例如，George Carman课题组利用 AlphaFold 2预测了突变的酿酒酵母磷脂酸磷酸酶的结构，通过其结构发现了其催化关键位点并推测了其催化活性机理。尽管计算机辅助定向进化受到用于训练模型的数据的数量和质量的限制，但大量的研究已证明这的确是定向进化方向颇具发展前景的方法。计算机辅助定向进化已应用于酶结构与底物属性的预测、反应最佳微环境的预测以及酶最佳催化位点的预测。可以说，随着计算机技术和生物技术的进步，以及序列-功能对数据的不断增长，在酶分子的定向进化过程中，机器学习技术会在探索未知酶序列信息以及空间结构中发挥越来越重要的作用。