复制子稳定、青睐互补、渴望彼此结合、具有由简单的组合带来的复杂性,因而能够携带复杂信息,在以上的每一方面,DNA都超出了RNA。
DNA可以看作RNA的某种特殊和复杂形式。RNA和DNA的组成相差很小。RNA和DNA都是由 核苷酸 组成,而核苷酸则是由 碱基 、 核糖 或者 脱氧核糖 以及 磷酸 组成。RNA和DNA的第一个不同在于核糖,RNA中的是核糖,DNA中的则是脱氧核糖,也就是在糖环的第二位上少了一个氧原子。RNA和DNA的第二个不同在于碱基,RNA中的碱基采用的是 腺嘌呤(A) 、 鸟嘌呤(G) 、 胞嘧啶(C) 、 尿嘧啶(U) ,而DNA中则是用 胸腺嘧啶(T) 替代了尿嘧啶,两者只差了一个 甲基(—CH 3 ) 。在DNA中腺嘌呤和胸腺嘧啶配对(A-T),鸟嘌呤和胞嘧啶配对(G-C),而在RNA中,则是腺嘌呤和尿嘧啶配对(A-U) (表8.1) 。同RNA中的核糖相比,DNA中的脱氧核糖可以看作一种特殊的形式;同RNA中的尿嘧啶相比,DNA中的胸腺嘧啶可以看作一种复杂的形式。
表8.1 RNA和DNA的差异
DNA比RNA稳定的原因很简单:核糖发展为脱氧核糖,稳定性大大提高了。RNA核糖糖环的第二位包含有一个活性氧,会攻击核糖与磷酸之间的 磷酸二酯键 ,这也是RNA不稳定的原因之一;从核糖到脱氧核糖,RNA的糖环的二位的活性氧被移除了,所以DNA更加稳定。尿嘧啶(U)转化为胸腺嘧啶(T),依然可以同腺嘌呤(A)配对,即从U-A变为T-A,而且变得更加安全了。因为化学结构的稳定性,胞嘧啶(C)有自发脱氨基变成尿嘧啶(U)的倾向,这种倾向如此强烈,以至于 真核细胞 每天要经历大概100次的胞嘧啶脱氨基事件。也就是原来的胞嘧啶(C)和鸟嘌呤(G)按C-G配对,而脱氨基后变成了错配的U-G配对。因为U并非DNA中常见碱基,错配的U-G在DNA中可以通过修复机制得以纠正;但通过脱氨基产生的U在RNA中却无法被识别,错误也就累积了。因此,尿嘧啶转化为胸腺嘧啶进一步增加了稳定性。
DNA天然具有互补的双链结构,并将变化包裹在内部。在DNA的结构中,核糖和磷酸形成在外的骨架,而配对的碱基包在内侧。这样的结构,让携带信息的碱基更安全。相比之下,多数天然RNA基本上是单链的,只在内部存在局部配对,参与配对的双螺旋占总数的40%~70%。
因为更稳定,DNA具有形成长链的巨大优势,这样,DNA就具有由简单的组合实现极大复杂性的能力。RNA只能形成短的结构,而DNA以双螺旋的方式不断延伸,夭矫多姿,腾挪辗转,跨越了时空,在一片沉寂的无垠宇宙中透出一抹亮色。
因为DNA的巨大优势,RNA被替代就只是时间问题了。DNA来自RNA有支持证据 [30-31] 。最直接的证据是DNA的组成单位 脱氧核糖核苷三磷酸(dNTP) 来自RNA的组成单位—— 核糖核苷三磷酸(rNTP) ,这由 核糖核酸还原酶 实现。
DNA与RNA相差的是核糖与脱氧核糖、尿嘧啶(U)与胸腺嘧啶(T),整个过程由两步完成。第一步是含有尿嘧啶(U)的DNA( U-DNA )的产生,这是因为rNTP有4种即 ATP 、 CTP 、 GTP 和 UTP ,它们经历从rNTP到dNTP的改变也只能产生 dATP 、 dCTP 、 dGTP 和 dUTP 。由dUTP组成的DNA就是U-DNA。一个证据是某些现代病毒用U-DNA作为基因组。RNA转化为DNA的第二步则从U-DNA转化为含有胸腺嘧啶的DNA( T-DNA ),即dUTP转化为dTTP (图8.1) 。
图8.1 DNA进化史
DNA虽然具有优势,但替代RNA绝不是轻而易举的,可能要经历艰难而漫长的旅程。
首先是发展出由 蛋白质组成的、以RNA为模板的RNA聚合酶 。最初在RNA世界里,RNA自己可以同时实现复制和执行具体功能。例如人们在实验室中得到了 由RNA组成的、以RNA为模板的RNA聚合酶 [32] ,而且通过进一步的筛选得到了活性更好的聚合酶,如能以RNA为模板精确地添加95个核苷酸 [33] 。但是,RNA结构多样性毕竟受限,所以后来发展出了由蛋白质组成的、以RNA为模板的RNA聚合酶。今天的病毒中都含有由蛋白质组成的、以RNA为模板的RNA聚合酶,例如大名鼎鼎的 脊髓灰质炎病毒 、 新型冠状病毒 。其次要有能以RNA为模板合成DNA的酶。在RNA世界里有很多RNA,同时rNTP也经历了到dNTP的转变(前面提到了),欠缺的就是以RNA合成DNA的酶,即所谓的 逆转录酶 。再次是要有能以DNA为模板 复制 DNA自身的酶,也就是 DNA聚合酶 。最后还要有以DNA为模板 转录 成RNA的酶,即 RNA聚合酶 。逆转录、DNA复制和DNA转录都涉及复杂的DNA,其实就是中心法则的前半部分,即RNA和DNA之间的关系。事实上,逆转录酶、DNA聚合酶和RNA聚合酶是同源的,可能都来自古老的以RNA为模板的RNA聚合酶 (图8.2) 。
图8.2 复制、转录、逆转录的进化史
RNA复制自己还是相对容易的,因为即使在今天,最长的RNA也不过几千个核苷酸,在远古时期显然更短。DNA复制自己绝不容易,在今天,DNA可能达到数亿个碱基对,比如人类一号染色体含有高达2.2亿个碱基对 [34] ,即使是大肠杆菌,也有几百万个碱基对。那么,DNA复制是如何实现的呢?
DNA在复制时,双链必须部分打开,就像两个字母Y头碰头聚在一起一样,这样的结构有个名字,叫作 复制叉 。一种叫作 DNA聚合酶 的酶会结合在复制叉上,启动DNA的复制。随着复制的进行,复制叉不断变大。
DNA复制首先是 半保留复制 。具体的情形是,DNA双链先要成为不完全分开的2条单链,并以每一条为 模板 进行复制,由2变4。这就像字母H想变成2个H,那需要先撕开H变成2个大写的I,它们是原来就有的;以每一个I为模板,生成配对的I,最后变成2个H,这2个新的H中的每一个都有一条新的I,一条旧的I。因为这4条链中必然有2条是旧的,所以DNA复制也叫半保留复制。这个半保留其实还有隐含的意思,也就是2条旧链彼此之间的联系也是暂时部分保留的,而不是完全分开,这固然是一种无奈,却也未尝不是一种幸运,因为这种联系让以不同链为模板进行纠错成为可能。
DNA复制还是 半不连续复制 。DNA复制时有两旧两新,但两新差别很大。严格地说,DNA的H形结构的2条I的两端并不一致,它们和铁轨不一样,2条铁轨中的每一条都没有方向,DNA的H形结构中的2条I其实更像是筷子,是有方向的,方向是从5到3,就像筷子的一端标记为5,另一端标记为3一样。这所谓的5、3,指的其实是组成DNA的脱氧核糖核苷酸中,磷酸结合在糖环上的位置,是糖环的第5个或者第3个碳原子。因为DNA是互补的双链,所以每个DNA的H形结构中的2个I是2根方向相反的筷子。所以在复制时,新生链的方向理论上也有2个,一个是从5到3,一个是从3到5。然而,事实上是所有的DNA在复制时都是从5到3的方向,这就导致了两条新生链中,一条是立即复制的,称为 先导链 ,另一条则是当复制叉打开、暴露出较长的从5到3的方向的一段后,才会起始,称为 后随链 。基于此,DNA复制也是半不连续复制,因为两条新生链中一条是连续的,另一条是不连续的。
概括下来,DNA复制是半保留、半不连续复制 (图8.3) 。也就是说,DNA复制是2+2,即两旧+两新,但是两新又有所不同,一条是连续的新链,和两条旧链一样,另一条是不连续的新链,所以是3+1,3条连续的链和1条断续的链。从这个意义上,2+2=3+1。
图8.3 DNA半保留、半不连续复制
DNA的半保留复制是互补性结构的天然产物,或者说,DNA的互补配对结构决定了只能采取半保留复制。相比之下,DNA的半不连续复制似乎就没有那么不可替代了。难道细胞不能发展出从3到5方向的DNA聚合酶吗?这样,当复制叉打开后,两个不同的酶,一个从5到3复制,一个从3到5复制,并驾齐驱,你追我赶,效率将大大提高。细胞正因为只有从5到3方向复制的酶,才带来后续的一系列拉低效率的事件,比如后随链的连接,再比如后面将要提到的 端粒 的复制。那么,细胞半不连续复制的根源在哪里呢?
事实上,细胞中是存在从3到5方向的聚合酶的,酵母中存在一种向 转运RNA 上沿着从3到5方向添加核苷酸的酶 [16] 。然而今天大多数DNA聚合酶只能催化从5到3方向的聚合,很可能是因为从3到5方向复制的成本过于高昂 (图8.4) 。
图8.4 DNA复制时从5到3和从3到5
(大多数DNA聚合酶总是催化从5到3的复制,由即将到来的核苷三磷酸提供磷酸基团,由引物链上3端提供羟基。假定存在从3到5的DNA聚合酶,将不得不由即将到来的核苷三磷酸提供羟基,由引物链上5端提供磷酸基团。)
DNA为什么采用这种从5到3的单向复制的方式呢?或者说为什么从3到5方向的DNA聚合酶没有发展起来呢?一个可能的解释是概率,如果是从5到3方向复制,将是游离的核苷三磷酸提供磷酸,而生长中的DNA链提供3端羟基,这是一个有利的反应方向,因为核苷三磷酸水解产生磷酸的过程是产生能量的过程。如果是从3到5方向复制,将是生长中的DNA链提供磷酸,而游离的核苷三磷酸提供3端羟基,这同样是一个有利的反应方向。问题在于,在这从3到5方向的反应过程中,将有两个磷酸基团,因为存在相对浓度,很显然高浓度游离核苷三磷酸攻击DNA链羟基端的概率要更大,而低浓度DNA链磷酸攻击游离核苷三磷酸羟基的概率要低得多。
另一个可能的解释是纠错成本更低。在从5到3方向复制过程中,如果新到的核苷酸错配,常会水解掉,结果是裸露的羟基依然可参与后续的聚合反应,因为游离的核苷三磷酸总是携带有磷酸基团。在从3到5方向复制过程中,如果新到的核苷酸造成错配,当然也可以水解掉,但是水解掉后剩下的5端磷酸就秃了,无法攻击游离磷酸的羟基端。这样,纠错的成本将是复制的终止,这是DNA复制无法承受的。
综合下来,从3到5方向DNA复制的成本过于高昂,今天细胞中DNA复制就仅采取了从5到3的方向。
DNA链和拉链有很多相似之处,也有明显不同。两者的不同之处在于,拉链是没有方向的,而DNA双链中的每一条都有方向,或者从5到3,或者从3到5。
两者之间相同之处有两个:第一个是拉链的拉头也是附在两条链之上的,而DNA复制时,DNA聚合酶会结合其上,这是通过特殊的蛋白质实现的;第二个是拉链互相咬合的两条链尽管匹配,但是要想起始一条拉链,需要拉链尾部的插销和插座先对好,而DNA复制时,光有模板也不行,还需要一小段已经同模板匹配的核酸才能起始。起始DNA复制的这一段核酸短序列叫作 引物 ,这是由一种叫作 DNA引物酶 的蛋白质添加的。
对于先导链,每次起始一条DNA链的复制,一个引物就够了;但对于后随链,一个引物却不够,因为后随链是当复制叉打开后,一段一段合成的,每合成一段DNA,都需要一个引物 (图8.5) 。
图8.5 DNA复制时的先导链和后随链
(随着复制叉的打开,暴露出从5到3和从3到5两条模板链,其中只有一条链可以用作模板实现连续复制,这就是先导链;另一条只能不连续复制,之后再进行连接,这就是后随链。)
有趣的是,DNA复制起始的引物并不是DNA,反而是RNA,这可能也是RNA时代留下的遗迹。这些引物RNA在完成历史使命后,会被DNA替换。这看起来似乎是一种很浪费的方式,因为要先合成RNA,然后再替换,如果选择DNA引物,就不要替换了。那么,为什么不直接采用DNA作为引物呢?
答案可能还是效率与安全的权衡。之所以需要引物酶,是因为DNA聚合酶无法从头起始;DNA聚合酶之所以无法从头起始,是因为DNA聚合酶有很强的纠错能力。结果就是,有纠错能力的DNA聚合酶无法从头开始,同样,可以从头起始的DNA引物酶的纠错能力很差。事实上,DNA引物酶的出错率大概是1/100 000,这远远高于DNA聚合酶的出错率,将导致错误DNA的大量积累。用RNA做引物,相当于天然地给这些位置做了标签,从而可以很容易地移除或者替换。
DNA是通过简单的组合实现巨大复杂性的典范,然而,随着DNA的增长,复制变得异常艰难。
DNA的解决之道就是增加 复制起点 的数量。对于短的DNA,复制的起始点有一个也就够了,对于长的DNA,比如人类细胞中的DNA,则需要数量很庞大的复制起点,才能满足复制的效率要求。大肠杆菌460万个碱基对的DNA只有一个复制起点,这说明它的效率是很高的,事实上大肠杆菌中DNA复制的速度是1000碱基对每秒,这样的话,大肠杆菌全部DNA复制只要1个多小时就完成了,这也解释了为什么细菌长得这么快。真核细胞则无法达到这么高的复制效率。人类细胞DNA复制的速度是50碱基对每秒或者每个核苷酸0.02秒,如果按照每个染色体有1.5亿个核苷酸(人类基因组含有大约32亿个碱基对、64亿个碱基,如果除以23对46条染色体,平均每条染色体大约有1.5亿个核苷酸),那么复制一条染色体的时间是0.02秒/个×1.5亿个≈35天。很显然,35天这个时间是无法让细胞接受的,那意味着无法适应外界环境的迅速变化。事实上,人类基因组中共有3万~5万个复制起点,在浩瀚的基因之漠中如点点灯火。结果,人类细胞全部DNA的复制速度大概也是1小时。尽管同原核细胞相差极大,但真核细胞通过增加复制起点的数量,将DNA复制速度居然追平,这是非常惊人的。
DNA通常不仅长,还有着复杂的扭曲。DNA首先形成 双螺旋 ,这是由其自身结构决定的,因为双螺旋是长链最稳定的状态;随着DNA长度的增加,它们会进一步扭曲成更复杂的螺旋,这同样是由能量的最低倾向或者说 热力学第二定律 决定的。
DNA的扭转同样给复制带来了麻烦。有一种酶能解决这个问题,这就是 DNA解旋酶 ,它们能打开DNA双链,就像破竹的刀子一样。当然,打开的双螺旋就像撕开的胶带,还是会互相黏合,有种蛋白质能解决这个问题,这就是 单链DNA结合蛋白 ,它们就像胶带的隔离层一样。DNA解旋酶只能针对双链,对DNA的高度扭曲的拓扑学结构是无能为力的,有种酶能解决这个问题,这就是 DNA拓扑异构酶 。所有这些酶以扭曲对扭曲,使得DNA的复制变得可能。
DNA拓扑异构酶等确实能一定程度解决DNA扭曲的问题,但自有限度,这种限度可能决定了DNA的存在形式。大多数原核生物的DNA是环状的,比如大肠杆菌的460万个碱基对是存在于一条环状DNA分子之中的,线粒体的DNA也是环状的。但是真核生物的DNA大多是线状的。为什么会这样呢?一个很可能的原因是,环状DNA相当于两端固定,当其中一部分打开用于复制或者转录的时候,热力学趋势导致其扭转高度复杂,以至于解决DNA空间结构的问题变得过于棘手。而线状DNA两端不固定,缓解拓扑学扭曲要容易得多。线状DNA或者说染色体的出现,可能是解决DNA扭曲问题的大招。
那么环状和线状DNA存在的分界在哪里呢?似乎可以做一个推测,大肠杆菌的460万个碱基对的DNA是环状的;已知的最大的环状DNA,是有1300万个碱基对的 纤维素囊泡黏杆菌 基因组 [35] ;而人的最小的21号染色体含有4800万个碱基对,则是线状的 [36] 。因此,可能1300万左右就是环状DNA的极限了 [37] 。线状DNA固然突破了环状DNA的极限,仿佛实现了从0到1的跨越,然而,这种转换却不是没有代价的,这个代价就是DNA末端的复制。
DNA末端给复制出了个难题。DNA总是从5到3方向复制的,对于线状DNA末端,总有一条单链是先导链,DNA聚合酶完全可以用它做模板,从头复制到尾,尾巴就是DNA的末端;但是对另一条互补的单链即后随链来说,则只能从DNA的末端开始,不连续地复制。由于后随链的复制需要一段RNA作为模板,之后被DNA替代,于是这段位于DNA尾部的、从5到3方向的RNA就应运而生了,可是它却不能被替换。之所以如此,是因为用于替换的DNA聚合酶无法从头起始,而需要替换的这条RNA上面没有更多位置了,于是DNA聚合酶没有办法对付这最末端的RNA。如果没有任何其他机制,DNA复制一次就会短一次,短的部分就是RNA引物的长度——大概10个核苷酸大小 (图8.6) 。
图8.6 端粒复制的困境
(DNA复制端粒时,先导链没有问题,一路到底,复制开始时的RNA引物(浅灰色)会被替换,替换的方式是由DNA聚合酶实现的,它们从上游走来,一路贯通;后随链中其他的片段RNA引物的替换也没有问题,有问题的是最靠近末端的RNA引物,它没有上游,也就不会有DNA聚合酶来对它进行修复。如果没有其他机制,每复制一次,端粒将变短一些。)
原核细胞基本没有这个问题,因为大多数原核细胞的DNA是环状的,环状DNA没有所谓的DNA末端。于是,真核细胞在染色体末端发展出一种叫作 端粒 的结构。端粒中含有特殊的DNA,是多个短序列的重复。在人类的DNA中,这种短序列是GGGTTA,而重复可达1000次。有了端粒,DNA的末端就不再是末端了,所以后随链可以由DNA聚合酶从容复制。端粒就像是手套,可以减少手的磨损 (图8.7) 。
但端粒在复制时末端也依然存在无法修复的问题,就是手套也会磨损,怎么办呢?细胞中发展出一种叫作 端粒酶 的蛋白质,可以修补端粒,就像给手套打补丁 (图8.7) 。端粒酶的效率有多高呢?理论上没有端粒保护的DNA每复制一次DNA可能减少10个碱基对,而在人类的DNA中,每年DNA末端才减少70个碱基对,可见端粒酶是极其强大的。
图8.7 端粒酶的作用
(DNA端粒存在短的重复序列,在图中所示的四膜虫中其序列是(TTGGGG) n 。这个序列的存在让后随链最靠近端粒端的RNA引物也得到了替换,从而解决了DNA末端复制问题。端粒的重复序列当然也会变短,因为最末的序列还是无法复制,但是端粒酶能不断延伸DNA末端重复序列,从而避免了DNA的变短。)
端粒酶虽然强大,但本身也受到调节。有些细胞中端粒酶活性下降,于是在复制过程中,DNA缩短加速,最后会导致问题DNA的形成,以至于细胞永久退出分裂,这个过程叫作 复制性细胞衰老 。复制性细胞衰老并不是毫无益处的,它能防止不可控的细胞增殖,也就是癌症的发生。对于细胞而言,老而不死是很危险的。
复制子稳定、互补、彼此结合,都是为了更好地复制自我;DNA结构稳定,并有由简单组成带来的序列复杂性,从而让复制自我的过程变得更安全和高效。但问题是,什么是“我”?“我”的终结就是死亡吗?或者,从DNA的角度而言,什么才是“我”呢?什么又是死亡呢?
中外对“我”的理解不同。在中文中,“我”字左边是个提手,右边是个戈。对于“我”,宋朝人徐锴解释道:“从戈者,取戈自持也”,清朝人陈昌治则解释为:“凡我之属皆从我”,也就是需要防御的、一致对外的是“我”。可见中国古代对“我”的理解是: 需要与外界划分界限并要防御的实体 。西方文化中的“我”用ego表示,意思是:自我就是感受、行动和思考的东西(the self,that which feels, acts, or thinks)。西方文化对“我”的定义似乎不够明晰,他们自己也说:对我进行定义就像试图咬自己的牙齿(Trying to define yourself is like trying to bite your own teeth)。
相比之下,我觉得中国人对“我”的理解更好。基于此,什么是“我”取决于怎么划分界限,而一般来说,我们选择的是个体这样一个界限。然而,有什么理由阻止我们选择其他的界限呢?或者说,选择个体的合法性在哪里呢?又或者说,是什么原因造成了我们约定俗成、根深蒂固地将“我”建立在个体之上呢?
我们之所以将“我”这一“需要与外界划分界限并要防御的实体”建立在个体之上,很可能是因为进化过程中,个体是最简单和显而易见的能够与外界划分并需要防御的实体。这是因为同最接近的群体相比,个体似乎变化更小、一致性更大,或者在漫长的生命历程里,个体也经历齿更发长到齿落发秃,但其变动远比一个种群要小,哪怕种群没有任何其他变动,只有平稳地变老,那么其变动也是个体的 n (群体中的个体数量)倍。比较小的变化可以用来降低需要识别界限的实体的难度,而个体是我们在漫长历史中找到的最合适的实体单位了。然而对于一只蚂蚁,很显然“需要与外界划分界限并要防御的实体”似乎就不是个体,而是整个蚁群本身,单一的蚂蚁无法实现繁殖与生存这两重任务,因此蚂蚁的“我”就是蚁群,而且可以做到为了蚁群鞠躬尽瘁、死而后已。我们在鉴别“需要与外界划分界限并要防御的实体”时,选择的一个标准是实体的功能完整性和变化度。
当我们意识到细胞是生命活动的基本单位后,我们是否可以将“需要与外界划分界限并要防御的实体”建立在细胞之上呢?细胞的变动是否比个体要小从而让细胞可能成为更好的实体单位呢?有种说法:只要7年,人身体的每个细胞都会更新一次。追本溯源,这个说法来自2005年发表在《细胞》杂志上的文章 [38] 。如果这种说法是可信的话,那么选择个体作为我的边界是否合适呢?当然所有细胞7年更新一次是一种并不严谨的解读,事实上,这篇文章揭示的恰恰是不同细胞的更新时间相差很大,大脑皮质细胞的寿命可能和个体寿命一样长。那么,是不是个体大脑皮质的细胞才代表了真“我”呢?很显然,细胞中的某些群体如大脑皮质细胞的变化度似乎适合代表“我”,但是功能完整性似乎又不足。
而当我们进一步意识到细胞乃至个体的生存秘密都藏在基因里面,我们是否可以将“需要与外界划分界限并要防御的实体”建立在基因之上呢?也就是说,“我”就是个体特定的所有基因的组合,也就是 基因组 呢?按照变动最小的标准,基因组的变动毫无疑问是极小的;按照功能完整性的标准,基因组也蕴藏了细胞乃至个体的全部功能。所以基因组似乎优于个体和细胞,是“我”的最好代表。
因此,结论就是基因组=我,或者近似地,DNA=我。
DNA=我,这个公式对DNA做出了严格要求:DNA不能不变,但也不能变动太大。DNA不能变化太大容易理解,为什么不能不变呢?因为如果DNA不变,就不可能在环境变化时做出因应,因而也就谈不上对外界进行防御了。学我者死,说的就是完全一致没有改变的话,DNA是不可能存在至今的;似我者生,说的是按照一定频率发生的改变,才能生存。但所谓的“似”的程度是多少呢?
我们知道,DNA天然地经历各种改变:单个碱基的改变,称为 点突变 ;DNA的较长片段的丢失,称为 缺失 ;DNA片段的反常扩增,称为 重复 ;DNA顺序的颠倒,称为 倒位 ;DNA从一条染色体转移到另一条,称为 易位 。那么,DNA允许变化的度是多少呢?古希腊的 赫拉克利特 说,人不能两次踏入同一河流。而赫拉克利特的学生 克拉底鲁 则说,人甚至不能一次踏入同一条河流。如果后者是真的,那么河流就不存在了,因为无法被定义。对于DNA而言,什么是可以区分“你不能两次看见同一条DNA,但你可以一次看见同一条”的合适的变化度呢?
似乎可以用各种细胞的突变发生频率来做近似的估算。在回答突变频率之前,先要对细胞做一简单区分,即 生殖细胞 和 体细胞 。生殖细胞是产生后代的细胞,是基因之河的洪流,滚滚向前;体细胞是维持个体的细胞,是基因之河的堤坝,静止不动。对于单细胞生物,这种区分意义不大,但是对于多细胞生物而言,这种区分非常重要,因为只有其中的生殖细胞的突变会传给后代。体细胞的变异虽然也有害,如导致癌症,但是相对不那么重要。
具体的细胞突变频率在不同物种中反直觉地一致。 大肠杆菌 是一种常见的细菌,每30分钟分裂一次,其突变频率是在每代细胞中,100亿个碱基中有3个改变。真核生物(如人的生殖细胞)的突变频率则是在每代细胞中,100亿个碱基中有1个突变。也就是说,尽管大肠杆菌与人在生殖方式、每一代时间上截然不同,但其突变率都非常低,并在一个数量级之内。
我们是不是可以认为,百亿分之一左右,就是DNA得以成就自我的突变概率。百亿分之一已经低到超出我们的经验范围了,可以做一个类比:1粒大米按0.02g计算,100亿粒大米是200t,大概可以装4火车皮,也就是说,细胞中DNA突变的概率,大概就是4火车皮大米中,只有1粒米生虫。
那么DNA如此低的突变率是如何实现的呢?事实上,DNA的变异的频率似乎应该高得多。DNA互补配对并不是铁板一块。虽然DNA双螺旋中是G-C、A-T配对的,但是当双螺旋的几何结构发生微小改变时,G和T也可配对,而对于长链的DNA双螺旋而言,其几何结构几乎总是很容易就发生变化的。即使双螺旋的几何结构没有发生明显变化,4种碱基(A、T、G、C)自身的变构也会偶尔发生,概率介于万分之一和十万分之一之间,以致发生错配,如C和A配对。如此算下来,DNA突变概率应该很高。
然而事实是DNA保持了约百亿分之一的突变率,这依赖于一系列机制。在众多确保DNA忠实复制的机制中,最重要的一条是DNA聚合酶的强大的纠错机制。DNA聚合酶的校对作用发生很早,尚在一个新的核苷酸加到生长的DNA双螺旋之前就开始了。正确的核苷酸比错配的核苷酸对于移动的DNA聚合酶的结合能力更强,从而起到了“只选对的”的效果。当DNA聚合酶抓到了核苷酸之后,尚未添加到DNA双螺旋链之前,还会发生改构,让活性位点更加收紧,从而进一步选择对的核苷酸添加。DNA聚合酶就像一只慎重地抓麻将的手,第一次先信手拈起一张新牌,这步需要注意效率,但是当它真的要把麻将加入自己的牌中时,还要再细细感受下麻将的花纹,判断一下是否做出了正确的选择。
基本上,DNA聚合酶是一个近乎完美的书写者,它誊写的DNA序列极少出错,如果出错的话,DNA聚合酶还有擦除错误的能力,这得益于它的 外切核酸酶 活性。
当DNA聚合酶偶尔掺入错配时,继续延伸会变得困难,于是DNA聚合酶上不同于负责聚合的结构就启动了错配DNA的移除。
外切核酸酶活性是件很奢侈的装备,所以负责RNA合成的RNA聚合酶和负责蛋白质合成的 核糖体 都没有。这也导致了RNA和蛋白质的错误率高达万分之一,远远高于百亿分之一错误率的DNA。当然,一方面因为无论是RNA还是蛋白质的错误,都没有DNA错误的危害来得大。RNA和蛋白质的错误远不至于影响后代。而另一方面,如果也拥有外切酶活性的话,RNA和蛋白质的生产效率将大幅度下降。细胞从不做画蛇添足的事,总还是在效率与安全间平衡。
DNA虽然极少出错,但是万一出错了,怎么办呢?不急,有 链导向错配修复 机制能够识别错配的酶。
但问题是,已经发生的错配如果在复制之初没有被发现,又如何再发现呢?比如一个碱基A在复制时被错误地和G而不是同合适的T配对,那么在错已铸成的情况下,如何修补才好呢?虽然我们知道应该把G改成T,但是细胞如何避免把A改成C呢?如果把错配比作狼的话,这个错配是披着羊皮的狼,我们如何赶走披着羊皮的狼,而不是把另外一只长得相似的无辜的羊撵走呢?
很显然,需要一种能区分模板链和新生链的策略。细胞区分这两种链的方法就是添加标签。接下来的问题是,如何添加标签呢?是填在旧链上呢还是新链上?是基于“衣不如新,人不如故”选择给旧链加标签,还是考虑“但见新人笑,那闻旧人哭”而给新链加标签呢?DNA添加标签考虑的还是经济原则,成本最低者胜出。一般来说,突变倾向于在新链上发生,所以如果将标记放在新链上,这个标记一般就只能用一次,随着错配新链的纠正,这个标记就失去价值了,如果将标记放在旧链上,那么这个标记可以用于基于这条旧链的所有的新链。
大肠杆菌区分新旧链的方式,是在旧链而不是刚刚复制出来的新链上添加标签,当然新链很快也变成旧链,也会加上标签,但在最初的时刻是没有标签的,这个时间点非常重要。添加的标签是在碱基A上的,而且不是在所有的A上,是在GATC固定序列的A上添加,就像在老路上种树,但树的间距很大,这样省钱。通过这样的方式,新链和旧链得以区分,只有新链上错配的碱基得以修复。
真核细胞区分新旧链的方式更简单。由于DNA复制是半不连续的,两条新生链中的一条是暂时带有 切口 的,可以据此判断新旧,至于没有切口的那条的判断方式,人们现在尚不知悉。
看来真核细胞的DNA选择了一种简洁的方式,为什么大肠杆菌不采用同样的方式呢?既然DNA新生链是半不连续的,这样它就天然地带有识别的方式,而为真核生物细胞所用。原核生物如大肠杆菌不选择这种方式,很可能是因为安全的问题。原核生物复制得非常快,可能切口不足以提供区分度,因此采用了加标签这种方式。
总结下来,DNA校对可以概括为定期保养、暂停小修、出问题大修。定期保养就是DNA聚合酶的强大能力,它们能防止错误碱基掺入,是一种预防性的校对;暂停小修就是DNA聚合酶所包含的外切核酸酶活性,它们能最快地发现错配,然后通过暂停实现问题的迅速修复;出问题大修则是DNA错配修复。这三种方式纠错能力近似逐渐下降,对DNA复制的影响则顺次上升,所以定期保养是伐谋,暂停小修是伐交,出问题大修是攻城。DNA修复的3种策略,共同将DNA突变率控制在百亿分之一 (表8.2) 。
表8.2 DNA修复策略
复制过程中的错误并非DNA碱基改变的唯一来源。DNA并非金刚不坏之身,作为长的链状分子,哪怕岁月静好,它也会经历各种自发突变。比如一种叫作 脱嘌呤 的改变,在哺乳动物细胞中,每一昼夜可以发生高达18 000次。
DNA的这些变异如何去清除呢?有两种方式,可以分别看作补牙和植皮。
一种叫作 碱基切除修复 的修复方式类似补牙。有时DNA经历某个碱基的改变,但是DNA整体结构完整,就像掉了一颗牙,这时候就可以启动这种修复。方式很简单,剪掉带有碱基的核苷酸,再根据碱基互补配对,添上正确的核苷酸就是了。另一种叫作 核苷酸切除修复 的修复方式类似植皮。有时DNA经历超过一个碱基的改变,如 嘧啶二聚体 ,就像掉了一块皮,这时候就可以启动这种修复。这种方式稍微麻烦一点,因为不只需要剪掉发生改变的碱基,还要向两端扩大些,就像植皮前的扩创,然后再根据碱基互补配对,添上正确的核苷酸。
在核苷酸切除修复过程中,为什么要切掉一块较大的错配DNA呢?一个可能的原因是这么做比较划算。如果只切掉发生变异的具体的小段核苷酸,如嘧啶二聚体,那么可能需要特殊的酶。根据酶的特异性,那么针对每种具体的DNA改变,都需要一类特殊的酶,这样做的成本是很高的。针对一类DNA改变,统一切掉两边一段看似浪费,实际上反倒是笔好买卖。
核苷酸切除修复常常和转录——DNA的遗传信息誊写在RNA上准备翻译相联系,就像植皮美容后马上嫁人一样。细胞发展出对DNA的监视机制,不停扫描DNA,但是在修复的选择上,却更多倾向于那些需要表达的DNA,这是因为资源是有限的。细胞选择修复的,是那些需要转录的DNA,就像一家的几个女儿,精心打扮的,常常是那个马上出嫁的。
碱基切除修复和核苷酸切除修复只能解决较小的和单链上发生的问题,如果DNA两条链都发生了问题,该怎么办呢?有两种方法,一种叫作 非同源末端连接 ,就像火车的一节车厢不翼而飞,那就不管它,把剩下的连接起来就好。这是一种安全性很差的方式,比如丢掉的一节是餐车怎么办呢?但在实际情况中两害相权取其轻,反倒是安全的方式。
另外一种修补双链的方式则是 同源重组。 很多物种都是 二倍体 ,也就是有一对染色体,相应地,DNA双螺旋都是两份,也就是一共两对共计四条单链DNA,这两对DNA互相称为 同源DNA 。同源重组指的是一对DNA双螺旋利用另外一对同源的DNA作为模板进行修补的情况。同源重组就像一条铁轨上出了问题,用平行排列的另一条铁轨来帮助修复。
可以将同源重组看作DNA的福气,它提供了一种保障,当DNA双链同时出问题时,还可以利用另一条染色体上的同源DNA进行修补,这就极大程度赋予DNA以安全。当今包括人类在内的很多物种的基因组都是二倍体,同源重组因而可以进行,比只有一条DNA双链优越得多。从这个意义上来说,可以说“福双至,祸单行”。
同源重组的过程微妙精巧,宛若凌波微步、罗袜生尘,其最具创造力的一步,在于对双链断裂处上游5端的扩创。在前面提到的核苷酸切除修复中,扩创的目的可能是减少对特异性酶的需求,而在同源重组修复中,扩创的作用可能更大。首先,这让未扩创的3端无所附着,而只能从姐妹染色单体中同源的DNA获得配对,于是启动了链交换。其次,当未扩创的3端以姐妹染色单体DNA为模板进行合成、跨过断裂处后不久就得以回归。之所以如此,在于当未扩创的3端以姐妹染色体DNA为模板进行扩增时,跨过断裂处后,它同游离的另一侧的3端配对的机会大增,而继续以姐妹染色单体DNA为模板的阻力则增大,如需要克服DNA解旋等问题,于是这个未扩创的3端就浪子回头了 (图8.8) 。双链断裂处上游5端的扩创,是DNA挥向自己的一把刀,许多问题迎刃而解。
图8.8 同源重组修复DNA
(当姐妹染色单体中的一条发生双链断裂时,自身是无法修复的,只能依靠另一条染色体中的DNA为模板进行修复。首先是双链断裂处5端上游被内切酶对称切掉一部分,断裂处3端未经切割,转而同姐妹染色单体上完好的同源序列配对,并进行DNA合成。当合成跨过了断裂处时,同源重组结束,直至完全修复。)
同源重组不仅用来修补出错的DNA,还用于 减数分裂 ,也就是 配子 即精子和卵子的产生。但是用于减数分裂的同源重组有两个自己的“个性”,一个是,起始的双链断裂不再是一种被动的灾难事件,而是主动的选择;另一个是,重组发生在来自父系和母系的DNA之间,而不是复制后的DNA之间。
DNA修复和减数分裂似乎是矛盾的。DNA修复是为了保持自我,其中的同源重组是一种“两害相权取其轻”的不得已;而减数分裂则恰恰会很快地打破自我,因为DNA的50%发生重组。细胞为什么会主动选择减数分裂呢?或者换句话说,物种一方面要保持自我,另一方面有性生殖方式为什么成为高等生物的标配呢?答案可能还是效率与安全的博弈。在复杂变化的环境中,从长久来看,两害相权的不得已反倒是进化中的最优策略。因此,DNA主动采取了减数分裂的方式。
从减数分裂的发生阶段也能看出进化的深意。减数分裂最有趣的地方在于它是在个体内实现的。以人类为例,减数分裂发生在男性和女性制造生殖细胞时,而不是受精卵中。也就是说,减数分裂带来的遗传多样性不是两性交配带来的,而是在交配前多年就已经完成了。
我们假设同源重组发生在受精卵里,这会产生两个问题。第一个是安全的问题,受精卵在发育中进行同源重组,一旦出现问题,那纠正的成本几乎是不可承受的。第二个是效率的问题,同源重组是很耗费时间的,很多物种制造配子耗时经年,这对新个体的生长发育是致命的。
结婚生子的主要目的,其实就是检验自己的同源重组成果。
细胞有办法消除DNA的各种错误,却无法除掉寄生者,就像你无法叫醒一个装睡的人。
DNA寄生者即所谓的 可移动基因元件 ,它们可以从基因组的一个位置跳到另一个位置。可移动基因原件有很多名字,如 跳跃基因 、 自私DNA 等 [39] 。可移动基因元件有两个特点:第一,它们在DNA扩张中产生,基因组中的DNA通过获得自己的额外拷贝而得到扩张;第二,它们对 表型 没有贡献,表型是一个遗传学概念,指的是有机体可被观察到的结构、功能方面的特性,如身高、体重等,这个概念同 基因型 相对,基因型指的是同表型相关联的DNA序列。换句话说,可以把可移动基因元件看作没有对应表型的DNA。
可移动基因元件之所以能移动,依靠两种方式,一种叫作 转座 也叫 转座性重组 ,另一种叫作 保守位点特异性重组 。两者的主要区别在于,前者不需要特殊的DNA序列,而后者则需要特殊序列实现重组,一个不精确但是有用的类比是,转座性重组常常类似复制粘贴,而保守位点特异性重组类似查找替换。
在获得可移动基因元件、跳跃基因、自私DNA这样的名称前, 垃圾DNA 曾被用来形容包括这些可移动的DNA在内的序列。但我们现在知道,可移动基因元件可能并非无用的。一个事实是人类基因组中超过30%的序列是转座子。另一个事实是,某些 转座子 ,也就是以转座方式跳跃的可移动基因元件,是活跃的。转座子分3种:第一种 纯DNA转座子 ,在2500万~3500万年前当人类和旧大陆猴分野之前不久,它们曾经非常活跃,但是因为积累了很多失活突变,自分野之后,就在人类这一支中呈现休眠状态;第二种叫作 逆转录病毒样逆转座子 ,它们在人类基因组中也只存遗迹,最近的活跃事件也要追溯到600万年前,当时人类和猩猩刚刚踏上不同的征途;第三种叫作 非逆转录病毒逆转座子 ,它们也同样古老,但是即使今天依然在我们的基因组中移动。它们中的一种在每100~200个新生儿中就能见到一次,而它们对人类突变的贡献也不容小觑,大概是0.2%。
可移动基因元件似乎在更大的时间尺度上塑造着DNA。大多数DNA修复机制在细胞水平影响DNA,同源重组似乎可以在个体水平上改变DNA,而可移动基因元件相关的两种重组方式,则似乎在进化的巨大跨度上雕刻着DNA。从这个意义上说,可移动基因元件也有表型,但这个表型我们无法在个体水平观察到。
在《逍遥游》中,惠子对庄子说:“吾有大树,人谓之樗。其大本拥肿而不中绳墨,其小枝卷曲而不中规矩,立之途,匠者不顾。今子之言大而无用,众所同去也。”庄子则回答:“今子有大树,患其无用,何不树之于无何有之乡,广莫之野,彷徨乎无为其侧,逍遥乎寝卧其下。不夭斤斧,物无害者,无所可用,安所困苦哉!”可移动基因元件就是看似无用的大树。庄子在《人间世》中又说:“人皆知有用之用,而莫知无用之用也。”可移动基因元件是宏大叙事的,所以才在细胞和个体尺度看来似乎是无用的。
罗素 在散文《怎样变老》中说:“生命本像一条长河,初时窄小,受两岸狭迫,水流湍急而澎湃,击岩石破瀑布,急不可待涌向前。”DNA又何尝不是这样的长河呢?它的两岸就是膜,DNA相对于RNA的优势,只有膜出现后,才成为可能。
磷酸二酯键(phosphodiester bond): 磷酸和2个五碳糖的羟基(3’-OH,5’-OH)发生酯化反应形成的化学基团为磷酸二酯键,是一种共价键。在DNA和RNA长链中,磷酸二酯键构成了长轴方向的较强的作用力,非共价结合的碱基互补配对构成了垂直于长轴方向上的较弱的作用力。甚至可以说,磷酸二酯键是生命的基础。
脱氧核糖核苷三磷酸(deoxy-ribonucleoside triphosphate,dNTP): 由磷酸基团、脱氧核糖和含氮碱基组成,是构成DNA的基本单位,分为dATP、dGTP、dCTP、dTTP。
核糖核苷三磷酸(ribonucleoside triphosphate,rNTP): 由磷酸基团、核糖和含氮碱基组成,是构成RNA的基本单位,分为ATP、GTP、CTP、UTP。
核糖核苷酸还原酶(ribonucleotide reductase,RNR): 一种将核糖核苷酸催化为脱氧核糖核苷酸的酶。由核糖核苷酸还原酶催化最终得到的dNTP可以用来合成DNA。它是一种在所有物种中都非常重要的酶。
DNA聚合酶(DNA polymerase): 以DNA为模板、dNTP为原料催化DNA长链形成的酶。
脊髓灰质炎病毒(poliovirus): 引发脊髓灰质炎的病毒,由RNA基因组和病毒衣壳蛋白组成,其RNA有7500个核苷酸,被认为是最简单的病毒。
新型冠状病毒: 全称为严重急性呼吸系统综合征冠状病毒2型(severe acute respiratory syndrome coronavirus 2,SARS-CoV-2),引发新冠疫情的病毒,基因组为RNA,约为30 000个核苷酸。
半保留复制(semiconservative replication): 指DNA复制过程中新生的DNA双链中一条来自亲本、一条是新合成的现象。
复制叉(replication fork): 在DNA复制过程中DNA双链上形成的用于复制的结构。
先导链(leading strand): DNA复制过程中新合成的两条新链中,同复制叉打开的方向一致的那一条链,其复制是连续的。
后随链(lagging strand): DNA复制过程中新合成的两条新链中,同复制叉打开的方向相反的那一条链,其复制是不连续的。
半不连续复制(semidiscontinuous replication): 先导链和后随链一条连续复制,另一条不连续复制,称为半不连续复制。
引物(primer): 所有生物中用于DNA合成起始的一段短的、单链核苷酸序列。在细胞内,所有的DNA复制采用约10个核苷酸的RNA作为引物,之后经历RNA引物的移除和DNA的替换等步骤;在体外即生命科学实验中,DNA扩增采用人工设计的约20个核苷酸的DNA作为引物。
DNA引物酶(DNA primase): DNA复制过程中用于生成一段RNA引物以启动DNA合成的酶,是一种RNA聚合酶。
复制起点(replication origin): 基因组中用于DNA复制起始的一段特殊DNA序列。
DNA解旋酶(DNA helicase): 用于解聚DNA的酶,是一种马达蛋白,能沿着DNA移动,利用ATP水解的能量打开DNA双链。
单链DNA结合蛋白(single-stranded DNA binding protein): 结合于单链DNA上的蛋白质,广泛存在于病毒、细菌和真核生物中。
DNA拓扑异构酶(DNA topoisomerase): 可以实现DNA拓扑学结构改变的酶,如改变DNA的超螺旋状态。
纤维素囊泡黏杆菌( myxobacterium Sorangium cellulosum ): 一种土壤中富集的革兰氏阴性菌,拥有已知最大的原核生物基因组,约1300万个碱基对。
复制性细胞衰老(replicative cell senescence): 细胞在经历有限次数的分裂后表现出的增殖减弱、生长停滞等现象。
赫拉克利特(Heraclitus,公元前6世纪—公元前5世纪): 古希腊哲学家。最知名的见解是万物处于流变状态。
克拉底鲁(Cratylus): 古希腊哲学家。生卒年不详,最知名的事迹是他的名字出现在柏拉图的《对话录》一章的题目之中。他推崇赫拉克利特哲学并影响了年轻的柏拉图。亚里士多德的《形而上学》中也提到过他。
生殖细胞(germ cell): 多细胞生命体中产生配子用于有性生殖的细胞。
体细胞(somatic cell): 多细胞生命体中不同于配子的、组成身体的细胞。
外切核酸酶(exonuclease): 在一个多聚核苷酸链末端每次切下一个核苷酸的酶。同内切核酸酶相区别,后者在核酸长链中间切割。
链导向错配修复(strand-directed mismatch repair): 细胞内发展出的一种针对新生链而不是模板链的修复,其机制在于对新生链和模板链的区别,在大肠杆菌中这种区别的方式是新生链没有甲基化修饰,在真核细胞中这种区别方式是新生链有切口。
脱嘌呤(depurination): 指核酸尤其是DNA上碱基腺嘌呤、鸟嘌呤的水解释放过程。DNA要比RNA更容易发生脱嘌呤。核酸也会发生脱嘧啶(depyrimidination),但是概率远小于脱嘌呤,在哺乳动物中,二倍体细胞一昼夜经历18 000次脱嘌呤,但只有600次脱嘧啶。
碱基切除修复(base excision repair): 一种DNA损伤修复方式,主要用来修复小的、不会影响DNA双螺旋的碱基损伤。
核苷酸切除修复(nucleotide excision repair): 一种DNA损伤修复方式,不同于碱基切除修复,主要用来修复大的、影响DNA双螺旋的碱基损伤。
嘧啶二聚体(pyrimidine dimers): 由光化学反应如紫外线诱导的、形成于胸腺嘧啶或者胞嘧啶上的分子损伤。
非同源末端连接(non-homologous end joining): DNA双链损伤修复的一种方式,损伤的末端直接连接而不需要同源模板,因而得名。
同源重组(homologous recombination): 一种基因重组方式,发生于两条相同的或者相似的DNA双链或者单链之间,也可能发生于病毒RNA之间,用于修复DNA双链损伤,也用于生殖细胞基因重组。
减数分裂(meiosis): 有性生殖物种生殖细胞分裂的一种方式,产生配子包括精子和卵子。在减数分裂中,一个生殖细胞经历两轮分裂,最后生成4个单倍体子细胞。
可移动基因元件(mobile genetic elements): 一种能在基因组之内或者不同物种之间移动的基因材料。在人类的基因组中,约50%属于可移动基因元件。
跳跃基因(jumping genes): 转座子,在基因组内可以改变位置的DNA序列。
自私DNA(selfish DNA): 在基因组中以其他基因为代价而增强自己的转移的基因片段。
表型(phenotype): 遗传学术语,指的是某个生物的一连串的可观察的性状,如人的身高、体重,植物的花色等。
基因型(genotype): 遗传学术语,指的是某个生物的全部遗传组成。
转座(transposition): 遗传材料的水平转移,不同于父子代之间的垂直转移。
转座性重组(transpositional recombination): 含义同转座。
保守位点特异性重组(conservative site-specific recombination): 重组的一类,依赖于小范围同源序列。
转座子(transposon): 跳跃基因。
DNA转座子(DNA transposon): DNA跳跃基因或者转座子,同由RNA构成的转座子相区别。
逆转录病毒(retrovirus): 以RNA作为自身基因组,并将自身RNA的DNA拷贝插入宿主DNA的一种病毒,如艾滋病病毒。
逆转座子(retrotransposon): 一种基因组分,可以通过将自身RNA转换成DNA后复制粘贴到宿主不同的基因组位置,最大的特点是存在RNA转座中间体。
逆转录病毒逆转座子(retroviral-like retrotransposon): 存在RNA转座中间体,需要逆转座酶和整合酶。
非逆转录病毒逆转座子(nonretroviral retrotransposon): 存在RNA转座中间体,需要逆转座酶和内切核酸酶。
伯特兰·罗素(Bertrand Russell,1872—1970): 英国哲学家、逻辑学家、社会改革倡导者。