小提琴家的大拇指：大话基因秘史最新章节_山姆·基恩著

第四章
DNA的乐谱：DNA储存了哪些信息？

近些年，《爱丽斯漫游奇境》（ Alice's Adventures in Wonderland ）中一个无意的双关语引发了与DNA的奇妙共鸣。在现实生活中，这本书的作者刘易斯·卡罗尔（Lewis Carroll）在牛津大学教数学，他的真名是查尔斯·勒特威奇·道奇森（Charles Lutwidge Dodgson）。《爱丽斯漫游奇境》中有一句著名的对白（至少在书呆子眼中很著名），假海龟抱怨“算数还要分为——夹、搛、沉、杵” ^[25] 。不过在这句胡扯之前，假海龟还说了一些奇怪的话。它坚持认为自己在学生时代没有读书（reading）和写字（writing），而是“笃酥”（reeling）和“卸渍”（writhing）。这多半又是一句牢骚，但最后一个术语“writhing”却引起了那些精通数学的DNA科学家的兴趣。

科学家在几十年前就已经知道，DNA这种活跃的长链分子可以极端地自我缠结。但他们不明白，为什么这种缠结不会阻遏我们的细胞。为了寻找答案，近年来，生物学家转向了数学中一个晦涩的分支——“扭结理论”（knot theory）。水手和女裁缝在几千年前就掌握了结绳记事的实用技巧，甚至凯尔特基督教和佛教那么遥远的宗教系统都不约而同地认为某些绳结是神圣的。但对扭结的系统性研究始于19世纪后期，也就是卡罗尔所处的维多利亚时代的英国。当时，博学的“开尔文勋爵”威廉·汤姆森（William Thomson）提出，元素周期表上的元素实际上是不同形状的微观扭结。为了精确起见，开尔文勋爵把他的原子扭结定义为闭环。［像鞋带那样有断头的扭结，被称为“缠结”（tangle）。］根据他的定义，一种独特的绳结模式就是一种“独特”的扭结，这些绳结相互交叉、彼此重叠。你可以在一个扭结上滑动一个环，撬开那些上下交叉的点，使其看起来像另一个扭结，但它实际上是同一种扭结。开尔文认为，扭结的独特形状赋予了每种化学元素独特的性质。原子物理学家很快证明了这个巧妙的理论是错误的，但在开尔文的启发下，苏格兰物理学家彼得·格思里·泰特（P.G. Tait）制作了一张独特扭结表。扭结理论从这里独立发展起来。

早期的扭结理论主要涉及翻花绳和记录结果。扭结理论家有点卖弄地把最容易解决的扭结——O，也就是门外汉所说的圆——定义为平凡扭结（unknot）。他们按照上下交叉的数量对其他独特扭结进行分类。到2003年7月，他们可以识别出6 217 553 258种不同的扭结，大致相当于地球上每人一个扭结，其中上下交叉的点多达22个。与此同时，其他的扭结理论家已经超越了简单的数字统计，想出了把一个扭结变成另一个扭结的方法。这通常涉及剪断绳子的上下交叉点，把上面的线从下面传过来，然后把剪断的末端捏合回去——这有时会使扭结更复杂，但大多数时候会使它更简单。虽然研究者通常是正统的数学家，但扭结理论始终保持着一种游戏的感觉。除了美洲杯帆船赛的参赛选手，没有人想到扭结理论的应用方法，直到1976年科学家发现了DNA中的扭结。

DNA中出现扭结和缠结的原因如下：它的长度、它的持续活跃性和它的稳定性。科学家在盒子里放了一根又长又细的绳子，并挤压冲撞它，有效地模拟了细胞核内忙碌的DNA。事实证明，绳子的末端很擅长在绳圈中蜿蜒穿行，几秒钟内就形成了多达11个交叉的极其复杂的扭结（如果你曾经把耳机扔进包里，然后试图把耳机拿出来，那么你可能已经猜到了结果）。像这样的缠结可能是致命的，因为复制和转录DNA的细胞机制需要一个平稳的轨道，而扭结使它脱轨。不幸的是，复制和转录DNA的过程会产生致命的扭结和缠结。复制DNA需要分离它的两条链，但就像紧紧编织的发辫，两条交错的螺旋链无法轻易地分开。此外，当细胞开始复制DNA的时候，后面悬挂的黏性长链有时会纠缠在一起。如果长链在用力拉扯后仍不能解开，细胞就会自杀——这是毁灭性的。

刘易斯·卡罗尔的假海龟哭着回忆在学校里“笃酥和卸渍”的经历，这种抱怨与现代DNA研究扭结和缠结的情况产生了共鸣（约翰·坦尼尔）

除了扭结本身，DNA还会陷入其他各种各样的拓扑困境。长链可能会相互缠绕，像连环的锁链。它们可能被扭得很紧，就像有人拧了一块抹布，或者像一条蛇咬住了你的前臂。它们能卷成比响尾蛇更紧的线圈。最后是线圈这种结构让我们回到了刘易斯·卡罗尔和他的假海龟这里。比较富有想象力的是，扭结理论家把这种线圈称为“writh”（扭曲），把扭曲的动作称为“writhing”——仿佛绳索或DNA被痛苦地捆在一起。那么，根据那些传言，假海龟的“笃酥和卸渍”有可能是在暗指扭结理论吗？

一方面，当开尔文勋爵和泰特开始研究扭结理论时，卡罗尔正在一所著名大学工作。他有机会接触他们的作品，而且这种数学游戏对他很有吸引力。另外，卡罗尔确实还写了一本《缠结的故事》（ A Tangled Tale ），书中的每一部分——不叫章节，而叫“扭结”——都包含一个需要解决的谜题。因此，他确实在写作中融入了复杂的主题。不过，作为一个扫兴的人，我有充分的理由认为假海龟对扭结理论一无所知。卡罗尔在1865年出版了《爱丽斯漫游奇境》一书，两年后，开尔文勋爵才提出元素周期表的扭结概念（至少是公开提出）。更重要的是，“writhing”这个词在扭结理论中曾经被非正式地使用过，但它第一次作为专业术语出现是在20世纪70年代。因此，假海龟在“夹、搛、沉、杵”之后似乎没有多少进步。

然而，即使这句双关语是在卡罗尔之后出现的，也并不意味着我们今天不能欣赏它。伟大的文学作品会向新一代人传递新事物，它仍然是伟大的。无论如何，扭结的环与卡罗尔描绘的迂回曲折的情节相得益彰。更重要的是，他可能会很高兴看到这个异想天开的数学分支进入现实世界，并成为理解人类生物学的关键。

扭转（twist）、扭曲和扭结的不同组合确保了DNA可以形成几乎无限数量的缠结，而把DNA从缠结中拯救出来的是一种“精通数学”的蛋白质，名为“拓扑异构酶”（topoisomerase）。其中的每一种蛋白质都掌握了扭结理论的一两个定理，并利用这些定理消除DNA中的冲突。有些拓扑异构酶能直接解开DNA链，而另一些能切开DNA链的其中一条，让它围绕着另一条链旋转，从而消除扭转和扭曲。还有些拓扑异构酶能在DNA交叉的地方剪断它，把交叉点下面的链转移到上面，并重新融合，从而解开一个扭结。拓扑异构酶每年都能无数次将我们的DNA从托尔克马达 ^[26] 式的厄运中解救出来，如果没有这些“数学天才”，我们就无法生存。如果说扭结理论起源于开尔文勋爵的扭转原子，然后自行发展，那么它现在已经回到了数十亿年前的DNA分子根源。

在DNA研究中，扭结理论并不是唯一一种意外出现的数学。科学家已经使用文氏图来研究DNA，还用到了海森堡不确定性原理。DNA的结构显示出了在帕特农神庙等古典建筑中发现的长和宽“黄金比例”。几何学爱好者把DNA扭曲成了莫比乌斯环，并构造了5种柏拉图立体。细胞生物学家已经意识到，为了适应细胞核，长链DNA必须不断折叠，形成一个“大环套中环，中环套小环”的分形图案，几乎分辨不出是纳米、微米还是毫米尺度。也许最不可思议的是，2011年日本科学家用类似于领带俱乐部的密码，用数字和字母表示A、C、G、T的组合，然后在普通土壤细菌的DNA中插入了“E=mc ² 1905！”的密码。 ^[27]

DNA与一种奇怪的数学现象“齐夫定律”有着特别密切的关系，该定律是一位语言学家最先发现的。乔治·金斯利·齐夫（George Kingsley Zipf）出生于德国，他的家族在德国经营啤酒厂，而他最终成为哈佛大学的德语教授。尽管热爱语言，但齐夫对收藏书籍保持怀疑。而且和同事不同的是，齐夫住在波士顿郊外一个7英亩的农场里，这里有葡萄园，养殖着猪和鸡。每年12月，他都会从这里砍伐家里需要的圣诞树。不过从气质上说，齐夫并不是农民，他经常天亮之后才起床，因为他夜晚几乎不睡，而是（从图书馆的书中）研究语言的统计特性。

有同事曾形容齐夫是个会“拆开玫瑰数花瓣”的人。他也用相同的方法对待文学，作为年轻学者，齐夫研究了詹姆斯·乔伊斯（James Joyce）的《尤利西斯》（ Ulysses ），得出的主要结论是这本书总共有260 430个词，其中有29 899个不同的词。齐夫还剖析了《贝奥武夫》（ Beowulf ）、荷马的作品、汉语文本以及罗马剧作家普劳图斯（Plautus）的全部作品。通过计算每部作品的字数，他得出了“齐夫定律”：一种语言中最常见词的出现频率大约是第二常见词的2倍，大约是第三常见词的3倍，大约是第一百常见词的100倍，以此类推。在英语中，“the”占总词数的7%，“of”大约是7%的一半，“and”大约是7%的三分之一，最后是“grawlix”（漫画中表示脏话的字符）或“boustrophedon”（牛耕式转行书写法）这样的生僻词。这样的分布适用于梵文和伊特鲁里亚语，也适用于现代印地语、西班牙语或俄语等难以辨识的文字（齐夫也在西尔斯·罗巴克公司的邮购目录中发现了这一规律）。甚至当人们创造语言时，也会出现类似于齐夫定律的东西。

齐夫死于1950年，后来的学者在非常多的领域发现了齐夫定律的证据——音乐（稍后会详述）、城市人口、收入分配、大规模灭绝、地震震级、绘画和漫画中不同颜色的比例，等等。每个类别中最大或最常见的成分都是第二成分的2倍，第三成分的3倍，以此类推，没有例外。也许不可避免的是，这一理论的突然流行引起了强烈的反对，尤其是在语言学家中，他们甚至质疑齐夫定律到底有什么意义 ⁽¹⁾ 。尽管如此，许多科学家依然为齐夫定律辩护，因为他们感觉它是正确的——词语的频率似乎不是随机的。而且根据经验，它确实非常准确地描述了语言，甚至包括DNA的“语言”。

当然，最初DNA并不明显地呈齐夫分布，特别是对使用西方语言的人来说。和大多数语言不同，DNA没有明显的“空格”来分隔每个单词，它更像没有间隔、没有停顿、没有标点符号的古代文本，只是一连串的字母。你可能认为，编码氨基酸的A-C-G-T三联体可以起到“词汇”的作用，但它们各自的频率并不符合齐夫定律。为了寻找相似之处，科学家不得不转而研究三联体组，其中一些人找了一个不太可能的渠道：中文搜索引擎。汉语通过连接相邻的符号来创造复合词。因此，如果一个中文文本是ABCD，搜索引擎可能会通过检查一个滑动的“窗口”来寻找有意义的词块，首先是AB、BC和CD，然后是ABC和BCD。事实证明，对于寻找DNA中有意义的词块，滑动窗口是一种很好的策略。从某种意义上看，如果把大约12个碱基作为一组，那么DNA看起来最符合齐夫定律，最像一种语言。总的来说，DNA最有意义的单位可能不是1个三联体，而是4个三联体——十二联体。

DNA的表达，即翻译成蛋白质的过程，也遵循齐夫定律。和常见词一样，每个细胞中都会有一些频繁表达的基因，而其他大多数基因几乎不会出现。随着时间的推移，细胞已经学会了越来越依赖这些常见的蛋白质，相较于其他次常见蛋白质，最常见蛋白质的出现频率大约是其2倍、3倍或4倍。的确，许多科学家抱怨齐夫定律没有任何意义，但其他人认为，是时候认识到DNA不仅类似于语言，而且真的在像语言一样起作用。

DNA不仅仅是一种语言，它还具有遵循齐夫定律的音乐属性。对于一段音乐的音调，比如C大调，某些音符会比其他音符出现得更频繁。事实上，齐夫曾经研究过莫扎特、肖邦、欧文·伯林（Irving Berlin）和杰罗姆·科恩（Jerome Kern）的音符出现频率——发现了齐夫分布。后来的研究人员在其他音乐流派中证实了这一发现，从罗西尼到雷蒙斯，在音色、音量和音符的持续时间中发现了齐夫分布。

如果DNA也符合齐夫定律，那它可以编排成某种类型的乐谱吗？事实上，音乐家已经将一种大脑化学物质——血清素——的A-C-G-T序列翻译成小调，方法是把DNA的4个字母分配到音符A、C、G、E中。其他音乐家把和谐的音符分配给最常见的氨基酸，从而创作了DNA旋律，并产生了更复杂、更悦耳的声音。第二种方法加强了一种观点：DNA和音乐一样只是部分严格的“音符”序列。它还有限定条件，包括母题和主题，特定序列出现的频率，以及协同工作的好坏。一位生物学家甚至认为，音乐是研究基因片段如何组合在一起的天然媒介，因为人类对音乐中片段的“组合”有着敏锐的听觉。

还有两名科学家反其道而行之，没有把DNA转化成音乐，而是把肖邦一段夜曲的音符转化成DNA。他们发现了一个与RNA聚合酶的部分基因“惊人相似”的序列。这种聚合酶是生命中普遍存在的一种蛋白质，它利用DNA构建RNA。这意味着，如果你仔细观察，夜曲实际上编码了整个生命周期。设想一下：聚合酶使用DNA来构建RNA，RNA转而构建更复杂的蛋白质，蛋白质转而构建细胞，细胞又转而构建人类（比如肖邦），肖邦转而创作了和谐的音乐，音乐通过编码DNA来构建聚合酶，循环就此达成。（音乐学概括了本体论 ^[28] 。）

这个发现是侥幸吗？不完全是。一些科学家认为，当基因第一次出现在DNA中的时候，并不是沿着某一条古老的染色体随机出现的。相反，最开始是重复的短语，十几个或二十几个DNA碱基一遍又一遍地重复。这些片段的功能就像基本的音乐主题，作曲家在此基础上微调和调整（突变），创造出更令人愉悦的变奏曲。从这个意义上说，基因一开始就有旋律。

长期以来，人类一直希望将音乐和自然界中更深刻、更宏大的主题联系起来。从古希腊时代到开普勒，大多数著名天文学家都相信，行星在天空中运行时创造了一种凄美的音乐宇宙（musica universalis），是用来赞美创造的赞歌。事实证明，这种音乐宇宙确实存在，只是它比我们想象的更接近DNA。

除了齐夫定律，遗传学和语言学还有更深刻的联系。孟德尔在变老变胖的时候，也涉足过语言学，包括试图推导出一个精确的数学定律，解释德国姓氏的后缀（比如“-mann”和“-bauer”）如何与其他姓氏“杂交”，并在下一代中自我复制（听起来很熟悉）。如今，如果没有从语言研究中获取的术语，遗传学家甚至无法谈论自己的工作。DNA有同义词、翻译、标点、前缀和后缀。错义突变（替换氨基酸）和无义突变（干扰终止密码子）基本上都是拼写错误，而移码突变（扰乱三联体的读取方式）则是传统的排版错误。遗传学甚至有语法和句法——将氨基酸“词汇”和“从句”组合成细胞可以阅读的蛋白质“语句”的规则。

更具体地说，遗传学的语法和句法概述了细胞将氨基酸链折叠成工作蛋白的规则（蛋白质必须折叠成紧凑的形状才能发挥作用，如果形状错误，通常会失效）。正确的句法和语法折叠是DNA语言交流的关键部分。然而，交流不仅仅需要正确的句法和语法，蛋白质“语句”对细胞来说也必须有意义。奇怪的是，在句法和语法上完美无瑕的蛋白质“语句”，可能没有生物学意义。要理解这一点，不妨看看语言学家诺姆·乔姆斯基（Noam Chomsky）曾经说过的话，他试图证明人类语言中语法和意义的独立性。他的例子是：“无色的绿色思想疯狂地沉睡着。”无论你怎么看待乔姆斯基，这句话一定是有史以来最了不起的东西之一。它在字面上没有任何意义，然而，由于它包含真实的词汇，而且句法和语法都没有问题，我们能把它读下来，这就并非完全没有意义。

同样，DNA突变可以引入随机的氨基酸“词汇”或“短语”，细胞会自动地根据物理和化学的完美语法将产生的氨基酸链折叠起来。但是，任何措辞上的变化都会改变整个句子的形状和意思，而结果是否仍有意义，要视情况而定。有时，新的蛋白质“语句”只有微调，细胞费点劲儿也能理解少量“诗的破格”。有时一个变化（如移码突变）会使整个句子变得混乱，读起来像grawlix——漫画人物的脏话，类似于“#$%^&@！”，细胞会很受折磨并最终死亡。但每隔一段时间，细胞就会读到一段充满错义和无义的蛋白质“语句”……然后仔细想一想，这在一定程度上是说得通的。于是，出现了一些出乎意料的奇妙短语，比如刘易斯·卡罗尔的 mimsy borogoves ，或者爱德华·利尔的 runcible spoon 。 ^[29] 这是一种罕见的有益突变，在这样的幸运时刻，进化悄然前行 ^[(2)] 。

由于DNA和语言的相似之处，科学家甚至可以用相同的工具分析文学文本和基因“文本”。这些工具很擅长分析作者或起源始终不确定的争议文本。对于文学上的争议，专家通常会将一篇作品与其他出处已知的作品进行比较，判断其语气和风格是否相似。学者有时也会对一篇文章的用词进行分类和统计。两种方法都不完全令人满意——第一种太主观，第二种太枯燥。对于DNA，比较有争议的基因组通常涉及比对几十种重要基因，寻找微小的差异。但是，在不同的物种身上，这项技术就失效了，因为差异太大了，而且不确定哪些差异是重要的。由于只关注基因，这项技术也忽略了基因之外的调控DNA。

为了避免这些问题，加州大学伯克利分校的科学家在2009年发明了一种软件，它可以沿着一个文本的一串字母滑动“窗口”，并搜索相似的地方和想要寻找的模式。作为测试，科学家分析了哺乳动物的基因组和几十本书的文本，包括《彼得·潘》（ Peter Pan ）、《摩门经》（ Book of Mormon ）和柏拉图的《理想国》（ Republic ）。他们发现，在一次试验中，该软件可以将DNA分类为哺乳动物的不同属；在另一次试验中，该软件也可以非常准确地将书籍分类为不同的文学流派。轮到那些有争议的文本时，科学家深入研究了关于莎士比亚的学术争议。软件得出的结论是：莎士比亚确实写了《两贵亲》（ The Two Noble Kinsmen ）——在接受度边缘徘徊的一部戏剧，但没有写过《泰尔亲王佩利克尔斯》（ Pericles ）——另一部有争议的作品。伯克利分校的团队随后研究了病毒与原始细菌的基因组，因为它们是最古老和（对我们来说）最陌生的生命形式。他们的分析揭示了这些微生物和其他微生物之间的新联系，并为它们的分类提供了新建议。由于数据量非常庞大，需要加强对基因组的分析，病毒—原始细菌的扫描独占了320台电脑一整年的时间。但基因组分析使科学家不再简单地逐个比较少量基因，而是阅读一个物种的完整自然史。

然而，相比于阅读其他文本，阅读完整的基因组历史需要更多技巧。这是因为阅读DNA需要从左到右和从右到左的两种阅读方式（牛耕式转行阅读）。否则，科学家就会错过关键的回文和回字，即可正读也可反读的短语（反之亦然）。

世界上已知的最古老的回文之一是刻在庞贝古城和其他地方墙壁上的奇妙的上下左右都读得通的方块：

S-A-T-O-R

A-R-E-P-O

T-E-N-E-T

O-P-E-R-A

R-O-T-A-S

“sator...rotas”回文 ^[(3)] 只有区区两千年的历史，比DNA中真正古老的回文少了几个数量级。DNA甚至发明了两种回文。有一种是传统的“上海自来水来自海上”类型 ^[30] ，比如GATTACATTAG。但由于碱基A和T配对，C和G配对，DNA有了另一种更微妙的回文：一条链向前读取，另一条链向后读取。想象一条DNA链是CTAGCTAG，那么另一条对应的链就是GATCGATC，它们形成了完美的回文。

虽然看起来无害，但第二种回文会让微生物感到恐惧。很久以前，许多微生物进化出了一种特殊的蛋白质（叫“限制性内切酶”），这种蛋白质可以像钢丝钳一样彻底切断DNA。不管出于什么原因，这些酶只能沿着高度对称的纹路切割DNA，比如回文的部分。切断DNA能达到一些有用的目的，比如清除被辐射损伤的碱基，或者消除扭结DNA中的冲突。但顽皮的微生物主要利用这些蛋白质来玩“哈特菲尔德-麦考伊夙怨” ^[31] ，撕碎彼此的遗传物质。因此，微生物学会了用强硬的方法来避免即使看上去最温和的回文。

并不是说高等生物就能容纳很多回文，再想想CTAGCTAG和GATCGATC。注意，回文的前半部分可以与它的后半部分配对：第一个字母和最后一个字母配对（C...G），第二个字母和倒数第二个字母配对（T...A），以此类推。但要在内部形成键，一侧的DNA链必须与另一侧分离，并向上弯曲，留下一个凸起。这种结构被称为“发夹”，因为具有对称性，所以可以沿着任何长度合适的DNA回文形成。你可能已经猜到，发夹可以像扭结一样破坏DNA，而且出于同样的原因，它们也会破坏细胞机制。

DNA中的回文可以通过两种方式出现。当A、C、G、T恰好对称排列时，发夹的稍短的DNA回文会随机出现。较长的回文也会破坏染色体，其中的许多回文可以通过特定的两步过程产生，尤其是那些会严重破坏矮小的Y染色体的回文。出于各种原因，染色体有时会意外地复制一段DNA，然后将复制的DNA粘贴到染色体的某个地方。染色体也可以（有时在双链断裂后）将一大块DNA翻转180度，然后将其向后重新连接。同时，重复（duplication）和倒位（inversion）会产生一段新的回文。

然而，大多数染色体会阻止长回文，或者说至少阻止产生长回文的倒位。倒位可以破坏基因或使其失效，从而使染色体失效。倒位还会降低染色体交换的概率——这是巨大的损失。交换（成对的染色体交叉并互换片段）允许染色体互换基因并获得更好的版本，或者更好地协同工作，使染色体更适应环境。同样重要的是，染色体通过交换将不良基因倾倒给合作伙伴，合作伙伴受骗上当，死掉了，而骗子染色体获得了完整的良好基因。但染色体只会与看起来很像的伙伴交换。如果伙伴的样子有点奇怪，染色体害怕获取不良DNA，就会拒绝交换。倒位看起来非常可怕，在这种情况下，带有回文的染色体会被避开。

Y染色体经常表现出对回文的不容忍。很久以前，在爬行动物分化成哺乳动物之前，X和Y是双胞胎染色体，经常交换。然后在3亿年前，Y染色体上的一个基因突变，成为导致睾丸发育的主开关（在此之前，性别可能是由母亲孵蛋的温度决定，这类似于决定海龟和鳄鱼颜色——粉红色或者蓝色——的非遗传系统）。由于这种变化，Y染色体变成了“雄性”染色体，并通过各种过程积累了其他雄性基因，主要用于产生精子。结果就是X染色体和Y染色体看起来不一样，而且避免交换。Y染色体不想冒险失去“男子气概”基因，而X染色体不想获得Y染色体的“笨蛋”基因，因为这可能会伤害到XX雌性。

在交换慢下来之后，Y染色体对倒位的容忍度提高了，无论是小的倒位还是大的倒位。事实上，Y染色体在历史上经历了4次大规模倒位，这是真正的DNA“大翻转”。每一次倒位都创造了很多有趣的回文，其中一段回文长度超过300万个字母，但每一次都使其与X染色体的交换更加困难。这不是大问题，除非交换使染色体抛弃不良突变。在XX雌性中，X染色体可以这么做，但如果Y染色体失去它的伙伴，不良突变就开始积累。每次出现突变，细胞就别无选择，只能将Y染色体切掉，并切除突变的DNA。结果并不乐观。Y染色体曾经是大染色体，现在它已经失去了原本1 400个基因中的24个。生物学家一度认为，按照这个速度，Y染色体已经无可救药。它们似乎注定要不断吸收功能失调的突变，变得越来越短，直到进化完全淘汰了Y染色体——也许同时淘汰了雄性。

然而，回文可能已经赦免了Y染色体。DNA链上的发夹是不好的，但如果Y染色体将自己折叠成一个巨大的发夹，它可以使任意两个回文相互接触——它们是方向相反的相同基因。因此，Y染色体能检查突变，并覆盖突变。就好像在一张纸上写“一个人，一项计划，一只猫，一条火腿，一头牦牛，一根山药，一顶帽子，一条运河：巴拿马！”，把纸叠起来，然后逐个字母地纠正所有差异，这种情况在每个新生的雄性身上发生了600次。折叠还允许Y染色体弥补其缺乏性染色体的缺陷，并与自己“重组”，将一个点的基因与另一个点的基因交换。

这种回文修复的方法非常巧妙。事实上，聪明反被聪明误。遗憾的是，Y染色体用来比较回文的那个系统并不“知道”哪些回文突变了，哪些没有突变，它只知道有区别。所以Y染色体经常用坏基因覆盖好基因。自我重组也倾向于意外地删除回文之间的DNA。这些错误很少会杀死男性，但会使他的精子无力。总的来说，如果Y染色体不能纠正这样的突变，它就会消失，但让它这么做的东西（它的回文）会使它失去“男子气概”。

DNA的语言属性和数学属性都有助于实现其最终目标：管理数据。细胞通过DNA和RNA储存、调用和传递信息，科学家经常谈论核酸密码与信息处理，好像遗传学是密码学或计算机科学的一个分支。

事实上，现代密码学有一定的遗传学渊源。1915年，一个名叫威廉姆·弗里德曼（William Friedman）的年轻遗传学家从康奈尔大学毕业后，加入了伊利诺伊州农村的一个古怪的科学智囊团（这里拥有一座荷兰风车，一只名叫“哈姆雷特”的宠物熊和一座灯塔——尽管它距离海岸750英里）。他的老板让他研究月光对小麦基因的影响，这是他的第一个任务。但弗里德曼的统计学背景很快把他卷入了老板的另一个疯狂项目 ⁽⁴⁾ ——证明弗朗西斯·培根（Francis Bacon）不仅是莎士比亚某些戏剧的作者，而且在《第一对开本》（ First Folio ）中留下了宣示自己作者身份的线索（这些线索涉及改变一些字母的形状）。弗里德曼很兴奋，他小时候读过埃德加·爱伦·坡（Edgar Allan Poe）的《金甲虫》（ The Gold-Bug ），从那以后就爱上了破译密码，但他认为关于培根的说法是胡说八道。他指出，有人可以用相同的解密方法来“证明”《恺撒大帝》（ Julius Caesar ）的作者是西奥多·罗斯福（Theodore Roosevelt）。 ^[32] 然而，弗里德曼已经设想遗传学是生物学的密码破译，在体验了真正的密码破译之后，他在美国政府找到了一份密码学工作。凭借在遗传学方面获得的统计专业知识，他很快就破解了1923年揭露茶壶山贿赂丑闻的秘密电报。20世纪40年代初，他开始破译日本的外交密码，包括1941年12月6日截获的几封臭名昭著的电报，这些电报从日本发给华盛顿特区的大使馆，预示着迫在眉睫的威胁。

弗里德曼放弃了遗传学，因为20世纪前10年的遗传学需要漫长的时间，等待不能说话的牲畜繁殖（至少在农场里），与其说是数据分析，不如说是畜牧业。如果弗里德曼晚出生一两代，他对事情的看法会有所不同。到20世纪50年代，生物学家经常把A-C-G-T碱基对称为生物学的“比特”（bits），把遗传学称为需要破解的“密码”。遗传学变成数据分析，并继续沿着这个方向发展，这在一定程度上归功于弗里德曼同时代的年轻工程师克劳德·香农（Claude Shannon），他的工作包括密码学和遗传学。

科学家经常引用香农在麻省理工学院的论文，这篇论文写于1937年，是有史以来最重要的硕士论文，当时香农只有21岁。在这篇论文中，他概述了一种将电子电路和基本逻辑结合起来的数学运算方法。在此基础上，他可以设计出执行复杂计算的电路——所有数字电路的基础。10年后，香农写了一篇论文，主题是使用数字电路来编码信息并更有效地传输信息。不夸张地说，这两项发现从零开始创造了现代数字通信。

除了这些开创性的发现，香农还沉溺于其他兴趣。在办公室里，他喜欢玩杂耍，喜欢骑独轮车，还喜欢一边骑独轮车一边在大厅里玩杂耍。在家里，他在地下室无休止地摆弄一些“垃圾”。他一生的发明包括：火箭动力飞盘，电动弹簧高跷，解魔方的机器，解迷宫游戏的机械鼠（名为“忒修斯”），计算罗马数字的程序（名为“THROBAC”），还有烟盒大小的“可穿戴计算器”，可以在轮盘赌中大赚一笔 ⁽⁵⁾ 。

香农在1940年的博士论文中也研究了遗传学。当时，生物学家正在证实基因和自然选择之间的联系，但其中涉及的大量统计数据吓坏了很多人。尽管香农后来承认他对遗传学一窍不通，但还是投身其中，试图像研究电路一样研究遗传学：把复杂因素简化成简单代数，这样对于给定的任何输入（种群中的基因），任何人都可以快速输出（哪些基因会兴盛或消亡）。香农花了几个月时间写这篇论文，在获得博士学位后，他被电子学所吸引，再也没有回到遗传学上。这不重要。他的新研究成为信息论的基础，这是一个非常广泛的领域，没有香农也可以追溯到遗传学。

通过信息论，香农确定了如何较少犯错地传递信息——生物学家已经意识到，这一目标相当于设计出最好的遗传密码，最大限度地减少细胞中的错误。生物学家还采纳了香农关于语言效率和冗余的研究。香农曾经计算过，英语至少有50%是多余的（他研究了雷蒙德·钱德勒写的一本通俗小说，冗余率接近75%）。生物学家也研究效率，因为根据自然选择，效率高的生物应该更健康。他们推断，DNA的冗余越少，细胞存储的信息就越多，处理信息的速度也越快，这是巨大的优势。但是，领带俱乐部已经知道，DNA在这方面并不令人满意。多达6个A-C-G-T三联体才编码一个氨基酸，这完全是多余的。如果细胞在每个氨基酸上使用更少的三联体，就可以吸收更多的氨基酸，而不是通常的20种——这将开辟分子进化的新领域。事实上科学家已经证明，如果经过训练，实验室的细胞可以使用50种氨基酸。

虽然冗余的成本很高，但香农指出，它也有好处。语言中的一点冗余，确保了即使某些音节或词汇被混淆，我们也能跟上对话。Mst ppl hv lttl trbl rdng sntncs wth lttrs mssng。 ^[33] 换句话说，虽然过多冗余会浪费时间和精力，但少量冗余可以防止错误。应用于DNA，我们现在能看到冗余的意义：它使突变不太可能引入错误的氨基酸。此外，生物学家已经计算出，即使一个突变确实引入了错误的氨基酸，大自然母亲已经安排好了所有事情，所以无论发生什么变化，新的氨基酸都很可能具有相似的化学和物理性质，因此可以正确折叠。它是氨基酸的同义词，所以细胞仍然可以读懂句子的意思。

（在基因之外，冗余可能也有用。非编码DNA——基因之间的长段DNA——包含着一些冗余的字母片段，看起来就像有人用自己的手指敲打大自然键盘。虽然这些片段看起来一文不值，但科学家不确定它们是不是真的无用。正如某位科学家自言自语：“基因组究竟是一部垃圾小说，可以删掉其中的100页也没关系，还是更像海明威的小说，只要删掉1页，故事主线就没了？”但是将香农定理应用于垃圾DNA的研究，会发现DNA的冗余看起来很像语言的冗余——这可能意味着非编码DNA仍然有未被发现的语言属性。）

所有这些都让香农和弗里德曼惊叹不已。但也许最吸引人的是，除了其他更聪明的功能，DNA还利用了我们最强大的信息处理工具。20世纪20年代，有影响力的数学家大卫·希尔伯特（David Hilbert）试图确定是否存在一种机械的、转动曲柄的过程（算法），几乎不用思考就可以自动求解定理。希尔伯特设想人类可以用铅笔和纸完成这个过程。但在1936年，数学家（兼业余扭结学家）艾伦·图灵（Alan Turing）为此设计了一台机器。图灵的机器看起来很简单，只有一根长长的录音磁带和一个移动磁带并做标记的装置，但原则上，无论问题多么复杂，只要把它们分解成有逻辑的小步骤，它就能计算出任何可解决的问题的答案。图灵机启发了许多学者，香农就是其中之一。工程师很快就制造出了带有长磁带和记录磁头的工作模型——我们所谓的“计算机”，就像图灵设想的那样。

然而，生物学家知道，细胞复制、标记、读取DNA和RNA长链的机制完全不同于图灵机。这些“生物图灵机”运行着每一个活细胞，每一秒都在解决各种复杂的问题。事实上，DNA比图灵机更好：计算机硬件需要软件才能运行，而DNA既是硬件也是软件，既储存信息也执行命令，甚至包含了制造更多DNA的指令。

这还不是全部。即使DNA只能做到我们目前看到的事情——一遍又一遍地完美复制自己，旋转出RNA和蛋白质，承受核弹的破坏，编码词汇和短语，甚至演奏几支好听的曲调，它仍然可以作为一种令人惊叹的分子脱颖而出，是最好的分子之一。但DNA更了不起的是，它有能力构建比自身大数十亿倍的物体，并让它们在全球范围内活动。DNA甚至记录和保存了它的创造物在这段时间里所见和所做的一切，现在，掌握了DNA工作的基本原理后，一些幸运的生物终于可以自己阅读这些故事了。

第四章 DNA的乐谱：DNA储存了哪些信息？

第四章
DNA的乐谱：DNA储存了哪些信息？