我们称DNA为代码,但它是用来编码什么的代码呢?生物体可以产生众多蛋白质,目前我们已经对其中的几种蛋白质有了初步的了解和认识,但是是什么决定了生物体产生哪些蛋白质呢?这两个问题的答案是相同的,那就是基因,同时它也将生物信息的抽象概念与生物分子的物理性结合在了一起。基因的作用及局限性与DNA、蛋白质的物理特性及它们所处的环境有着千丝万缕的联系。对遗传疾病的讨论通常不会涉及将DNA弯曲或将分子填充到小空间中的范畴,但是,正如我们将看到的,这种内在的联系对于理解生命的运作方式很重要。自组装再次成为本章的核心,我们将要探讨DNA和蛋白质结合在一起以包装基因组的过程。当人体细胞应对大小、形状和无序的挑战来组织它们的DNA时,我们对可预测的随机性、尺度推绎和调节回路等其他主题的研究也将反映在对遗传物质的处理中。
我们已经看到,蛋白质是通过化学键“缝合”在一起的氨基酸序列。细胞DNA的核苷酸序列决定了每个氨基酸的序列。三个核苷酸组编码一个特定的氨基酸。例如,DNA序列TGG编码了一种色氨酸,即产生了一种疏水性氨基酸。CGT和CGC都指定带正电荷的氨基酸精氨酸。因此,TGGCGT序列表明色氨酸与精氨酸相连。然而,没有一种机器可以直接读取DNA代码并制造相应的蛋白质。一种被称为RNA的核糖核酸分子充当了中间体。
RNA,顾名思义,与DNA类似,也是由4个核苷酸单元随机组成的链,其中A、C和G与DNA中的相同,第4个U称作尿嘧啶,类似于DNA中的T,即胸腺嘧啶。一种称为RNA聚合酶的蛋白质机器与DNA的“启动子”序列结合,接下来像拉链上的滑块一样沿着双螺旋前进,从而将两条链分开,然后读取其中一条模板链的核苷酸序列,并构建一条单链RNA(见图3-1)。将信息从一种形式(DNA)复制到另一种形式(RNA)的过程称为转录,类似于将口语转录成文本或将手写笔记转录成计算机文本。
图3-1 RNA聚合酶将DNA转录成单链RNA
转录得到的RNA与DNA模板链互补,因此除了将T替换为U外,其在序列上与DNA双螺旋的另一条链即编码链相同。举个例子,在模板链上镜像为TAGCAA的DNA编码序列ATCGTT将被转录为RNA序列AUCGUU。另一种被称为核糖体的机器可以将RNA链翻译成蛋白质。核糖体沿着RNA移动,与每个三核苷酸片段相互作用,并将适当的氨基酸连接到它正在构建的蛋白质上(见图3-2)。例如,RNA序列UGG编码色氨酸,而CGU和CGC则都编码精氨酸。序列UAG、UGA、UAA代表编码“停止”信息,它会命令核糖体停止合成蛋白质并与RNA分离。序列AUG的意思是“从这里开始”。
图3-2 核糖体将RNA翻译为蛋白质的过程
因此,一条特定的DNA片段决定了一种蛋白质,该蛋白质将通过转录成为RNA和翻译成为蛋白质的过程产生。因为DNA是通过精子和卵子由父母遗传给孩子的,所以每个这样的DNA片段都能够传递遗传特征,即这些特定蛋白质的活动或特征。例如,人之所以能看到颜色是因为有3种不同的蛋白质能对不同波长的光做出反应,而每种蛋白质则产生于视网膜的3种视锥细胞中的一种,每种蛋白质又大约由350个氨基酸组成,所以即使只编码其中一个氨基酸的单个三核苷酸组,所产生的差异也会导致人们对颜色的感知能力发生细微但可测量的变化。更引人注目的是,缺乏整个光检测蛋白的DNA序列会导致几种色盲中的一种。
有人可能会认为这些编码蛋白质的DNA片段就是我们所说的基因。二者确实很接近,但又不完全相同。
细胞不仅要指定其产生的蛋白质的特性,而且还必须控制产生的时间及数量。有些DNA片段本身不编码蛋白质序列,而是影响其他DNA片段是否能为转录和翻译的机器所读取。例如,一类名为转录因子(transcription factor)的蛋白质可以在RNA聚合酶的起始点或附近与启动子区域结合,从而减弱或增强RNA聚合酶的组装与起始DNA转录为RNA的可能性。第2章介绍的糖皮质激素受体就是一个例子。或者一段DNA转录成RNA后无须再被翻译成蛋白质,这种RNA本身就可以与DNA或其他RNA分子相互作用从而影响蛋白质合成。RNA帮助调节细胞活动的方式有很多,我们对这些方式的理解在很大程度上是最近才开始的;RNA的地位已经从DNA和蛋白质之间的信使转变为这些分子对话的重要参与者。例如,人体内感知饥饿的细胞会产生一种名为生长抑制特异性5(growth arrest-specific 5)的RNA,它可以附着在糖皮质激素受体的DNA结合区域,从而阻碍其对目标DNA的识别。RNA和DNA的结构相似性使得RNA可以充当诱饵。
调节遗传信息转化为特定分子的过程与信息本身一样重要,这种调控作用也被写入了基因的定义: 基因是生物体DNA序列的跨度,它编码特定的单一遗传特征,通常对应于单个蛋白质或RNA序列,包括非编码调控序列。 这是一个不完善的定义,并且仍在不断变化,但生命不需要满足我们对简单术语的渴望。现在,基因这个词仍然经常被用来表示“蛋白质编码的DNA片段”,因为这样表述的意思更简单、更传统。在这里,我会尽量讲得容易理解一些。谢天谢地,我们现在准备探索的问题很简单。
我们现在可以读取各种生物的基因组,换句话说,就是A、C、G、T的完整序列。因为我们可以推断出指示转录机器开始的启动子序列和指示停止的终止序列,所以可以计算基因的数量。我们在细菌中发现了几千个基因,每个细菌可以产生大约几千种不同的蛋白质。导致结核病和霍乱的细菌,其基因组中各有约4000个基因,其中约98%属于基因编码蛋白质。通常用于将牛奶变成酸奶的德氏乳杆菌,其亚种的基因组具有大约2000个编码蛋白质的基因。
人类基因组包含大约20000个蛋白质编码基因。非编码基因所产生的是不能继续被翻译成氨基酸链的RNA,因此其数量更难被精确测定,估计与编码基因的数量相近。20000比几千,看上去我们比细菌的优势要大得多。可是别高兴得太早,因为实际上我们的优势并不是特别大。大多数人眼中的巨大差异实际上只有不到10倍。更重要的是,即使在真核生物中,人类也不是很特别的那一个。真核生物是指其细胞将DNA包裹在膜结合的细胞核中的生物体。普通家鼠有大约20000个蛋白质编码基因,热带爪蟾( Xenopus tropicalis )和家马也是如此。有些生物所拥有的基因数则较少。黑腹果蝇( Drosophila melanogaster )和真菌裂褶菌( Schizophyllum commune )各包含约13000个蛋白质编码基因,而游隼则包含约16000个蛋白质编码基因。面包霉菌粗糙脉孢菌( Neurospora crassa )和土壤变形虫盘基网柄菌( Dictyostelium discoideum )分别具有约10000个和13000个蛋白质编码基因。有些生物体的基因比我们多得多。小型水蚤蚤状溞( Daphnia pulex )的基因组长约1毫米,且几乎是透明的,它包含31000个蛋白质编码基因,创下了迄今为止进行过基因组测序的动物的最高纪录。水稻有大约30000个蛋白质编码基因。玉米有大约40000个蛋白质编码基因,差不多是人类的两倍,而且玉米还拥有数万个非编码基因。但是,基因数量的多少并不能代表生物体的复杂性程度或能力高低。
我们已经讨论过,人的基因组是一个包含20000个蛋白质编码基因的数据库,但它也是一个物理对象,是一系列A-T和C-G核苷酸碱基对。这些碱基对是DNA双螺旋的台阶,占用着物理空间。让我们先考虑核苷酸,然后再考虑实际空间。我们的基因组由大约30亿个碱基对组成。大多数细菌的基因组要小得多,通常只有几百万个碱基对。引起结核病和霍乱的细菌基因组各拥有400万个碱基对,德氏乳杆菌的基因组约有230万个碱基对。但同样,人类在基因组大小上并不是特别显著或极端。小鼠基因组的大小与我们相似;果蝇的基因组大约只有我们的1/25;水稻基因组也很小,大约只有4.3亿个碱基对。有人可能会对水稻的碱基对数量产生怀疑,因为前面刚刚提到过它们的基因数量非常庞大。不过请不要担心,我们很快将会解答这个问题。蝾螈的DNA特别大,其基因组有14亿~1200亿个碱基对;肺鱼基因组有1300亿个碱基对;开花植物日本重楼( Paris japonica )的基因组有1500亿个碱基对,是人类基因组的50倍,其可能是最大基因组的纪录保持者。无恒变形虫( Polychaos dubium )可能凭借其6700亿个碱基对而远超日本重楼,但这一数据存在一些争议,因为变形虫的基因长度是用过时的方法测定的。我很惊讶没有人重新审视过这种生物的DNA。如果你正在阅读这篇文章并且拥有一台DNA测序仪和一些空闲时间,那就去做吧!与基因一样,基因组大小与生物体的复杂性之间没有直接的联系。
量化基因和基因组的数量为我们带来了一个惊喜和一个谜团。正如我们已经注意到的,我们有30亿个DNA核苷酸碱基对和大约20000个蛋白质编码基因,每个基因都编码一种不同的蛋白质。蛋白质的大小范围很广,但人类蛋白质分子中氨基酸的平均数量约为400个,且每个氨基酸都由3个DNA核苷酸指定。因此,20000种不同的蛋白质需要大约20000×400×3=2400万个DNA碱基对。然而,人类基因组的长度不是2400万个碱基对,而是30亿个!基因组的长度比它所包含的蛋白质编码DNA的数量高出100多倍!从历史上看,我们在知道人类基因组的字母序列和它包含的基因数量之前就知道了它的长度;基于基因组的大小,人类蛋白质编码基因的数量要远远低于预期值,这令人震惊。对于水稻来说,其基因组大小与预期的差异较小,但仍然在10倍左右。一般来说,大部分基因组并不直接编码蛋白质。我们仍在努力解开一个谜团,那就是基因组的其余部分在做什么。有些部分的基因组被转录成RNA,但不翻译成氨基酸链,包括独立功能的RNA片段,以及在被核糖体翻译之前从RNA聚合酶转录的链中剪接出来的RNA,然而许多非编码DNA甚至从未被转录成RNA。尽管如此,它仍然可以通过构建启动子区域等位点来影响基因的读取。
在对此进行扩展研究之前,我们首先应该开发出一张更好的DNA物理图像。我们从“我们的基因组有多大”开始探讨这个问题,并给出了一个在生物学上准确但在物理学上不令人满意的答案:30亿个碱基对。这是多大?我们的基因包含两条复制链,且每一条几乎都存在于我们所有的细胞中,如果将它们排列成一条线,长度将超过1米。而包含DNA的细胞核的直径只有几微米。
也就是说,我们的细胞将1米长的DNA塞入长度只有其10 -6 的空间中。这是否令人难以置信?的确如此。但我们将四五十米长的纱线卷成直径仅为几厘米的线团,任何人都不会觉得奇怪。核心问题是力学问题之一:DNA有多硬?它是像纱线还是像钢?如果将纱线换成粗细相同的钢缆,我们可能也会觉得难以置信。
表征材料的刚度本身就是一个话题,想要探索这个问题可能无论如何也无法绕开材料科学,而这难免会分散我们对生物物理学的注意力。值得庆幸的是,有一个简单的概念性聚合物刚性模型,被称为长链状分子,它可以让我们对基因组的大小有一个基本的了解。想象有3根具有不同刚度的弦,如果将它们拉成一条直线,每根弦都具有相同的长度。现在我们让3根弦自由卷曲(见图3-3)。直觉上,我们会认为最舒展的那根弦似乎主要由平缓的曲线组成,应该是其中最硬的(见图3-3a),而盘绕得最多、蜷缩得最紧的弦,可能是其中最柔软的(见图3-3c)。
图3-3 3根具有相同长度、不同刚度的弦自由卷曲
让我们思考一下,如果沿着DNA链行走,在转向其他方向之前,我们前进的路线就是一段相对笔直的典型距离。分子越硬,这个距离就越长。想象当一只蚂蚁沿着一根未煮过的意大利面爬行时,它的行进方向在移动时几乎不会发生改变,那么意大利面的典型距离就非常长。现在想象一根煮熟的意大利面被随意地扔到桌面上,蚂蚁沿着这根煮熟的面条的路径爬行时要绕很多弯路,还要不断地调转方向,这时它的典型距离就比较短,可能只有不到2厘米。
现在让我们用一系列线段替换分子的实际弯曲路径,使每个线段都与这个直线路径的典型距离一样长,并随机地将其与相邻线段的连接点连起来(见图3-4)。
图3-4 用一系列线段替换分子的实际弯曲路径
物理学家和数学家把这种操作称为随机游走(random walk)。想象一个步行者沿着完全随机的方向行进,他迈出的第一步可能向北,接下来是向西南,下一步是向东北偏北,等等。试图预测随机步行者在经过一系列步骤后最终会到达哪里听起来是徒劳的,甚至就连他自己都不知道下一步他会迈向哪里,因为每一步的方向完全取决于偶然。对于任何单独的步行者来说,预测实际上是徒劳的。但是如果我们进行许多次随机步行,或者对随机步行者进行多次观察,则可以得到一个明确的平均结果:一个随机步行者行走了25步后,会发现自己与起点的平均距离为5步;行走了49步后,平均距离是7步;行走了100步后,平均距离是10步;每当一个人走出 N 步时,他离起点的平均距离就是 N 的平方根步。这个结论十分可靠,无论这种步行方式是人们通常使用的二维形式,还是类似随机游走的三维形式。
这种随机游走可以出现在任何地方。经济学家将股市的快速涨跌描述为随机游走。游动细菌的路径和种群中随机突变的传播通常被建模为随机游走。类似的例子越来越多。这些轨迹是可预测随机性主题的典范,因为它体现了稳健的平均属性与变幻莫测的偶然性共存。此外,随机游走的行进距离对步数的独特依赖性,让我们第一次看到了尺度推绎的一般主题。正如我们将在第二部分中学习的那样,许多物理特征不会简单地随大小变化而成比例地增长或缩小;同样,就像我们刚刚提到的平方根一样,经常会出现意想不到的依赖关系。
如果我们将DNA的构象抽象地视为随机游走(见图3-5),那么关于DNA分子有多坚硬的问题就变成了“步子”有多长及走了多少步的问题。从DNA分子的图像中可以推断出,双螺旋近乎笔直的长度约为100纳米,即10 -7 米。换句话说,用直线代替DNA的实际路径,并询问直线的长度时,得到的值为100纳米。另外跟大家普及一下,聚合物直线长度的技术名称是库恩长度,以瑞士化学家沃纳·库恩(Werner Kuhn)的名字命名,其计算有一个精确的数学表达式。就尺度而言,双螺旋的宽度为2纳米,螺旋的阶梯旋转一周的长度约为3纳米,与螺旋的精细结构相比,库恩长度较大。
图3-5 一段双螺旋DNA
因此,我们可以认为1米长的DNA由1000万个直线步长组成。如果想知道1米长的DNA单独漂浮在细胞的水环境中时它会有多长,就相当于要知道在每步长为100纳米的情况下,1000万步的随机游走能走多远。答案是:大约0.3毫米或300微米。这是1000万的平方根,或者用大约3000步长乘以每个步长100纳米。这远远超过了细胞核的几微米大小,甚至比典型人体细胞大小的10~100微米还要大。
如果知道DNA不是一条完整的链,而是分成了23条染色体,那么你可能会反对这个观点。几乎所有的细胞都有成对分组的46个片段,它们来自基因组的两个拷贝之一。卵子和精子细胞是例外的,它们只有人体基因组的一个拷贝。另外,人类和其他哺乳动物的红细胞中是没有DNA的。碎片化简化了DNA包装的空间挑战,但幅度不大:人类1号染色体是最大的染色体,长度为2.49亿个核苷酸碱基对的长度,对应的总长度约为8.5厘米,随机游走的斑点尺寸(blob size)约为90微米,但仍然比细胞核大得多。为了更好地体现它们之间的比例,我在图3-6中展示了一个典型的人类细胞及其细胞核、一段1米长的DNA随机斑点结构和一段8.5厘米长的DNA随机斑点结构(如1号染色体)。
图3-6 细胞、1号染色体、1米长的DNA
事实上,我们应该对DNA的包装感到惊讶和印象深刻。不是因为基因组的长度,而是因为DNA本身的硬度太大,使它不能被限制在细胞内。它所占据的空间远远小于DNA分子单独漂浮在水环境中所占据的空间。
人类细胞核内的DNA并不像一根意大利面那样随意,也不像散步那样散漫,更不像被匆匆塞到打包的行李箱中的衣服那样。DNA的包装是优雅而紧凑的。大部分DNA都缠绕在一个直径约为10纳米的“小线轴”上,这种小线轴由一种被称为组蛋白(histones)的蛋白质构成(见图3-7)。
图3-7 DNA和组蛋白组装成一个核小体
10纳米远远小于DNA的库恩长度,因此需要很大的力才能将DNA包裹住,这种力主要是由带负电荷的DNA和带正电荷的组蛋白外表面之间的静电荷提供的。带正电荷的氨基酸的间距与双螺旋槽的周期性相匹配,从而使静电力的强度最大化。在这里我们再一次发现了自组装在起作用: DNA和组蛋白的物理属性,尤其是它们的电荷和形状使其能够将自己加工成具有一个功能的明确结构。 每个线轴上缠绕着将近两圈DNA,或大约150个核苷酸碱基对。线轴之间的长度各不相同,在20~90个碱基对之间,整个组件呈现出“串珠”样结构(见图3-8)。
图3-8 DNA和组蛋白自组装形成串珠样结构
这些缠绕的DNA串进一步弯曲、环绕并包装在一起。但它们采用的形式一直以来都是一个谜团。科学家根据实验结果提出了各种结构,这些实验通常涉及从细胞中提取DNA或用固定剂保存细胞等操作。最常见的结构是串珠组织成30纳米厚的纤维,然后这些纤维排列成120纳米或更粗的绳索。然而,最近由克洛达赫·奥谢(Clodagh O’Shea)领导的索尔克生物研究所(Salk Institute) 和加利福尼亚大学圣迭戈分校的研究人员开发了一种对完整细胞核中的DNA进行染色的方法。他们用容易在电子显微镜中看到的金属原子修饰DNA。但是通过这种方法,他们并没有找到预期的离散纤维,而是发现了具有广泛宽度的链,范围为5~24纳米。此外,这些链的卷曲程度取决于细胞是否分裂。也许DNA的包装不像我们一直认为的那样是一成不变的,而是更具有动态性。
探究细胞将DNA填入自身内部的方式不仅仅源于一种求知欲。基因的表达决定了一段DNA是否真的能被转录成RNA,从而产生蛋白质,这在很大程度上取决于DNA的包装和组织。当DNA被缠绕在组蛋白线轴上或以其他方式受到严格限制时,对于读取和执行遗传密码的机器来说,它们相对难以接近。两个完全相同的基因既可以是“开”,也可以是“关”,这取决于基因是容易被找到还是隐藏了起来。换言之,DNA包装会影响DNA的功能,而DNA的物理排列是调节细胞活动的有力工具。各种各样的疾病,如神经发育障碍、罕见的自身免疫性疾病,甚至腭裂,都与编码执行相关神经发育、免疫或骨骼任务的相关蛋白质的基因缺陷无关,而是与DNA包装缺陷相关。这些缺陷通常涉及操纵组蛋白线轴的蛋白质,例如通过改变它们的电荷来增加或降低它们对彼此或对DNA的亲和力。
在过去的20年左右的时间里,科学家们发现,决定DNA哪部分区域包裹在组蛋白周围的因素就隐藏在DNA序列之中,部分取决于双螺旋的机械特性。我们在前文中已经看到,DNA在大约100纳米的长度上是相当笔直的。这个精确的刚度巧妙地取决于DNA序列(A、C、G和T)。特定的核苷酸组比其他组硬度更低,或许是由于它们更喜欢轻微弯曲的形状。在最终缠绕在核小体(nucleosomes)周围的DNA中,这些更弯曲或更灵活的部分就像小铰链一样,往往相距10个核苷酸。双螺旋的节距也是10个核苷酸,这意味着如果你站在扭曲的DNA阶梯上往上爬10个台阶,那么你此时的方向将与开始时相同。因此,我们得知铰链都以相同的方式定向,并使得每个DNA跨度向组蛋白线轴弯曲。对DNA和核小体之间结合的分析表明,如果没有这些重复的核苷酸序列,DNA就不太可能缠绕在组蛋白周围。因此,DNA序列本身编码了有关它应该如何被包装的力学信息。DNA是一种力学密码,同时又巧妙地与生化密码和遗传密码交织在一起,真是非凡的分子!
DNA线轴和纤维的结构为调节回路提供了一个例子,细胞可以利用调节回路来控制它们的活动,决定打开或关闭基因。正如我们将在第4章中看到的,细胞有更多可以实现更快、更复杂的决策回路的策略。
不仅只有你的细胞面临着将DNA压缩到狭窄空间中的艰巨任务,每一个活的生命体都在包装自己的DNA,没有一个生命体会允许DNA作为一个自由的、随机行走的链而单独存在。这种现象甚至延伸到了不太可能存在生命的世界——病毒,一种劫持细胞的复制机器,可实现感染活细胞的遗传物质小胶囊,包含已知最密集的DNA包装。并非所有病毒都含有双链DNA,有些病毒只含有一条DNA链,有些则含有单链或双链RNA。含有双链DNA基因组的病毒包括引起疱疹和天花的病毒,刚性分子必须被塞进一个直径只有几十纳米的蛋白质壳中,这个外壳同样小于DNA双螺旋的库恩长度(见图3-9)。双链RNA甚至比双链DNA更硬。对于DNA和RNA来说,单链结构更灵活。
图3-9 DNA塞到病毒蛋白质壳中
在双链DNA病毒中,弯曲、压扁的聚合物向外挤压着病毒的外壳或衣壳(capsid),并试图向外伸展。例如,当病毒感染细胞时,这种内部压力有助于推动DNA进入目标细胞。如何测量压缩DNA的压力呢?想象一下:如果打开一个封闭的衣壳,DNA就会从里面冲出来。现在我们从四面八方挤压衣壳,对它施加压力,然后再打开衣壳,如果外部压力小于内部压力,那么DNA仍然能够出来;但如果外部压力更大,则DNA就会留在里面。通过改变外部压力并监测DNA是否得到了释放,就可以确定病毒内部的压力。
这很容易想象得到,但想要实际做到则需要一些高明的实验技巧。大约在15年前,加利福尼亚大学洛杉矶分校的威廉·格尔巴特(William Gelbart)及其同事便实施了其中的一个实验。因为当病毒在其靶细胞表面遇到特定蛋白质时,衣壳的开启会被自然触发,所以将这些蛋白质人工添加到装满病毒衣壳的烧杯中,可以使衣壳按需打开,病毒颗粒就会分散在水溶液中。再将大分子添加到溶液中产生渗透压,就像用漂浮在病毒周围的所有分子去轰击病毒。我们假设中的挤压衣壳大致就是如此。科学家们通过改变渗透压和使用特定蛋白质来打开衣壳,发现病毒内部的压力有几十个大气压(而汽车轮胎中的气压约为2个大气压)。为了更直观地了解这些病毒的力学性能,生物物理学家罗伯·菲利普斯(Rob Phillips)建议将其想象为把400多米长的金门大桥悬索塞进联邦快递卡车的车厢里。这种巨大的内部压力对病毒很有价值,它有助于病毒将其DNA发射到目标细胞中进行复制,从而开始产生新病毒。
如果不了解DNA的物理特性,我们就无法了解DNA。形状、结构和力学与生物功能密不可分。这种说法不仅适用于DNA,而且适用于自然界的所有生物分子。这个主题会反复出现,并贯穿整个生物物理学。在第4章中,我们将回到这样一个问题上,即数量少得惊人的基因如何引导人体的形成。要想回答这个问题,我们就要探索基因如何借助外部控制或其他基因来开启和关闭,从而创造一个相互作用的网状结构,这同样与生命分子的有形物理活动密不可分。