在你体内,几乎每一个动作、每一项任务和每一个事件的核心都是蛋白质。红细胞中的蛋白质可以从你呼吸的空气中吸收氧气;肌肉中的蛋白质可以通过拉动其他蛋白质来进行收缩;蛋白质可以通过伸缩其表面的突起来帮助免疫细胞穿过你的身体组织;眼睛中的蛋白质可以捕捉光线并触发电脉冲,另外还有其他蛋白质来负责打开和关闭将脉冲发送到大脑的闸门。每个细胞内部都有多种蛋白质,同时还有多种蛋白质存在于细胞外部,它们构成了肉体的弹性基质等。那么,什么是蛋白质呢?
和DNA类似,蛋白质是由一连串简单单元组成的分子。在DNA中,这些单元可以是4种核苷酸中的任何一种;而在蛋白质中,这些单元是20种氨基酸中的任意一员。对于DNA来说,无论其核苷酸序列如何,双链DNA都会采用双螺旋结构。蛋白质则与之相反,它的结构是由其特定的氨基酸序列决定的。不同的蛋白质拥有不同的氨基酸排列模式,因此也将形成不同的三维形状。蛋白质结构的蓝图及构建它的工具是由蛋白质自身编码的。 在自组装的概念下,蛋白质可能是其中最引人注目的存在,这种自组装是自然界对存在于物质内部的、物质本身的组织指令的编码,并经由普遍的物理力量激活和实现。 虽然自组装并不是生物独有的——例如,沙堆可以把自身排列成以特定角度倾斜的圆锥体,而肥皂泡则会把自身构建成球体,但自组装在生物学中无处不在。透过蛋白质,我们将看到力如何生成各种形状,并了解其形成的过程,以及它会造成的灾难性失败,我们甚至可以看到,一些计算机都很难处理的几何计算如何在分子内仅需几微秒的工夫便能够完成。
一条氨基酸链在水中会通过弯曲、扭转和折叠来形成特定的结构。在蛋白质的结构中,两种最常见的模体是螺旋模体和片层模体(见图2-1)。
图2-1 螺旋模体(a)与片层模体(b)
我并没有画出这些结构中的所有原子——只展示了一些代表性的点和它们之间的化学键。螺旋模体和片层模体在蛋白质结构中非常常见,因此我们通常只描绘出程式化的形状,即直径约1纳米(1/1000000000米)的光滑螺旋,以及约1/3纳米宽的片层或飘带,而不会描绘出其中的每个原子。
1958年,由剑桥大学的约翰·肯德鲁(John Kendrew)领导的团队首次解析出蛋白质的三维结构;这个蛋白质是一种在肌肉中储存氧气的肌红蛋白。同DNA及许多其他分子一样,蛋白质结构的解析也是通过X射线照射,以及对所得强度模式开展数学分析而实现的。X射线成像需要将蛋白质凝固成晶体,这种晶体类似于你在厨房中会用到的糖。即使在现在,诱导蛋白质结晶也是一门艺术。肯德鲁团队尝试从海豚、企鹅、海豹和其他生物体中提取肌红蛋白,但是都失败了,直到他们偶然发现并采用了抹香鲸的肉,且这种肉在剑桥大学低温研究站(Cambridge’s Low Temperature Research Station)的冰箱里唾手可得。深潜、呼吸空气的海洋生物的肌肉中含有高浓度的肌红蛋白,这使它们能够储存更多的氧气并减少浮出水面的频率,因此这些动物得到了研究人员的重点关注。抹香鲸的肌红蛋白形成了“最奇妙的……巨大的晶体”。利用这些晶体,肯德鲁和他的团队得以确定肌红蛋白是由153个氨基酸残基组成的,它们通过折叠形成了一个由8个螺旋和一些非螺旋跨度组成的结构。这种特殊的结构固定在一个扁平化合物上,这些化合物中的铁原子可以与氧结合(见图2-2)。
图2-2 肌红蛋白的三维结构
让我们再次以海洋动物为例,了解一下主要由片层模体组成的蛋白质:绿色荧光蛋白(green fluorescent protein,GFP),它是一种在发光水母中首次被发现的发光蛋白。GFP是由238个氨基酸组成的链,氨基酸围绕着显色分子折叠成一个约3纳米宽的片层“桶”(见图2-3)。如今这种蛋白质已经不再是专属于海洋的秘密,它已被设计并应用到细菌、真菌、植物,甚至各种各样的动物之中,如果蝇和斑马鱼。GFP作为信标,能够帮助研究人员实现对特定类型细胞的可视化,并有助于他们了解这些细胞的成长、移动和分裂是如何发生的。GFP也可以与其他蛋白质融合,组成报告基因,以揭示这些蛋白质在细胞中的位置和执行各种任务时的行为,以及如何与其他蛋白质结合形成更为复杂的结构。从GFP或珊瑚中发现的其他蛋白质又衍生出许多能发出彩虹般颜色的荧光蛋白,它们的名字也从普通的命名(红色荧光蛋白)向更加生动的命名(“橘子”“樱桃”“李子”等水果名称)演变。这些荧光蛋白使生物体的多色成像成为可能,而这已经与最初在海洋中发现它们时的应用情况完全不同。
图2-3 绿色荧光蛋白的三维结构
蛋白质的三维结构很重要,它与蛋白质的化学或物理性质密切相关。如在GFP中,片层桶体结构保护发光单元免受水和溶解氧的影响,因为水和溶解氧会淬灭其发出的光。下面我将再举几个例子,让蛋白质结构和功能的关系更加明显。
生物膜可以将细胞内的空间分隔开来,当然也会划分出细胞的内部和外部。嵌入膜中的特定蛋白质通常组合成桶或环的形状,从而实现对原子和分子的跨膜转运。离子通道就是一类转运设备,它允许特定的带电原子,即离子,如钾、钠和氯通过可以开闭的中心孔进出细胞。控制离子流是一项至关重要的任务。你的眼睛扫描书页的动作和大脑的思绪都是通过离子在膜上重新分布、产生电压而表现出来的。蛇和蝎子等动物产生的许多毒素也是通过干扰离子通道蛋白以发挥作用,从而关闭受害者的神经系统的。图2-4展示的是一个钾离子通道的截面图,其末端与膜相连(图中未显示)。图中的黑点代表钾离子,当它靠近我们时,代表着它正在进入细胞;而当它远离我们时,代表着它正在离开细胞。该通道实际上由4个相同的蛋白质分子组成,它们松散地结合在一起,构成了一个跨膜孔。
图2-4 钾离子通道的截面图
通道虽然可以打开和关闭,但其他蛋白质可以对其进行更精细的操控。在这里,我要介绍一种由两个分子自组装成的蛋白质,叫作驱动蛋白(见图2-5)。这个名字会让人联想到“动力学”,顾名思义,它与运动有关。每个驱动蛋白都呈长茎状,并且具有球根状末端,两者由一个灵活的氨基酸接头连接。两个蛋白的茎部结合在一起,从而使其可以附着在需要运送的货物上,如在神经元内部深处合成和储存,而在边缘释放的化学物质包。这样一来,整个复合物就可以沿着细胞内的轨道行走。在这里,“行走”并不是一种比喻:复合物的两只“脚”交替着从轨道上结合和解离,漫步到达目的地。按照命名习惯,这种脚被称为“头”,而这种脚对脚的运动则被称为手对手运动。这种命名方法的确令人费解。轨道本身也由蛋白质组成,并排列成刚性细丝。轨道的三维形状使其能够发挥自己的作用。
图2-5 驱动蛋白由两个亚基自组装形成
蛋白质的结构会影响它们彼此之间,以及它们与其他分子(如DNA)的相互作用。 许多蛋白质与DNA结合后可以读取其遗传信息,相关内容我们将在第3章和第4章中做更详细的介绍。这些DNA结合蛋白必须采用符合DNA双螺旋曲线的形状。如图2-6所示,我们以糖皮质激素受体为例来进行说明。糖皮质激素受体是一种激素感应分子,它以二聚体的形式发挥功能。在这里,我只画出了二聚体中与DNA相邻的区域。其结构中的氨基酸螺旋是蛋白质结构中的常见模体,可以嵌套在DNA凹槽中。受体在遇到并锁定一种叫作皮质醇的激素时,其结构会发生变化,在这之后,它才能与DNA结合,从而引发一系列事件,其中包括抑制生物体的炎症免疫反应。你可能在某种软膏中遇到过皮质醇,它通常被称为氢化可的松,人们可以利用它激活受体蛋白,从而缓解身体对毒藤、昆虫叮咬和其他刺激物的反应所引起的发红、瘙痒和肿胀症状。
图2-6 糖皮质激素受体与DNA相互作用
正如我们所见,蛋白质结构与蛋白质功能密切相关。然而,蛋白质并不是一合成就具有了完整的结构。每一种蛋白质都是由细胞机器制造的。细胞机器将一个氨基酸依次连接到下一个氨基酸上,就像回形针一样,连成一条链。然而,并没有任何支架可以为链状分子提供结构,以将其排列成堆叠的片层、缠结的螺旋或近乎无限种可能形式中的任何一种。相反, 蛋白质将自己塑造成合适的形状,蛋白质的氨基酸序列决定其呈现三维结构,即蛋白质具有自组装能力。
20种氨基酸中的每一种都具有各自的物理特性。有些氨基酸带正电荷,有些氨基酸带负电荷,有些氨基酸是电中性的。有些氨基酸很大,有些氨基酸很小。有些氨基酸是油性的(疏水的),喜欢与水分离;有些氨基酸是“亲水的”,并能与水充分混合。想象一种蛋白质有几个连续的带正电荷的氨基酸(见图2-7上方左侧的4个圆圈),接下来是一串电中性的亲水氨基酸(见图2-7上方中间的5个圆圈),然后是几个带负电荷的氨基酸(见图2-7上方右侧的4个圆圈)。因为异性电荷相互吸引,所以不管氨基酸自身所处的位置如何,蛋白质折叠都会将相对的两个末端聚集在一起。
图2-7 包含带不同电荷的氨基酸的蛋白质自组装
或者想象一种蛋白质同时含有疏水性氨基酸(见图2-8中的方块)和亲水性氨基酸(见图2-8中的圆圈)。由于水分子构成了细胞内环境的主要成分,因此蛋白质被水分子包围着,并且亲水性的氨基酸会折叠起来将疏水性的氨基酸隐藏在中心位置。
图2-8 同时含疏水性和亲水性氨基酸的蛋白质自组装
为了便于理解,我绘制了二维示意图。在真实情况下,你可以把这种蛋白质想象成一个由亲水氨基酸外壳包围着类球形疏水氨基酸核心的结构。
在任何一种真正的蛋白质中,氨基酸之间及氨基酸与周围的水之间都会发生许多这样的相互作用,从而产生将蛋白质拉向特定构象的力。每一种蛋白质在细胞中都是以氨基酸链的形式合成的,并且会自行折叠成最佳的三维形状。用科学术语来描述的话,这一过程就是蛋白质折叠。
与生物学中几乎所有的事物一样,这种直截了当的方式并不完全正确。一些蛋白质,尤其是容易聚集的大蛋白质,需要其他蛋白辅助来实现折叠。这些辅助折叠的蛋白被称为伴侣蛋白。伴侣蛋白的组装体包含一个腔室,它能够保护新生蛋白质在拥挤、复杂的细胞环境中免受影响,从而促进氨基酸链正确折叠。尽管有伴侣蛋白,但蛋白质对自身的结构仍然是有规划的,这个概念非常强大,并且在整个生命世界中普遍存在。
我们上面描述的每一种蛋白质,以及数以万计的其他蛋白质都是在几分之一秒内折叠成了三维形状,完美地绕过了无法完全满足其组成部分偏好的相互作用的无数陷阱和形状死角。这是一项了不起的壮举,就像一张纸自发地把自己折叠成了一个完美的折纸雕塑。更重要的是,对于绝大多数蛋白质来说,雕塑的形貌只由氨基酸序列决定。换句话说,就是给定的序列总是折叠成相同的形状。每个绿色荧光蛋白都折叠成一个桶的形状,每个肌红蛋白都折叠成相同的螺旋状组合。
一些示意图可以让我们更好地理解这种自组装的非凡之处。像上文一样,想象一个氨基酸序列包含带正电荷、带负电荷、电中性、亲水性和疏水性氨基酸(顺便一提,带电荷的氨基酸总是亲水的)。氨基酸链可以折叠成如图2-9a所示的形式。这种结构非常好,疏水部分埋在内部,相反的电荷彼此相邻。但是,完全一样的氨基酸序列也可以折叠成如图2-9b所示的形式。这种结构同样很好。
图2-9 兼具带电荷氨基酸和亲、疏水氨基酸的蛋白质自组装
图2-9中两种蛋白质构象的功能肯定不一样。我们可以想象,如果这种蛋白质需要与一些小分子(如激素)结合(见图2-10),那么第一种形式的“口袋”会使第一种构象发挥作用,而第二种形式的“口袋”则是无用的。
图2-10 与小分子结合的蛋白质构象
要想弄清楚氨基酸链如何采用单一的、最佳的形状是非常困难的。一个随机的氨基酸序列就好像是胡乱从帽子里挑出一些氨基酸并将它们串在了一起。对氨基酸序列的力和能量的分析表明,在这个随机的序列中会出现大量“相当不错”的构象,而且数量庞大到在氨基酸链上根本找不到一个独特的折叠终点。大自然避免了这种形式上的多样性。在现实世界中实际存在的蛋白质不是随机出现的,而是经过40亿年的进化被选择出来的。如果氨基酸序列不折叠成特定的形状,那么生物体将会受到功能失调甚至有害蛋白质的困扰,从而不太可能生存和繁殖。那些持续存在的生物体是编码了具有清晰、独特的三维结构的氨基酸序列的个体。
正如我们所见,氨基酸序列与人类和其他生物体中实际存在的蛋白质结构是一一对应的,一切结果都遵循着这种一般性原则。如果我们知道了一个驱动蛋白分子的结构,那么就能知道每个驱动蛋白分子的结构;如果我们知道了一个皮质醇受体的结构,也就能知道每一个皮质醇受体的结构。然而,正如所有的经验法则一样,也会存在例外情况,而且这一例外对于蛋白质来说非常重要。
有一种规则破坏者,它们是“本质上无序的蛋白质”,它们根本没有特定的形式,如一些构成细胞核周围膜孔的蛋白质。科学家认为,占据孔隙的、形如“意大利面”的无序蛋白质为不同大小的物质进出细胞核提供了灵活性。
更有趣的是,在我看来,蛋白质有一些稳定的配置。这种稳定指的不是一种独特的形式,也不是无定形的模糊形态,而是能在两种构象之间切换的模式,就像灯能在开和关之间精准切换一样。在过去的几十年里,我们发现这样的蛋白质不仅存在,而且还会引发一些令人费解的疾病。这些蛋白质也向我们发出警告:不要沉迷于同类相食。
在20世纪50年代的巴布亚新几内亚,一种奇怪的流行性疾病降临在福尔人(Fore)的村庄,患病者会不由自主地颤抖,并无法控制地发笑。在总人口约1.1万人的部落中,这种疾病每年会造成200多人死亡。这相当于每年在纽约有15万人死于可怕的疾病。这种疾病被命名为“库鲁病”(Kuru disease),库鲁在福尔语中是“摇晃”的意思。从疾病本身及其传染的模式来看,人类学家和医学研究人员推断它是通过福尔人之间同类相食的仪式传播的:在一个福尔人死去后,他的家人会吃掉他的尸体。福尔人认为这可以帮助死者的灵魂得到释放,同时表达对死者的爱和尊重。在当时统治巴布亚新几内亚的澳大利亚政府禁止了这种同类相食的陋习后,库鲁病的流行率稳步下降。然而,找出疾病的真正原因仍耗费了研究人员几十年的时间。库鲁病的罪魁祸首不是细菌、病毒或寄生虫,而是一种不同寻常的蛋白质。这种蛋白质没有一种特定的结构,会表现出下面两种形式中的一种:在“正常”形式中,蛋白质可以发挥其正常的功能;在“错误折叠”的形式中,蛋白质不但不会发挥功能,而且更糟糕的是,错误折叠的蛋白质会诱导其他正常蛋白质转变为异常形状,并聚合在一起形成纤维聚集体。通过这种方式,异常蛋白质具有了传染性:当错误折叠形式的蛋白质被摄入人体后,其中一些蛋白质会进入大脑,导致具有正常氨基酸序列的分子发生结构变化。这种变化会通过受害者的神经系统被放大,如果受害者死亡并被另一个村民吃掉,这种变化还会进一步传播。这一系列事件让人想起库尔特·冯内古特(Kurt Vonnegut) 的小说《猫的摇篮》( Cat’s Cradle ),其中虚构的“冰九”形式的水在室温下是固体,在与正常形式的水接触后,会诱导正常的液态水结晶转化为更多的冰九。由此产生的连锁反应比库鲁病还要致命。然而,和虚构的冰九不同,库鲁病是真实存在的。
可以折叠成多种形式并充当传染源的蛋白质被称为朊病毒。我们现在已经知道,它们会引起人类和其他动物的多种疾病,如牛海绵状脑病,其更广为人知的名称是“疯牛病”。像库鲁病一样,牛海绵状脑病是神经退行性疾病,会表现出震颤、兴奋和运动协调性差等症状,但这种疾病只会发生在牛身上,而不会发生在人类身上。20世纪80年代末,在英国暴发的一次疯牛病疫情感染了大约20万头奶牛。为阻止这种流行病的蔓延,超过400万头牲畜被宰杀。然而疾病仍被传染给了人类,100多人死于朊病毒的人源类似物导致的疾病,这种疾病被称为变异型克-雅病(variant Creutzfeldt-Jakob disease)。几乎可以肯定,这些患者是因食用患病动物而被传染的。那这些动物又是怎么被感染的呢?同类相食!人们认为肉骨粉可以促进动物的生长和繁殖,同时也能够提供一种废物再利用的方法。因此,农场主通常会将肉骨粉喂给农场动物。自1989年疯牛病在英国暴发以后,现在世界上大部分地区,至少对像牛和羊这样的反刍动物,同类相食的饲养方式已经被禁止了。但肉骨粉仍被允许作为其他农场动物的饲料,如鸡和猪。
朊病毒的存在本身就引发了人们很长时间的争论。20世纪80年代,来自美国加利福尼亚大学旧金山分校的诺贝尔奖得主史坦利·布鲁希纳(Stanley Prusiner)带领研究人员经过10年时间,分离出了羊瘙痒症的传染因子,即牛海绵状脑病的羊类似物,并鉴定其为一种蛋白质。他们的研究结果在当时遭到了强烈的质疑。基于细菌、病毒和寄生虫致病的主流观点,人们认为一条简单的氨基酸链不具有这种能力,而且也很难想象蛋白质可以繁殖、自我扩增并引发疾病。尽管如此,经过精细的分析和其他可能性的排除,人们还是确定了朊病毒假说的真实性。
除了库鲁病和疯牛病外,朊病毒或朊病毒样蛋白质也出现在了其他主要疾病中。最值得注意的是,阿尔茨海默病通常伴有类似于朊病毒病的错误折叠蛋白质聚集。不过,这些聚集体似乎不具有传染性,将它们从患病动物转移到健康动物中不会引起相应神经症状的转移。这些蛋白质聚集体的来源和将会产生的后果是什么仍不明确。我们普遍认为,关于蛋白质的折叠和错误折叠还有很多有待研究的地方。
让我们把目光放回到绝大多数确实具有独特三维形式的蛋白质上。尽管其形式是固定的,但预测蛋白质的氨基酸序列将以什么样的形式折叠仍然十分困难。然而这样的预测将非常有用。例如,要评估一种潜在的治疗药物如何与一系列不同的蛋白质结合,如果掌握了这些分子中的每一个三维结构,实验就会更容易。尽管自从我们首次发现抹香鲸肌红蛋白的结构以来,蛋白质结构的解析已经取得了长足的进步,但解析工作仍然困难、耗时且变化无常。使用X射线来探测蛋白质结构是主要的研究方法。这种方法首先需要诱导蛋白质形成晶体,并进行大量试错修正工作,然后使用高功率X射线源进行表征。当然,蛋白质结构解析也存在其他方法,如采用电子显微镜技术。但没有一种方法是快速或简单的。如果我们能够不用实际制备和解析蛋白质结构,而是基于给定的氨基酸序列进行计算,就能简单获得它将采用的三维结构,那么这将是很有吸引力的。基于嵌入DNA中的遗传密码具有独特的性质,想要确定氨基酸序列就变得很容易了,我们将在第3章对此进行详细说明。
理论上讲,既然我们已经了解了静电相互作用,以及疏水和亲水相互作用的物理学原理,也就应该能够简单地将氨基酸序列插入一个计算机程序中,并通过必要的计算对其进行筛选,直到程序找到分子链的最佳折叠状态。然而事实上,可能的构象数量如此之多,即使是运行速度最快的计算机也难以探索出全部构象。现在我们已经设计了许多巧妙的方法来应对这一计算挑战。有人专注于改进计算力和能量的算法;有人致力于开发简化方法,如将原子集组合在一起;还有一些人则着眼于对非常规计算机架构进行探索,例如,人们可以设计一台计算机,其集成电路是为计算氨基酸受到的各种力而量身定制的,而不是典型计算机的通用集成电路。这就是大卫·肖(David Shaw) 所采用的方法。大卫将自己做投资经理时赚取的财富集中在委托定制的超级计算机上,致力于解决蛋白质折叠的生物物理学挑战。或者我们可以将普通计算机排列成一个大而随机的阵列,这正是在志愿者计算机后台运行的folding@home程序 的作者所使用的方法。任何人都可以在程序上注册,这个程序利用志愿者们的空闲时间,在数万台机器上分配计算工作。或者我们可以尝试借助人类的思想。华盛顿大学的研究人员采用的方法是创造一个免费的蛋白质折叠游戏,名为foldit,玩家在屏幕上像拼图一样移动氨基酸,并将游戏结果传达给研究人员。或者我们还可以使用人工智能,训练一个计算神经网络,从已知的蛋白质结构中推断出折叠模式,并应用它们来预测新的结构。这正是谷歌旗下公司DeepMind的做法,DeepMind惊人的表现使其在2020年“蛋白质结构预测关键评估”竞赛中名列前茅。以上这些,以及其他更多的策略都被证明是有效的,但我们依然没能掌握一种快速而通用的方法来计算氨基酸链将采用的结构。
令人羞愧的是,蛋白质本身已经解决了蛋白质折叠问题。对地球上的每个生物来说,其体内每个细胞中的蛋白质都能在几分之一秒内塑造自身的结构。 自组装令人敬畏,它使得结构从自然物质本身固有的零件和力中自发出现。 我们将在第6章中讨论分子随机性时揭示自组装为什么如此迅速和强大。但我们要首先探索的是蛋白质和DNA之间的联系、定义基因的概念,并为揭示自组装结构如何在细胞中形成决策回路建立框架。