在短短几年的时间内,系统生物学得到迅猛的发展。系统生物学是什么?为何发展如此快速呢?高通量技术的应用推动了系统生物学的快速发展,高通量技术能让我们大规模列举生物成分,通过对这些生物成分的化学相互作用的界定,推动了构成细胞多样性的生化反应网络的重建。因此,系统生物学并不只是专注于生物成分本身,而是专注于生物成分之间的天然关联性,以及这些关联的组合所对应的生化反应网络中的功能状态。化学计量矩阵在化学的基础上,用数学方法表示了生物成分之间的关联,化学计量矩阵的属性是确定生化反应网络功能状态的关键。
在20 世纪下半叶,受到生物还原论的严重影响,生物学家更加专注单个细胞组分的信息生成、化学成分和它们的生物功能。在过去的数十年间,由于基因组学的出现,这个过程被极大地加快了。我们现在不仅拥有越来越多的有机体完整的DNA序列,而且我们还在不停地描绘着它们的基因文库。虽然我们目前还没能在这些基因和其生物功能之间画上等号,但是可以期待的结果是,最终我们能完成并确定生物功能与所选的基因组中大部分基因的对应。基因组间的推断,会加速定义在大量的有机体中的细胞组件的“目录”的数量。表达阵列和蛋白质组学技术让我们有能力来确定,细胞何时使用或者不使用特定的基因(如图1.1 所示)。在 21 世纪初,这一方法得到了快速的推广,促进了生物学样式的根本性转变。
图1.1:细胞和分子生物学中从组件到系统分析的范式转变的例证
高通量实验技术的发展,迫使生物学家们更多将细胞作为一个系统来看待,而不是专注于某个单独的细胞组分。高通量技术不仅仅促使我们从系统的角度看待细胞,也让我们能够从系统的角度研究细胞。我们怎么处理这个不断增长的包含了细胞组分及其性质的列表呢?尽管有着巨大的信息量,这些列表只给了我们关于组成细胞的分子和它们单个的化学特性,以及细胞何时选择使用其组件的基本信息。
现在我们如何从这些详细的化学成分列表中,得出生物学特性和表现呢?现在普遍认为,对多基因产物功能的综合分析,已成为未来生物学发展的趋势。这种综合分析将依赖于生物信息学和系统分析的方法(见图1.1)。因此,很有可能在未来的几年甚至几十年间,生物科学的研究会更加专注于细胞和生物组织的功能所表现出来的系统性属性。这些从整体中产生的属性代表了整体的生物学特征。这些属性有时候也被称为“突显”属性,因为它们来自于整体,而不是个别的组织。
遗传和细胞功能间的关系是分层的,而且涉及到很多层级,其中有一些如图1.2 所示。基因序列能够确定开放读码框(ORF)。这些开放读码框的基础碱基对,能让我们了解特定基因的功能。尽管不是所有基因的功能都是明确的,但在不断增加的生物学数据库的帮助下,这些功能分工正被越来越精细地分辨出来。基因序列与开放读码框的功能分工是非常重要的。然而,这些基因的相互关系或许更为重要。现在建立这种相互关系并研究其系统特征是十分必要的。
图1.2:基因回路。从DNA序列到基因,再到基因产物,最后到复数组件的细胞功能
细胞功能依赖于多个基因产物间的协同作用。这些协作的多个基因产物被看作是一个“基因回路”,有时候也被称为“细胞线路图”或“细胞线路模型”。术语“基因回路”,是指集合在一起需要执行特定细胞功能的不同的基因产物。这些基因回路的功能是多样化的,包括DNA复制、转译、葡萄糖转化为丙酮酸,奠定了多细胞生物的基本体规划以及细胞运动。我们可以将细胞的功能比作“基因回路”的功能,而细胞和生物组织的生理学功能则可以看作是多个“基因回路”协同作用的结果。因此,我们需要构建能够描述和分析这些基因回路的概念框架。
表1.1:基因回路的一些性质以及需要的分析方法
目前,并不是所有基因回路的性质都被探明,不过一些重要的性质被总结在表1.1 中。对于这些“基因回路”性质的研究,其方法已经比较成熟。基因回路往往有很多组分,它们的构成很复杂。从系统科学的角度来讲,基因回路是“稳定”的,也就是说在很多情况,但不是所有的情况下,我们可以去除它们的一些组分,而不破坏它们的整体功能。
接受基因回路的概念似乎很简单,但是它的影响是相当深远的。我们将把生物信息学看作是一种能够建立、分类以及关联跨物种基因回路的方法。这种分类的开端如图1.3 所示。代谢、信息处理和细胞生命进程代表了一些基因回路的主要类别。
使用基因回路来描述概念性生物功能,可能导致生物学领域出现重要的大一统。从这个角度来说,基因治疗也许不再被看作是替换“坏”基因,而是修复“故障”基因回路。进化也许会被看作是“调整”或者“打磨”基因回路来提高生命体的性能和存活的概率。基于基因回路类型的生物分类,可能会催生“基因分类学”的出现。设计基因回路性能的体外“进化”操作,正方兴未艾 [99,258] 。了解基因回路的功能将成为应用生物学的基础,尤其是在代谢工程及组织工程这样多样化的领域。
图1.3:对基因组中发现的基因回路种类的粗粒化分类。展示了一些主要的类别,特别是指出了在细胞与分子生物学中的一些代谢和组织工程学重要应用的基础
基因回路作为一个多组分功能实体(无论是在时间或空间尺度上,或两者同时)的概念,是系统生物学的一个重要范例。在我们处理遗传学和生理学关系(遗传型—表型关系)时,基因回路将会是一个基本工具。单个基因回路不会独立工作,而会与其他相关的基因回路共同工作。在基因组中发现的所有这些回路的装配,产生了细胞功能和组织功能,并导致了复杂细胞功能的层次性分解。因此,在基因组规模下进行分析的需求与日俱增。这种需求也反过来导致了基因组被作为系统来看待。
生成详细的生物组分列表,确定它们的相互作用,并生成全基因组数据集的过程引发了系统生物学的出现 [101] 。这种过程由 4 个基本步骤组成(图1.4)。
图1.4:系统生物学实践的四个主要步骤。注意,与其他步骤不同,第二步是唯一的,同时也是高通量数据和计算机分析之间的接口
第一,列举参与目标过程的生物组分。第二,研究这些组分之间的相互作用,然后构造出基因回路的“电路图”。这一步是生化反应网络重建的一个过程,我们将在本书的第一部分详细介绍。第三,重建网络的数学描述和它们的属性分析(第二部分)。同时,建立计算机模型来分析、表述和预测重建网络可能产生的生物功能(第三部分)。第四,这些模型也被用来分析、解释和预测实验结果。这些预测最终会帮助我们提出具体能经实验检测的猜想。在重建网络中的生物信息学模型,会逐步得到优化 [152] 。
目前,有很多创新性的研究引发了高通量技术的发展(第一步)。许多不同的公式化表述的数学方法被用来分析生化反应网络(第三步),而且通过实验发现的表型空间(第四步)实际上是无限的。与之相反,重建工作导致了唯一的结果。重建应以产生于细胞内的化学反应为基础,并在其功能的基础上产生。尽管目前认为,系统生物学是一门细胞规模表达基因组功能的科学,但是随着系统生物学的发展,它涉及的领域将更为广泛。我们接下来会通过细胞相互作用网络等来介绍适用于生物组织的系统生物学。
在图1.4 的第二步中展示的集合,为基因组建立了一个二维的注释(图1.5)。基因组中的经典组件注释引发了对开放读码框的识别,包括它们的位置相匹配的DNA调控序列(一个一维的组件列表)。识别了开放读码框之后,就可以靠和已知基因进行同源性搜索来确定它们的功能。二维基因组注释除了考虑基因组组分,还有组分的化学状态(在图1.5 的表格中以行表示)和它们之间的联系。后者是表中的列,理想情况下应该代表化学计量系数,对应于底层组分之间可能存在的化学转换。此表代表一个基因组的全基因组规模的化学计量矩阵。
规划这个矩阵,几乎是跟在 20 多年前提出要探明人类基因组的全碱基对序列一样大胆的声明。然而,这项工作正在取得进展。微生物的基因组规模的代谢网络已经建立。目前,我们定义了信号网络和转录调控网络。有些时候在这些网络中的活动被化学检测到,但有时我们只能检测到因果关系,当这些因果关系的基本原理被发现之后,最终就会被转化为化学方程式。
图1.5:基因组的系统性或二维注释:化学计量矩阵的原型。图片来源:参考文献[155]
我们非常习惯于对DNA进行层次化的思考。我们认为一个基本碱基对是DNA序列中一个不可再分割的单位。接着我们讨论了密码子、内含子、外显子、等位基因、染色体和其他度量DNA的尺度。我们需要将类似的分层思考方法应用于基因组规模的化学计量矩阵。在这个网络中,不可再分割的单位就是元素化学反应。这些基本单位可以组合成反应机制,多个反应组成模型或者基本模式、组成通路,定义扇区。目前,这些网络中的粗粒化方法通常依赖于某种程度上定义不准确的分层结构注释。
我们可以进行基因组规模的网络构建,并能定义它们属性的能力,可以帮助加深我们对于如何层次化分解网络的理解。在稳定或动态的状态下,一起共同工作的组分通常会被归纳到一个模块中。相关子集的反应在网络中稳态特性的划分中出现 [163] 。时间尺度的分离通常被用来对复杂系统进行时空分解,同时化学计量矩阵似乎也在代表网络动态粗粒化过程的动态池的构建中发挥作用 [109,149] 。
虽然常说,分子生物学是以简化论思维为特点,但是这并不意味着整体化思维没有出现。第一个基因回路在 40 年前就被明确绘制出来。在 1957年,氨基酸生物合成途径的反馈抑制被发现 [225,257] ,同时与葡萄糖—乳糖二阶变换相关的转录调控的发现,给予了乳糖操纵元的定义 [12,124] 。这些调控机制引发了对作为细胞工作基础的分子逻辑的揭秘。在接下来的数十年间,分子生物学迅速发展成为一个蓬勃发展的领域。在 20 世纪 80 年代,我们开始看到分子生物学的一些基本实验方法的拓展。在 20 世纪 90 年代中期,开始出现全自动DNA测序仪,并实现基因组规模的测序。自动化、小型化和各种多路复用的检测方法,导致更多的“组学”数据类型的出现。这些方法所产生的大量数据,促进了生物信息学的快速发展。尽管在 20 世纪 90 年代后期,这种工作主要专注于统计学模型和对象分类,人们逐渐意识到需要一个更加正式和机械化的框架来系统分析多个高通量数据类型 [153] 。这个需求导致了对构建基因组规模模型的需求。
早在 20 世纪 50 年代末和 60 年代初的生物学大事件之后,就开始建立数学模型来模拟新发现的基因回路的功能。即使在 20 世纪 60 年代初期,数字式电子计算机(译者注:处理的是一种称为符号信号或数字信号的电信号)普及之前,这些基因回路的功能就在模拟式电子计算机(译者注:使用电信号模拟自然界的实际信号,因而称为模拟电信号)上被模仿出来 [78] 。这些工作引发了 20 世纪 70 年代对大型代谢网络的动态仿真 [69,123,253,255] 。在 20 世纪 80年代末和 90 年代初,出现了人类红细胞的细胞规模模型 [106] ,病毒的基因组规模模型也给出了框架,同时有丝分裂的大规模模型也出现了 [146] 。基因组规模测序技术的发展带来了首个细菌的基因组规模的代谢模型 [50,51] 。
图1.6:系统生物学的两个基础
如图1.6 所示,这些是系统生物学的两个根基。上半分支在科学界出现得更多,难以计数的发现和各种激动人心的新技术让人眼花缭乱。有人也许会说,这是系统生物学的“生物学”基础。
在分子生物学中,系统建模和仿真曾经被看作是纯粹的理论,而不是对理解真实的生物学的一种帮助。然而,随着生物学成为一个“数据丰富”的领域,对理论、模型构建和仿真的需求随之增长。有人也许会把这个分支称为是系统生物学发展的“系统性”基础。
现在,这两个分支必须整合起来,以深化这个领域的发展。尽管现在有很多关于“生物学基础”的书籍和资料,但很少有关于“系统性基础”的相关内容。本书旨在满足这种需求,虽然真正的基因组规模的分析仍然是前沿研究的材料。因此,本书的性质最开始是概念性和展示性的,以及引用一些关于现有的基因组规模研究的参考文献。
带注释的基因组序列的应用始于 20 世纪 90 年代中期到后期,由此使得基因组规模的代谢网络得以重建 [37] 。类似的对信号传导和转录调控网络的重建工作现在也在开始进行 [85,213] 。现在可以研究这些网络的拓扑结构和功能属性,这是第一次我们能够分析、解释和预测这种网络可能产生的表型功能。化学计量矩阵是生化反应网络的一种紧凑的数学表示,它代表了高通量数据和计算机分析的接口,如图1.5 所示:一个基因组的二维注释。这本书的目的,是为了描述化学计量矩阵是如何建立的,它的基本属性是什么,以及怎么用它来分析网络中的功能状态。
在本书的第 2 章,我们将首先概述系统生物学的基本概念。接下来,我们会把这些资料分为三个部分。第一部分,我将简单地回顾一下三种网络——代谢网络、调控网络和信号网络——然后展示它们是如何由基本的生化反应构成的。重建这些网络,是一项需要细致分析来自不同的高通量实验技术的数据和遗留(bibiliouric)数据的工作。重建基本上最终会形成一个生物化学遗传基因结构数据库(BIGG),这个数据库能同时表示所有的数据类型。一旦策划出来,基因组规模的重建将表示一个包含细胞或有机体的可用信息的一体化基因组结构。
第二部分我们将会描述化学计量矩阵的建立过程,包括它的功能作为数学上的映射操作、结构上的化学约束以及拓扑性质。现在对读者来说,对基本线性代数的理解变得至关重要。然后概述化学计量矩阵的拓扑性质,介绍它们的分析方法。接下来,我们探索更微妙和复杂的化学计量矩阵的属性。要做到这一点,我们需要研究与化学计量矩阵相关的基本空间,因此需要我们对线性代数有一个中级水平的掌握。化学计量矩阵的两个零空间,包含系统定义的反应途径和浓度守恒量。化学计量矩阵的行空间和列空间分别包含了动态流量矢量和时间导数。因此,这两个空间成为暂态函数和基础热力学研究的关键。从第一部分过渡到第二部分,对一些生命科学家来说可能具有挑战性,但是,这对掌握系统生物学很重要。
第三部分将描述已有的用来研究重建网络性质的数学方法。单是重建和它们包含的信息并不足以完整定义网络中的各种状态。由于函数中存在灵活性,导致了基于约束的分析。这种做法符合在约束条件下生物学实际的运作,同时也允许它们在进化中适应和改善其生物功能。
◎ 细胞的详细生物组分目录已经出现。
◎ 这些部件的化学和因果关系的相互作用都被记录了。
◎ 细胞“电路图”代表基因回路和基因组规模网络正在重建。
◎ 系统生物学范式的“组件→网络→计算机仿真模型→表现型”已经出现。
◎ 基因组的二维或系统性注释正在兴起,这种注释表示了系统生物学通过网络重建实现大一统的努力。
◎ 网络的重建被BIGG结构的数据库所描述。
◎ 化学计量矩阵用数学描述了网络的重建工作,因此成为系统生物学领域的关键。
◎ 系统生物学本质上是偏数学的。
Aebersold, R., Hood, L.E., and Watts, J.D., “Equipping scientists for the new biology, ” Nature Biotechnology, 18:359(2000).
Ge, H., Walhout, J.M., and Vidal M., “Integrating‘omic’information: A bridge between genomics and systems biology, ” Trends in Genetics, 19:551-560(2003).
Hasty, J., McMillen, D., Isaacs, F., et al., “Computational studies of gene regulatory networks: In numero molecular biology, ” Nature Reviews Genetics, 2:268-279(2001).
Holland, J.H., EMERGENCE, Addison-Wesley, New York(1988).
Ideker, T., Galitski, T., and Hood, L., “A new approach to decoding life:Systems biology, ” Annual Review of Genomics and Human Genetics, 2:343-372(2001).
Kanehisa, M., POST- GENOME INFORMATICS, Oxford University Press, New York(2000).
Palsson, B.O., “What lies beyond bioinformatics?” Nature Biotechnology, 15:3-4(1997).