《第一推动丛书·综合系列：复杂（新版）》

第3章
信息

我认为，熵增定律 ——热力学第二定律——在自然界的定律中具有至高无上的地位……如果你的理论被发现违背了热力学第二定律，你就一点希望都没有，结局必然是彻底崩塌。

——爱丁顿爵士（Sir Arthur Eddington），
《物理世界的本性》（ Te Nature of the Physical World ）

讨论复杂系统时经常会说到“自组织”：例如，行军蚁搭建的桥；萤火虫的同步闪动；经济系统中相互维系的市场；干细胞发育成特定的器官——这些都是自组织的例子。与通常情形中的有序消退、无序（熵）增长相反，这里是有序从无序中产生。

复杂系统科学最关注的问题就是这种逆熵的自组织系统是如何可能的。不过要着手这个问题，还要先了解一下什么是“有序”和“无序”，以及人们如何看待对这种抽象性质的度量。

许多复杂系统学家用信息的概念来刻画和度量有序和无序、复杂性和简单性。免疫学家科恩（Irun Cohen）曾说，“复杂系统比简单系统更能接收、存储和利用信息”。经济学家贝哈克（Eric Beinhocker）写道，“进化不仅只会用DNA耍把戏，对所有能处理和存储信息的系统也可以”。物理学家盖尔曼（Murray Gell-Mann）在讨论复杂系统理论时则说，“虽然它们的物理属性很不相同，但它们处理信息的方式却是类似的。这个共性也许是对它们进行研究最好的起点”。

但是“信息”到底是什么呢？

信息是什么

现在“信息”一词随处可见：信息革命、信息时代、信息技术（常常简化为IT）、信息高速公路，诸如此类。信息在口语中被用来泛指所有表示知识或事实的媒介：报纸、书籍，我母亲在电话里唠叨家里的亲人，还有现在大行其道的万维网。专业点说，信息描述了一大类现象，从在万维网上通过光纤传送的信号，到大脑中在神经元之间传递的微小分子。

在第1章中提到的那些复杂系统的例子无一例外都涉及以各种形式交流和处理信息。进入计算机时代后，科学家们开始想到信息的传递和计算不仅仅发生在电子电路中，在生命系统中也同样存在。

要理解这些系统中的信息和计算，首先当然要对信息和计算这两个术语的意义有精确的定义。两者都是到20世纪才在数学上被定义。让人吃惊的是，两者居然都是从19世纪末的一个物理难题发展而来，这个难题中有个非常聪明的“小妖”，它似乎不用耗费任何能量就能做很多事情。这个难题曾让物理学家们非常担心，以为他们的基本定律可能哪里错了。信息的概念是如何拯救这一切的呢？在了解这些之前，我们先要了解一点关于能量、功和熵等物理概念的背景。

能量、功、熵

对于信息的科学研究始自热力学，热力学描述能量以及其与物质的相互作用。19世纪的物理学家认为宇宙是由物质（固体、液体、气体，等等）和能量（热能、光能、声能，等等）组成。

能量大致上可以定义为系统“做功”的潜力，这符合我们对能量的直观感觉，特别是在这个精力十足的工作狂的时代。英语中能量（energy）一词源自古希腊语中的energia，字面意思是“工作”。不过在物理学中，对一个物体做的“工作”有特定的含义：对物体施加力的大小乘以物体沿力的方向前进的距离。

打个比方，假设你的车在路上抛锚了，你不得不自己把车推到最近的加油站。用物理学的话讲，你做的功等于你推车的力的大小乘以到加油站的距离。在推车的过程中，你将你体内储存的能量转化成了车的动能，而转化的能量就等于所做的功加上轮子与地面摩擦消耗的热量以及你自己体温升高所耗费的热量。这个热量损失可以用熵度量。熵是对不能转化成功的能量的度量。“熵（entropy）”一词源自另一个古希腊词汇——“trope”——意思是“变成”或“转化”。

在19世纪末，两条关于能量的基本定律——也就是热力学定律——被发现了。这些定律所针对的是“封闭系统”——它们与外界没有能量交换。

第一定律：能量守恒。宇宙中的总能量守恒。能量可以从一种形式转化成另一种形式，比如从体内储存的能量转化成推车的动能加上消耗的热能。但是能量既不能被创生也不能被消灭。因此说是“守恒的”。

第二定律：熵总是不断增加直至最大。系统总的熵会不断增加，直至可能的最大值；除非通过外部做功，否则它自身永远也不会减少。

你可能曾注意过，房间不会自己变干净，饮料如果泼到地上，永远也不会回到杯子里。要想将无序变成有序，就得额外做功。

此外，能量转化的时候，比如前面推车的例子，总是会产生一些不能做功的热能。这也就是为什么没法将你家冰箱后面产生的热量转化成电力再来驱动你的冰箱。这也解释了为何永动机是不可能的。

热力学第二定律被认为是定义了“时间之箭”，因为它证明了存在时间上不可逆的过程（比如，热量自发地回到你的冰箱，并转化成电能进行制冷）。“未来”可以定义为熵增的时间方向。有趣的是，热力学第二定律是唯一区分过去和未来的基本物理定律。其他物理定律在时间上都是可逆的。比如，假设可以将电子等基本粒子的相互作用拍成电影，然后给物理学家播放这段电影。如果将电影倒放，然后问物理学家哪个版本是“真实”版本。物理学家肯定猜不出来，因为不管是正放还是倒放，其中的相互作用都没有违反物理定律。这就是可逆的含义。但是如果你用红外胶片拍下冰箱释放热量的过程，然后正放和倒放，物理学家将能辨别出正放的那个是“正确的”，因为遵守了第二定律，而倒放的则没有遵守。这也就是不可逆的含义。为什么第二定律会与众不同呢？这个问题很深奥。就像物理学家罗斯曼（Tony Rothman）所指出的，“为什么第二定律能区分过去和现在，而其他自然定律却不能？这也许是物理学中最大的谜团”。

麦克斯韦妖

英国物理学家麦克斯韦（James Clerk Maxwell）提出了著名的麦克斯韦方程，从而统一了电学和磁学。他是当时世界上最受尊敬的科学家，也是古往今来最伟大的科学家之一。

1871年，麦克斯韦在《论热能》（ Theory of Heat ）一书中提出了一个难题，题为“热力学第二定律的局限”。麦克斯韦假设有一个箱子被一块板子隔成两部分，板子上有一个活门，如图3.1所示。活门有一个“小妖”把守，小妖能测量气体分子的速度。对于右边来的分子，如果速度快，他就打开门让其通过，速度慢就关上门不让通过。对于左边来的分子，则速度慢的就让其通过，速度快的就不让通过。一段时间以后，箱子左边分子的速度就会很快，右边则会很慢，这样熵就增加了。

图3.1　上图：麦克斯韦（1831—1879）（美国物理学会西格尔图像

根据热力学第二定律，要减少熵就得做功。小妖又做了什么功呢？当然，他开门关门无数次。但是麦克斯韦假设了小妖使用的门既无质量也无摩擦，因此开门关门要不了多少功，可以忽略不计（对这种门提出了可行的设计）。那么小妖还做了其他的功吗？

麦克斯韦的回答是没有：“热系统（左边）变得更热，冷系统（右边）变得更冷，然而却没有做功，只有一个眼光锐利、手脚麻利的智能生物在工作。”

为什么没做功，熵也减少了呢？这岂不是违反了热力学第二定律？麦克斯韦的小妖难住了19世纪末和20世纪初许多杰出的头脑。麦克斯韦自己的回答是第二定律（熵随时间增加）根本就不是一条定律，而是在大量分子情形下成立的统计效应，在个体分子尺度上并不必然成立。

但是当时和后来许多物理学家都强烈反对。他们认为第二定律绝对没错，肯定是那个小妖玩了猫腻。既然熵减少了，肯定以某种难以确定的方式做了功，否则不可能。

很多人都想解决这个悖论，但是直到60年后这个问题才被圆满解决。1929年，突破出现了：杰出的匈牙利物理学家西拉德（Leo Szilard）提出，做功的是小妖的“智能”，更精确地说，是通过测量获取信息的行为。

西拉德（图3.2）是第一个将熵与信息联系起来的人，这个关联后来成了信息论的基础和复杂系统的关键思想。西拉德写了一篇题为“热力学系统在智能生物的干预下的熵的减少”的著名论文，文中西拉德认为测量过程（小妖要通过测量获取“比特”信息，比如趋近的分子速度是慢是快）需要能量，因此必然会产生一定的熵，数量不少于分子变得有序而减少的熵。这样由箱子、分子和小妖组成的整个系统就仍然遵守热力学第二定律。

图3.2　西拉德（1898—1964）（美国物理学会西格尔图像档案）

西拉德在此过程中也顺便定义了信息比特的概念——通过回答是/否（对小妖是“快/慢”）获得的信息。他可能是第一个这样做的人。

现在回过头来看，获取信息需要额外做功可能是很显然的事情，起码不那么让人吃惊。但是在麦克斯韦的时代，甚至到60年后西拉德写文章的时候，人们仍然强烈倾向于将物理和精神过程视为完全独立。也许正是这种牢固的直觉使得像麦克斯韦这样睿智的人也没有看出小妖的“智能”或“观测能力”对箱子—分子—小妖系统的热力学有影响。直到20世纪发现“观察者”在量子力学中扮演了关键角色之后，信息与物理的关系才开始被理解。

西拉德的理论后来由法国物理学家布里渊（Leon Brillouin）和伽柏（Denis Gabor）进行了扩展和一般化。此后许多科学家都认为，布里渊的理论彻底揭示了测量是如何产生熵，从而终结了小妖。

然而，事情还没有结束。在西拉德的论文发表50年后，西拉德和布里渊的论证都被发现有一些漏洞。20世纪80年代，数学家班尼特（Charles Bennett）证明，有非常巧妙的方式可以观察和记住信息——对小妖来说，也就是弄清分子是快是慢——而不用增加熵。班尼特的证明成了可逆计算（reversible computing）的基础，他证明在理论上可以进行任何计算而不用耗费能量。班尼特的发现似乎意味着小妖又回来了，因为测量可以不用耗费能量。不过，班尼特认为，物理学家兰道（Rolf Landauer）在20世纪60年代做出的一项发现可以挽救热力学第二定律：并不是测量行为，而是擦除记忆的行为，必然会增加熵。擦除记忆是不可逆的；如果被擦除了，那么一旦信息没有了，不进行额外的测量就无法恢复。班尼特证明，小妖如果要工作，到一定的时候就必须擦除记忆，如果这样，擦除的动作就会产生热，增加的熵刚好抵消小妖对分子进行分选而减少的熵。

兰道和班尼特弥补了西拉德论证的漏洞，但思路仍然是一致的：小妖测量和进行判断时（必然会进行擦除），不可避免地会增加熵，从而热力学第二定律仍然成立。（不过仍然有一些物理学家不认可兰道和班尼特的论证，小妖的问题依然存在争议。）

麦克斯韦发明小妖是将其作为一个简单的思维实验，以证明热力学第二定律不是一条定律，而只是统计效应。然而，同其他许多优秀的思维实验一样，小妖的影响很深远；对小妖难题的解决成为两个新领域的基础——信息论和信息物理学。

统计力学提要

在前面我将“熵”定义为对无法做功而只能转换成热的能量的测量。这个熵的概念最初是由克劳休斯（Rudolph Clausius）于1865年定义的。在克劳休斯的年代，热被认为是某种可以从一个系统流向另一个系统的流质，而温度则是系统受热流影响的一种属性。

此后数十年里，科学界开始出现一种新的关于热的观念：系统是由分子组成，而热则是分子运动——或者说动能——的产物。这种新观念主要归功于玻尔兹曼（Ludwig Boltzmann，图3.3），他创建了一门新学科，现在被称为统计力学。

图3.3　玻尔兹曼（1844—1906）（美国物理学会西格尔图像档案

统计力学认为宏观尺度上的属性（例如热）是由微观属性产生（例如无数分子的运动）。比如，想象房间里充满了运动的空气分子。经典力学分析是确定每个分子的位置和速度，以及作用在分子上的力，并根据这些确定每个分子未来的位置和速度。当然，如果有500亿亿个分子，要解出来可得花不少时间——实际上是完全不可能的，并且根据量子力学，在原则上也不可能。而统计力学的方法则不关心各个分子具体的位置、速度以及未来的变化，而是去预测大量分子整体上的平均位置和速度。

简而言之，经典力学试图用牛顿定律分析所有的单个微观对象（例如分子）。而热力学则只给出了宏观现象——热、能量和熵——的定律，没有说明微观分子是这些宏观现象的源头。统计力学则在两个极端之间搭建了一座桥梁，解释了宏观现象是如何从对大量微观对象的整体上的统计产生。

统计方法有一个问题——它只给出系统的可能行为。例如，如果房间里的空气分子随机运动，那么它们将极有可能扩散到整个房间，从而保证我们所有人都可以呼吸到空气。我们预计会这样，并且生命维系于此，而且也从没有失败。然而，根据统计力学，由于分子是随机运动，这样就存在一个极小的概率在某个时间分子都飞到一个角落里。然后那个角落里的人会被高气压压死，而我们其他人则会窒息而死。不过据我所知，这样的事情还从未发生过。这并不违反牛顿定律，只是极为不可能。玻尔兹曼认为，如果有足够多的微观对象进行平均，他的统计方法就几乎一直都能给出正确答案，而事实上也确实如此。但是在玻尔兹曼的时代，大部分物理学家都只接受绝对正确的物理定律，“几乎一直”正确的物理定律是不会被接受的。此外，玻尔兹曼认为存在分子和原子这样的微观对象也让他的同行们感到不可理喻。玻尔兹曼于1906年自杀离世，有人认为这是大多数科学家对他的思想排斥所导致的。他死后不久，他的思想就被广泛认同了；现在他被认为是历史上最伟大的科学家之一。

微观态与宏观态

在充满空气的房间中，在任意时刻每个分子都有特定的位置和速度，只是无法具体测量。在统计力学的术语中，特定分子集合在某一时刻的位置和速度称为那个时刻的微观状态。对于充满了随机飞舞的分子的房间，最可能的微观状态类型就是空气分子均匀地充满整个房间。而最不可能的微观状态就是空气分子紧紧地聚到一个地方。这看上去显而易见，但是玻尔兹曼注意到这是因为分子均匀分布的微观状态比聚到一起的微观状态要多得多。

这种情形有点类似吃角子老虎（图3.4）。假设三幅图片可能为“苹果”“橙子”“樱桃”“梨”或“柠檬”。你投个硬币进去，让老虎机转起来。图片存在不同（你输钱）的可能性比图片全部相同（你大赢一笔）的可能性要大得多。现在假设老虎机有500亿亿种图片，要让所有图片都相同就类似于让所有分子都聚到一点的情形，可能性基本为零。

系统的宏观状态就是微观状态的类型，例如，“所有图片都相同——你赢”相对“图片不完全相同——你输”，或者“分子聚集到一起——我们窒息”相对“分子均匀分布——我们能呼吸”，一个宏观状态能对应许多不同的微观状态。玩老虎机时，有各种由不同图片组成的微观状态，这些微观状态都对应于同一个宏观状态“你输”，而只有不多的微观状态对应宏观状态“你赢”。这就是为什么赌场能挣大钱的原因。温度也是宏观状态——它与许多不同的微观状态相对应，各微观状态的分子平均速度恰好对应相同的温度。

图3.4　有三个旋转图片的老虎机，说明微观状态和宏观状态的概念

根据这些思想，玻尔兹曼将热力学第二定律解释为封闭系统更有可能处于可能性大的宏观状态。这听起来像是废话，不过在当时这种想法却相当离经叛道，因为涉及了概率的概念。玻尔兹曼将宏观状态的熵定义为其对应的微观状态的数量。例如，图3.4的老虎机中，图片可以是“苹果”“橙子”“樱桃”“梨”或“柠檬”，这样就总共有125种可能的组合（微观状态），其中有5种对应于“所有图片都相同——你赢”的宏观状态，120种对应于“图片不完全相同——你输”的宏观状态。后一种宏观状态的玻尔兹曼熵明显高于前一种。

玻尔兹曼熵遵守热力学第二定律。除非做功，否则玻尔兹曼熵会一直增加，直到到达最大可能熵的宏观状态。玻尔兹曼证明，在许多情形下，他对熵的简单定义与克劳休斯的定义等价。

玻尔兹曼熵的公式被刻在维也纳玻尔兹曼的墓碑上（图3.5），现在这个方程已经成为物理学的基石。

图3.5　玻尔兹曼的墓碑，维也纳（Martin Roell提供图片）

香农信息

科学上许多最基本的思想都是由技术进步促进。19世纪的热力学研究就是由改进蒸汽机时遇到的挑战驱使。而数学家香农（Claude Shannon，图3.6）发展信息论也是受20世纪的通信革命推动，尤其是电报和电话的发展。1940年，香农改进了玻尔兹曼的思想，以适用于更为抽象的通信领域。香农在美国电话电报公司（AT&T）贝尔实验室工作。AT&T当时面临的最重要的问题就是如何通过电报和电话线快速有效地传送信息。

图3.6　香农（1916—2001）（经朗讯公司贝尔实验室许可使用）

香农从数学上解决了这个问题，从而开创了一个新领域——信息论。1948年，香农发表了论文“通信的数学理论”，在文中香农给出了信息的一个狭义定义，并且证明了一个非常重要的定理，定理给出了通过给定通道传输的最大可能传输率，无论信道是否存在噪声。这个最大传输率就是信道容量（channel capacity）。

香农的信息定义中有一个发送者向接收者发送信息。例如图3.7有两个发送者通过电话与接收者交谈的例子。发送者说的每个词都是香农意义上的信息。电话并不理解所说的词，而只是传送编码声音的电脉冲，香农对信息的定义也完全忽略信息的意义，而只考虑发送者向接收者发送信息的速度。

香农问：“发送者传送了多少信息给接收者呢？”与玻尔兹曼的思想类似，香农将宏观状态（这里是发送者）的信息定义为可以由发送者发送的可能微观状态（可能信息的集合）的数量的函数。我的儿子尼可还在蹒跚学步时，我会让他通过电话同奶奶讲话。他喜欢讲电话，不过只会说一个词——“Da”。他发给奶奶的信息是“Da Da Da Da Da……”换句话说，尼可的宏观状态只有一种可能的微观状态（“Da”序列），因此虽然这个宏观状态很有趣，但信息量却为零。奶奶知道听到的会是什么。我的儿子杰克两岁了，他也喜欢讲电话，不过他的词汇量大些，因此会告诉奶奶他干的事情，经常让奶奶对他讲的话吃惊。显然发送者杰克的信息量要多得多，因为可能的微观状态——即各种不同的信息组成的集合——要多得多。

图3.7　上图：尼可同奶奶交谈的信息量（为零）。下图：杰克同奶奶的交谈

香农对信息量的定义与玻尔兹曼对熵更一般化的定义几乎一样。在1948年的经典文章中，香农用信息源的熵定义信息量（这个熵的概念通常被称为香农熵，以区别于玻尔兹曼给出的熵的定义）。

人们有时候将香农的信息量定义描述为接收者在接收信息时体验到的“平均惊奇度”，其中“惊奇”意指接收者对于发送源将要传送的信息的“不确定度”。奶奶对杰克所说的肯定会比对尼可所说的更觉得惊奇，因为她完全知道尼可会说什么，却不那么容易知道杰克会说什么。因此杰克所说的给她的平均“信息量”要比尼可说的多。

总体上，根据香农的理论，信息可以是通信的任何单位，可以是一个字母、一个词、一句话，甚至是一个比特（0或1）。发送源的熵（信息量）用信息的可能性定义，而与信息的“意义”无关。

香农的结果在许多领域都有应用。最广为人知的应用就是编码理论，研究数据压缩问题和可靠传输的编码方法。编码理论对电子通信的所有领域几乎都有影响：移动电话、计算机网络、全球定位系统，等等。

信息论也是密码学和新兴的生物信息学的基础，生物信息学通过分析基因序列的模式测量熵等信息论度量。信息论也被应用到语言和音乐的分析，以及心理学、统计推断和人工智能等领域。虽然信息论受到热力学和统计力学熵的概念启发，信息论对物理学的各领域是否有反向影响还有争议。1961年，通信工程师和作家皮尔斯（John Pierce）开玩笑说：“让通信理论和物理学联姻的努力有趣却没什么结果。”一些物理学家认同他的观点。不过，一些基于香农信息论的物理学新思路（例如量子信息论和信息物理学）正不断发展。

在后面你会看到，熵、信息量、交互信息、信息动力学等信息论中的思想在对复杂性概念的定义和对各种类型复杂系统的刻画中扮演了重要而富有争议的角色。