在进入大图景之前,我们需要深入探讨一下信息的概念。我们经常在日常生活中和各种场景下使用这个词,从公交车时刻表到军事情报,不一而足。现在,有数百万人为信息技术公司工作。正在成长中的生物信息学领域吸引了数十亿美元的投资。美国经济在很大程度上以信息产业为基础,信息技术如今已成为我们日常生活中举足轻重的部分,我们通常称之为IT产业。但这些随意的叙述并没有回答关于信息的深层次的概念问题。首先,究竟什么是信息?你无法看到、摸到或闻到它,但它影响着每个人:毕竟,信息产业是加利福尼亚的经济支柱!
正如我所说,信息的概念最早源于人类的话语范畴,比如,我会通知学生考试结果(一种信息),或者我想找一家最近的餐馆,你给我提供了相应的信息。在这种意义上,信息是一个纯粹的抽象概念,就像爱国主义、政治私利或爱等概念一样。另一方面,信息在这个世界上显然扮演着物质的角色,尤其是在生物体中。如果存储在生物体DNA中的信息发生了变化,就有可能产生变异的后代,并改变演化进程。信息对这个世界产生着巨大的影响。我们也许可以说,它具有“因果力”。科学面临的挑战在于,如何将抽象的信息与具体的物质世界联系起来。
为了在这些深奥的问题上取得进展,我们首先有必要在原始的、未经修饰的意义上为信息下一个精确的定义。就我写作本书所用的电脑而言,它的C盘可以存储237吉字节(GB)的信息,而且能以3吉赫(GHz)的速率处理信息。如果我想拥有更大的存储空间和更快的处理速度,我就必须为此支付更多的金钱。我们常会看到或听到这些数字,但吉字节和吉赫到底是什么?(提醒注意:本书只有这一章节会涉及一些初等数学知识。)
信息的量化是从工程师克劳德·香农在20世纪40年代中期热诚地开展的相关工作开始的。香农是一个不擅长社交的怪人。他在美国的贝尔实验室工作,主要关注如何将编码信息准确传递出去。当该研究项目启动时,第二次世界大战正在进行中:如果你只能听到嘶嘶的广播声或噼噼啪啪的电话信号,你要用什么方法才能让语言以尽可能正确的方式传递出去呢?香农开始研究应该如何编码,才能让信息错漏的风险最小化。这一项目在1949年结出了硕果,香农出版了《通信的数学原理》一书。 [2] 该书的问世非常低调,但历史可以判定,它是科学史上的一个关键性事件,可以径直触达薛定谔提出的“生命是什么”这个问题的核心。
香农一开始就对信息做出了数学上的严格定义,他选择的定义引出了不确定度的概念。简单来说就是,当你获取信息时,你正在学习你之前不知道的东西,因此你对那个东西的不确定度降低了。想象抛一枚质地均匀的硬币,它落地后正面朝上和反面朝上的概率各为50%。在它落地之前,你未看到结果,也就不能确定结果是什么。当你看到结果时,不确定度随之降低(在这个例子中,不确定度降至0)。类似这样的二元选择是最简单的情况,并且与计算直接相关,因为计算机就是用二进制编码的方式处理信息的,只包含1和0两个元素。这些符号的物理实现只需要一种双态系统,比如开关,它要么处于打开状态,要么处于关闭状态。人们采用了香农的方法,让二进制数字(简写为bit,即比特)成为量化信息的标准方式。顺带说一句,1字节等于8比特。信息处理速度通常用吉赫表示,即千兆赫兹,代表每秒有10亿比特翻转。当你看到抛硬币的结果时,两种概率相等的状态就合并为一种确定的状态,你因此获得了1比特的信息。
如果同时抛两枚硬币,会怎样呢?当你查看结果时,肯定会获得2比特的信息。然而,需要注意的是,如果同时抛两枚硬币,就会存在4种可能的状态:正面–正面、正面–反面、反面–正面、反面–反面。如果同时抛三枚硬币,就会存在8种可能的状态,并获得3比特的信息;如果同时抛4枚硬币,就会存在16种可能的状态,并获得4比特的信息;如果同时抛5枚硬币,就会有32种可能的状态……以此类推。要注意这些数字是怎么得到的:4 = 2 2 ,8 = 2 3 ,16 = 2 4 ,32 = 2 5 ……可能状态的数量是2的 n 次方( n 为同时抛掷的硬币枚数)。反过来,如果你想知道通过观察抛硬币的结果能获得多少比特的信息,公式就要转化为以2为底的对数,即2 = log 2 4,3 = log 2 8,4 = log 2 16,5 = log 2 32……那些熟悉对数公式的读者会发现,该公式可以使比特相加。比如,2比特+3比特= 5比特,因为log 2 4 + log 2 8 = log 2 32。事实上,同时抛5枚硬币确实有32种概率相等的可能状态。
现在,假设这些可能状态的发生概率不等,比如,我们抛掷的是不公平硬币。在这种情况下,通过查看结果所获得的信息就会减少。如果结果是完全可预测的(只有一种可能性),通过查看结果就不可能获得额外信息——你将得到0比特。在现实世界的大多数通信中,不同信息的出现概率确实是不均匀的。比如,英文字母a出现的概率就比字母x要大得多,这就解释了为什么桌面拼字游戏会对不同的字母赋予不同的权重。再举一个例子,在英语中,字母q的后面总是跟着字母u,这让u的使用变得冗余, 所以我们无须浪费资源,把u放在编码信息中。
香农用加权平均的方法,对非均匀概率分布的情形进行了信息量化。为了说明他是如何做到的,我举一个非常简单的例子。假设你抛一枚不公平硬币,正面朝上的次数平均为反面朝上的两倍,也就是说,出现正面朝上的概率是2/3,而出现反面朝上的概率是1/3(概率加总一定等于1)。根据香农的方法,对应正面或反面的比特数只能通过它们的相对概率经加权计算得出。因此,查看抛掷这种特殊的不公平硬币的结果,我们可获得平均比特数为 比特的信息,略少于均匀概率情况下获得的1比特信息。这是讲得通的:如果你知道正面朝上的概率是反面朝上的两倍,那么其结果的不确定度肯定比抛公平硬币时小,所以通过观察结果消除的不确定度也更少。举一个更极端的例子,假设正面朝上的概率是反面朝上的7倍,那么每抛一次硬币所获得的平均比特数只有 。如果要表达我们从某个问题的答案中获得的信息量多少,可以用这样一种方式,即该答案带给我们的平均惊讶程度。如果一枚硬币正面朝上的概率很大,那么其抛掷结果通常不会让我们感到太惊讶。 [3]
稍加思考我们就会发现,香农的分析方法可以直接应用于生物学。通过使用通用遗传密码,信息被存储在DNA中。基因的信息经由信使RNA传输到核糖体,在那里被解码并指导氨基酸序列合成蛋白质。然而,信使RNA的信息通道本就嘈杂,很容易出错。因此,在逻辑上,生命的说明书就等同于香农对经由嘈杂的通信信道传输的编码信息所做的分析。
这些令人惊讶的因素能够告诉我们一个生物体包含多少信息吗?是的,生命是一种极其令人惊讶的现象, 所以我们可能会预期生命包含很多香农所定义的信息。事实的确如此。你身体中的每个细胞都包含大约10亿个DNA碱基,它们可用生物学“字母表”上的4个字母表示,并排列组合成不同的序列。它们可能的组合数量是4的10亿次方,也就是说该数字的尾部有6亿个零。我们可以把这一数字与宇宙中的原子数量做比较,后者的数字尾部只有80个零。如果将香农的公式应用于计算DNA长链包含的信息,就需要用到对数,其结果是20亿比特,比美国国会图书馆所有藏书包含的信息还多。所有这些信息都被压缩在只有火柴头大小的万亿分之一的DNA分子中,而且DNA分子包含的信息只是细胞中所有信息的一部分。所有这些数据都表明,信息对生命来说有多么重要。 [4]
香农发现,他以比特为单位量化信息的数学公式在去掉负号之后,等同于物理学家为计算熵而建立的公式。这意味着在某种意义上,信息是熵的对立面。如果你把熵看作一种无知状态,对于信息与熵之间的这种关系就没什么可惊讶的了。让我解释一下。我在前文中说过,熵是如何衡量无序或随机状态的(参见迷箱3)。无序是大量事物聚集在一起表现出来的集体属性,所以说单一分子处于无序或随机状态是没有意义的。熵和热能之类的热力学量是由大量粒子(比如四处乱撞的气体分子)及其平均运动状态定义的,而不需要考虑单个粒子的具体细节(这种平均状态有时也被称为粗粒度视图)。因此,气体的温度与气体分子运动的平均能量有关。关键在于,无论何时,只要取平均,有些信息就会丢失,也就是说,我们接受一定程度的无知。伦敦人的平均身高这个信息不会告诉我们某个特定的伦敦人的身高。同样,气体的温度也不会告诉我们某个特定分子的运动速度。简言之,信息关乎你知道什么,而熵关乎你不知道什么。
正如我解释的那样,如果你抛一枚公平硬币并查看结果,你将恰好获得1比特信息。那么,这是否意味着每枚硬币刚好包含1比特信息?好吧,既是也不是。“一枚硬币包含1比特信息”这个答案假设,可能存在的状态有两种(正面朝上或反面朝上)。这是我们思考抛硬币问题的常见方式,但不是唯一标准;答案与你选择的观察和测量方式的性质有关。比如,一枚硬币正面印有的头像就包含很多信息(反面亦如此)。如果你是一个钱币收藏爱好者,而且事先并不知道这枚硬币是哪个国家的或哪一年发行的,那么你对相关信息(“硬币正面的头像是谁?”)的无知程度就远大于1比特,也许是1 000比特。在抛完硬币并看到结果是正面朝上之后,你获得了远大于1比特的信息量(哦,是发行于1927年的印有乔治五世头像的英国硬币)。所以,“一枚硬币包含多少比特的信息?”这个问题显然没有确定的答案。
DNA的情况与此类似。一个基因组存储了多少信息?在上文中,我给出了一个典型的答案(比美国国会图书馆的全部藏书包含的信息还要多)。不过,这个答案隐含着这样的假设:如果我们没有掌握关于碱基序列的其他知识,那么在DNA的4个碱基字母(A、T、C、G)中,每一个字母出现在DNA分子的给定位置的概率都是1/4。所以,测量一个真实的碱基会产生2比特信息(log 2 4 = 2)。然而,认为这4个字母出现的概率一样,这个假设有可能是错的。比如,有些生物的基因组中G和C出现的概率大于A和T。如果你正在研究这类生物,那么你会改变关于不确定度的计算方法:如果你猜G而不是A,你答对的可能性就会更大。结论是,探索DNA序列所能获得的信息量取决于你知道什么,或者更准确地说,取决于你不知道什么。然后,你就会知道熵有多大了。
结果是,人们不能以任何绝对的方式说,在这个或那个物理系统中究竟包含了多少信息。 [5] 然而,我们完全可以说,采用某种测量方式能够获得多少信息。正如前文阐述的那样,信息可使被测量系统的无知程度或不确定度降低。即使我们不清楚整体的无知程度,也可以确切地知道不确定度降低了多少。