购买
下载掌阅APP,畅读海量书库
立即打开
畅读海量书库
扫码下载掌阅APP

1.4 信息及其度量

1.4.1 信息量的含义

通信的根本目的在于传输消息中所包含的信息。信息是指消息中所包含的有效内容,或者说是受信者预先不知而待知的内容。不同消息包含的信息量不同,不同受信者从同一消息中所获得的信息量不同,从而需要对信息进行度量。因此,信息含量就是对消息中这种不确定性的度量。

消息是多种多样的。因此度量消息中所含信息量的方法,必须能够用来度量任何消息,而与消息的种类无关。同时,这种度量方法也应该与消息的重要程度无关。

首先,让我们从常识的角度来感觉三条消息。①太阳从东方升起;②太阳比往日大两倍;③太阳将从西方升起。第一条几乎没有带来任何信息,第二条带来了大量信息,第三条带来的信息多于第二条。究其原因,第一事件是一个必然事件,人们不足为奇;第三事件几乎不可能发生,它使人感到惊奇和意外,也就是说,它带来更多的信息。因此,信息含量是与惊奇这一因素相关联的,这是不确定性或不可预测性的结果。越是不可预测的事件,越会使人感到惊奇,带来的信息量就越大。

根据概率论知识,事件的不确定性可用事件出现的概率来描述。可能性越小,概率越小;反之,概率越大。因此,消息中包含的信息量与消息发生的概率密切相关。消息出现的概率越小,消息中包含的信息量就越大。假设 P x )是一个消息发生的概率, I 是从该消息获悉的信息,根据上面的认知,显然 I P x )之间的关系反映为如下规律。

(1)信息量是概率的函数,即

I = f [ P x )]

(2) P x )越小, I 越大;反之, I 越小,且

P x )→1时, I →0

P x )→0时, I →∞

(3)若干个互相独立事件构成的消息,所含信息量等于各独立事件信息量之和,也就是说,信息具有相加性,即

I[P(x 1 )P(x 2 )…]= I[P(x 1 )]+ I[P(x 2 )]+…

综上所述,信息量 I 与消息出现的概率 P x )之间的关系应为

信息量的单位与对数底数 a 有关。 a =2时,信息量的单位为比特(bit); a =e时,信息量的单位为奈特(nat); a =10时,信息量的单位为十进制单位,叫哈特莱。上述三种单位的使用场合,应根据计算及使用的方便来决定。目前广泛使用的单位为比特。

下面首先讨论等概率出现的离散消息的度量,先看一个简单的例子。

【例1-1】 设二进制离散信源,以相等的概率发送数字0或1,则信源每个输出的信息含量为

解:

可见,传送等概率的二进制波形之一( P =1/2)的信息量为1bit。同理,传送等概率的四进制波形之一( P =1/4)的信息量为2bit,恰好是二进制每一波形包含信息量的2倍,从信息相等的角度看,每一个四进制波形需要用2个二进制脉冲表示;传送等概率的八进制波形之一( P =1/8)的信息量为3bit,恰好是二进制每一波形包含信息量的3倍,可用3个二进制脉冲表示。

综上所述,对于离散信源, M 个波形等概率( P =1 /M )发送,且每一个波形的出现是独立的,即信源是无记忆的,则传送 M 进制波形之一的信息量为

式中, P 为每一个波形出现的概率; M 为传送的波形数量。

M 是2的整幂次,比如 M =2 k k =1,2,3,…),则式(1-4)可改写为

式中, k 是二进制脉冲数目,也就是说,传送每一个 M M =2 k )进制波形的信息量就等于用二进制脉冲表示该波形所需的脉冲数目 k

1.4.2 信息熵的概念

接下来我们讨论非等概率出现的离散消息的度量。

【例1-2】 在26个英文字母中,字母 e v 出现的概率分别为0.105和0.008,试求 e v 的信息量各为多少。

解: 由于 P e =0.105, P v =0.008,由信息量定义式(1-3),得两个字母的信息量分别为

e 的信息量

v 的信息量

一般,设离散信源是一个由 M 个符号组成的符号集,其中每个符号 x i i =1,2,3,…, M )出现的概率为 P x i ),且有 。则 x 1 x 2 ,…, xM 所包含的信息量分别为

-log 2 P(x 1 ),-log 2 P(x 2 ),…,-log 2 P(x M

于是,每个符号所含信息量的统计平均值,即平均信息量为

由于平均信息量 H(s) 同热力学中的熵形式一样,故通常又称它为信源熵,其单位为bit/sym-bol。可以证明,当信源中每个符号等概独立出现时,式(1-6)即成为式(1-4),此时信源的熵有最大值。

【例1-3】 某离散信源由0、1、2、3共4个符号组成,且各符号独立出现。

(1)若符号0、1、2、3出现的概率分别为3/8、1/4、1/4、1/8,求每个符号的平均信息量。

(2)求某消息序列201020130213001203210100321010023102002010312032100120210的信息量。

(3)若4种符号等概出现,求每个符号的平均信息量。

解:

(1)由式(1-6),求得信源每个符号的平均信息量(信源熵)为

(2)此消息中,符号0出现23次,1出现14次,2出现13次,3出现7次,共有57个符号,故该消息的信息量为

I =23× I( 0)+14× I( 1)+13× I( 2)+7× I( 3)=108bit

也可用信源熵来求。由(1)得信源熵为 H(s) =1.906bit/symbol,故57个符号的信息量为

I =57× H(s) =57×1.906bit≈108.64bit

可见两种算法的结果有一定误差,但当消息序列很长时,用熵的概念来计算比较方便。而且随着消息序列长度的增加,两种计算误差将趋于零。

(3)当4种符号等概时,每个符号携带相同的信息量,信源熵达到最大值,即

H(s) max =log 2 M =log 2 4=2bit/symbol

二维码1-2 86HfFKNyM4+ob06/WpcDJuLtCm/EG3kZUQ9L3CwDpW9TkH6GmtbHb8T1WISz4zCq

点击中间区域
呼出菜单
上一章
目录
下一章
×