通信的根本目的在于传输消息中所包含的信息。信息是指消息中所包含的有效内容,或者说是受信者预先不知而待知的内容。不同消息包含的信息量不同,不同受信者从同一消息中所获得的信息量不同,从而需要对信息进行度量。因此,信息含量就是对消息中这种不确定性的度量。
消息是多种多样的。因此度量消息中所含信息量的方法,必须能够用来度量任何消息,而与消息的种类无关。同时,这种度量方法也应该与消息的重要程度无关。
首先,让我们从常识的角度来感觉三条消息。①太阳从东方升起;②太阳比往日大两倍;③太阳将从西方升起。第一条几乎没有带来任何信息,第二条带来了大量信息,第三条带来的信息多于第二条。究其原因,第一事件是一个必然事件,人们不足为奇;第三事件几乎不可能发生,它使人感到惊奇和意外,也就是说,它带来更多的信息。因此,信息含量是与惊奇这一因素相关联的,这是不确定性或不可预测性的结果。越是不可预测的事件,越会使人感到惊奇,带来的信息量就越大。
根据概率论知识,事件的不确定性可用事件出现的概率来描述。可能性越小,概率越小;反之,概率越大。因此,消息中包含的信息量与消息发生的概率密切相关。消息出现的概率越小,消息中包含的信息量就越大。假设 P ( x )是一个消息发生的概率, I 是从该消息获悉的信息,根据上面的认知,显然 I 与 P ( x )之间的关系反映为如下规律。
(1)信息量是概率的函数,即
I = f [ P ( x )]
(2) P ( x )越小, I 越大;反之, I 越小,且
P ( x )→1时, I →0
P ( x )→0时, I →∞
(3)若干个互相独立事件构成的消息,所含信息量等于各独立事件信息量之和,也就是说,信息具有相加性,即
I[P(x 1 )P(x 2 )…]= I[P(x 1 )]+ I[P(x 2 )]+…
综上所述,信息量 I 与消息出现的概率 P ( x )之间的关系应为
信息量的单位与对数底数 a 有关。 a =2时,信息量的单位为比特(bit); a =e时,信息量的单位为奈特(nat); a =10时,信息量的单位为十进制单位,叫哈特莱。上述三种单位的使用场合,应根据计算及使用的方便来决定。目前广泛使用的单位为比特。
下面首先讨论等概率出现的离散消息的度量,先看一个简单的例子。
【例1-1】 设二进制离散信源,以相等的概率发送数字0或1,则信源每个输出的信息含量为
解:
可见,传送等概率的二进制波形之一( P =1/2)的信息量为1bit。同理,传送等概率的四进制波形之一( P =1/4)的信息量为2bit,恰好是二进制每一波形包含信息量的2倍,从信息相等的角度看,每一个四进制波形需要用2个二进制脉冲表示;传送等概率的八进制波形之一( P =1/8)的信息量为3bit,恰好是二进制每一波形包含信息量的3倍,可用3个二进制脉冲表示。
综上所述,对于离散信源, M 个波形等概率( P =1 /M )发送,且每一个波形的出现是独立的,即信源是无记忆的,则传送 M 进制波形之一的信息量为
式中, P 为每一个波形出现的概率; M 为传送的波形数量。
若 M 是2的整幂次,比如 M =2 k ( k =1,2,3,…),则式(1-4)可改写为
式中, k 是二进制脉冲数目,也就是说,传送每一个 M ( M =2 k )进制波形的信息量就等于用二进制脉冲表示该波形所需的脉冲数目 k 。
接下来我们讨论非等概率出现的离散消息的度量。
【例1-2】 在26个英文字母中,字母 e 和 v 出现的概率分别为0.105和0.008,试求 e 和 v 的信息量各为多少。
解: 由于 P e =0.105, P v =0.008,由信息量定义式(1-3),得两个字母的信息量分别为
e
的信息量
v
的信息量
一般,设离散信源是一个由
M
个符号组成的符号集,其中每个符号
x
i
(
i
=1,2,3,…,
M
)出现的概率为
P
(
x
i
),且有
。则
x
1
,
x
2
,…,
xM
所包含的信息量分别为
-log 2 P(x 1 ),-log 2 P(x 2 ),…,-log 2 P(x M )
于是,每个符号所含信息量的统计平均值,即平均信息量为
由于平均信息量 H(s) 同热力学中的熵形式一样,故通常又称它为信源熵,其单位为bit/sym-bol。可以证明,当信源中每个符号等概独立出现时,式(1-6)即成为式(1-4),此时信源的熵有最大值。
【例1-3】 某离散信源由0、1、2、3共4个符号组成,且各符号独立出现。
(1)若符号0、1、2、3出现的概率分别为3/8、1/4、1/4、1/8,求每个符号的平均信息量。
(2)求某消息序列201020130213001203210100321010023102002010312032100120210的信息量。
(3)若4种符号等概出现,求每个符号的平均信息量。
解:
(1)由式(1-6),求得信源每个符号的平均信息量(信源熵)为
(2)此消息中,符号0出现23次,1出现14次,2出现13次,3出现7次,共有57个符号,故该消息的信息量为
I =23× I( 0)+14× I( 1)+13× I( 2)+7× I( 3)=108bit
也可用信源熵来求。由(1)得信源熵为 H(s) =1.906bit/symbol,故57个符号的信息量为
I =57× H(s) =57×1.906bit≈108.64bit
可见两种算法的结果有一定误差,但当消息序列很长时,用熵的概念来计算比较方便。而且随着消息序列长度的增加,两种计算误差将趋于零。
(3)当4种符号等概时,每个符号携带相同的信息量,信源熵达到最大值,即
H(s) max =log 2 M =log 2 4=2bit/symbol
二维码1-2