由于图像信息的压缩处理必须在保持信息源的信息量不变,或者损失不大的前提下才有意义,这就必然涉及信息的度量问题。为此可将信息论的有关方法运用到图像信息的度量中,如计算图像的信源熵。
1.无记忆信源熵
设信源 X 可发出的消息符号集合为{ a 1 , a 2 ,…, a i ,…, a m },各个符号出现的概率对应为{ P ( a 1 ), P ( a 2 ),…, P ( a i ),…, P ( a m )},且 。信源 X 发出某一符号 a i 的信息量可以用该符号出现的不确定性来定义。不确定性越大,即出现的概率越小,越不能够预测它的出现,它一旦出现带给人们的信息量就越大;不确定性越小,情况则相反。可见符号 a i 出现的不确定性实际上和该符号出现的概率 P ( a i )大小相反,在此基础上定义符号 a i 出现的自信息量(单位是bit/符号)为
(2.3)
如果信源 X 各符号 a i 的出现是相互独立的,则称这类信源为无记忆信源。对信源 X 的各符号的自信息量取统计平均,可得信源的平均信息量为
(2.4)
称 H ( X )为信源 X 的熵(Entropy),单位为bit/符号,通常也称为 X 的0阶熵,它可以理解为信源 X 发出任意一个符号的平均信息量。
对于实际用作观察的图像而言,要考虑的不是大量的图像(把某一幅具体的图像作为一个“符号”)构成的集合,因为这样的集合其元素量巨大,如一幅256×256的8bit的灰度图像,共有(2 8 ) 256×256 种可能性。如果仍以图像作为基本符号单位,就难以处理而且不再具有实际意义。比较直观、简便的方法是把图像分割为小尺寸图像,甚至将每个像素值作为一个信源符号,这时,公式中的 P ( a i )为各像素值出现的概率, H ( X )的单位为bit/像素。
2.有记忆信源熵
无论是经验还是通过实验测试都足以表明,具有实际意义的图像,其相邻的像素之间总有一定的联系,或者说,图像信源是一种有记忆的信源。
对于有记忆信源,可以从联合熵的概念出发,考察图像的信源熵。为了简单起见,在一个有记忆的信源中仅考虑相继的 N 个符号之间存在关联的情况,或者说 N -1阶Markov过程:某一符号的出现只和它前面 N -1个符号有关,而和它更前面第 N 个、第( N +1)个、第( N +2)个等符号无关。把这些有关联的 N 个符号序列当作一个新符号 。设一个原符号(如 a i )有 L 个取值(如 L =256),则一个新符号有 L N =n 种不同的取值,新符号集 共有 n 个新符号,即 i =1,2,…, n 。信源发出新的符号 的概率用 表示,显然它不是原符号序列中各符号的概率乘积。对于这种信源,每个新符号的平均信息量为
(2.5)
式中, n 是新符号的总数; H ( B ( N ) )的单位为bit/新符号。习惯上用 N 除以上面的熵值,作为每个原符号的平均熵值:
(2.6)
在式(2.6)中,如果考虑以像素为符号,则 H N 的单位为bit/像素。可以证明,对于同一有记忆信源, ,说明用联合熵计算,充分利用了符号之间的相关性,得到的信源熵小于将信源符号当作独立符号时的信源熵。
还可以从条件熵的概念出发来计算图像的信源熵。对于 N -1阶Markov过程,考虑单个符号出现的平均信息量,即条件熵。对于这种情况,信源发出一个符号 a j ,和它前面的( N -1)个符号之间存在一个转移概率 。在特定的 的条件下, a j 出现的平均信息量为 。根据定义,上式对各种 出现的平均信息量为 ,即为图像的 N 阶条件熵。在信息论中已证明,对平稳的符号序列,当 N 很大时,条件熵与式(2.6)计算的结果是一致的。