我们注意到,因为我们构造多元分布时的设计,变量在相互独立的条件下交互信息依然不为0,因为在“相关性”ρ为0时,联合概率密度函数与概率密度函数乘积之比不为1。
那么,学生T分布(包括柯西分布)下的互信息是多少呢?
上式期望基于X和Y的联合分布。互信息因为有log操作所以具备可加性[请注意,可以使用任何对数基数,并通过除以log(2)的方式进行转换]。
因此 或 ,这里的 代表熵, 是联合熵。
无论取什么参数,高斯分布的互信息都是 。因此,对于服从多元学生T分布(α,ρ)的X,Y,互信息 可以表示为:
csc(.)是余割函数,B(.,.)是β函数,H(.) (r) 是调和数
简要总结一下,像互信息这种和熵有关的统计量会比相关性有意义得多,互信息具备捕捉非线性的能力。