空间统计顾名思义为分析空间资料的统计方法,因其与各类实际问题的紧密关系,是一个快速发展的领域。主要想法在于空间中邻近的数据通常比相离较远的数据具有较高的相似性,空间统计乃透过位置建立数据间的统计关系。其应用的范围包罗万象,包括地质、大气、水文、生态、天文、遥测、地震、环境监测、流行病以及图像处理等。此外,任何其他领域如所收集的数据与位置有关,亦可为空间统计研究之范畴。除了极少数的例子,真实世界的空间数据大多不能为物理及化学机制以简单的公式描述。为解决数据中所隐含的空间不确定因素,空间统计模型乃尝试从凌乱的空间资料中,以统计方法发掘空间变动(spatial variation)的规律。
空间资料分析与传统的统计分析主要有两大差异:(1)空间数据间并非独立,而是在d维空间中具有某种空间相关性,且在不同的空间分辨率下呈现不同的相关程度;(2)因地球只有一个,大多数空间问题仅有一组(不规则在空间分布的)观测值,而无重复观测的数据。因此,空间现象的了解与描述是极为复杂的,而传统的统计分析技巧,尤其是建立在独立样本的统计方法,并不适合用来分析空间资料。其与时间序列最大的差异在于空间中并无过去、未来之次序,因而不易透过某种因果关系的描述来建构空间模型。目前空间统计模型大致可分为三类:地理统计(geostatistics)、格点空间模型(spatial lattice model)以及空间点分布型态(spatial point pattern)。以下就各类分别叙述。
地理统计主要用于分析地质、大气、水文等与地理有关的空间资料。例如,一矿区中矿物的含量、空气中悬浮微粒的浓度等。因所描述的变量大多在空间中呈现连续变化,通常假设其由一个连续空间的 d 维随机过程(随机域) 产生。地理统计方法乃透过已知(且通常是不规则分布的) n 个位置的观测资料 ,建构适切的随机过程模型,从而做有效合理的统计推论。其中一个主要的问题为空间预测(spatial prediction),即,藉由 n 个位置的数据建构空间关系,以预测一区域中任意地点(或区块)的变数值。此一预测方法在地理统计文献中通常叫做kriging。
地理统计的主要模型为:
其中 m ()为一非随机( deterministic )的平均函数,用以表示大尺度的空间变化趋势, h ()为一平均值为零的随机过程,用以表示较小尺度的空间变化趋势,亦为建构空间相关性的主要结构,而 e ()为一白噪(white noise)随机过程,代表噪声。Kriging方法乃透过 n 个位置的观测值预测
然而我们所观测的数据仅是连续空间的随机过程中的一种可能的一个极小部分(即 n 个点),除非对此模型做进一步的假设,否则无法做任何有效的统计推论。通常 m ()假设为常数或一些已知函数(多项式或其他解释变量的函数)的线性组合, h ()则假设为一个内在平稳的随机过程(intrinsically stationary process),即
其中2 g ()称做variogram,为地理统计中描述空间相关性的主要因子。此函数通常随着空间两点的距离具有一递增的趋势,且在数学上必须满足条件的负定(conditional negative definiteness),也就是说,对任意的有限位置 及满足 的任意实数 ,皆有以下
近年来时空数据分析的需求与日俱增,时空模型的建构因而成为空间统计的一个主要发展方向。如何结合空间统计与时间序列方法以描述大气数据、卫星数据、及环境监测等数据所呈现复杂的时间与空间关系,及如何分析由卫星或其他自动监测方式所带来极大量时空资料,并从中发掘出有用的信息,皆将对空间统计的理论及应用方面带来新的发展。其他如空间模型诊断、空间模型选择、非平稳(nonstationary)空间模型之建构、及由一空间分辨率的数据去推论另一分辨率的空间关系等问题,皆有待进一步研究发展。
格点空间模型用以描述分布于有限(或无穷离散)空间点(或区域)上数据的空间关系。例如,在流行病学中欲以地理区域(如县市、乡镇)为单位的发病个数资料,研究疾病发生率与地理位置的关系,及在图像处理中欲从扭曲或带有噪声的数字影像(如医学或卫星影像)数据,重建背后的真实影像,皆为此类空间统计方法研究的范畴。主要的统计模型为马可夫随机域(Markov random field),以下简称MRF。MRF乃一条件空间模型(conditionallyspecified spatial model),其空间随机变量的联合机率分布并非直接建构,而是间接地透过一组条件机率建构;这组条件机率描述空间任一位置的随机变量给定其邻近区域随机变量的机率分布。此一建构方法的主要优点在于很多实际空间问题,不易描述整体的空间关系,但却很容易透过局部空间关系的描述,建构适当的条件空间模型。
假设 为空间中定义在 n 个位置{ 上的随机变数。MRF依据以下条件机率建构其局部空间关系:
其中 ,称为 s i 之邻域(neighborhood)集。例如,定义在二维长方形格点上的MRF, s i 之一邻域选择方式为最接近的上下左右四点,空间关系则透过 s i 与上下左右四点的条件机率关系建立。建构MRF的困难在于任意给定的一组条件机率并不保证背后存在一随机过程有如此的条件机率分布,欲构成一有效的联合机率分布,这些条件机率间必须满足某种复杂的一致关系。此一困难因Hammersley和Clifford发现了MRF与以下统计模型的关系而解决:
此模型称为Gibbs field,他们证明了其与MRF的等价关系。Besag因而据此建构了一系列的MRF模型。
MRF可用以分析数字影像。贝氏影像分析(Bayesian image analysis)方法即根据所欲重建影像 θ 之特性,先以某类MRF模型所建构的空间关系作为其先验(prior)分布
再依循所观测的数据 与真实影像 θ 的条件机率关系 ,得出其事后(posterior)分布
最后依据适当的准则,得出影像 θ 的贝氏估计量,例如事后分布的众数(posterior mode)。此方法的主要困难在于计算,因为一数字影像通常为1或更大的画素(picture element)构成,亦即 θ 乃一数千至数十万维度之随机过程,如每一画素有 K 16(或256)种不同灰阶,则随机过程 θ 即 有种不同可能的影像。此一极高维度的计算问题本为一不可能的任务,因近代计算器的发展及Markov chain Monte Carlo(MCMC)法的提出而得以进行,其想法在于透过一简单机制建构一Markov chain使其极限分布为所生成之分布。例如,Geman and Geman提出模拟冷却(simulated annealing)法,用以找寻事后分布的众数 θ 。他们考虑以下的分布:
其中 T 代表此一系统之温度。当温度 T = 1时, P T ( θ | Z )即为其事后分布;当温度 时, 趋近一均匀分配;当温度 T →0时, 逐渐集中在一点。模拟冷却法乃结合MCMC法及一降温的过程 T ( t ),在不同时间 t 以不同温度 T ( t )藉由Gibbs sampler从 ( θ | Z )中抽样取得 θ τ 。在一适度的降温条件下,Geman and Geman证明 θ τ → θ 。
目前MRF仍有许多问题有待解决。例如,Gibbs field中不易处理的标准化积分常数造成参数估计的困难、边界效应(boundary effect)的处理、及MRF的极限理论等。此外,MRF虽对影像重建、影像分类、及纹理分割等问题皆有极好的表现,然而其计算却常需倚赖耗时的MCMC法。如何同时兼顾计算效率与统计精度,将是未来一项极大的挑战。
在自然科学中,许多资料为点(或小区域)所构成的集合。例如,地震发生地点的分布、树木在森林中的分布、某种鸟类鸟巢的分布、生物组织中细胞核的分布、及太空中星球的分布等。我们称此类数据为空间点分布型态,并称其中点的位置为事件。空间点分布型态因背后形成的机制不同而造成随机、丛聚或规则等不同分布型态。藉由空间点分布型态的研究,我们可以找寻丛聚的所在,并了解其背后形成的原因及其可能产生的影响。空间点分布型态通常由一个d维的空间点过程(spatial point process)描述。此类模型的随机机制在于位置本身,其中最基本的空间点过程为homogeneous Poisson点过程,主要假设有二:1)在空间中任一集合所包含事件的个数为一Poisson分布,且其分布的平均值与其几何面积(体积)成正比;2)不相交的集合所包含事件的个数呈统计独立关系。此类点过程通常用以定义所谓完全空间随机(completespatial randomness)的点分布型态,以别于丛聚或规则之分布。初步的统计分析在于检定一组点数据的分布型态是否为完全空间随机,此检定可透过数个不相交区域事件个数的分布、或事件与事件最短距离的分布等,构造适当的检定量。当此检定被拒绝时,我们可以进一步配适其他的空间点过程模型。例如,丛聚型态可用Inhomogeneous Poisson、Cox、或Poissoncluster等点过程建构,规则型态可用inhibition点过程建构,至于在小尺度呈现规则型态而在大尺度呈现丛聚型态则可用Markov点过程建构。假设N(A)代表在A区域内发生事件的个数。点过程的第一阶性质可用以下的强度函数(intensity function)描述:
其中 ds 为包含 s 点的一极小区域,| ds |为 ds 的面积(体积)。通常假设点过程为平稳( stationary )且无方向性( isotropic ),即其机率结构不随任意平移和旋转而改变,在此一假设下 λ ( s ),为一常数。一平稳且无方向性的点过程的第二阶性质可用以下的 K 函数描述: (与任一事件距离 d 以内的其他事件的总数)。此函数可描述点过程的空间相关性,其角色及重要性如同地理统计中的variogram,故在空间点过程中占有极重要的地位。参数估计主要以最大似然法或透过K函数以最小平方法为主。其统计性质的结果尚少,有待更进一步研究。