空间统计分析和传统(非空间)统计分析的一个重要区别是空间统计分析将空间和空间关系直接整合到数学计算中。因此,空间统计分析中的很多工具都要求在分析之前为空间关系的概念化参数选择一个值。常见的概念化包括反距离、行程时间、固定距离、k最近相邻要素和邻接,而使用哪种空间关系概念化表述则取决于需要测量的对象。例如,要测量特定种类种子植物的聚集程度,使用反距离可能最适合。但是,如果要评估某一地区通勤者的地理分布,行程时间和行程成本可能是描述这些空间关系的更好选择。对于某些分析,空间和时间可能没有更抽象的概念重要,例如,熟悉程度(某些事物越熟悉,功能上越接近)或空间交互(以患者跨区域就医为例,一般来说,跨区域就医存在一个显著特征,即县级单元患者倾向于到地级市单元的医院就医,地级单元患者倾向于到省会城市的医院就医,省会城市患者倾向于到北京或上海等优质医疗资源集中的区域就医,但考虑到空间距离因素,上述就医趋势会出现特例,如从廊坊到北京就医的患者可能要多于从廊坊去石家庄就医的患者,虽然廊坊隶属河北且石家庄为河北省的省会,但由于廊坊市与北京毗邻,距离北京市中心的距离不足50千米,患者获得优质医疗资源可及性水平较高)。
空间统计将空间和空间关系直接整合到数学计算中(如面积、距离、长度或邻域等)。通常,这些空间关系通过被称作空间权重的值来进行正式定义。空间权重将被构建成一个空间权重矩阵并以空间权重矩阵文件的形式存储。空间权重矩阵可以量化数据集要素中存在的空间和时态关系(或至少可以量化这些关系的概念化表达)。虽然空间权重矩阵文件可能具有多种不同的物理格式,但从概念上讲,可以将空间权重矩阵看作一个表格,数据集中的每个要素都对应着表格中的一行和一列。任意给定行或列组合的像元值即为权重,可用于量化这些行要素和列要素之间的空间关系。空间权重矩阵的设定是空间计量经济模型建模的基础,空间权重矩阵是确定空间单元之间相互作用的关系模型,将其引入可以使计量经济模型显性地表达地理空间结构,也使空间计量经济模型用以量化测度区域间空间相互作用成为可能。空间权重矩阵是表达区域系统中空间依赖或空间自相关的概念基础,也是对地理空间的几何形态的量化表达,以及对区域经济数据中可能存在的空间依赖的描述。因此,对空间权重矩阵设定的研究一直是空间计量经济学研究的前沿和基础。
在构建空间权重矩阵的过程中可以使用的加权方法有很多,包括反距离、固定距离、空间—时间窗口、k最近邻域、邻接以及空间交互(这些空间关系的概念模型在空间关系建模中进行了介绍)。面对如何选择设置的不同类型的空间权重矩阵方法,关键在于该权重矩阵能够较好地反映出所分析要素之间的实际交互方式。在初级层面,权重可能为二进制或变量。例如,二进制加权可应用于固定距离、空间—时间窗口、k最近邻域和邻接空间关系。对于特定的目标要素,二进制加权将所有相邻要素的权重指定为1,将所有其他要素的权重指定为0。对于反距离或反时间空间关系,权重为变量。变量权重介于0~1,因此较近邻域所获得的权重将大于较远的邻域。
当要素的分布由于采样设计或施加的聚合方案出现偏离时,一般需要进行标准化,尤其是使用二进制加权方法时。当要素的相邻点数不相等时,可以使用行标准化创建成比例的权重。选择行标准化后,每个权重都会除以行的和(所有相邻要素的权重和)。行标准化的权重通常与固定距离相邻要素结合使用,并且总是用于基于面邻接的相邻要素。这样可减少由于要素具有不同数量的相邻要素而产生的偏离。行标准化将换算所有权重,使它们在0~1之间,从而创建相对(而不是绝对)权重方案。每当要处理表示行政边界的面要素,当要素为面时,几乎始终需要应用行标准化。依据沈体雁和于瀚辰(2019)等相关研究成果,接下来重点介绍空间权重的设置与类型。
空间权重矩阵表达形式一般是将 n 个空间单元两两之间的空间联系量化写成一个数表,就构成一个 n×n 的矩阵,矩阵 W 中的任意元素 w ij 表示空间单元 i 和空间单元 j 的空间联系,如式(4-2)所示。
虽然目前对称的空间矩阵比较普遍,但对称性并不是空间权重矩阵必须满足的条件。一般来说,矩阵必须满足非负性和正则性。非负性是指空间权重矩阵中的每一个元素都是非负的。正则性与空间计量模型的估计量和检验的渐近性质相关。具体来说,正则性就是矩阵元素绝对值的行求和与列求和是有界的,即
空间权重矩阵的有界性设定是为了得到合理的误差。基于邻接概念的空间权重矩阵很容易满足这些正则条件,而对于更加复杂的空间权重矩阵,特别是包含参数的空间权重矩阵就需要仔细考虑是否满足正则条件。此外,如果限制行和与列和大于0,就可以排除孤岛的出现。由于空间单元的相邻关系一般都是其局部性质,因此在权重矩阵中会存在大量的0元素,这意味着空间权重矩阵通常都是稀疏矩阵。这一点在理论上并没有实质性的帮助,但对于应用来说非常重要。稀疏矩阵与非稀疏矩阵的算法在复杂度上相差极大,尤其是当样本量较大时,稀疏矩阵的使用显得更加重要。然而,当样本量进一步增大时,基于稀疏矩阵的算法也会显得力不从心,因此需要使用抽样或者大数据的相关理论来处理。空间权重矩阵的对角元素均为0,即 w ii =0( i =1,2,…, n )。但并不是由于自己和自己不相邻,而是由于空间权重矩阵是表达依赖性的一种手段,而每个空间单元并不能依赖其本身。
设置空间权重矩阵。空间权重矩阵主要分为三类:一是基于几何行政的空间权重矩阵设置;二是基于理论的空间权重矩阵设置;三是基于数据的空间权重矩阵设置。
基于几何的空间权重矩阵主要反映了几何的空间关系,从而表达空间邻近性,如邻接矩阵。基于理论的空间权重矩阵主要反映了研究问题相关理论所讨论的空间之间的联系,从而表达空间依赖性,如距离函数矩阵。基于数据的空间权重矩阵主要反映了数据自身所表现的空间关联,从而表达空间依赖性,例如,Getis和Aldstadt(2004)利用局部统计量构造了权重矩阵。最后一种空间权重矩阵是内生的,而前两种通常是外生的。对于外生的空间权重矩阵来说,一个重要的问题是确定空间权重矩阵中的参数。参数值一般是被先验确定的,这就带来了很多问题。因为估计的有效性是建立在空间结构被正确反映的条件下,一旦空间权重矩阵是外生的,就很有可能造成空间结构不恰当地反映。而且这可能导致循环论证,研究者希望分析出空间具有某种结构,但空间权重矩阵的使用事实上假设了一种空间结构的存在。因此,通常需要对不同的空间权重矩阵进行比较,从而确定一种恰当的空间权重矩阵设置方式。一般研究中采用二进制邻接矩阵。信息准则、拉格朗日乘子检验、最大化莫兰指数(Moran's I )等方法也都为空间权重矩阵的比较提供了依据(沈体雁、于瀚辰,2019)。下面是几种较为常用的空间权重矩阵。
二进制邻接矩阵:
式中,bound( i )、bound( j )表示空间单元的边界。按照是否共边或共点原则可将空间单元的相邻划分为三种类型:Rook邻接、Bishop邻接和Queen邻接。其中,Rook邻接是将至少有一个共同边界的地物判定为邻近;Bishop邻接是只要两个地物之间有一个公共顶点即可判定为邻近;Queen邻接是Rook邻接和Bishop邻接的并集,指两个地物具有公共边或公共顶点(见图4-1~图4-3)。
图4-1 Rook邻接
图4-2 Bishop邻接
图4-3 Queen邻接
二进制邻接矩阵设置过程如下:
对于二进制邻接矩阵来说,对角线上的元素均为0,且该矩阵是一个对称矩阵。首先,由于第1个地物与所有其他地物相邻,因此第一行除第一个元素之外的其他元素均为1。由于该种矩阵具有对称性,出于降低算法复杂度的考虑,在接下来的设置中就可以不考虑第1个空间单元。其次,第2个地物仅与第4个地物相邻,因此第二行第三个元素为0,第二行第四个元素为1。最后,第3个地物与第4个地物相邻,因此将第三行第四个元素设置为1。这样就结束了上述矩阵的设置。
k最近邻矩阵(k-nearest neighbor,KNN):该矩阵由于地物的邻近排序并不是对称的,因此会有部分地物是其他地物最邻近的,但其自身最邻近的地物却是另外一些地物。
式中, N k ( i )表示距离空间单元 i 最近的 k 个空间单元所构成的集合。
距离函数矩阵:
式中, d ij 是地物 i 与地物 j 之间的距离; f ( x )是一个单调非增的函数。
一般来说,基于距离的单调非增函数所构建的权重矩阵是基于某些经济理论的,因此函数的设定通常需要具有经济学含义。另外,根据距离阈值设定的空间权重矩阵也是这种矩阵的一个特例:
此时 f ( x )是不连续的,是一个示性函数。
核函数矩阵:
式中, h i 是带宽; K 是核数。带宽既可以是内生自适应的,也可以是外生设定的。而核函数也有多种选择的可能,如三角核函数:
均匀核函数:
高斯核函数: