因为使用的调查是由不同的组织在不同的时间执行的,人口统计学的类别常常是不一致的。特别是收入和教育,在不同的调查中被划分为不同的类别数,并有不同的分类点。为了做一个具有一致性的偏好测量单位,使其能在不同调查和不同年份之间比较,我使用了下面的步骤。出于阐释的需要,我描述了用收入插补偏好的过程;我在教育问题上用了这样的方法。
在每个调查中,各个收入段的受访者被分配了一个收入得分,与他们在调查中按收入来分配的收入组百分位中位数相同。比如,如果一个调查中,10%的受访者在最低收入类别内,30%在排第二的类别,那些在最低收入组别内的受访者会被评为0.05分,而位列第二的组为0.25分(0.1和0.4的中间值,本组中最低和最高分位数的中位值)的分数。
在为每个调查中的收入情况重新确定分数后,我利用一个二次方程估计每个收入分位数的预测偏好。即,对每个调查问题,我使用收入和收入的平方(用百分位数表示)作为对那个问题的政策偏好的预测变量(最终有1 779个独立的逻辑回归,每个有两个预测值)。然后,我利用从这些分析中得到的系数,以所需的百分位数来推定受访者的政策偏好。
这种方法有三个优势。首先,它使有不同原始收入分类法的调查问题变得易于比较。其次,插补建立在每个按收入分类的政策偏好的连续函数上,这种方法消除了在估计总体中的次级组织的偏好时因为数量有限而带来的一些扰动因素。最后,通过将每个调查的收入类别转变为百分位数,这个方法形成基于相对而不是绝对收入水平的政策偏好。相对收入水平更适合于我的研究目的,是因为通胀会改变当时以美元计价的收入的价值,以及可以让我把我想比较的总体的比例在不同时期中设为常数(比如,如果我利用绝对收入水平,最高收入类别在总体的比例会随时间显著增长,使比较变得困难)。
为了评估偏好插补过程的准确性,我鉴定了那些使用同样收入类别的调查问题集,最大的这样的集合包含了1981年到1987年的数据,有451个问题,每一个都使用同样的6个分类收入变量。在这个问题的次集中,以上文所描述的二次方程插补步骤为基础,我比较了每个类别中,观察到的对每一个政策提议变动支持的受访者百分比。正如在表2.1中所显示的那样,在对政策变动的支持上,观察出的偏好和插补的偏好之间的绝对差别的平均规模,在0.987到0.995之间波动。在观察值和插补值可以直接比较的这组调查问题中,对每个收入群体在某项政策上的估计支持比例与观察到的那个收入群体中的支持比例非常接近。尽管我的数据库中只有四分之一的问题能够用这种方法比较容易地比较,对这些问题插补的和观察值的相似性表明,插补步骤对整体数据库形成可靠的偏好估计是可以信赖的。
表2.1 支持政策变动的观察值和插补值的比例
资料来源:基于451个在1981—1987年间询问的有相同收入类别的问题。支持率插补基于对每个问题的二次方程估计,使用收入和收入平方作为政策偏好的预测变量。详情见文中。