国际上对腐败发生程度进行评估被称为腐败测度,腐败测度是指以科学的调查、统计方法量化评价一个国家或地区的腐败的严重性、危害性以及反腐败工作的成效。建立科学的腐败测度机制一直是反腐败理论研究与实践的重大课题。腐败测度方法主要有客观方法、主观方法和主客观综合法。
客观测度方法是通过腐败案的司法起诉数量、腐败造成的经济损失或新闻报道揭露的腐败问题等“硬”数据来测评腐败程度。有学者根据中国国情,采用“三公经费”金额与比例、低质量的公共工程数量与比例、统计数据被浮夸虚报的比例、逃税案件数与金额、公共支出的偏斜程度等作为腐败的“替代变量”。
主观测度方法是通过调查人们对腐败现象的主观感知、察觉、印象、评价计算腐败水平,形成对一个地区、一个国家腐败状况的总体认识。20 世纪 90 年代以来,许多国际组织致力于研究测度腐败的主观方法,如透明国际组织的清廉指数(Corruption Perception Index,CPI)、行贿指数(Bribe Payers Index,BPI),世界银行的腐败控制指数,瑞士国际管理发展学院的非法支付、司法腐败、贿赂和回扣指数等。透明国际组织从 1995 年开始每年发布一次全球的清廉指数。该指数涉及的国家(地区)样本数量较多,应用比较广泛,其覆盖面从 1995 年的 41 个国家扩大到目前 180 多个国家。世界银行的腐败控制指数把腐败放在一个更高层次的框架治理之中,对于与腐败控制指数有关的政策扭曲指数、司法可预见性指数、公务员工资占制造业工人工资的比率、基于个人才干的招聘指数等每一个评价指标都进行标准化处理,数据主要来源于专家投票和一些国际组织和非政府组织所做的跨国调查。主观测度方法的优点是能为人们提供各个国家(地区)腐败水平的总体数据,加强公众对于腐败问题的宏观了解。但这种方法的缺点是数据来源于主观判断,调查中难免存在系统性偏差。
主客观综合测度方法是综合采用主、客观方法各自优点进行腐败测度的方法。韩国的首尔和我国台湾地区的台北市就是各有侧重地运用了这两种方法来建构廉政评价指标体系。首尔市的“反腐败指数”同时包括“反腐败印象指数”(Anti-Corruption Perception Index,ACPI)和“反腐败努力指数”(Anti-Corruption Efforts Index,ACEI)。ACPI是主观的认知评价,包括对腐败感知程度等 7 个指标,其中大多数通过民意调查完成。ACEI是客观的统计数据,包括受到惩戒与没有受到惩戒的情况、政府解除管制的情况及媒介曝光情况,以政府有关部门反腐败努力的事实和统计数据为依据。台北市的廉政指数从投入、过程、产出以及影响等四个方面,共设计了 14 个一级指标、66 个二级指标。其中,60 个二级指标为基于客观数据的指标,6 个二级指标为主观认知性指标。主客观综合法有助于全面反映当地反腐败的实际状况,但是如何选择具有可操作性的主客观指标,并将两种不同属性的指数结合起来却是十分困难的事情。
其中“透明国际”发布的清廉指数影响最为广泛。它是一种基于主观问卷调查得出的腐败测评排行榜,反映的是全球各国商人、学者及风险分析人员对世界各国腐败状况的观察和感受。
全球清廉指数排名主要是依据世界银行、环球透视、英国经济学人智库组织和世界论坛等机构专家的评估,以及对居民和商业领袖进行调查后制定的。但是,清廉指数使用的测评数据并不是来源于透明国际开展调查后所获得的第一手数据,而是综合了多份经过数据处理的相关调查报告得到的。
除了一些直接测评腐败的数据以外,清廉指数只选取那些把国家或地区按得分高低进行排列或测评腐败某些方面的测评数据。一个数据是否符合条件取决于以下四个标准:一是来源数据必须由具有公信力的研究机构制作,且定期发布;二是来源数据的计算方法必须可靠、有效,以同样的进位给多个国家评分和排行;三是来源数据必须是对国家公共部门总体腐败水平的衡量,并且将其进行量化;四是来源数据所给分数必须给定足够的标准差以区分各国腐败程度的差别。
清廉指数所引用的来源按照类型可分为两种:(1)国情/风险研究专家调查(包括本国和外国的)。下列 7 个来源提供的数据是以专家分析为基础的:亚洲开发银行、非洲开发银行、贝尔督士改革指数、经济学人智库、自由之家、直接银行和全球观察。这些数据经常被同行所引用,而且每年变化极小,所以通常采用最新的评估即可;(2)管理与发展研究所、政治经济风险分析咨询和世界经济论坛三个来源提供的数据是以商界人士的民意调查和商业风险的分析为基础的,属于商业调查,并且是跨年连续的,清廉指数采用过去两年的数据以保持效果的一致性。2012 年清廉指数对于这部分数据决定采用有效期为一年的数据以保持数据的一致性,同时这个变化也使得 2012 年之后数据之间的跨年比较成为可能。
按照调查对象的不同,清廉指数的数据来源可以分为两种不同类型的样本:一种是对本国居民的调查,偶尔也抽查合资公司,主要包括管理与发展研究所(IMD)、世界银行(WB);另一种主要对外国居民进行调查,这类来源又可分为两类,一类包括经济学人智库(EIU)、自由之家(FH)等,是对发达国家腐败印象的调查,一类包括全球观察(GI)等,主要是对欠发达国家的腐败印象调查。由于收集的数据来自于人们的印象感知而并不是一国真实情况的反映,透明国际要考虑到腐败印象能否真实反映现实腐败程度。潜在的偏差源自样本所包含的调查对象(包括本国居民和外国居民)所具有的不同文化背景和文化差异。清廉指数为尽力避免这种偏差,部分来源数据调查对象多属本国居民,能够使结果避免受到一国特定文化的干扰;而另外一些来源数据调查对象多属外国居民,他们对于腐败的评判有着相同的认识和较为一致的道德准则。
由于每一来源数据都各自采用不同的测量方法,因此在计算各国清廉指数得分之前对原始数据进行标准化处理。2012 年透明国际对合成不同来源数据的方法作了简化,不再使用百分比匹配方法和beta转化来进行数据的标准化,而使用z-score(标准分数)来进行数据的标准化。由于首次在清廉指数的计算中使用来源数据的原始分值,而这些不同来源数据所使用的测量体系不同,在对不同量纲的数据进行比较时,不能直接进行比较,而需要先将原始分数转换为标准分数,然后进行比较。标准分数不仅能表明原始分数在分布中的地位,还是以标准差为单位的等距量表,所以把原始分数转化为标准分数,可以在不同分布的各原始分数之间进行比较。
应该说,透明国际用于测度一国清廉状况的做法是有聚合效度的。聚合效度是指当测量同一概念的多重指标彼此间聚合或有较强的关联性。清廉指数的优点在于每年涉及的国家必须被至少三个机构调查过,这样可以保证某一来源的数据偏差被其他两个数据所抵消,降低一国实际腐败水平被曲解的概率。透明国际从 1995 年开始提供清廉指数所采用的来源数据,并提供标准方差,由于各数据来源之间存在着高度的相关性,这也印证了清廉指数的聚合效度。即便调查对象(国情/风险分析专家和商界领袖)之间存在极大的差异,但不同调查机构之间的来源数据调查报告的相关指数几乎都高于 0.6,这证明所有来源数据都能够有效对腐败程度做出评估,并且它们之间存在着关联。
但是,其信度一直存在质疑。信度被看作是测试的结果受到随机误差所影响的程度。随机误差越大,信度越低,反之亦然。数据来源的变化是造成清廉指数随机误差的一个重要来源。一些数据来源因为没有被更新而停用,而同时最新、最可靠的数据来源又不断被纳入。在这些数据来源中,对于不同国家,调查的次数也存在不同,数据来源越少,有关国家的得分则可能存在较大的测量误差。
清廉指数在计算过程中,提供各数据来源的标准偏差,用于反映清廉指数可能的偏差范围。标准偏差表示的是量度数据分布的离散程度,用来衡量数据距离算术平均值的程度。标准偏差的数字越大,说明这些值偏离中心值越多,也即说明各调查报告对某一国家的评判差别越大,反之亦然。从清廉指数提供的标准偏差的数值来看,标准偏差在逐步降低。从2000 年的0.4 降至2007 年的0.32,标准偏差的降低从某种程度上可以说明清廉指数的可信度比先前有所提升。
作为主观评价的一种代表,清廉指数的主要优势在于把诸多无法直观感受和相互比较的抽象概念转化成清晰明了、可统计分析的数字概念,通过尽可能权威和广泛的信息采集与分析,确定最终指数与评价级次,从而对廉政状况进行比较客观的反映。但其缺陷也十分明显,在众多民意观察性的测度报告中属于漏洞比较突出的一种。
首先,在文化背景显著差异的世界,用一些极为有限的数据试图去提取海量人群对某一“标准”概念的普遍性意见,显然是不自量力的。这是清廉指数这一理念所体现出的局限性。由于受价值观念、生活方式等影响,个体往往会对“以权谋私”这一现象产生不同的判断,做出不公正的评价,带有很强的主观性,因此结果并不十分精确。
其次,数据来源的局限性。第一,所选报告的调查对象范围多为专家和商业人士,而忽略了普通民众对于腐败现象的态度,并不能代表公众的意见。而且商业人士为什么能够成为评价腐败程度的主体,报告中也没有给出具有说服力的解释,因此我们不能认为那些具有跨国经营管理经历的商人更了解他国的腐败状况。第二,所选报告大多没有提供调查样本数量和规模,这降低了有关报告中腐败评价结果的可信度。例如在 2010 年清廉指数所选的所有报告中,样本数量最多的有 13000 份,而亚洲情报通讯报告的调查样本仅为 1750 人 ,以这样的调查规模对全世界各个国家的腐败状况进行测评,显然缺乏科学性。第三,清廉指数不是根据原始调查数据编制的统计指数,而是采用国际著名的民调机构的调查报告加工合成的,二手资料的本质必然会影响清廉指数的科学性。第四,清廉指数各来源数据的调查对象都有所差异,同时由于清廉指数所采用的数据所包含的国家数目不同,这就导致清廉指数得分的感知主体存在着较大差异。例如,对A国的打分评价有可能是由一类人做的,而对B国的打分评价可能是由不同的另一类人做的,这就导致各国清廉指数得分之间不存在可比性。此外,来源数据调查对象的随意性,也使得清廉指数得分的科学性受到一定质疑。第五,清廉指数使用过去两年的数据来源使得评价具有滞后性。各国清廉指数的得分并非基于来源数据一年的调查报告,而是采用近两年的调研结果来确定国家或者地区当年清廉指数得分排名的情况,采用这种方法使得清廉指数的时效性有所削弱,不能及时反映某些国家特别是发展中国家的腐败变化情况。
特别是,透明国际的“清廉印象指数”数据并不是自己调查得来,而是根据相关指标计算的。以 2014 年为例,透明国际使用了 13 个国际调查报告的相关指标作为数据来源,多数国家只有七八个来源,最少的有 3 个,多的有 9 个。此次中国清廉指数的计算数据来源为 8 个。导致 2014 年中国清廉评分下降,主要是两家美国机构对中国打分大降,其中一家是IHS旗下的国家风险评估(GI),与 2013 年相比降低 10.1 分(42.0 降至 31.9) ,但按中国法律,该机构无权进行民意调查,事实上也没有组织过任何民意调查,由此得出数据至少在来源上是值得质疑的。
再次,清廉指数存在较长的延时性,不能及时反映反腐败努力与效果的实际状况。比如,从 1995 年以来的十多次排名中,中国一直在 70 名左右徘徊,排名虽然不高,但却较为稳定。但是根据透明国际发布的“2014 全球清廉印象指数排行榜”(CPI),中国得分为 36 分,比上一年低了 4 分,排名从 80 名下滑到 100 名。因为自 2013 年以来,中国政府反腐败决心之大和成效之显著有目共睹。中国外交部发言人对报告结果进行驳斥,认为得分和排名均与中国的现实相悖。透明国际方面则以中国反腐败行动不透明、在预防腐败方面没有进展、大企业信息披露表现糟糕等理由进行辩解。但正如一些学者的分析所言,这些理由在 2013 年甚至多年前就一直存在,而且相关方面看上去并没有恶化,并不足以解释 2014 年中国的清廉排名的突然下跌,而这一现象也同时反映了透明国际的清廉指数存在一些问题。
最后,评价方法的瑕疵。透明国际在世界各地的分支机构和合作伙伴邀请各个领域的专业人士根据自己的观察对各国的腐败情况做出评判,透明国际总部将搜集到的所有资料归纳整理之后,发布具有权威性的研究报告。这种抽样调查分析的方法虽然可以确保统计样本的普遍性,但是,由于调查对象来自世界各地,多数并不是被调查国公众,他们很可能不了解该国的实际情况,只能通过海内外新闻媒体的报道了解该国的腐败案件。因此,在统计分析的过程中不可避免地出现了一个非常严重的错误,即把一国政府打击腐败行为、查处贪官污吏的新闻报道作为评价一国腐败现象的依据。这就犯了主观评价的大忌。以中国为例,近年来政府的反腐败力度加大、成效显著,如果调查数据直接来源于公众,政府清廉指数肯定是上升的。但由于透明国际调查的对象只看到了中国反腐败的表象,以至于把新闻媒体报道的腐败现象看作是中国腐败严重的表现,因此在反腐败评价的报告中,中国政府的排名非但没有上升反而有所下降。打击腐败只会让中国的腐败现象有所减少,而不是更加严重。从这个角度来说,由于评价主体存在问题,许多接受调查的外国企业家和社会知名人士不了解中国的实际情况,因此,在调查统计的过程中难免会出现颠倒因果的错误判断。
透明国际的报告在过去多次引发争议。由于该组织本身不参与各国或地区的腐败调查,而是外包给调查机构,在规程不严谨的情况下,报告的专业性容易引起外界质疑。透明国际的资金来自各国捐款,向各国的开发总署申请资金,但绝大部分是向欧美发达国家申请,来自发展中国家的极少。因此,“清廉指数”排行榜的数据主要来自十几个西方独立机构。这就使得清廉指数排名在一定程度上偏向欧美发达国家,而发展中国家的话语权十分微弱。